Computador, corpus e concordância no ensino da léxico-gramática de língua estrangeira

Por Tony Berber Sardinha (LAEL & Depto. de Linguística, PUC/SP)

1. Introdução

Uma das mudanças mais sensíveis ocorridas na sociedade nas últimas duas décadas foi a popularização do computador, notadamente o micro-computador. Hoje o computador está presente nas mais variadas áreas da vida humana, até mesmo nas esferas da vida cotidiana. No ensino de língua estrangeira não poderia ser diferente. Há vários software para uso na sala-de-aula bem como programas e websites para auto-aprendizado (cf. Egbert & Hanson-Smith, 1999). Esta é, digamos, a faceta mais visível deste processo. Há, contudo, uma outra ‘revolução silenciosa’, acontecendo nos bastidores, que envolve uma mudança progressiva do nosso entendimento de questões-chave acerca do funcionamento, comportamento, descrição e ensino do léxico, motivada em larga medida pelo emprego maior do computador no ensino e pesquisa. As mudanças levadas a cabo por esta revolução estão intimamente ligadas à maior disponibilidade de corpora computadorizados, isto é, coletâneas de texto escrito ou falado armazenadas em computador. Muitos materiais de ensino e referência que hoje chegam às mãos dos professores de língua são produtos desta revolução (cf. Biber, Johansson, Leech, Conrad, & Finegan, 1999; Sinclair et al., 1995). É sobre estas mudanças que este capítulo buscará fazer algumas considerações.

2. Computador, linguística, Linguística de Corpus

O microcomputador é uma ferramenta que pode mudar não somente como pesquisamos a linguagem, mas também como a enxergamos:

“O desenvolvimento do computador com memória poderosa seria para a Lingüística o que o desenvolvimento do microscópio com lentes poderosas foi para a biologia – uma oportunidade não somente de ampliar nosso conhecimento mas de transformá-lo.” (Hoey, 1993; tradução minha.)

O impacto mais notável da adoção dos computadores na pesquisa Lingüística é a quantidade de dados que podemos analisar. Beaugrande (1999, p.244) categoriza a
lingüística tradicional (‘mainstream’) como tendo ‘antipatia a dados’. Phillips (1989) usa uma metáfora para descrever tal antipatia:
“A Lingüística tem tradicionalmente se restringido à investigação de porções de linguagem que podem ser confortavelmente acomodadas no quadro negro comum.” (Phillips, 1989, p.8; tradução minha.)

O computador trouxe a capacidade de armazenar quantidades crescentes de linguagem natural (textos escritos, conversação, etc.), portanto aumentando o campo de visão do linguista acerca da linguagem. A Linguística de Corpus é a área da linguística que se ocupa da coleta e exploração de corpora, ou conjuntos de dados linguísticos textuais, em formato legível por computador, que foram coletados criteriosamente com o propósito de servirem para a pesquisa de uma língua ou variedade linguística. Como tal, dedica-se à exploração da linguagem através de evidências empíricas, extraídas por meio de computador. Há uma grande quantidade de corpora eletrônicos em existência atualmente, de várias línguas. Os precursores foram os de inglês, notadamente o corpus Brown, lançado em 1964, com 1 milhão de palavras de inglês americano escrito e seu par britânico, o LOB, de 1978, também com 1 milhão de palavras. Mais recentemente, os corpora cresceram muito em magnitude. O BNC (British National Corpus), por exemplo, lançado em 1995, conta com 100 milhões de palavras (inglês britânico, falado e escrito), e o Bank of English, em constante crescimento, possui atualmente mais de 400 milhões de palavras de inglês (falado e escrito).

A Linguística de Corpus não oferece somente um conjunto de técnicas computadorizadas para verificação de questões tradicionais do léxico, semântica, sintaxe, etc. Pelo contrário:

“A análise de um corpus pode revelar, e frequentemente revela, fatos a respeito de uma língua pelos quais nunca se tinha pensado procurar.” (Kennedy, 1998, p. 9, tradução minha.)

Dessa forma, a Linguística de Corpus apresenta-se como tendo um caráter ao mesmo exploratório e contestatório, definindo:

“… não somente uma nova metodologia emergente para o estudo da linguagem, mas uma nova empreitada de pesquisa, e na verdade uma nova abordagem filosófica.” (Leech, 1992, p.106)

De modo mais amplo, Hoey define a Linguística de Corpus como uma maneira de se chegar à linguagem, afirmando que a “Linguística de Corpus não é um ramo da linguística, mas a rota para a linguística.” (Hoey, 1997, tradução minha).

3. Princípio idiomático: padronização, chunks, fraseologia

Uma área de investigação linguística que emprega computadores e corpora é a investigação da padronização do léxico, ou léxico-gramática (e.g. Francis & Hunston, 1996, 1998; Hunston & Francis, 2000; Partington, 1998; Sinclair, 1991; Stubbs, 1996). De modo geral, a padronização é a regularidade expressa na recorrência sistemática de unidades coocorrentes de várias ordens (lexical, gramatical, sintática, etc.). Como definem Hunston e Francis (2000, p.37):

“The patterns of a word can be defined as all the words and structures which are regularly associated with the word and which contribute to its meaning. A pattern can be identified if a combination of words occurs relatively frequently, if it is dependent on a particular word choice, and if there is a clear meaning associated with it.”

Pode-se distinguir três tipos de padrões léxico-gramaticais:

(1) Colocação: associação entre itens lexicais. Por exemplo, ‘stark’ se associa a ‘contrast’, e ‘sheer’ a ‘scale’, ‘number’, e ‘force’ (Partington, 1998). É o tipo de padrão mais
comumente enfocado na Linguística de Corpus. Foi originalmente introduzido por Firth (1957) e é explicado por sua famosa frase: ‘you shall judge a word by the company it keeps’.

(2) Coligação: associação entre itens lexicais e gramaticais. Por exemplo, ‘start’ é mais comum com sintagmas nominais e orações –ing, enquanto ‘begin’ é mais usado com
um complemento ‘to’(Biber, Conrad, & Reppen, 1998).

(3) Prosódia semântica: associação entre itens lexicais e conotação (negativa, positiva ou neutra) de campos semânticos. O nome se deve ao fato de certas palavras prepararem o ouvinte ou o leitor para o conteúdo semântico que está por vir, da mesma maneira que a prosódia na fala indica para o interlocutor que tipos de sons virão a seguir (Hoey, 1997, p.4). Por exemplo, ‘cause’ tem uma prosódia semântica negativa, pois se associa a palavras desfavoráveis como ‘problem(s)’, ‘damage’, ‘death(s)’, ‘disease’, ‘concern’, e ‘cancer’. Já ‘provide’ possui uma prosódia semântica positiva ou neutra, já que se associa a palavras deste tipo, tais como ‘assistance’, ‘care’, ‘jobs’,
‘opportunities’, e ‘training’ (Stubbs, 1995).

Um termo geral que abarca os três tipos de padrão acima é ‘chunk’ (porções). Este termo é normalmente empregado em trabalhos voltados ao ensino de línguas (Lewis, 1993, 1997; Lewis, McCarthy, & Schmitt, 1996). Os vários tipos de padrão estão interligados, e essa interligação é particularmente importante para o ensino de línguas estrangeiras, visto que para o aluno é importante saber como os vários ângulos de descrição da léxico-gramática estão interligados (Hoey, 2000).

O estudo da padronização encontra amparo teórico na noção do princípio idiomático (idiom principle), segundo o qual o usuário de uma língua tem à sua disposição “um grande número de frases pré- ou semi-construídas que se constituem em escolhas únicas, muito embora pareçam analisáveis em segmentos” (Sinclair, 1987, p. 320, tradução minha). Deste modo, há um espaço comum formado pelo léxico e pela sintaxe, a léxico-gramática, no qual ambos são co-selecionados: a escolha de cada item lexical implica na redução das escolhas dos itens lexicais e das categorias gramaticais que podem segui-lo. A escolha de uma classe gramatical reduz a escolha possível de classes gramaticais e itens lexicais que podem seguir-se a ela. A pesquisa em Linguística de Corpus descreve com precisão as probabilidades de certos itens ocorrerem em co-textos específicos, e desse modo a separação entre os níveis do léxico e da gramática torna-se desnecessária, sendo uma questão de conveniência analítica, sem respaldo empírico (Sinclair, 1991). Kennedy (1991, p.98) chama de ‘ecologia linguística’ o estudo de padrões léxico-gramaticais, pois o que está sendo investigado é o comportamento de itens lexicais ou estruturas gramaticais no seu ‘habitat’ natural (o meio linguístico que ocorrem).

A padronização também é um tema de pesquisa na área conhecida como Fraseologia. A área da fraseologia é ampla, englobando, segundo Cowie (1998b), tanto os estudos
descritivos baseados em corpora de inspiração neo-Firthiana (Moon, 1998), quanto os de natureza pedagógica (Howarth, 1998), passando pelos de cunho mais teórico e taxonômico (e.g. Mel’cuk, 1998; Teliya, Bragina, Oparina, & Sandomirskaya, 1998). O termo ‘fraseologia’ é inclusive muitas vezes empregado como sinônimo de padrão; assim, é comum encontrar expressões como ‘a fraseologia da palavra x’, referindo-se aos padrões observáveis da palavra em questão.

Em ambas as áreas (Linguística de Corpus ou Fraseologia), a observação de padrões é tida como de suma importância no ensino de língua estrangeira, pois a sensação de
‘naturalidade’ na fala ou na escrita depende em grande parte do emprego de padrões, conforme coloca Fox (1998b, p.33):

“When even very good learners of the language speak of write English, the effect is slightly odd. There is nothing that is obviously wrong, but somehow native speakers know that they would not express themselves in quite that way. The problem is often one of collocation – the words which are frequently used together.”

4. Mitologia no ensino de línguas

A descrição da linguagem empreendida pela Linguística de Corpus frequentemente expõe algumas das ‘verdades’ aceitas e difundidas nos livros didáticos e de referência como ‘mitos’. Isso acontece normalmente porque:

“Metodologias de ensino de inglês dão muito pouca importância ao estado da arte da descrição de linguagem, comportando-se como se não houvesse mais dúvida sobre quais seriam os fatos relativos à estrutura do inglês. Em termos práticos isto ocasionou o crescimento e manutenção de uma mitologia acerca do inglês […] que os professores aceitam como verdade, mas que é desafiada pelas evidências provenientes do corpus.” (Sinclair, 1997, p.30)

Tal mitologia incluiria, entre outras coisas, a crença de que:

  • Há dois níveis independentes de organização da linguagem, a sintaxe e o léxico, e que, portanto, se justifica o ensino de línguas através de currículos e abordagens firmadas na separação entre ‘gramática’ e ‘vocabulário’.
  • A sintaxe tem precedência sobre o léxico, isto é, o vocabulário é subserviente à sintaxe, servindo como ‘preenchimento’ de ‘lacunas’ sintáticas.
  • A fluência nativa ou quase-nativa é algo subjetivo que reside na mente dos falantes nativos e que, portanto, não pode ser observada, retratada, e descrita objetivamente.
  • A frequência dos traços linguísticos enquanto reveladora da padronização e convencionalidade do uso da língua é irrelevante porque o mais importante da
    linguagem é seu caráter criativo, e portanto os alunos não precisam aprender sobre modos típicos de expressão em contextos específicos.

A posição que emerge da descrição da linguagem baseada em corpus em face a esta mitologia seria, em linhas amplas, a seguinte:

  • (a) A linguagem não é estruturada pelo princípio de ‘lacuna e preenchimento’ (slot and filler) (Lewis, 2000b; Sinclair, 1991).
  • (b) A linguagem é padronizada (‘patterned’), isto é, traços linguísticos não co-ocorrem aleatoriamente, mas sim de modo estatisticamente significante (Biber, Conrad, & Reppen, 1998; Sinclair, 1991).
  • (c) A sensação de naturalidade e fluência nativa não são aspectos abstratos, mas possuem correlatos linguísticos demonstráveis por meio de padrões (Cowie, 1998a, p.1). Os traços linguísticos em geral, e o léxico em particular, criam ‘relações de expectativa’ (expectancy relations; Eggins, 1994), e é justamente a manutenção destas relações, pelos usuários da língua, que transmite ao ouvinte ou leitor a sensação de naturalidade e fluência (Pawley & Syder, 1983; Sinclair, 1988).
  • (d) A diferença entre sintaxe e léxico é mais uma conveniência metodológica do que uma realidade observável, já que não se precisa destas categorias a priori para se dar conta dos padrões linguísticos de modo exaustivo (Sinclair, 1991).
  • (e) A frequência dos traços linguísticos é pertinente para uma teoria da linguagem, já que:
  • as possibilidades estruturais não se realizam todas (i.e. nem tudo que é possível estruturalmente ocorre de fato), e as frequências dos traços ocorrentes variam sistematicamente (i.e. as diferenças de ocorrência se relacionam não aleatoriamente com contextos específicos). (de Beaugrande, 1999; Halliday, 1991, 1992)

A conseqüência mais direta para o ensino de línguas da confrontação destes mitos é a negação da separação entre léxico e sintaxe, ou seja, da existência de um nível do sistema linguístico que engloba o vocabulário e a gramática, conhecido por léxico-gramática. Para a Linguística de Corpus, a separação destes dois níveis é um artifício metodológico assumido pelas gramáticas de referência que foi depois repassado para as gramáticas pedagógicas e os materiais de ensino. A posição a favor desta separação fica clara no trecho abaixo, retirado de um livro sobre metodologia de ensino do inglês do auge do estruturalismo:

“Nossa abordagem relativa ao ensino de línguas, então, é estrutural. As palavras que escolhemos apresentar para serem usadas nas estruturas são de importância secundária, porque, assim que os padrões do inglês tenham sido dominados, torna-se relativamente fácil aprender novas palavras para encaixar nestes padrões.” (Broughton, 1968, p.14, tradução minha).

A visão mais recente da metodologia de ensino ainda não mudou muito, como demonstra esta passagem de uma outra obra voltada para o ensino de segunda língua:

“A gramática fornece os padrões gerais, e o vocabulário providencia o material para colocar nestes padrões.” (Cook, 1991, p.37, tradução minha.)

Já a posição assumida na Linguística de Corpus é diferente, e sua implementação na sala-de-aula pode ser resumida assim:

“Não devemos sobrecarregar os alunos com vastas quantidades de informação sintática [‘gramática’] de um lado e informação lexical (‘vocabulário’) de outro, as quais eles terão de juntar de acordo com princípios que não estão naturalmente disponíveis para eles na condição de falantes não-nativos. Ao invés disto, as professoras devem apresentar, ao mesmo tempo, as estruturas e o léxico correspondente, seja na forma de listas ou por meio de concordâncias, caso a situação de ensino assim o permita.” (Francis & Sinclair, 1994, p. 200, tradução minha.)

A quantidade de achados de pesquisa relativos à descrição da linguagem nativa é enorme, não sendo possível incluí-los todos aqui. Um pequeno elenco de pontos relacionados ao léxico já contemplados na literatura inclui os seguintes tópicos:

· Like [to infintivo]/[-ing]. Segundo a gramática, a regra seria que ‘like to + infinitivo’ é sempre usado com modais, enquanto ‘like + -ing’ não o é. Segundo o corpus
COBUILD, todavia, ‘like’ também é usado com ‘to’ sem modais, especialmente quando a complementação é mais específica (‘the British like to use liquid cleansers so long as the containers are familiar’). Estes usos não são explicáveis por outras regras difundidas nos livros didáticos que fazem a distinção entre previsão futura (que seria formada por ‘to’) e declaração geral ou presente (que exigiria ‘ing’). Lott conclui que o melhor conselho a dar aos alunos é que podem usar ‘to’ ou ‘ing’ com ‘like’ sem modalização, prestando atenção à especificidade da complementação (Lott, 1995).

· Nice. Este item é tido como ‘o mais neutro dos adjetivos’, mas nem por isso deixa de demonstrar restrições selecionais. ‘Nice’ tipicamente aparece precedido do artigo
indefinido (‘a nice…’), evitando fortemente o definido (‘the nice’). Também demonstra padronização em relação a sua posição na oração. Quando empregado atributivamente, é comumente seguido de outro adjetivo ou gerúndio qualificador (‘a nice relaxing time’). Já quando aparece em posição predicativa, é geralmente precedido por um intensificador (‘an extremely nice girl’) (Sinclair, 1997, p.33).

· Glad. Este outro adjetivo também demonstra restrições selecionais, aparecendo tipicamente em posição predicativa. Além disso, é em geral seguido da razão pela qual
se está contente, comumente através de ‘about’, ‘to’, e ‘that’. A falta da complementação relativa à razão indicaria um emprego marcado deste adjetivo (Sinclair, 1997, p.33).

· Good. Este é um adjetivo polissêmico por excelência. No corpus London-Lund é possível distinguir mais de vinte sentidos, incluindo agradável (‘good film’), afável
(‘good mood’), adequado (‘good fit’), grande (‘good crowd’), entre outros (Kennedy, 1998, pp.91-92). Estes vários sentidos assumem padrões distintos, com fraseologias
específicas. Contudo, falantes não nativos normalmente desconhecem tais padrões (Berber Sardinha, 1999b).

· Borrow. Este verbo demonstra uma tendência de não ser empregado sozinho, preferindo ser acompanhada por modais (can, shall, must, etc; Sinclair, 1997, p.32).

· Big, large, great. Estes três adjetivos são ensinados em geral como sendo sinônimos, mas cada um demonstra preferencias selecionais. ‘Big’ é mais usado para exprimir o sentido de ‘tamanho grande’ (‘big man’); ‘large’ é empregado mais comumente para expressar quantidades (‘large numbers’), e ‘great’ é usado para denotar uma variedade maior de sentidos, incluindo intensidade (‘great big’) e parentesco (‘great aunt’) (Biber, Conrad, & Reppen, 1998).

· Small, little. Assim como os anteriores, estes dois adjetivos não são de fato sinônimos, pois são empregados em contextos diferentes. O emprego mais comuns de ‘little’ é para significar tamanho de algo concreto (‘little boy’), enquanto ‘small’ é usado mais tipicamente para qualificar uma quantidade, aparecendo junto a ‘amount’, ‘number’, e ‘quantity/ies’ (Biber, Conrad, & Reppen, 1998)

· Begin, start. Estes dois verbos também são em geral ensinados como sinônimos, pois possuem valência (potencial de combinação com outros elementos da oração) e
transitividade semelhantes. Ambos podem ser usados tanto transitiva quanto intransitivamente, e com o mesmo leque de complementos (sintagma nominal, frase
‘ing’, ou frase iniciada por ‘to’). Entretanto, assim como os adjetivos discutidos acima, estes dois verbos formam padrões distintos. ‘Start’ é mais comum com sintagmas
nominais e orações ‘-ing’, e ‘begin’ é mais usado com um complemento ‘to’. Há também uma variação de uso de ‘begin’ relativa ao registro. ‘Begin’ é usado predominante como verbo intransitivo em textos acadêmicos, e com complemento de orações ‘to’ em textos de ficção 43% e 72% respectivamente). Já com ‘start’ esta diferença não existe: ele é empregado mais como verbo intransitivo independentemente do tipo de texto. (Biber, Conrad, & Reppen, 1998)

· Somebody/someone, anybody/anyone. Estas formas de ‘body’ e ‘any’ também não estão em variação livre. As formas com ‘body’ são bem mais típicas da fala, enquanto as formas com ‘one’ predominam na escrita. Esta distinção não é apontada nem mesmo por dicionários como o COBUILD, criado a partir da descrição de um corpus representativo (Biber, Conrad, & Reppen, 1998).

Infelizmente, poucos destes pontos são contemplados nos livros didáticos e dicionários para aprendizes de língua estrangeira (Berber Sardinha, 1999c). O ímpeto para a investigação dos traços discutidos acima partiu muitas vezes de interesse descritivo, ou seja, do desejo de se esclarecer pontos obscuros das gramática ou dicionários
da língua nativa. Mas além disso, o desejo de se investigar alguns traços teve sua origem no ensino, isto é, em uma necessidade pedagógica, guiada pelos interesses dos alunos. Há, portanto, uma passagem da exploração (exploration) para o aproveitamento (‘exploitation’) de corpora:

“Whereas, previously, large-scale corpora such as Brown and LOB were used for exploration of linguistic patterns, insights from the exploration of these two corpora
gradually have begun to feed into various aspects of language teaching. Thus, exploitation of corpora is now becoming an increasingly significant additional aspect of corpus work in the sense that learner’s needs are governing decisions about where to undertake descriptive research for various pedagogical purposes.” (Flowerdew, 1998, p.542)
5. Propostas

Duas propostas de ensino de língua estrangeira que exploram e aproveitam corpora na sua fundamentação são o Lexical Approach e o Data Driven Learning.

5.1. Lexical Approach

O ‘Lexical Approach’ foi formulado por Michael Lewis (1993, 1997, 2000a) e sua principal característica é o papel central que o léxico desempenha no conteúdo e na
metodologia. O léxico é descrito por meio de ‘porções’ (chunks) léxico-gramaticais, definidas como ‘itens formulaicos [formulaic] e pré-fabricados’ (Lewis, 1993, p.121). Essas ‘porções’ são realizadas frequentemente como ‘colocações’ ou ‘polipalavras’ (‘polywords’) e são ensinadas através de textos (escritos ou falados). Os alunos são encorajados a manter ‘cadernos lexicais’ onde registram os itens lexicais (em ‘chunks’) com os quais travam conhecimento. É através dos textos que os alunos entram em contato com as porções lexicais e é por meio deles também que os alunos se conscientizam da presença marcante destas unidades na comunicação escrita e falada. As principais ações didáticas envolvidas no ensino segundo o Lexical Approach são as seguintes:

  • Priorização do ensino de colocações, ao se destruir a falsa dicotomia entre léxico e
    gramática.
  • Tratamento de palavras gramaticais como itens lexicais (e.g. ‘would’ não seria visto como um auxiliar do condicional somente, mas essencialmente como um item lexical independente). (A partir de Lewis, 1993, pp. 110-111)

Hill, Lewis e Lewis (2000) resumem essa abordagem perante o aluno e a linguagem, afirmando que o Lexical Approach:

“enfatiza a importância de tornar os alunos conscientes da natureza fraseológica [‘phrasal’] da linguagem. O tipo de multipalavra mais importante é a colocação. (…) A contribuição mais importante que o professor pode fazer para certificar-se de que o ‘input’ torne-se ‘intake’ é ter certeza de que os alunos percebam as colocações e outras expressões [‘phrases’] da língua de input.” (p.116; tradução minha; ênfase no original.)

Os principais tipos de exercícios utilizados nessa abordagem são os seguintes:

(1) Identificar porções lexicais no texto.
(2) Comparar (‘match’) itens.
(3) Completar lacunas (‘gap-filling’).
(4) Extrair colocações de textos.
(5) Localizar erros colocacionais (‘miscollocations’). (Lewis, 1997, pp.89-91)

O Lexical Approach assume uma postura crítica em relação aos currículos nocionais-funcionais e ao comunicativismo com relação a como estas propostas lidaram com o
vocabulário. Tanto o ensino comunicativo de línguas quanto o currículo nocional-funcional de Wilkins fundamenta-se na itemização da linguagem a partir de um conjunto de rótulos de atos de fala, como por exemplo ‘agradecer’ e ‘oferecer ajuda’. Segundo Lewis (1997), esta proposta relega o léxico a um segundo plano, pois subordina-o às funções. Em outras palavras, cada função poderia ser realizada léxico-gramaticalmente de vários modos, ou seja, função e léxico eram independentes.

5.2. Data Driven Learning

Outra proposta que enfatiza o ensino do léxico é o Data Driven Learning, ou DDL, desenvolvida por Tim Johns (Johns, 1994; Johns & King, 1991). Originalmente, ela foi
criada para ensinar gramática do inglês, mas suas aplicações têm se expandido para outras áreas (e.g. Granger & Tribble, 1998) e para outras línguas (Berber Sardinha, 1999a; Jacobi, 2000). A ênfase desta proposta é desenvolver no aluno a habilidade de descoberta (discovery learning), e o papel do professor é o de propiciar meios para que os alunos adquiram estratégias de descoberta. Há, portanto, uma ênfase na conscientização do aluno para o que ele pode descobrir sozinho observando a linguagem autêntica, e o professor, neste contexto, é um orientador ou guia de aprendizagem. O principal instrumento que possibilita a descoberta do aluno é a concordância, produzida por computador. O computador entra como elemento central da aprendizagem, no papel de informante, e não de substituto do professor. A razão do nome DDL é explicado assim:

“O aprendiz de língua é também, essencialmente, um pesquisador cujo aprendizado é movido [driven] pelo acesso a dados linguísticos – daí o uso do termo ‘Data Driven
Learning’ para descrever esta abordagem.” (Johns, 1991b, p.2, tradução minha).

Fica claro que a ênfase desta abordagem é tornar o aluno um pesquisador:

“A pesquisa é uma ferramenta valiosa demais para ficar nas mãos dos pesquisadores.” (Johns, 1991a).

A base da proposta é permitir que os alunos busquem suas próprias respostas trabalhando com o computador, ou com concordâncias impressas preparadas no computador pelo professor. O computador torna-se um provedor de respostas na forma de exemplos em quantidade extraídos de um corpus. O DDL é uma abordagem de cunho essencialmente indutivo, ou seja, os alunos produzem conhecimento de modo ascendente (bottom-up) a partir da observação das concordâncias. Na prática, os alunos trabalham seguindo três princípios indutivos: (a) identificação, (b) classificação, e (c) generalização.

No primeiro momento, os alunos identificam padrões ou aspectos recorrentes na concordância; a seguir, interpretam-nos e os classificam de acordo com critérios próprios; finalmente, fazem generalizações a respeito da ocorrência da classificação em outros conceitos. O ciclo não se encerra necessariamente aí. O aluno pode
partir da generalização já formulada para a investigação de mais dados diferentes, reiniciando assim o ciclo.

O impacto da DDL se faz sentir em relação ao aluno, professor, e ao ensino em si. Isto se dá nestes três elementos-chave da seguinte maneira:

(1) Aluno: Assume um papel mais central e independente, tornando-se um pesquisador dotado de habilidades que lhe permitem obter respostas para suas dúvidas e verificação de suas hipóteses.

(2) Professor: Deixa de ser a fonte única de informação na sala-de-aula. Por conseguinte, diminui a pressão sobre ele para saber todas as respostas. O computador, enquanto informante, assume um papel de destaque como provedor de informação.

(3) Ensino: Centra-se mais no aluno e permite que se fundamente pelo princípio de descoberta. Deixa, portanto, de ser baseado na transmissão de regras prontas.

Há vários exemplos de atividades baseadas na abordagem DDL na literatura (Granger & Tribble, 1998; Hadley, in press; Johns & King, 1991; Ka-cheung, 1994; Milton, 1998). Além disso, há recursos para DDL disponíveis na Internet. A ‘DDL Virtual Library’ (http://sun1.bham.ac.uk /johnstf/ timconc.htm) é uma ótima fonte de atividades prontas para o ensino de várias aspectos da gramática do inglês, as quais servem também de modelo para confecção de tarefas diferentes com outros corpora.

Há três diferenças principais entre o Lexical Approach e o Data Driven Learning. A primeira refere-se ao papel do aluno e do professor. O Lexical Approach é uma abordagem centrada no professor, enquanto o DDL enfatiza o centramento no aluno. A segunda diferença concerne o tipo de atividade utilizado. No DDL, todas as atividades baseiam-se de algum modo em concordâncias produzidas por computador. No Lexical Approach, as atividades são mais variadas, incluindo, além de concordâncias, a manutenção de um caderno de colocações, exercícios de preenchimento de lacunas, seleção e ‘matching’, localização de colocações em textos, além de outros voltados ao emprego de dicionários de colocação. A terceira diferença refere-se ao uso de um corpus eletrônico. No DDL, o corpus ocupa papel central, podendo ser explorado tanto pelo professor quanto pelo próprio aluno (se houver infraestrutura). No Lexical Approach, o corpus é frequentemente empregado, mas muitas atividades não são desenvolvidas a partir dele.

6. Concordâncias

Conforme mencionado acima, um instrumento típico da Linguística de Corpus que é muito empregado no Lexical Approach, no Data Driven Learning e em outras abordagens (Tribble & Jones, 1990) é a concordância, a qual consiste numa listagem dos co-textos (palavras ao redor) nos quais um dado item (palavra isolada, composta, estrutura, etc.) ocorre. O item no qual o usuário está interessado é conhecido por nódulo, palavra-nódulo ou nó (‘node’ ou ‘node word’), palavra de busca (‘search word’), ou palavra-chave (‘key word’). Os tipos de concordância mais comuns são KWIC (‘Key Word In Context’) e KWOC (‘Key Word Out of Context’). A concordância KWIC é a mais convencional e mostra a palavra de busca no centro da listagem ladeada pelas palavras que ocorreram no texto junto a ela. As concordâncias atualmente são feitas por computador, por meio de programas especializados (concordancers), embora, na ausência de equipamento, é possível fazer concordâncias à mão, na lousa (Willis, 1998).

Alguns exemplos de concordância são apresentados logo abaixo. A importância da concordância reside no fato de ela colocar diante do aluno uma quantidade grande de material autêntico, retirado de um corpus. O material é disposto de maneira a permitir uma melhor visualização dos padrões da palavra-nódulo. O estudo e observação de padrões como colocação, coligação e prosódia semântica ficam então otimizados.

As concordâncias podem ser usadas de várias maneiras na sala de aula. Por exemplo, como instrumento para o ensino/ descoberta de:

  • Padrões típicos de itens novos e conhecidos (Fox, 1998b; Granger & Tribble, 1998; Jacobi, 2000; Johns & King, 1991).
  • ‘Feedback’ ao aluno para correção da produção do aluno (Woolard, 2000, p.41).
  • Relações lexicais tais como hiponímia/ superordinação, sinonímia e antonímia (Johns, 1998).
  • Desambiguação de itens aparentemente semelhantes ou do mesmo campo semântico (na língua-alvo ou na língua materna dos alunos) (Partington, 1998).
  • Conotações ou usos metafóricos de itens lexicais (Hoey, 2000; Louw, 1993; Partington, 1998).
  • Sentidos diferentes (polissemia) de um mesmo item lexical (Johns, 1991b).
  • Aspectos teóricos acerca da natureza fraseológica do léxico (Hoey, 2000).

Alguns dos empregos possíveis de concordâncias elencados acima são ilustrados a seguir.

(1) Padrões típicos de itens novos e conhecidos.

É possível ensinar o padrão típico de um item como ‘averse’ por meio de uma concordância como a seguir, extraída do corpus Bank of English (Fox, 1998a):

 

[concordance lines]
Segundo a concordância, um padrão típico de ‘averse’ seria ‘be not averse to +ing’. Assim, os alunos ficam sabendo que ‘averse’ não deve ser usado com um substantivo (*averse to cigarettes), o que seria o padrão mais próximo do equivalente em português (‘aversão a fumo/ cigarro’).

(2) Feedback.

Pode-se usar uma concordância para fornecer feedback ao aluno, permitindo que ele mesmo descubra alternativas para corrigir ou melhorar sua produção escrita. Por exemplo, Woolard (2000, p.41) apresenta a sentença abaixo, produzida por um de seus alunos:

“We will have to increase our prices because of the increasing cost of advertising our products.”

Em vez de simplesmente marcar a repetição de ‘increasing’ e oferecer a ‘forma correta’, o
professor pode dar ao aluno uma concordância de ‘cost of’ para que ele mesmo descubra outras alternativas de colocação. Por exemplo, a concordância abaixo foi retirada do BNC:

… she’s not averse to dishing out rough treatment …
… he was not averse to picking up the phone …
… he’s not averse to the idea of studio work …
… she’s not averse to celebrating any victory …
… she was not averse to causing a stir or two …
… they are not averse to helping the process …
… he was not averse to using his reputation for a …
… they were not averse to using heavy-handed methods …
… have always felt averse to taking orders from others …
… how deeply averse to taking risks …
… is strongly averse to taking pills which may prove …
… he was averse to taking painkillers and had …

Observando a concordância, o aluno pode descobrir que ‘high’ e ‘rising’ são alternativas para ‘increasing’ (Woolard, 2000, p.41).

(3) Relações lexicais: superordinação/hiponímia.

Segundo Johns (1998), muitos hipônimos são marcados no texto por meio da expressão ‘such as’. A concordância abaixo pode ajudar o aluno a explorar este fato para aprender os superordinados (‘drugs’ e ‘diseases’, respectivamente) e seus co-hipônimos (‘cannabis’, ‘heroin’, e ‘scurvy’, ‘smallpox’, por exemplo).

(4) Desambiguação de itens aparentemente semelhantes ou do mesmo campo semântico.

for the escalating cost of this form of welfa
fit . The escalating cost of these tax benefits
essable on the extra cost of providing the bene
ese offset the extra cost of using either uncom
nners . Yet the full cost of providing just pip
le to cover the full cost of poll-tax payments
was the even greater cost of any real alternati
e enormously greater cost of shaping it to the
e 1830s . The high cost of transporting goods
performance and high cost of conveyancing work
d both the very high cost of land on Tyneside a
ther places the high cost of foreign imports ,
use of the increased cost of pensions , but now
unt of the increased cost of living , increased
Greece . The overall cost of the project over t
xpense . The overall cost of capital for a firm
ned about the rising cost of the paper which th
The rising cost of holidays in the U
ears with the rising cost of aircraft and dimin
could be the rising cost of holidays in the U
outlawed . The true cost of allowing unfettere
eral public the true cost of medicines .

(a)

lower virulence than vector-borne _____ such as malaria because transmis
no evidence that they can cure _____ such as arthritis and rheumatism
, both directly and in deficiency _____ such as scurvy and beri-beri
le , are suffering an increase in _____ such as typhoid and hepatitis
colds , for wounds , infectious _____ such as typhoid , as a
orbade the admission of infectious _____ such as smallpox . From
He notes that the incidence of _____ such as tuberculosis , cholera ,
It is claimed that psychiatric _____ such as manic depression or s
In his view , directly transmitted _____ such as common colds generally

(b)

for a long period of time and _____ such as cannabis and amphetamines
lactation with humilacting and _____ such as metoclopramide ; support
unemployment and use of illegal _____ such as heroin ( Peck and
cided to exclude users of legal _____ such as alcohol , tobacco and
as well as a variety of other _____ such as cannabis , hallucinogenics
ose that determine addiction to _____ such as heroin and cocaine
usion continues . A few unusual _____ such as digoxin may be secreted
sycho-therapeutic approach with _____ such as methadone and Librium
manipulation of HbF levels with _____ such as 5-azacytidine is currently

As diferenças entre itens tais do mesmo campo semântico como ‘wound’ e ‘injury’ podem ser exploradas por meio de uma concordância tal qual a seguir:

, who suffered appalling brain injuries , was placed on a life
ovember 7 last year from head injuries . After falling and
treated for suspected internal injuries and his passenger for a
were one or two other minor injuries . Four soldiers
ee occupants suffered multiple injuries and were certified dead
cidents involving many serious injuries , that have taken place
to the control of road traffic injuries and of cigarette smokin
ns as well as against external injury. ( p.73 ) This
11 . A persistent knee injury has forced Northants allr
. Until suffering a shoulder injury last season , Dean never
, who has an Achilles tendon injury . Steve Whitton has
in county week due to a wrist injury , is also well-placed aft

suffered a less serious knife wound to his arm , and after
derson fell dying with gunshot wounds , and the Ford Capri car
yer said the leader ‘s gunshot wounds are taking their toll , c
ou that one of the five stab wounds did not kill your friend
n’t get work through their war wounds . They told us it w

Ao identificar os padrões mais típicos de cada item, os alunos podem perceber a diferença de sentido entre os dois itens. Por exemplo, entre outras coisas, a concordância traz evidências de que ‘injury’ é um termo mais geral, pois pode ser ‘internal’ ou ‘external’, enquanto ‘wound’ é usado para ferimentos ‘externos’, causados por objetos ou armas, tais como ‘gunshot wounds’, ‘stab wounds’, etc.

É possível promover variações nos exemplos mostrados acima. Muitas dessas atividades podem ser feitas com o auxílio de um dicionário de colocações (Hill, Lewis, & Lewis, 2000, pp. 110-111). Além disso, as atividades podem ser realizadas com concordâncias impressas em papel ou mostradas na tela do computador.
7. Comentários finais

Este artigo começou tratando de uma revolução silenciosa que se apresenta na forma da maior penetração dos computadores no ensino de língua estrangeira. Aliado à exploração de corpora eletrônicos, os computadores podem alterar como vemos a linguagem e quanto dela podemos ver. O professor de língua estrangeira tem à sua disposição pelo menos duas propostas de ensino e exploração da léxico-gramática por computador (Lexical Approach e Data Driven Learning). O emprego do computador e corpora no ensino não depende da adoção na íntegra de nenhuma proposta fechada. Pelo contrário, o professor pode integrar concordâncias no método ou abordagem que adota. Conforme ilustraram os exemplos mostrados acima, as concordâncias permitem ensinar aspectos importantes da padronização ou fraseologia da léxico-gramática. Além disso, as concordâncias oferecem a possibilidade de os alunos explorarem e descobrirem aspectos da léxico-gramática por si mesmos.

Além de permitir a descoberta e ensino de padrões autênticos atestados em corpora, a exploração da léxico-gramática via concordâncias também justifica-se do ponto de vista psicolinguístico. Conforme argumenta Hoey (2000, p.238):

“As we learn our first language, we build up in our heads a profile of the words we are learning. The so-called Language Acquisition Device in a baby’s head is more likely to be a set of concordancing ‘software’ that enables us to find regularities and recurrent features in our linguistic experience, rather than any abstract grammar-making device.”

Ainda segundo Hoey (2000, p.238), a consequência disso para o ensino é que o aluno deve ser exposto à maior quantidade de linguagem autêntica possível, para que ele possa desenvolver os perfis mentais voltados à percepção e produção dos padrões lexicais associados à língua-alvo. A automatização da seleção destes padrões, na produção e recepção da língua estrangeira, é o que pode vir a permitir a fluência e naturalidade tão comumente associadas à produção de um falante nativo (Pawley & Syder, 1983).

Há várias críticas ao uso de corpora e concordâncias no ensino. Em relação a corpora, Carter et al. (1998) alertam para o fato de que o estatuto de falante nativo é problemático. Desta forma, os professores devem ser críticos em relação à informação retirada de corpora de falantes nativos, pois este tipo de informação pode não ser útil ou relevante, já que em algumas situações de aprendizado, o modelo do ‘falante nativo’ pode não ser o mais adequado.

Uma segunda crítica refere-se à necessidade de separar validade pedagógica de validade descritiva (Aston, 1997). O que as descrições de léxico-gramática baseadas em corpus alegam possuir é validade descritiva, mas não necessariamente validade pedagógica. Ou seja, nem tudo que é relevante num corpus é relevante para o aluno e vice-versa. Esta crítica procede, mas em nenhum momento é dito na literatura que o corpus deva ditar o conteúdo do curso ou das atividade de sala de aula.

Uma terceira crítica diz respeito à possível incompatibilidade entre o uso de concordâncias e o ensino comunicativo de línguas, já que as concordâncias promoveriam a
descontextualização da linguagem por mostrarem apenas pequenos trechos provenientes de várias textos (Aston, 1995). Este problema pode ser evitado fornecendo aos alunos maiores quantidades de texto em cada concordância, ou permitindo aos alunos que tenham acesso a concordanceador que ofereça a visualização dos textos do corpus na íntegra.

Finalmente, outra crítica comum é a preocupação de que o aluno possa ter acesso a informações através do corpus que contradigam o ensinamento passado pelo professor
(Owen, 1996). Há nestes casos o risco de se minar a autoridade do professor na sala-de-aula, pois em comparação com um corpus, o conhecimento intuitivo do professor é visto como insuficiente, principalmente se for não-nativo. Uma maneira de o professor evitar este problema é não assumir a função de detentor do conhecimento e colocar-se no papel de facilitador de pesquisa, permitindo que os alunos descubram informações novas.

Em geral, essas críticas alertam que o computador, corpora e concordâncias não devam ser considerados os únicos instrumentos para o ensino de línguas, mas sim que devam ser usados com consciência de suas vantagens e limitações.

Em conclusão, o computador não é um modismo passageiro e tem todo o potencial para aumentar em muito a visão que o professor de língua estrangeira tem da linguagem. Algumas ferramentas, como a concordância, e recursos, como corpora eletrônicos, colocam à disposição do professor um mundo de informações até então impensado. Usados prudentemente, são instrumentos indispensáveis na aprendizagem de língua estrangeira.

Referências Bibliográficas

Aston, G. (1995). Corpora in language pedagogy: matching theory and practice. In G. Cook & B. Seidlhofer (Orgs.), Principle and Practice in Applied Linguistics – Studies in
Honour of H G Widdowson (pp. 257-270). Oxford: Oxford University Press.

Aston, G. (1997). Enriching the learning environment: Corpora in ELT. In A. Wichmann, S. Fligelstone, T. McEnery, & A. Wilson (Orgs.), Teaching and language corpora (pp. 51-63). London: Longman.

Beaugrande, R. de (1999). Reconnecting real language with real texts: Text Linguistics and Corpus Linguistics. International Journal of Corpus Linguistics, 4(2), 243-260.
Berber Sardinha, A. P. (1999a). Beginning Portuguese Corpus Linguistics: Exploring a corpus to teach Portuguese as a Foreign Language. Delta, 15, 291-302. Disponível em www.scielo.br

Berber Sardinha, A. P. (1999b). Br-ICLE, the Brazilian sub-corpus of the International Corpus of Learner English – A progress report. Trabalho apresentado no Learner
Corpus Workshop. Women’s University, Tokyo, Japan.

Berber Sardinha, A. P. (1999c). Computadores e corpora na produção de dicionários: O que isso tem a ver com o ensino de línguas? Trabalho apresentado no Simpósio ‘O aprendiz de língua inglesa e os dicionários’, ENPULI, 21 de julho de 1999, USP, São Paulo, SP.

Biber, D., Conrad, S., & Reppen, R. (1998). Corpus linguistics – Investigating language structure and use. Cambridge: Cambridge University Press.

Biber, D., Johansson, S., Leech, G., Conrad, S., & Finegan, E. (1999). Longman Grammar of Spoken and Written English. Harlow: Longman.

Broughton, G. (1968). Success with English — Teacher’s Handbook. Penguin: Harmondsworth.

Carter, R., Hughes, R., & McCarthy, M. (1998). Telling tails: Grammar, the spoken language and materials development. In B. Tomlinson (Org.), Materials Development in
Language Teaching (pp. 67-86). Cambridge: Cambridge University Press.

Cook, G. (1991). Second Language Learning and Language Teaching. London: Longman.

Cowie, A. P. (1998a). Introduction. In A. P. Cowie (Org.), Phraseology — Theory, Analysis, and Application (pp. 1-22). Oxford: Clarendon Press.

Cowie, A. P. (Org.). (1998b). Phraseology – Theory, Analysis, and Applications. Oxford: Clarendon.

Egbert, J., & Hanson-Smith, E. (Orgs.). (1999). CALL Environments – Research, Practice, and Critical Issues. Alexandria, Va.: TESOL.

Eggins, S. (1994). An introduction to Systemic Functional Linguistics. London: Pinter.

Firth, J. R. (1957). Papers in Linguistics – 1934-1951. Oxford: Oxford University Press.

Flowerdew, L. (1998). Corpus linguistics techniques applied to textlinguistics. System, 26, 541-552.

Fox, G. (1998a). Hocus pocus and graven images: collocation ’98. Palestra apresentada na conferência IATEFL 98, UMIST, Manchester, UK.

Fox, G. (1998b). Using corpus data in the classroom. In B. Tomlinson (Org.), Materials development in language teaching (pp. 25-43). Cambridge: Cambridge University
Press.

Francis, G., & Hunston, S. (1996). Grammar Patterns 1: Verbs. London: HarperCollins, COBUILD.

Francis, G., & Hunston, S. (1998). Grammar Patterns 2: Nouns and Adjectives. London: HarperCollins, COBUILD.

Francis, G., & Sinclair, J. (1994). ‘I bet he drinks Carling Black Label’: A riposte to Owen on corpus grammar. Applied Linguistics, 15, 190-200.

Granger, S., & Tribble, C. (1998). Learner corpus data in the foreign language classroom: Form-focused instruction and data-driven learning. In S. Granger (Org.), Learner
English on Computer (pp. 199-209). New York: Longman.

Hadley, G. (no prelo). Sensing the winds of change – An introduction to DDL. Online document.

Halliday, M. A. K. (1991). Corpus studies and probabilistic grammar. In K. Aijmer & B. Altenberg (Orgs.), English corpus linguistics: Studies in honour of Jan Svartvik (pp. 30- 43). London: Longman.

Halliday, M. A. K. (1992). Language as system and language as instance: The corpus as a theoretical construct. In J. Svartvik (Org.), Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82, Stockholm, 4-8 August 1991 (pp. 61-78). Berlin, New York: De Gruyter.

Hill, J., Lewis, M., & Lewis, M. (2000). Classroom stragegies, activities and exercises. In M. Lewis (Org.), Teaching Collocation – Further Developments in the Lexical Approach (pp. 88-117). Hove: LTP.

Hoey, M. (Org.). (1993). Data, description, discourse – Papers on the English language in honour of John McH Sinclair on his sixtieth birthday. London: HarperCollins.

Hoey, M. (1997). From concordance to text structure: New uses for computer corpora. In B. Lewandoswka-Tomaszczyk & P. J. Melia (Orgs.), PALC’97 – Pracical Applications in Language Corpora (pp. 2-22). Lodz: Lodz University Press.

Hoey, M. (2000). A world beyond collocation: New perspectives on vocabulary teaching. In M. Lewis (Org.), Teaching Collocation – Further Developments in the Lexical
Approach (pp. 224-243). Hove: LTP.

Howarth, P. (1998). Phraseology and second language proficiency. Applied Linguistics, 19, 24-44.

Hunston, S., & Francis, G. (2000). Pattern Grammar – A corpus-driven approach to the lexical grammar of English. Amsterdam/ Philadelphia: John Benjamins.

Jacobi, C. (2000). Introducing concordances to teach Spanish to Brazilian students.

TALC’2000, Graz, Austria.

Johns, T. (1991a). From printout to handout: Grammar and vocabulary teaching in the context of Data-Driven Learning. ELR Journal, 4, 27-46.

Johns, T. (1991b). Should you be persuaded: two examples of data driven learning. ELR Journal, 4, 1-16.

Johns, T. (1994). From printout to handout: Grammar and vocabulary teaching in the context of Data-driven learning. In T. Odlin (Org.), Perspectives on pedagogical grammar (pp. 293-313). Cambridge: Cambridge University Press.

Johns, T. (1998). Virtual DDL Library. Web site: http://sun1.bham.ac.uk/johnstf/timconc.htm.

Johns, T., & King, P. (Orgs.). (1991). Classroom Concordancing — ELR Journal 4. Birmingham: Centre for English Language Studies, University of Birmingham.

Ka-cheung, B. M. (1994). Learning strategies in ESP classroom concordancing: an initial investigation into data-driven learning. In L. Flowerdew & A. K. K. Tong (Orgs.), Entering Text (pp. 197-214). Hong Kong: Language Centre, The Hong Kong University of Science and Technology.

Kennedy, G. (1991). ‘Between’ and ‘through’: The company they keep and the functions they serve. In K. Aijmer & B. Altenberg (Orgs.), English Corpus Linguistics – Studies in honour of Jan Svartvik (pp. 95-110). London / New York: Longman.

Kennedy, G. (1998). An introduction to Corpus Linguistics. New York: Longman.

Leech, G. (1992). Corpora and theories of linguistic performance. In J. Svartvik (Org.), Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82, Stockholm, 4-8 August 1991 (pp. 105-127). Berlin, New York: De Gruyter.

Lewis, M. (1993). The Lexical Approach – The state of ELT and a way forward. Hove: Language Teaching Publications.

Lewis, M. (1997). Implementing the lexical approach — Putting theory into practice. Hove: LTP.

Lewis, M. (Org.). (2000a). Teaching Collocation: Further Developments in the Lexical Approach. Hove: LTP.

Lewis, M. (2000b). There is nothing as practical as a good theory. In M. Lewis (Org.), Teaching Collocation – Further Developments in the Lexical Approach (pp. 10-27).
Hove: LTP.

Lewis, M., McCarthy, M., & Schmitt, N. (1996). Vocabulary as lexical chunks: Descriptive psycholinguistic and pedagogical perspectives. Colloquium, 30th TESOL Annual
Convention, Chicago, Ill, USA, 27 March 1996.

Lott, B. (1995). News from the corpus – like to do / like doing. Modern English Teacher, 4, 19-20.

Louw, B. (1993). Irony in the text or insincerity in the writer: the diagnostic potential of semantic prosodies. In M. Baker, G. Francis, & E. Tognini-Bonelli (Orgs.), Text and
technology – Essays in honor of John McH Sinclair. Amsterdam/Atlanta,GA: John Benjamins.

Mel’cuk, I. (1998). Collocations and lexical functions. In A. P. Cowie (Org.), Phraseology — Theory, Analysis, and Application (pp. 23-54). Oxford: Clarendon Press.

Milton, J. (1998). Learner corpus data in the foreign language classroom: Form-focused instruction and data-driven learning. In S. Granger (Org.), Learner English on
Computer (pp. 199-209). New York: Longman.

Moon, R. (1998). Fixed Expressions and Idioms in English – A Corpus-Based Approach. Oxford: Clarendon Press.

Owen, C. (1996). Do concordances require to be consulted? ELT Journal, 50, 219-224. Partington, A. (1998). Studies in Corpus Linguistics 2. Patterns and Meanings – Using Corpora for English Language Research and Teaching. Amsterdam/Philadelphia: John Benjamins.

Pawley, A., & Syder, H. (1983). Two puzzles for linguistic theory: Native-like selection and native-like fluency. In J. Richards & R. Schmidt (Orgs.), Language and Communication (pp. 191-226). London: Longman

Phillips, M. (1989). Discourse analysis monographs: 12. Lexical Structure of Text. Birmingham: ELR, University of Birmingham.

Sinclair, J. McH. (1987). Collocation: a progress report. In R. Steele & T. Threadgold (Orgs.), Language topics – Essays in honour of Michael Halliday (Vol. 2, pp. 319-332).
Amsterdam/Philadelphia: John Benjamins.

Sinclair, J. McH. (1988). Naturalness in language. ELR Journal, 2, 11-20.

Sinclair, J. McH. (1991). Corpus, Concordance, Collocation. Oxford: Oxford University Press.

Sinclair, J. McH. (1997). Corpus evidence in language description. In A. Wichmann, S. Fligelstone, T. McEnery, & G. Knowles (Orgs.), Teaching and language corpora (pp.
27-39). London and New York: Longman.

Sinclair, J. McH. et al. (1995). COBUILD English Dictionary (New ed.). London: Collins COBUILD.

Stubbs, M. (1995). Corpus evidence for norms of lexical collocation. In G. Cook & B. Seidlhofer (Orgs.), Principle and Practice in Applied Linguistics- Studies in Honour of
H G Widdowson (pp. 245-256). Oxford University Press: Oxford.

Stubbs, M. (1996). Text and Corpus Analysis — Computer-Assisted Studies of Language and Culture. Oxford: Blackwell.

Teliya, V., Bragina, N., Oparina, E., & Sandomirskaya, I. (1998). Phraseology as a language of culture: Its role in the represenation of a cultural mentality. In A. P. Cowie (Org.), Phraseology — Theory, Analysis, and Application (pp. 55-78). Oxford: Clarendon Press.

Tribble, C., & Jones, G. (1990). Concordances in the classroom – A resource book for teachers. London: Longman.

Willis, J. (1998). Concordances in the classroom without a computer: Assembling and exploiting concordances of common words. In B. Tomlinson (Org.), Materials
development in language teaching (pp. 44-66). Cambridge: Cambridge University Press.

Woolard, G. (2000). Collocation – Encouraging learner independence. In M. Lewis (Org.), Teaching Collocation – Further Developments in the Lexical Approach (pp. 28-46). Hove: LTP.

 

Compartilhe...Share on FacebookShare on Google+Tweet about this on TwitterShare on LinkedIn

Leia Mais

Linguística de Corpus – histórico e problemática

Linguística de Corpus: Histórico e Problemática

(Corpus Linguistics: History and Problematization)

Tony Berber SARDINHA
(LAEL, PUC-SP)

ABSTRACT: This paper offers an overview of Corpus Linguistics, which is a research area that has experienced a considerable growth in the past years and which has made a considerable impact on linguistics. The overview looks at both the past and the present of Corpus Linguistics. The main concepts in the area are presented and debated, and the paper also comments on the main theoretical aspects in the field. The principal corpora and software are reviewed.
KEY-WORDS: Corpus Linguistics, corpora, history of Corpus Linguistics, theory of Corpus Linguistics.

RESUMO: O presente trabalho oferece uma retrospectiva da Linguística de Corpus, uma área de pesquisa que tem experimentado um crescimento vertiginoso nos últimos anos e que tem tido um impacto considerável na linguística. A retrospectiva inclui tanto um painel histórico quanto um posicionamento em relação aos debates correntes e desenvolvimentos futuros da área. Os conceitos principais em voga na área são apresentados e discutidos. O trabalho ainda comenta os fatos mais marcantes na Lingüística de Corpus em relação à teoria e à prática, elencando os principais corpora em existência bem como as mais importantes contribuições no campo de programas de computador para análise e exploração desses corpora.
PALAVRAS-CHAVE: Lingüística de Corpus, 
corpora, história da Lingüística de Corpus, teoria da Lingüística de Corpus.

1. Introdução

No ano de 1999 comemorou-se o aniversário de 35 anos da criação do primeiro corpus lingüístico eletrônico, o corpus Brown. Lançado em 1964, o Brown University Standard Corpus of Present-Day American English, continha uma quantidade invejável de dados para a época: um milhão de palavras. Há 35 anos as dificuldades de se informatizar um conjunto de textos eram tremendas. Vale lembrar, por exemplo, que os textos tiveram de ser transferidos para o computador por meio de cartões, perfurados um a um, tal era a tecnologia da época. Este feito, por si só, já traria respeito e admiração à empreitada.

Mas não foi somente o pioneirismo1 que garante uma posição de destaque para o corpus Brown. Há também a conjuntura histórica. O corpus Brown foi lançado justamente numa época em que a idéia de se gastar tempo e recursos financeiros para a coleta de registros lingüísticos era vista com total incredulidade e até hostilidade. Lembremo-nos de que há apenas 7 anos havia sido lançado ‘Syntactic Structures’, obra de Noam Chomsky, que teria papel fundamental em nada menos do que uma mudança de paradigma na lingüística. Dentro desta visão de linguagem, que se instauraria a partir desta obra de Chomsky, os dados necessários para o lingüista estavam em sua mente e eram acessíveis por meio da introspecção. Não havia necessidade de coletar-se dados abundantes de terceiros. Estes serviriam apenas para o estudo do desempenho, quando todos sabiam que o que interessava era a investigação da competência lingüística. Portanto, o corpus Brown surgira numa época em que seu mérito era discutido.

Esta nota histórica tem a função não só de homenagear o corpus Brown como tal, mas também (e principalmente) de salientar sua importância enquanto fato que  impulsionou o desenvolvimento da área conhecida atualmente por Lingüística de Corpus, uma das áreas de pesquisa de linguagem mais ativas nos últimos anos2. Não que ela não existisse não fosse o corpus Brown, mas com certeza seria muito diferente. Este artigo irá se ocupar não desse corpus , em particular, mas da Lingüística de Corpus em geral. O objetivo do trabalho é aproveitar o ensejo da comemoração do aniversário do corpus Brown para fazer uma retrospectiva da Lingüística de Corpus, na qual se pretende apresentar os principais marcos na sua história, como também discutir algumas questões teóricas e práticas subjacentes a ela. A maior parte do texto será dedicada ao processamento da língua inglesa, visto que é em relação a esta língua que se deu o maior desenvolvimento na área.

2. A Lingüística de Corpus e seu histórico

A Lingüística de Corpus ocupa-se da coleta e exploração de corpora, ou conjuntos de dados lingüísticos textuais que foram coletados criteriosamente com o propósito de servirem para a pesquisa de uma língua ou variedade lingüística. Como tal, dedica-se à exploração da linguagem através de evidências empíricas, extraídas por meio de computador.

Havia corpora antes do computador, já que o sentido original da palavra ‘corpus’ é ‘corpo’, ‘conjunto de documentos’ (conforme o dicionário Aurélio). Na Grécia Antiga, Alexandre, o Grande definiu o Corpus Helenístico. Na Antiguidade e na Idade Média, produziam-se corpora de citações da Bíblia.

Durante boa parte do século XX houve muitos pesquisadores que se dedicaram à descrição da linguagem por meio de corpora, entre eles educadores como Thorndike e lingüistas de campo como Boas. Há duas diferenças fundamentais entre esta época e a atual. A primeira, obviamente, é que os corpora não eram eletrônicos, ou seja, eram coletados, mantidos e analisados manualmente. A segunda é que a ênfase destes trabalhos era em geral o ensino de línguas. Atualmente o que prepondera na literatura é a descrição de linguagem e não a pedagogia, embora recentemente tenha ressurgido um interesse no emprego de corpora na sala-de-aula e na investigação da linguagem de alunos de língua (Granger, 1998).

Um trabalho fenomenal, dada as condições da época, foi a identificação das palavras mais freqüentes da língua inglesa, feita por Thorndike há mais de 75 anos atrás (Thorndike, 1921). O levantamento foi feito manualmente em um corpus de nada menos de 4,5 milhões de palavras, e, quando publicado, impulsionou mudanças no ensino de língua materna e estrangeira, tanto nos Estados Unidos quanto na Europa. As abordagens baseadas no controle do vocabulário, nas quais os alunos têm contato em primeiro lugar com as palavras mais freqüentes,devem sua inspiração a estudos como o de Thorndike. Quase 25 anos mais tarde, Thorndike revisou seu levantamento inicial e, tomando como base um corpus maior, com impressionantes 18 milhões de palavras, publicou uma obra listando as 30 mil palavras mais comuns da língua inglesa. Logo depois, em 1953, veio o ‘General Service List of English Words’ de Michael West (West, 1953), talvez a mais famosa descrição do léxico inglês pré-computador. A pesquisa de West dá detalhes do que seriam as 2 mil palavras mais freqüentes do inglês e baseou-se no trabalho de pioneiros como Thorndike e Lorge.

Foi um corpus não computadorizado que deu feição aos corpora atuais, o SEU (Survey of English Usage), compilado por Randolf Quirk e sua equipe, em Londres, a partir de 1953. O SEU foi planejado para ter o tamanho de 1 milhão de palavras, depois tido como referência por outros corpora, inclusive o Brown. A composição do corpus também foi influente, ao definir um número fixo de textos (200) e uma quantidade de palavras igual para cada texto (5000). O Survey foi organizado em fichas de papel, cada um contendo uma palavra do corpus inserida em 17 linhas de texto. As palavras foram analisadas gramaticalmente, com cada ficha recebendo uma categoria gramatical. O conjunto de categorias resultante serviu de base para o desenvolvimento dos etiquetadores computadorizados contemporâneos, que fazem a identificação de traços gramaticais automaticamente. A famosa Comprehensive Grammar of the English Language de Quirk, Greenbaum, Leech e Svartvik foi baseada no SEU. A transformação completa do Survey em corpus eletrônico só foi atingida muitos anos depois, em 1989, mas a sua parte falada foi computadorizada antes e ficou conhecida como o London-Lund Corpus.

No final dos anos 50 apareceria ‘Syntactic Structures’, de Chomsky, e com ele uma mudança de paradigma na lingüística: saía de cena o empirismo e com ele a sustentação dos trabalhos baseados em corpora, tomando lugar central as teorias racionalistas da linguagem (vide discussão abaixo), notadamente a lingüística gerativa. Além do apelo natural da lingüística Chomskyana, outro fator que contribuiu para a perda de fôlego de abordagens baseadas em corpus foi uma crescente leva de críticas sobre o processamento manual de corpora. Uma das críticas mais contundentes era exatamente que o processamento de corpora gigantescos, como o de Thorndike, com 18 milhões de palavras, por meios manuais, não era confiável. O ser humano não é talhado para tarefas deste tipo. Não seria o caso de simplesmente aumentar a equipe de analistas para resolver o problema, pois este trabalho já era realizado com grandes contingentes de assistentes. A pesquisa de Käding, por exemplo, sobre a ortografia do alemão, consumiu a mão-de-obra de 5000 analistas! Os problema da possibilidade de erro e de falta de consistência persistem, ou até pioram, com grandes equipes. A outra alternativa era diminuir o tamanho dos corpora para facilitar a inspeção manual, mas isto atentava contra a própria natureza da pesquisa. O que faltava era justamente um instrumento que permitisse a análise de grandes quantidades de dados de modo confiável, mas a tecnologia da época não permitia isso.

A invenção do computador mudou este quadro. Nos anos 60, os computadores mainframe passaram a equipar centros de pesquisa universitários e foram sendo aproveitados para a pesquisa em linguagem. Com a popularização dos computadores, foi possibilitado o acesso de mais pesquisadores ao processamento de linguagem natural e, concomitantemente, a sofisticação do equipamento permitiu a consecução de tarefas mais complexas, mais eficientemente, sem falar no aumento da capacidade de armazenamento e na introdução de novas mídias (fitas magnéticas, em vez de cartões hollerith perfurados, etc.), as quais facilitaram a criação e manutenção de corpora em maior número. Com a entrada em cena dos micro-computadores pessoais, nos anos 80, uma nova onda de mudanças aconteceu, como a popularização de corpora e de ferramentas de processamento, o que contribuiu decisivamente para o reaparecimento e fortalecimento da pesquisa lingüística baseada em corpus.

Hoje em dia, a Lingüística de Corpus é de grande influência na pesquisa lingüística, em vários centros. Na Grã-Bretanha, um dos centros mais desenvolvidos, várias universidades (Birmingham, Brighton, Lancaster, Liverpool, Londres, etc.) dedicam-se à pesquisa baseada em corpus para a descrição dos mais variados aspectos da linguagem. A pesquisa em instituições britânicas tem possibilitado tanto a teorização quanto a criação de corpora e de materiais de apoio em diversas áreas. Igualmente, nos países escandinavos (Noruega, Suécia e Dinamarca) existem centros estabelecidos dedicados à Lingüística de Corpus com um papel atuante há vários anos.

Fora da Europa, a Lingüística de Corpus não está tão desenvolvida, mas já possui centros nos quais a pesquisa está instalada. Paradoxalmente, nos Estados Unidos, tendo-se em vista a pujança de seus centros de pesquisa e a facilidade de obtenção de recursos de informática, a Lingüística de Corpus tem uma presença mais modesta. Uma explicação é a força da lingüística gerativa-transformacional nos departamentos de lingüística, a qual conflita naturalmente com a Lingüística de Corpus. Evidência disto é que um dos maiores expoentes da Lingüística de Corpus mundial, o americano Douglas Biber, atua em um departamento de inglês. Por outro lado, há nos Estados Unidos um alto estágio de desenvolvimento na pesquisa em Processamento de Linguagem Natural (PLN), tanto em nível acadêmico quanto industrial (as empresas de informática investem pesado na pesquisa lingüística com fins comerciais). O Processamento de Linguagem Natural é uma disciplina com laços fortes com a Ciência da Computação e, embora compartilhe vários temas com a Lingüística de Corpus, as duas mantém-se independentes.

No Brasil, a Lingüística de Corpus ainda é incipiente. A pesquisa em corpus se dá em centros mais voltados ao Processamento de Linguagem Natural, Lexicografia e à lingüística Computacional (vide Berber Sardinha, 1999).

Não é só nos centros acadêmicos que a Lingüística de Corpus tem ganhado espaço. Também no âmbito empresarial tem havido um interesse crescente nas aplicações comerciais de estudos baseados em corpora. Primeiramente, deve-se destacar as parcerias entre empresas e universidades. Aqui a norma é a associação de um centro de pesquisa em Lingüística de Corpus com uma editora. O pioneiro neste sentido é o COBUILD, uma parceria entre a Universidade de Birmingham (Grã-Bretanha) e a editora Collins. No âmbito do COBUILD foram produzidos vários dicionários, gramáticas e livros didáticos para o ensino do inglês. Atualmente quase desativado, o COBUILD permanece como referência no desenvolvimento e aplicação da pesquisa baseada em corpus com fins comerciais.

Os principais membros do COBUILD vieram a fundar ou a se incorporar a outros centros. Antoinette Renouf, por exemplo, pesquisadora sênior no projeto COBUILD, veio a instituir a Unidade de Pesquisa e Desenvolvimento junto à Universidade de Liverpool (Grã-Bretanha), que se dedica a parcerias entre as empresas e a universidade. Parcerias semelhantes ao COBUILD entre empresas e universidades britânicas hoje são comuns, notadamente voltadas para a produção de dicionários, como por exemplo entre o grupo Addison-Wesley/Longman e a universidade de Lancaster (Grã-Bretanha).

Em segundo lugar, há um desenvolvimento crescente de centros de pesquisa mantidos por empresas. Estes centros utilizam-se de pesquisas baseadas em corpus para várias finalidades comerciais, como o processamento automático de textos, informatização de grandes bases de dados e a montagem de sistemas inteligentes de reconhecimento de voz e gerenciamento de informação. As grandes empresas de telecomunicações investem nestas áreas, reconhecendo o potencial econômico deste campo. Outras empresas de produtos de informática como a Xerox, Microsoft e Canon também possuem centros desenvolvidos de pesquisa de corpus e Processamento de Linguagem Natural.

A história da Lingüística de Corpus está, portanto, intimamente ligada à disponibilidade de corpora eletrônicos. Os principais corpora compilados, ou em compilação, até hoje são: 

a05fig01A partir da tabela anterior, pode-se perceber três corpora eletrônicos que servem como marcos de referência históricos: Brown, Birmingham e BNC. O corpus Brown é um marco por razões óbvias: é o pioneiro. O corpus Birmingham é importante porque foi o primeiro a ultrapassar a marca de 1 milhão de palavras iniciada pelo Brown. Vale lembrar que o corpus Birmingham se tornaria o Bank of English, sempre em crescimento, atingindo agora 320 milhões de palavras. Por fim, o BNC é um marco histórico porque foi o primeiro a conter 100 milhões de palavras e ainda é, dentre os mega-corpora, o único disponível para compra (dentro da Comunidade Européia apenas). O Bank of English é de acesso restrito aos pesquisadores ligados ao COBUILD e à editora Collins.

Os corpora elencados acima são de língua inglesa, mas há corpora de várias outras línguas: francês (http://hydre.auteuil.cnrs-dir.fr/cnrseditions/sources/sTlf.asp), espanhol (Sanchez et al., 1995), alemão (http://corpora.ids–mannheim.de/~cosmas), tcheco (Cermak, 1997), chinês (Zhou e Yu, 1997) e Estoniano (Hennoste et al., 1998), para mencionar apenas algumas.

Na língua portuguesa, há vários corpora eletrônicos de destaque, tais como o Corpus de Araraquara, o de São Carlos (NILC), o CRPC (Corpus de referência do português contemporâneo), o Banco de Português, o PORTEXT, o Tycho-Brahe (português histórico) e o Corpus Natura, para citar apenas alguns. A pesquisa com corpora eletrônicos no Brasil já vem de longa data. Biderman (1978, pp.265-266) cita o corpus do ‘Frequency Dictionary of Portuguese Words’ como um dos primeiros corpora eletrônicos de português. Esse corpus continha 500 mil palavras de português europeu, referentes a publicações de 1920 a 1940. O dicionário de freqüências feito a partir dele foi concluído em 1972 mas permanece inédito (Duncan Jr, 1972). Biderman (1978, pp. 65-67) ainda menciona vários outros corpora pioneiros no Brasil, usados para pesquisas no campo da Estatística Léxica, destacando-se os compilados por Jean Roche (Universidade de Toulouse, França, na década de 1960), J. Hutchins (Academia Naval de Anápolis, EUA, anos 1970), Cléa Rameh (Universidade Stanford, EUA, 1972), além daquele compilado por ela mesma (Maria Teresa Biderman, USP, 1969) e de uma série de corpora de textos literários de autores brasileiros construídos e analisados por uma equipe do ITA (São José dos Campos). Castilho et al. (1995) oferecem um panorama dos projetos de criação e informatização de corpora em várias regiões do Brasil. O levantamento indicou que havia um interesse na criação de corpora por parte de vários grupos de pesquisa, embora o índice de informatização estivesse apenas pouco acima de 50%. Castilho et al. (1995) concluem pormenorizando o que seria o Banco de Dados da Língua Portuguesa, um corpus de língua escrita e falada, o qual não foi concretizado.

Esses e outros corpora proporcionaram o acúmulo de uma extensa obra em Lingüística de Corpus, cujos principais marcos, a nosso ver, são os seguintes:

  • Sinclair, 1966. O trabalho pioneiro na área de léxico que traçou os caminhos da maioria da pesquisa em Lingüística de Corpus feita até hoje.

  • Leech, 1966. O primeiro trabalho sobre análise de corpus publicado por Geoffrey Leech, um dos maiores lingüistas de corpus de todos os tempos, no qual ele antecipa a necessidade de análises detalhadas de corpora via computador.

  • Francis, W. N. e Kucera, 1982. A descrição por computador das freqüências do pioneiro dos corpora, o Brown.

  • Sinclair et al., 1987. Lançamento do dicionário COBUILD, o primeiro a ser compilado a partir de um corpus computadorizado. Seus verbetes e definições foram compostos com informações provenientes do corpus. Hoje em dia, o emprego de corpora na produção de dicionários, em língua inglesa pelo menos, tornou-se rotineira.

  • Aijmer e Altenberg, 1991. A primeira grande obra que adota a expressão ‘Corpus Linguistics’ no título.

  • Svartvik, 1992. A academia de ciências da Suécia dedica um de seus célebres seminários ‘Nobel’ à Lingüística de Corpus. Os mais renomados lingüistas da época comparecem para apresentar um painel do estado da arte naquele momento.

  • Biber, 1988. O trabalho monumental de descrição da composição lingüística de gêneros da língua inglesa a partir de dois dos mais famosos corpora (LOB e London-Lund) abriu os olhos de muitos pesquisadores para a necessidade da investigação do texto. O autor, hoje um dos mais atuantes na Lingüística de Corpus, não se intitulava ‘lingüista do corpus’ então.

  • Sinclair, 1991. O maior lingüista de corpus da história reúne alguns de seus trabalhos principais em uma obra que encerra muitas das idéias centrais da área em aplicação até hoje, notadamente ‘colocação’.

  • Kjellmer, 1994. Primeiro dicionário de colocações baseado em corpus (no caso, o próprio Brown), elaborado a partir de padrões recorrentes identificados estatisticamente. O seu predecessor, o dicionário BBI de colocações (Benson et al., 1986), não dá indicação clara de ter sido criado seguindo os mesmo princípios.

  • McEnery e Wilson, 1996. Um manual de Lingüística de Corpus de tom didático e com ampla cobertura de conceitos práticos e teóricos. Ao contrário dos trabalhos anteriores, os quais se voltavam a pesquisadores formados, dedica-se a alunos de Lingüística de Corpus, um dos nichos mais importantes da área. Denota a expansão da área.

  • Francis, G. e Hunston, 1996. Primeira ‘gramática do léxico’, descreve de modo amplo e profundo os padrões verbais da língua inglesa a partir de um corpus, seguindo o princípio básico da identificação de colocações recorrentes por computador. O segundo volume foi lançado a seguir, dedicado aos substantivos e adjetivos (Francis, G. e Hunston, 1998). A formulação teórica dos princípios seguidos nas gramáticas apareceu mais recentemente em Hunston e Francis (2000).

  • Biber et al., 1998. Este outro manual de Lingüística de Corpus proporciona uma perspectiva americana da área que até então era dominada exclusivamente por trabalhos provenientes de centros de pesquisa europeus.

  • Granger, 1998. Coletânea que reúne trabalhos voltados a uma das áreas que mais crescem: a aplicação de corpus no ensino e na aprendizagem de línguas. Também consolida um tipo de corpus diferente dos demais, o corpus de aprendizes, formado por amostras de falantes não-nativos.

  • Partington, 1998. Volta-se diretamente ao praticante da Lingüística de Corpus ‘caseira’, isto é, aqueles que trabalham com computadores pessoais e corpora pequenos. Fala mais diretamente ao professor de línguas e ao tradutor.

Além dessas obras específicas, a cronologia de outros veículos importantes de divulgação da pesquisa da área é:

  • 1979. Primeira conferência ICAME, até hoje o fórum regular mais importante da área. Ainda é um evento exclusivo, onde os participantes são convidados.

  • 1994. Primeira conferência bienal TALC (Teaching and Learning Corpora), especializada na aplicação de corpora no ensino e aprendizagem de línguas.

  • 1997. Primeira conferência PALC (Practical Applications of Language Corpora). Inspirada no sucesso da TALC, leva a Lingüística de Corpus para fora da Europa ocidental, favorecendo os pesquisadores do antigo bloco comunista que há muito se dedicavam a questões de lingüística de corpus.

  • 1996. Primeira edição do International Journal of Corpus Linguistics, o primeiro (e até agora único) periódico dedicado exclusivamente à Lingüística de Corpus.

  • 1998. Lançamento do primeiro volume da série ‘Studies in Corpus Linguistics’ da editora Benjamins, a primeira série de livros que se faz valer do rótulo ‘Lingüística de Corpus’.

A história da Lingüística de Corpus está condicionada à tecnologia, que permite não somente o armazenamento de corpora, mas também a sua exploração. Por isso, a história da área está relacionada à disponibilidade de ferramentas computacionais para análise de corpus, dentre as quais se destacam as seguintes:

  • 1970. TAGGIT, o primeiro etiquetador morfossintático para computador.

  • 1979. CLAWS, o etiquetador mais famoso em utilização, usado na sua forma atual para anotar o BNC (British National Corpus). Roda em mainframes.

  • 1987. TACT. Um dos programas pioneiros para micro-computadores, permite a consecução das tarefas principais de análise de corpus (listagem de palavras e concordâncias).

  • 1988. OCP. The Oxford Concordance Program, um dos principais concordanceadores usados em microcomputadores e estações de trabalho.

  • 1993. MicroConcord. O mais famoso, simples e robusto programa de concordância para micro-computadores, até hoje.

  • 1995. WordSmith Tools. Primeiro a aproveitar os recursos do ambiente Windows para análise de corpus, divulga a Lingüística de Corpus entre usuários de micro-computadores. Ainda hoje, depois de muitas versões, o mais completo e versátil conjunto de ferramentas para Lingüística de Corpus.

  • 1997. Brills tagger para DOS. Versão para micro-computadores do etiquetador Brill, um dos mais famosos e mais facilmente disponíveis para a comunidade. Permite que o usuário de micro-computadores faça, além de contagens de palavras e concordâncias, a etiquetagem de seu corpus. Para a maioria dos usuários sem grande conhecimento técnico, restringe-se a corpora em inglês.

  • 1998. QTAG. A etiquetagem entra na era multiplataforma com este etiquetador para Java. Agora o mesmo etiquetador para grandes máquinas roda em micros também. Além disso, quebra a hegemonia da etiquetagem do inglês, pois permite que o usuário treine o etiquetador para análise de outras línguas.

3. Corpus: Tipologia, Representatividade e Extensão

Central à Lingüística de Corpus atual é a existência de uma coletânea de dados lingüísticos naturais, legíveis por computador. Mas nem todo conjunto de dados é considerado um corpus:

  • Arquivo: depósito de textos sem organização prévia;

  • Biblioteca eletrônica: Coleção que segue alguns critérios de seleção;

  • Corpus: Uma parte da biblioteca eletrônica, construído a partir de um desenho explícito, com objetivos específicos;

  • Sub-corpus: Uma parte de um corpus, pode ser fixa ou mutável (dinâmica, i.e. flexível durante a análise) (Atkins et al., 1992, p. 1)

Proliferam na literatura definições de corpus. Algumas das mais importantes são apresentadas a seguir.

‘Uma coletânea de textos naturais (‘naturally occurring’), escolhidos para caracterizar um estado ou variedade de linguagem’. (Sinclair, 1991, p. 171).

Por textos naturais entende-se ‘autênticos’, isto é, aqueles que existem na linguagem e que não foram criados com o propósito de figurarem no corpus. Além disso, amplia-se a idéia de ‘natural’ para incluir somente aqueles textos produzidos por humanos. Desta forma está excluída a produção provinda de programas de geração de textos.

Um problema com esta definição é que ela não deixa claro o propósito da criação do corpus. Por isso, deve-se incorporar a ela a complementação abaixo:

‘[Corpus é] um corpo de linguagem natural (autêntica) que pode ser usado como base para pesquisa lingüística’. (Sinclair, 1991, p. 171)

Agora estabelece-se que um corpus é um artefato produzido para a pesquisa. Assim, se por um lado os textos devam ser naturais (autênticos e independentes do corpus), o corpus em si é artificial, um objeto criado com fins específicos de pesquisa. Estes dois posicionamentos estão presentes na conceituação abaixo:

‘Corpus é uma coletânea de porções de linguagem que são selecionadas e organizadas de acordo com critérios lingüísticos explícitos, a fim de serem usadas como uma amostra da linguagem’. (Percy et al., 1996, p. 4).

É importante destacar na definição o termo ‘porções de linguagem’, empregado em lugar de ‘textos’. Isto se deve ao fato dos problemas relacionados à delimitação do conceito de ‘texto’, já que se pode considerar tanto um artigo científico, quanto o seu resumo inicial, quanto um trecho de conversação, como texto. Por isso se fala aqui em porções de linguagem, um conceito que acomoda estas três instâncias.

Por não seguirem estes preceitos, a definição a seguir é inadequada:

‘Um corpo de material lingüístico que existe em formato eletrônico e que pode ser processado por computador para vários propósitos.’ (Leech, 1997, p. 1)

Esta definição permitiria que qualquer conjunto de textos eletrônico fosse considerado um corpus. Mas conforme dito antes, um corpus deve ser planejado e concretizado seguindo critérios lingüísticos de seleção.

A definição a seguir também é inapropriada:

‘Corpus de material lingüístico natural (textos inteiros, amostra de textos, ou às vezes somente sentenças desconexas), que são armazenadas em formato legível por máquina’. (Leech, 1991, pp. 115-116)

Esta definição permite não somente que qualquer coletânea eletrônica seja um corpus, mas que também qualquer conteúdo eletrônico o seja, tais como sentenças soltas. A princípio, a linguagem natural autêntica não é formada de fragmentos desconexos e, portanto, sentenças soltas não seriam representantes da linguagem. A exceção seria se o corpus fosse criado exatamente para ser uma coletânea de frases soltas.

A definição a seguir faz menção à extensão do corpus:

‘Uma coletânea grande e criteriosa de textos naturais’ (Biber et al., 1998 , p. 4)

Por criteriosa entende-se que deva ela refletir a variedade escolhida o mais fielmente possível. Além de ser compatível com os objetivos da pesquisa (Hasan, 1992), a escolha deve ser feita com cuidado, visando a incorporar somente aquele material necessário para representar a amostra que se deseje. Por exemplo, se se quiser construir um corpus geral de uma língua, deve-se fazer uma escolha a mais variada possível: ela deve incluir o maior número possível de registros encontrados na língua-alvo e cada registro, por sua vez, deve ter o maior número possível de exemplares. Se por outro lado se desejar um corpus de uma variedade específica, deve-se ser o mais seletivo possível na escolha dos exemplares, para que os mesmos reflitam de fato a variedade escolhida, ou seja, para que não hajam vieses nem contaminações.

A definição que incorpora as características principais já mencionadas nas anteriores é:

‘Um conjunto de dados lingüísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise’ (Sanchez, 1995, pp. 8-9)

Esta definição é mais completa porque incorpora vários pontos importantes:

(a) A origem: Os dados devem ser autênticos
(b) O propósito: O corpus deve ter a finalidade de ser um objeto de estudo lingüístico
(c) A composição: O conteúdo do corpus deve ser criteriosamente escolhido
(d) A formatação: Os dados do corpus devem ser legíveis por computador
(e) A representatividade: O corpus deve ser representativo de uma língua ou variedade
(f) A extensão: O corpus deve ser vasto para ser representativo

Em resumo, os quatro pré-requisitos para a formação de um corpus computadorizado são:

(1) Primeiramente, o corpus deve ser composto de textos autênticos, em linguagem natural. Assim, os textos não podem ter sido produzidos com o propósito de serem alvo de pesquisa lingüística. E não podem ter sido criados em linguagem artificial, tais como linguagem de programação de computadores ou notação matemática.

(2) Em segundo lugar, quando se fala em autenticidade dos textos, subentende-se textos escritos por falantes nativos. Tanto assim que, quando este não é o caso, deve-se qualificá-lo, falando-se em corpora ‘de aprendizes’ (‘learner corpora’).

(3) O terceiro pré-requisito é que o conteúdo do corpus seja escolhido criteriosamente. Os princípios da escolha dos textos devem seguir, acima de tudo, as condições de naturalidade e autenticidade. Mas devem também obedecer a um conjunto de regras estabelecidas pelos seus criadores de modo que o corpus coletado corresponda às características que se deseja dele. Ou seja, o conteúdo do corpus deve ser selecionado a fim de garantir que o corpus tenha uma certa característica. Por exemplo, se o desejo é construir um corpus de português brasileiro escrito que represente a língua portuguesa, tal qual ela é escrita no Brasil, em sua totalidade, a coleta deve ser guiada por um conjunto de critérios que garanta, entre outras coisas, que o maior número possível de tipos textuais existentes no português brasileiro esteja representado, que haja uma quantidade aceitável de cada tipo de texto e que a seleção dos textos seja aleatória, a fim de que não se contamine a coleta com variáveis indesejáveis.

(4) O quarto pré-requisito é mais problemático: representatividade. Tradicionalmente, tende-se a ver um corpus como um conjunto representativo de uma variedade lingüística ou mesmo de um idioma. Mas a questão não pode ser enfocada no vácuo. Cabe se perguntar ‘representativo do quê?’ e ‘representativo para quem?’. A questão da representatividade é discutida abaixo com mais detalhes.

3.1. Tipologia

A nomenclatura empregada na Lingüística de Corpus para se definir o conteúdo e o propósito dos corpora é muito extensa. Os tipos principais citados na literatura são apresentados abaixo, agrupados segundo alguns critérios:

Modo

  • Falado: Composto de porções de fala transcritas.

  • Escrito: Composto de textos escritos, impressos ou não.

Tempo

  • Sincrônico: Compreende um período de tempo.

  • Diacrônico: Compreende vários períodos de tempo.

  • Contemporâneo: Representa o período de tempo corrente.

  • Histórico: Representa um período de tempo passado.

Seleção

  • De amostragem (sample corpus): Composto por porções de textos ou de variedades textuais, planejado para ser uma amostra finita da linguagem como um todo.

  • Monitor: A composição é reciclada para refletir o estado atual de uma língua. Opõe-se a corpora de amostragem.

  • Dinâmico ou orgânico: O crescimento e diminuição são permitidos, qualifica o corpus monitor.

  • Estático: Oposto de dinâmico, caracteriza o corpus de amostragem.

  • Equilibrado (balanced): Os componentes (gêneros, textos, etc.) são distribuídos em quantidades semelhantes (por exemplo, mesmo número de textos por gênero).

Conteúdo

  • Especializado: Os textos são de tipos específicos (em geral gêneros ou registros definidos).

  • Regional ou dialetal: Os textos são provenientes de uma ou mais variedades sociolingüísticas específicas.

  • Multilíngüe: Inclui idiomas diferentes.

Autoria

  • De aprendiz: Os autores dos textos não são falantes nativos.

  • De língua nativa: Os autores são falantes nativos.

Disposição interna

  • Paralelo: Os textos são comparáveis (p.ex. original e tradução).

  • Alinhado: As traduções aparecem abaixo de cada linha do original.

Finalidade

  • De estudo: O corpus que se pretende descrever.

  • De referência: Usado para fins de contraste com o corpus de estudo.

  • De treinamento ou teste: Construído para permitir o desenvolvimento de aplicações e ferramentas de análise.

Além dos critérios acima, é possível propor alguns outros meios para a classificação dos corpora segundo sua composição:

(a) Pluralidade de autoria: Os textos3 foram produzidos por um autor apenas ou mais?
(b) Origem da autoria: Os textos foram produzidos por falantes nativos ou não-nativos?
(c) Meio: Os textos foram escritos ou falados4?
(d) Integralidade: Os elementos do corpus são textos integrais ou fragmentos?
(e) Especificidade: O corpus é composto de tipos variados de texto ou textos específicos?
(f) Dialeto: As variedades presentes no corpus são do tipo ‘padrão’ ou regionais / dialetais?
(g) Equilíbrio: As variedades do corpus são distribuídas eqüitativamente ou não?
(h) Fechamento: É permitida a inclusão de conteúdos novos ou não?
(i) Renovação: O conteúdo do corpus reflete um período definitivo de tempo ou se renova?
(j) Temporalidade: O corpus é planejado para retratar períodos históricos de tempo ou não?
(k) Plurilingüísmo: O corpus possui só textos originais ou também as traduções destes textos para uma ou mais línguas?

  • Intercalação: As traduções dos textos são incorporadas a cada linha do texto original ou vêm em textos separados?
    (A partir de Atkins et al., 1992, p. 6):

3.2. Representatividade

Na sua essência, um corpus, seja de que tipo for, é tido como representativo da linguagem, de um idioma, ou de uma variedade dele. Ou, como diz Leech, o corpus possui uma função representativa. A característica mais facilmente associada à representatividade é justamente a extensão do corpus, o que significa em termos simples que para ter representatividade o corpus deve ser o maior possível (Sinclair, 1991; vide seção a seguir). Isto se deve a dois fatores:

(a) A linguagem é um sistema probabilístico (Halliday, 1991, 1992), onde certos traços são mais freqüentes que outros:
(i) No caso do léxico, pode-se diferenciar as palavras entre aquelas de ‘maior freqüência’ e as de ‘menor freqüência’, sendo que a diferença entre elas é relativa. Assim, algumas palavras têm freqüência de ocorrência muito rara e, para que haja probabilidade de ocorrerem no corpus, é necessário incorporar-se uma quantidade grande de palavras ao corpus. Em outras palavras, quanto maior a quantidade de palavras, mais probabilidade há de palavras de baixa freqüência aparecerem.
(ii) No caso dos sentidos das palavras, também se pode distinguir entre os sentidos mais freqüentes e os menos freqüentes dos itens lexicais. Assim, mesmo palavras de alta freqüência têm sentidos raros (por exemplo, ‘serviço’ entendido como ‘saque’ no jogo de tênis) e, portanto, esses sentidos terão maior probabilidade de ocorrer quanto maior for o corpus.

(b) O corpus é uma amostra de uma população cuja dimensão não se conhece (a linguagem como um todo). Desse modo, não se pode estabelecer qual seria o tamanho ideal da amostra para que ela represente esta população. Uma salvaguarda neste caso é tornar a amostra a maior possível (Sinclair, 1991), a fim de que ela se aproxime o mais possível da população da qual deriva, sendo assim mais representativa.

Não há critérios objetivos para a determinação da representatividade. Por isso, uma amostra deve ter, além das características acima mencionadas, uma dada extensão. Assim, quando se diz que um corpus deva ser representativo, entende-se representatividade em termos da extensão do corpus, isto é, de um número determinado de palavras e de textos. Isso suscita de imediato duas questões: representativo do quê? Para quem?

Para se responder à questão ‘representativo do quê?’, deve-se olhar para a questão da amostragem. Para que qualquer amostra seja representativa, é necessário se conhecer a população da qual ela provém. No caso da linguagem, a dimensão da população total é desconhecida. Por isso, não é possível estimar-se qual seria uma amostra representativa da linguagem e, portanto, estritamente falando, não se pode afirmar que um corpus qualquer seja representativo.

Embora não se possa falar em representatividade em termos absolutos, pode-se tratar da questão em termos relativos. A principal maneira, ou ‘salvaguarda’ (Sinclair, 1991), pela qual se pode garantir maior representatividade é através do aumento da extensão do corpus. Um corpus maior é em geral mais representativo do que um menor devido ao fato de conter mais instâncias de traços lingüísticos raros.

A representatividade está ligada à questão da probabilidade. A linguagem é de caráter probabilístico (vide acima), e, sendo assim, há a possibilidade de estabelecer uma relação entre traços que são mais comuns e menos comuns em determinado contexto. O conhecimento da probabilidade de ocorrência de traços lexicais, estruturais, pragmáticos, discursivos, etc. está no cerne da Lingüística de Corpus e, portanto, o conhecimento acerca da probabilidade de ocorrência da maioria dos traços lingüísticos em vários contextos ainda está sendo adquirido.

O campo do léxico, entretanto, é onde se possui a maior quantidade de conhecimento derivado do exame de corpora. Para esta discussão, é necessário distinguir-se entre a forma e o sentido lexical. Em qualquer corpus, as formas de freqüência 1 (também conhecidas como ‘hapax legomena’) são a maioria. Baseando-se neste fato, é possível afirmar que o léxico de freqüência baixa é o mais comum, isto é, que a maioria das palavras de uma língua é composta de palavras que ocorrem poucas vezes. Em outras palavras, palavras de baixa freqüência têm uma probabilidade baixa de ocorrência (1 em 1 milhão, por exemplo) e, já que elas formam a maior parte do vocabulário de uma língua, é necessário usar amostras grandes para que tais palavras possam ocorrer.

O sentido das palavras também entra em jogo na discussão da representatividade. A freqüência das formas em si não é suficiente, porque mesmo palavras de alta freqüência possuem vários sentidos. Assim, uma freqüência alta pode ‘esconder’ vários sentidos, os quais separados teriam baixa freqüência. Para que seja representativo, um corpus deve conter o maior número possível de sentidos de cada forma. Por exemplo, a forma ‘como’ pode significar a preposição ou a primeira pessoa do singular do verbo comer no presente do indicativo. Esta forma é comum na língua portuguesa, ocorrendo aproximadamente 531 vezes por milhão. Simplesmente olhando-se para a forma ‘como’ na listagem de freqüências do corpus não é possível se saber se ambos os sentidos estão representados. Um corpus geral que vise a representar a língua portuguesa deve conter ambos os sentidos deste vocábulo, já que ambas as formas existem na língua.

A extensão do corpus comporta três dimensões. A primeira é o número de palavras. O número de palavras é uma medida da representatividade do corpus no sentido de que quanto maior o número de palavras maior será a chance do corpus conter palavras de baixa freqüência, as quais formam a maioria das palavras de uma língua. A segunda é o número de textos, a qual se aplica a corpora de textos específicos. Um número de textos maior garante que este tipo textual, gênero, ou registro, esteja mais adequadamente representado. A terceira é o número de gêneros, registros ou tipos textuais. Esta dimensão se aplica a corpora variados, criados para representar uma língua como um todo. Aqui, um número maior de textos de vários tipos permite uma maior abrangência do espectro genérico da língua.

A outra perspectiva, a partir da qual se pode enfocar a questão da representatividade, é através da pergunta ‘representativo para quem?’. Esta pergunta tem validade porque, conforme discutido acima, não se pode demonstrar, neste estágio do nosso conhecimento dos fenômenos de larga escala da linguagem, qual seria uma amostra representativa. Devido a isso, tem-se falado em representatividade como um ‘ato de fé’ (Leech, 1991, p.27). Em outras palavras, os usuários de um corpus atribuem a ele a função de serem representativos de uma certa variedade. O ônus é dos usuários em demonstrar a representatividade da amostra e de serem cuidadosos em relação à generalização dos seus achados para uma população inteira (um gênero ou a língua inteira, por exemplo).

Um grande problema é que a quantidade mínima de dados necessários para a formação de um corpus nunca foi estimada (Berber Sardinha, no prelo), sendo o critério de tamanho empregado subjetivamente na definição de corpus. Este é o tema da próxima seção.

3.3. Extensão

Embora seja um critério fundamental na representatividade, pouco se tem pesquisado a questão da definição de critérios mínimos de extensão para a constituição de um corpus representativo. Pode-se definir três abordagens:

  • Impressionística: baseia-se em constatações derivadas da prática da criação e da exploração de corpora, em geral feita por autoridades da área. Por exemplo, Aston (1997) menciona patamares que caracterizariam um corpus pequeno (20 a 200 mil palavras) e um grande (100 milhões ou mais). Leech (1991) fala de 1 milhão de palavras como a taxa usual (‘going rate’), sugerindo o que seja o patamar mínimo. Outros são mais vagos, como Sinclair (1996), o qual postula que o corpus deva ser tão grande quanto a tecnologia permitir para a época, deixando-se subentender que a extensão de um corpus deva variar de acordo com o padrão corrente nos grandes centros de pesquisa, que possuem equipamentos de última geração.

  • Histórica: fundamenta-se na monitoração dos corpora efetivamente usados pela comunidade. Por exemplo, Berber Sardinha (no prelo) sugere uma classificação baseada na observação dos corpora utilizados, segundo quatro anos de conferências de Lingüística de Corpus:

    a05fig02

Graficamente, a escala seria esta:

a05fig03

  • Estatística: fundamenta-se na aplicação de teorias estatísticas. Por exemplo, Biber (1993) emprega fórmulas matemáticas para identificar quantidades mínimas de palavras, gêneros e textos que se constituiriam em uma amostra representativa. Pode ser subdividida em três vertentes:
    (1) Interna: Dado um corpus pré-existente que serve como amostra maior, qual o tamanho mínimo de uma amostra que mantém estáveis as características desta amostra maior? Esta é a perspectiva seguida por Biber (1990, 1993).
    (2) Externa: Dada uma fonte externa de referência cuja dimensão é conhecida, qual o tamanho do corpus necessário para representar majoritariamente esta fonte? Esta vertente tem sido discutida pela comunidade de lingüistas do corpus (Berber Sardinha, 1998).
    (3) Relativa: Quanto se perderia se o corpus fosse de um tamanho x? Dados meus recursos existentes, quais parâmetros posso utilizar para abalizar minha decisão relativa ao tamanho de corpus que posso compilar? Uma proposta, segundo esta perspectiva ainda não foi formalizada, mas está presente, por exemplo, em Sanchez e Cantos (1997a, b), os quais estimam matematicamente a quantidade do vocabulário presente em corpora de diversos tamanhos hipotéticos. Uma proposta similar é apresentada por Yang e Song (1998), os quais fazem uma previsão da quantidade de dados necessários para incluir certas características gramaticais.

3.3.1. Especificidade

Um modo de atingir a representatividade total de um corpus é incluir nele toda a linguagem. Como isto é impossível para um idioma inteiro, a possibilidade mais próxima é restringir o conteúdo a, por exemplo, um autor apenas. Assim, a coletânea de todos os trabalhos escritos por Shakespeare seria um corpus representativo deste autor. Uma outra maneira é delimitar, ao máximo, a variedade (tipo de texto, por exemplo) incluída no corpus. Isto ocorre porque uma variedade específica da linguagem demonstra uma maior padronização e conseqüente menor variação no nível do léxico, gramática, discurso, etc, Ou seja, apresenta maior grau de ‘fechamento’ (closure) (McEnery e Wilson, 1996).

Os corpora gerais podem ser usados, obviamente, como fonte para criação de corpora especializados. O British National Corpus, por exemplo, possui uma quantidade grande de artigos de pesquisa e, portanto, o usuário pode extrair estes textos e criar um sub-corpus especializado de artigos científicos. A vantagem de se aproveitar os recursos de grandes corpora neste sentido é, evidentemente, que o usuário não necessitará coletar um corpus novo. Além disso, no caso do BNC, o usuário já disporá de textos anotados e etiquetados gramaticalmente, o que novamente lhe poupará tempo e recursos.

Entretanto, a quantidade de textos de uma variedade ou domínio específicos nos corpora gerais é pequena. Assim, normalmente, corpora compilados em pequena escala por pesquisadores individuais acabam sendo mais representativos do que os respectivos sub-corpora dos corpora gerais. Aston (1997), por exemplo, mostra que o seu corpus de artigos acadêmicos de pesquisa sobre hepatite C é mais completo e representativo do que um equivalente extraído do BNC.

Um problema com muitos corpora específicos é que eles são geralmente criados com o propósito de servirem a projetos particulares e, por várias razões (direitos autorais, inclusive), não são colocados à disposição da comunidade científica. Desse modo, não satisfazem a condição de serem dados verificáveis, o que compromete a pesquisa em termos de sua replicabilidade e generabilidade.

3.3.2. Adequação

Um outro critério fundamental na composição de um corpus é a adequação. Este aspecto envolve os criadores do corpus, mas atinge principalmente os seus usuários. Por mais que muitos dos corpora tentem ser representativos de uma língua como um todo ou de uma variedade dela, eles não são necessariamente adequados à investigação de qualquer característica lingüística. Conforme lembra Hasan:

‘Para serem adequados, os corpora devem ser afinados com os objetivos da análise. Suponha que meu interesse seja em perguntar: Qual a freqüência do sujeito pronominal em inglês? É possível que 22 mil orações possam se constituir em evidência adequada. Mas dado o meu interesse em analisar os dados num certo grau de delicadeza, (…) eu precisaria de um corpus muito maior.’ (Hasan, 1992, p. 301)

Em outras palavras, embora representativo, o corpus possui seus limites. Ele pode ajudar a responder apenas alguns tipos de perguntas. Com esta postura, parte-se da pesquisa e não do objeto. Ou seja, invertendo-se a origem da empreitada, coloca-se a questão de pesquisa na frente do objeto. Além de representativo, o corpus deve ser adequado aos interesses do pesquisador. Quer dizer, em vez de se dizer, ‘eu tenho este corpus, então agora vou descrevê-lo’, deve-se pensar ‘eu desejo investigar esta questão, então eu necessito de um corpus com estas características’.

A adequação do corpus é tomada como dada. Assume-se que o corpus com o qual se esteja lidando e as perguntas que se faz a ela sejam adequadas para os propósitos da investigação. Sem isso, a pesquisa perde o sentido.

A colocação da adequação do corpus, antes de tudo, na pesquisa em Lingüística de Corpus, tem como conseqüência o questionamento da validade de corpora gerais. Tais corpora têm sido a norma na área e incluem os célebres Brown, LOB, London Lund e BNC. Eles foram construídos com o intuito de servirem como representantes de uma língua como um todo, ou mais especificamente de um dialeto ou variante. Por exemplo, o corpus Brown tem sido tido por muito tempo como representante do inglês americano escrito. O LOB, por sua vez, é tido como representante do inglês britânico escrito. O London-Lund é considerado representativo do inglês britânico falado. Finalmente, o BNC é o mais ambicioso, pois é tido como representante do inglês britânico, tanto do modo falado quanto escrito. Uma característica importante dos corpora citados aqui é que eles são disponibilizados para a comunidade acadêmica e, assim, cumprem seu papel de fontes de dados verificáveis.

4. Teorias de linguagem e Lingüística de Corpus

A Lingüística de Corpus trabalha dentro de um quadro conceitual formado por uma abordagem empirista e uma visão da linguagem enquanto sistema probabilístico. O empirismo é, em termos bem simples, uma doutrina filosófica segundo a qual o conhecimento se origina da experiência. Na lingüística, o empirismo significa dar primazia aos dados provenientes da observação da linguagem, em geral reunidos sob a forma de um corpus. O empirismo se coloca em oposição ao racionalismo, segundo o qual, em linhas gerais, o conhecimento provém de princípios, estabelecidos a priori. O racionalismo, na lingüística, se fundamenta no estudo da linguagem através da introspecção, como meio de verificar modelos de funcionamento estrutural e processamento cognitivo da linguagem. Há, portanto, uma oposição fundamental entre as posições filosóficas inerentes às visões empirista e racionalista da linguagem, expressas por meio dos programas de pesquisa de seus maiores expoentes. De um lado, Halliday, seguindo a tradição empirista, e de outro Chomsky, o maior expoente do racionalismo na lingüística.

O segundo elemento central da conceituação em que a Lingüística de Corpus se baseia é a visão probabilística da linguagem. Aqui fica mais evidente a oposição entre Halliday e Chomsky. Halliday vê a linguagem como probabilidade, enquanto Chomsky a enxerga como possibilidade (Kennedy, 1998). A lingüística Chomskyana gerativista enfatiza a determinação de quais agrupamentos sintáticos são possíveis (i.e. permissíveis) dado o conhecimento que um falante nativo possui de sua língua. Já a lingüística Hallidayana descreve a probabilidade dos sistemas lingüísticos, dados os contextos em que os falantes os empregam.

A visão da linguagem enquanto sistema probabilístico pressupõe que embora muitos traços lingüísticos sejam possíveis teoricamente, eles não ocorrem com a mesma freqüência. Podemos citar dois exemplos. Primeiramente, no nível morfossintático, a freqüência de substantivos (no inglês e, com certeza, no português) é maior do que qualquer outra categoria; cerca de 25% das palavras são substantivos (Kennedy, 1998, p.103). Desse modo, a probabilidade de um traço ser um substantivo é maior do que outra classe gramatical. E em segundo lugar, embora seja teoricamente possível se aninhar orações relativas ad infinitum (o gato que está no tapete é meu, o gato que está no tapete que é meu é pardo, o gato que está no tapete que é meu que é pardo está dormindo, etc), à primeira vista a freqüência de ocorrência de frases com mais de uma oração relativa é muito maior do que com sucessivas orações. Em resumo, as possibilidades da estrutura não se realizam todas com a mesma freqüência.

O mais importante da diferença de freqüências entre os traços é o fato de essas diferenças não serem aleatórias. Se o fossem, então o fato das possibilidades estruturais se realizarem com freqüências diferentes não seria significativo, isto é, não acrescentaria informação a respeito da própria estrutura. Entretanto, pelo contrário, há um mapeamento regular entre a freqüência maior ou menor de um traço e um contexto de ocorrência. Ou, nas palavras de Biber (1988, 1995), há uma correlação entre características lingüísticas e situacionais (os contextos de uso). O conjunto da pesquisa desenvolvida por Biber apresenta evidências inequívocas de que conjuntos de traços lingüísticos variam sistematicamente com relação a textos típicos de contextos comunicativos específicos. Em outras palavras, a variação não é aleatória.

Quando se diz que a variação não é aleatória, na verdade, está se afirmando que a linguagem é padronizada (‘patterned’). A padronização se evidencia pela recorrência, isto é, uma colocação, coligação ou estrutura, que se repete significativamente, mostra sinais de ser na verdade um padrão lexical ou léxico-gramatical. A linguagem forma padrões que apresentam regularidade (se mostram estáveis em momentos distintos, isto é, tem freqüência comparável em corpora distintos) e variação sistemática (correlacionam-se com variedades textuais, genéricas, dialetais, etc). Exemplos notáveis da descrição da linguagem por  meio da indução de padrões recorrentes são a gramática de verbos (Francis, G. e Hunston, 1996) e de substantivos e adjetivos (Francis, G. e Hunston, 1998) lançadas pelo projeto COBUILD5, nas quais se descreve exaustivamente todos os padrões lexicais existentes na língua inglesa.

Por isso, além da possibilidade teórica de ocorrência, uma teoria da linguagem deve incorporar a probabilidade de ocorrência dos traços. Aqui a lingüística Chomskyana recorre à introspecção, ou à intuição do falante nativo, para responder a esta questão. Entretanto, o que o falante nativo pode informar é somente se o traço ou estrutura em questão é intuitivamente provável ou não, pois:

‘o ser humano, ao contrário do que em geral se pensa, não é bem organizado para isolar conscientemente o que é central e típico da linguagem; aquilo que é incomum é percebido imediatamente, mas os eventos costumeiros do dia-a-dia são apreciados subliminarmente.’ (Sinclair e Renouf, 1988, p.151, tradução minha)

Para se saber qual a probabilidade de um traço ou estrutura é necessária, portanto, a observação empírica da freqüência do emprego, realizado por diversos usuários, em contextos definidos.

Destas considerações, tira-se duas conclusões. A primeira é a importância primordial de um corpus como fonte de informação, pois ele registra a linguagem natural realmente utilizada por falantes e escritores da língua em situações reais. A segunda é a não-trivialidade da investigação da freqüência de ocorrência de traços lingüísticos de várias ordens (lexicais, sintáticos, semânticos, discursivos, etc), pois é através do conhecimento da freqüência atestada que se pode estimar a probabilidade teórica.

Chomsky ridicularizou esta postura com sua famosa frase ‘I live in Dayton, Ohio’, empregada por ele em uma palestra no final dos anos 50. Ele argumentava que embora esta frase seja menos freqüente que ‘I live in New York’ (já que há mais pessoas em Nova York do que em Dayton), a diferença de freqüência de uso é totalmente irrelevante para uma teoria da linguagem, já que é ocasionada por uma realidade demográfica. Em primeiro lugar, a suposição de que ‘I live in New York’ é mais freqüente é somente isto, uma suposição. De fato não sabemos se os falantes da cidade usam esta frase e, se o fazem, em quais ocasiões e com qual freqüência. E, em segundo lugar, se descobrirmos, após um levantamento baseado em freqüências atestadas em um corpus, que os contextos em que se refere o local onde se mora apresenta-se desta forma e não de outras maneiras equivalentes (‘I live in Manhattan’, ‘in this city’, ‘NYC’, etc), teremos na verdade descoberto fatos sobre a linguagem até então desconhecidos. O conhecimento obtido não seria de modo algum trivial, pois nos informaria, entre outras coisas, como dizer o local de nossa moradia da maneira mais aceitável dentro de cada situação em que temos de fornecer esta informação, como grupos de falantes diferentes expressam-se em face de demandas lingüísticas similares, etc. Uma teoria da linguagem torna-se mais pobre e ineficiente, ao não levar em conta estes dados.

Pode-se resumir através das seguintes características as diferenças entre a Lingüística de Corpus e a lingüística Chomskyana:

(a) Foco no desempenho lingüístico, em vez de competência;
(b) Foco na descrição lingüística, em vez de universais lingüísticos;
(c) Foco numa visão mais empirista do que racionalista da pesquisa científica (Leech, 1992, p.107, tradução minha).

Os modelos estruturais da linguagem em geral (incluindo os gerativistas de Chomsky) descrevem a linguagem através de esquemas ‘slot and filler’, nos quais as lacunas (‘slots’) sintáticas podem ser preenchidas lexicalmente de qualquer modo, desde que o conjunto de lacunas seja estruturalmente plausível. Esta visão tem críticos ferozes dentro da Lingüística de Corpus, dentre os quais destaca-se John Sinclair. O programa de pesquisa de Sinclair tem se pautado pela descrição da linguagem do ponto de vista lexical, cuja perspectiva é a descrição de quais agrupamentos lexicais são realmente empregados pelos falantes, isto é, atestados pelo uso. Esta perspectiva se concretizou em um princípio de entendimento da linguagem chamado de ‘idiomático’ (idiom principle), explicado como o fato do usuário de uma língua ter à sua disposição ‘um grande número de frases pré– ou semi-construídas, que se constituem em escolhas únicas, muito embora pareçam analisáveis em segmentos’ (Sinclair, 1987, p. 320, tradução minha).

Esta visão da linguagem enquanto sendo formada por porções lexicais (chunks) ou idiomas é compartilhado por outros autores trabalhando em contextos diferentes (e.g. Bolinger, 1976; Nattinger e DeCarrico, 1992; Pawley e Syder, 1983). Notadamente, Pawley e Syder (1983) foram influentes na ligação entre a presença de idiomas ou ‘multipalavras’ (multi-words) e a naturalidade da linguagem. Para eles, a ‘naturalidade’ e a percepção da ‘fluência’ na produção do falante nativo devem-se em boa medida ao emprego de um grande número de expressões pré-fabricadas e à união destas em seqüências maiores. Com base neste princípio, Nattinger e De Carrico (1992) produziram um levantamento de frases idiomáticas, visando ao ensino e à aprendizagem de línguas. Mas foi a formulação de Sinclair (e a metodologia computacional desenvolvida por ele) que influenciou um grande número de trabalhos voltados nesta área. Além disso, o florescimento em geral da fraseologia baseada em corpus (e.g. Cowie, 1998; Moon, 1998) também deve muito ao trabalho pioneiro de Sinclair.

Haveria, segundo Sinclair, um espaço comum formado pelo léxico e pela sintaxe, no qual ambos são co-selecionados: a escolha de cada item lexical implica na redução das escolhas dos itens lexicais e das categorias gramaticais que podem segui-lo. Complementarmente, a escolha de uma classe gramatical reduz a escolha possível de classes gramaticais e de itens lexicais que podem seguir-se a ela. Já é possível descrever-se com muita precisão as probabilidades de certos itens ocorrerem em co-textos específicos, e, desse modo, os níveis do léxico e da gramática tornam-se supérfluos. Neste nível, a separação entre léxico e sintaxe é uma questão de conveniência analítica, sem respaldo empírico.

Uma teoria que admite este espaço é justamente a lingüística sistêmico-funcional de Halliday, na qual este nível é conhecido por léxico-gramática. Longe de ser uma coincidência, isto mostra a ligação íntima entre a perspectiva seguida pela Lingüística de Corpus e pela lingüística Hallidayana.

A conexão existe porque Halliday é um exemplo de lingüista de inclinação empirista, entretanto ele não é (i.e. não se auto-define como) um lingüista do corpus. A formulação das teorias de Halliday, na forma da lingüística sistêmico-funcional, não se pauta pela exigência de um corpus nem do instrumental comumente empregado pelos lingüistas do corpus. Entretanto, a sua visão de linguagem se encaixa perfeitamente nos preceitos da Lingüística de Corpus e serve como arcabouço teórico maior no qual ela se pode incluir.

Um lingüista que critica a posição de antagonismo entre lingüistas do corpus e os demais, traçada nesta seção, é Charles Fillmore. Ele faz uma caricatura dos dois tipos de lingüista. Segundo ele, o lingüista de corpus seria aquele que ‘possui todos os fatos primários que necessita, na forma de um corpus de aproximadamente um zilhão de palavras’ e que se dedica a ‘derivar fatos secundários a partir de fatos primários’. O outro tipo de lingüista é chamado por Fillmore de ‘lingüista de poltrona’ e demonstraria o seguinte comportamento:

“Ele se senta numa poltrona bem confortável, com os olhos fechados e com a cabeça apoiada nas mãos por trás. De vez em quando ele abre os olhos, se mexe todo, berra ‘Nossa, que fato interessante!’, pega o lápis e toma algumas notas (…) ficando entusiasmado por ter chegado mais perto de entender como a linguagem funciona.” (Fillmore, 1992, p. 35)

Quando se encontram, os dois lingüistas se estranham – o de poltrona indaga ‘por que eu deveria acreditar que o que você me diz é interessante?’, ao que o do corpus retruca ‘por que eu deveria acreditar que o que você me diz é verdadeiro?’. Embora o diálogo entre os dois seja difícil, para Fillmore, os dois lingüistas deveriam existir em harmonia na mesma pessoa, já que ambos tem a aprender com o outro.

5. Estatuto da Lingüística de Corpus

Um debate que se desenrola entre os praticantes da Lingüística de Corpus se centra na definição do status da área: é a Lingüística de Corpus uma disciplina ou metodologia? Claramente, a Lingüística de Corpus não é uma disciplina tal qual a psicolingüística, sociolingüística, semântica, etc., pois seu objeto de pesquisa não é delimitado como em outras áreas. A Lingüística de Corpus não se dedica a um assunto definido (Leech, 1992, p.106). Pelo contrário, ela se ocupa de vários fenômenos comumente enfocados em outras áreas (léxico, sintaxe, textura, etc.). Seria então seguro se concluir que a Lingüística de Corpus é então uma metodologia da qual outras áreas podem se fazer valer? A princípio sim. McEnery e Wilson (1996), por exemplo, afirmam que a Lingüística de Corpus é ‘apenas uma metodologia’ (p.1), e Leech (1992, p. 105) a descreve como uma ‘base metodológica’.

Mas se a Lingüística de Corpus é metodologia ou não, vai depender da definição de metodologia que se está usando. Se entendermos metodologia como instrumental, então é possível aplicar-se o instrumental da Lingüística de Corpus livremente e manter a orientação teórica da disciplina original. Desse modo, teríamos, por exemplo, a sintaxe baseada em corpus versus a sintaxe ‘tradicional’, a fonologia baseada em corpus versus a fonologia ‘tradicional’ e assim por diante. Tudo o que mudaria entre estas vertentes opostas seria o instrumental; os dados, a orientação, os pressupostos teóricos, as implicações dos resultados e tudo o mais permaneceria o mesmo.

Mas a Lingüística de Corpus não se resume a um conjunto de ferramentas. Assim, se entendermos metodologia como um modo típico de aplicar um conjunto de pressupostos de caráter teórico, então a Lingüística de Corpus pode ser entendida como uma metodologia, pois traz consigo algo mais do que simplesmente o instrumental computacional. Aqui se encaixam as investigações do comportamento do léxico, típicas de lingüistas do corpus auto-definidos, como John Sinclair. A pesquisa de Sinclair acerca da colocação entre itens lexicais, por exemplo, não encontra espaço em outras disciplinas. Ela possui caráter essencialmente ascendente e tem como doutrina a não categorização a priori (‘trust the text’ é o seu lema). Por isso, exemplifica com precisão a prática empirista e situa-se como o pólo mais distante das abordagens racionalistas. Aliás, foi por isso mesmo que uma das maiores correntes de pesquisa em corpus surgiu.

Uma outra razão pela qual a Lingüística de Corpus não é uma metodologia é o fato de seus praticantes produzirem conhecimento novo, muito do qual é de caráter contestatório de práticas e preceitos correntes:

‘Embora o escopo da Lingüística de Corpus possa ser definido em termos do que as pessoas fazem com corpora, seria um engano assumir que Lingüística de Corpus é somente um meio mais rápido de descrever como a linguagem funciona (…) A análise de um corpus pode revelar, e freqüentemente revela, fatos a respeito de uma língua que nunca se pensou em procurar.’ (Kennedy, 1998, p. 9, tradução minha)

O exemplo mais imediato é a contestação dos pressupostos da lingüística gerativa, delineada acima.

O fato de a Lingüística de Corpus produzir conhecimento de natureza distinta e até contestatória a coloca de certo modo em condições similares à Lingüística Aplicada. A Lingüística Aplicada não é mais vista como um simples espaço no qual se aplicam os conhecimentos produzidos na lingüística. Os conhecimentos que se aplicam na lingüística Aplicada não são de origem exclusiva da lingüística. Por isso ela possui um caráter essencialmente transdisciplinar (cf. Celani, 1998).

Uma terceira possibilidade que se apresenta é que a Lingüística de Corpus não é nem disciplina nem metodologia. Segundo Hoey:

‘Lingüística de Corpus não é um ramo da lingüística, mas a rota para a lingüística’ (Hoey, 1997, tradução minha)

Esta definição se assemelha a dizer que a Lingüística de Corpus é uma perspectiva, isto é, uma maneira de se chegar à linguagem. Esta definição faz alusão ao conceito de teoria lingüística enquanto ‘janela’ que molda como enxergamos a linguagem (Pike, 1972). Dessa forma, segundo Hoey (1997) a Lingüística de Corpus não seria apenas um instrumental, mas sim um abordagem. De modo similar, Leech (1992, p.106) a define como:

‘A Lingüística de Corpus define não somente uma nova metodologia emergente para o estudo da linguagem, mas uma nova empreitada de pesquisa e, na verdade, uma nova abordagem filosófica.’

Daí a preferência de alguns influentes lingüistas do corpus, como Douglas Biber, pelo termo ‘abordagem baseada em corpus’. Tanto assim que em seu livro mais recente, o título é ‘Corpus Linguistics’, mas esta expressão mais conhecida só aparece na capa, sendo substituída por ‘corpus-based approach’ no decorrer da obra.

6. Tipos de pesquisa privilegiadas

Há uma quantidade enorme de trabalhos que se encaixam na Lingüística de Corpus e o número cresce a cada ano. Segundo McEnery e Wilson (1996, p.18) teriam aparecido 620 trabalhos em 25 anos de atividade (de 1965 a 1991), mas quase a metade teria surgido nos últimos cinco anos apenas. A despeito de sua diversidade, os trabalhos em Lingüística de Corpus compartilham de algumas características em comum:

(a) São empíricos e analisam os padrões reais de uso em textos naturais.
(b) Utilizam coletâneas grandes e criteriosas de textos naturais, conhecidas por ‘corpus’, como a base da análise.
(c) Fazem uso extensivo de computadores na análise, empregando técnicas automáticas e interativas.
(d) Dependem de técnicas quantitativas e qualitativas. (Biber et al., 1998, p. 4)

Pode-se pensar em três paradigmas de pesquisa em Lingüística de Corpus que partilhariam em maior ou menor grau as características acima:

(1) Paradigma informal baseado em concordâncias
(2) Paradigma estatístico baseado em modelos log-linear
(3) Paradigma estatístico fundamentado em Modelos Ocultos de Markov (Leech, 1992, pp.114-120)

O paradigma que concentra a maior parte das pesquisas é o primeiro, que se pauta pela descrição da linguagem com pouco ou nenhum suporte estatístico. Os demais paradigmas assumem uma perspectiva quantitativa mais sólida e fazem uso de técnicas estatísticas mais avançadas.

Juntamente com a explosão do número de trabalhos em Lingüística de Corpus, há um crescimento de áreas de pesquisa privilegiadas. Kennedy (1998, p. 9), cita quatro concentrações principais:

(1) compilação de corpus
(2) desenvolvimento de ferramentas
(3) descrição da linguagem
(4) aplicação de corpora (ensino de línguas, reconhecimento de voz, tradução, etc)

A área na qual há mais atividade é a terceira, a da descrição. Há um número considerável de trabalhos que enfocam principalmente o léxico e a gramática a partir do exame de um corpus. Estes trabalhos se ocupam do que Kennedy (1991, p.98)chama de ‘ecologia lingüística’, isto é, do comportamento de itens lexicais ou de estruturas gramaticais no seu ‘habitat’ natural (o meio lingüístico que ocorrem).

As questões de que se ocupa a área da descrição são tipicamente as seguintes:

(a) Quais os padrões lexicais dos quais a palavra faz parte?
(b) A palavra se associa regularmente com outros sentidos específicos?
(c) Em quais estruturas ela aparece?
(d) Há uma correlação entre o uso/sentido da palavra e as estruturas das quais ela participa?
(e) A palavra está associada com (uma certa posição na) organização textual? (Hoey, 1997, p. 3)

A maioria destas questões centraliza-se na descrição de três fenômenos:

(1) Colocação: associação entre itens lexicais, ou entre o léxico e campos semânticos. Por exemplo, em termos lexicais, ‘stark’ associa-se a ‘contrast’; ‘sheer’, a ‘scale’, ‘number’ e ‘force’ (Partington, 1998). Em termos de campos semânticos, ‘jam’ relaciona-se com itens do campo de ‘alimentos’: ‘tarts’, ‘butty’ e ‘doughnuts’ (Moon, 1998, p.27).

(2) Coligação: associação entre itens lexicais e gramaticais. Por exemplo, ‘start’ é mais comum com sintagmas nominais e orações –ing, enquanto ‘begin’ é mais usado com um complemento ‘to'(Biber et al., 1998).

(3) Prosódia semântica: associação entre itens lexicais e conotação (negativa, positiva ou neutra) de campos semânticos. O nome deve-se ao fato de certas palavras prepararem o ouvinte ou o leitor para o conteúdo semântico que está por vir, da mesma maneira que a prosódia na fala indica para o interlocutor que tipos de sons estão por vir a seguir (Hoey, 1997, p.4). Por exemplo, ‘cause’ tem uma prosódia semântica negativa, pois associa-se a palavras desfavoráveis como ‘problem(s)’, ‘damage’, ‘death(s)’, ‘disease’, ‘concern’ e ‘cancer’. Já ‘provide’ possui uma prosódia semântica positiva ou neutra, já que se associa a palavras deste tipo, tais como ‘assistance’, ‘care’, ‘jobs’, ‘opportunities’ e ‘training’ (Stubbs, 1995).

O fenômeno da colocação é o mais tradicionalmente enfocado no estudo de corpus. Foi originalmente introduzido por Firth (1957) e explicado por sua famosa frase: ‘you shall judge a word by the company it keeps’. Há três definições de colocação principais na literatura, segundo Partington (1998, pp. 16-17):

(1) Textual: ‘Colocação é a ocorrência de duas ou mais palavras distantes um pequeno espaço de texto umas da outras’ (Sinclair, 1991, p. 170)

(2) Psicológica: ‘O sentido colocacional consiste das associações que uma palavra faz por conta dos sentidos das outras palavras que tendem a ocorrer no seu ambiente’ (Leech, 1974, p. 20)

(3) Estatística: ‘Colocação tem sido o nome dado à relação que um item lexical tem com itens que aparecem com probabilidade significativa no seu contexto (textual)’ (Hoey, 1991, pp. 6-7)

Este elenco de questões se fundamenta na análise da palavra, pois segundo Hoey (1997), ‘inevitavelmente se começa pela palavra’. Entretanto, esta é na verdade a abordagem baseada na palavra, na qual se privilegia o estudo da associação entre traços dentro de um pequeno co-texto (espaço de texto), geralmente quatro palavras para cada lado do item lexical de interesse. Esta é apenas um dos tipos de perspectivas possíveis da Lingüística de Corpus. A outra abordagem é a textual (Scott, 1997). Nesta perspectiva, o foco é a relação das palavras dentro do espaço do compreendido pelo texto inteiro. Segundo Scott (1997), este tipo de investigação da associação entre palavras captura com mais fidelidade o tipo de relação que Firth tinha em mente quando pensava em colocação. Firth ilustrava seu conceito com exemplos como ‘letter’ e ‘postman’, palavras estas que em geral não ocorrem dentro de um espaço estreito de poucas palavras, mas tendem a co-ocorrer em um mesmo texto. A mudança de foco teria sido motivada pelas limitações tecnológicas da época (anos 60) em que se iniciou na prática, através do computador, a investigação da noção de colocação. Com os equipamentos da época, a computação da co-ocorrência lexical além de um certo espaço pequeno de texto, era inviável.

7. Comentários finais

O presente trabalho aproveitou o ensejo da comemoração dos 35 anos do corpus Brown para apresentar um painel do campo de investigação que esse corpus, em grande parte, ajudou a desenvolver: a lingüística de Corpus, que é hoje uma das áreas mais vibrantes voltadas ao estudo da linguagem. As dificuldades envolvidas em se retratar um campo tão vasto e dinâmico são pelo menos duas. A primeira, mais óbvia, refere-se à quantidade de trabalhos novos que surgem, muitos dos quais de grande impacto tanto na comunidade de lingüistas de corpus quanto fora dela. Um exemplo é a nova gramática da língua inglesa a ser lançada no final de 1999 por Douglas Biber e equipe (Biber et al., 1999). Essa gramática pretende ser a sucessora da célebre ‘Comprehensive Grammar of the English Language’ (Quirk et al., 1985) e foi feita totalmente a partir de um corpus de 40 milhões de palavras, cuidadosamente criado para esse fim. A nova gramática segue fielmente os modelos de descrição privilegiados pela Lingüística de Corpus (computação da freqüência, descrição da co-ocorrência e indução de padrões léxico-gramaticais) e desse modo contribuirá para que a descrição baseada em corpus se torne uma norma, em vez da exceção.

A segunda dificuldade refere-se ao debate de cunho teórico. A Lingüística de Corpus tem sido acusada de apenas fazer ‘statement of facts’, ou seja, de apenas registrar as ocorrências lexicais e estruturais. Para deixar de ser um tipo de ‘Contabilidade lingüística’, a Lingüística de Corpus necessita explicitar qual é o quadro teórico que lhe dá coerência e sustentação. Essa deficiência vem, em grande medida, do fato de os lingüistas de corpus não terem se preocupado com a plausibilidade psicológica (Leech, 1992, p.113) da área, ou seja, a Lingüística de Corpus ‘ainda não considera central discutir o porquê da linguagem ser usada de tal modo que ela exiba os padrões e fenômenos’ que são retratados (Sch”nefeld, 1999, p.148; tradução minha, grifo no original). Neste sentido, a proposta da Psicologia Cognitiva de Langacker (1987, 2000) tem sido apresentada como alternativa para ajudar a preencher essa falta de explicação mental do fenômeno talvez mais central à Lingüística de Corpus, que é o da padronização.

Em suma, esses desenvolvimentos tanto descritivos quanto teóricos, prometem manter o dinamismo que caracterizará a Lingüística de Corpus por muitos anos ainda. Mas o real crescimento e pujança da área se manterá na medida em que mais e mais pesquisadores descubram no corpus uma fonte inestimável de informação, pois é no trabalho prático de exploração que a Lingüística de Corpus ganha vida (Leech, 1999). Assim, mais e mais estudantes, lingüistas e pesquisadores anônimos continuarão tendo a experiência de que fala Fillmore (1992, p. 35): ‘não há nenhum corpus que contenha toda a informação que eu quero explorar’, mas mesmo assim ‘todo corpus me ensinou coisas sobre a linguagem que eu não teria descoberto de nenhum outro modo’.

REFERÊNCIAS BIBLIOGRÁFICAS

AIJMER, K. & B. ALTENBERG (Orgs.) (1991) English Corpus Linguistics – Studies in honour of Jan Svartvik. London: Longman.

ASTON, G. (1997) Small and large corpora in language learning. Paper presented at the PALC Conference, University of Lodz, Poland, April 1997.

ATKINS, S. ET AL. (1992) Corpus design criteria. Literary and Linguistic Computing, 7: 1-16.

BENSON, M. ET AL (1986) The BBI dictionary of English word combinations. Amsterdam / Philadelphia: John Benjamins.

BERBER SARDINHA, A. P. (1998) Size of a representative corpus. Summary of discussion on CORPORA email discussion list, 26 August 1998.

_____. (1999) Processamento Computacional do Português. Simpósio, 9o. InPLA, PUCSP, São Paulo.

_____. (no prelo) O que é um corpus grande. The ESPecialist.

BIBER, D. (1988) Variation across Speech and Writing. Cambridge: Cambridge University Press.

_____. (1990) Methodological issues regarding corpus-based analyses of linguistic variation. Literary and Linguistic Computing, 5: 257-269.

_____. (1993) Representativeness in corpus design. Literary and Linguistic Computing, 8: 243-257.

_____. (1995) Dimensions of Register Variation – A Cross-Linguistic Comparison. Cambridge: Cambridge University Press.

BIBER, D. ET AL (1998) Corpus linguistics – Investigating language structure and use. Cambridge: Cambridge University Press.

_____. (1999) Longman Grammar of Spoken and Written English. Harlow: Longman.

BIDERMAN, M. T. C. (1978) Teoria Lingüística (Lingüística Quantitativa e Computacional). LTC: Rio de Janeiro / São Paulo.

BOLINGER, D. (1976) Meaning and memory. Forum Linguisticum, 1: 1-14.

CASTILHO, A. T. ET AL. (1995) Informatização de acervos da língua portuguesa. Boletim da ABRALIN, 17: 143-151. (Disponível na Internet: www.corpus.f2s.com/ataliba01.tif)

CELANI, M. A. A. (1998) Transdisciplinaridade na Linguistica Aplicada no Brasil. In: I. SIGNORINI & M. C. CAVALCANTI (org.). Lingüística Aplicada e Transdisciplinaridade. Campinas: Mercado de Letras.

CERMAK, F. (1997) Czech National Corpus: A case in many contexts. International Journal of Corpus Linguistics, 2.2: 181-198.

COWIE, A. P. (Org.) (1998) Phraseology – Theory, Analysis, and Applications. Oxford: Clarendon.

DUNCAN JR, J. C. (1972) A Frequency Dictionary of Portuguese Words. Tese de Ph.D., Stanford University.

FILLMORE, C. (1992) ‘Corpus linguistics’ or ‘computer corpus linguistics’. In: J. SVARTVIK (org.). Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82, Stockholm, 4-8 August 1991. Berlin, New York: De Gruyter.

FIRTH, J. R. (1957) Papers in Linguistics – 1934-1951. Oxford: Oxford University Press.

FRANCIS, G. & S. HUNSTON (1996) Grammar Patterns 1: Verbs. London: HarperCollins, COBUILD.

_____ (1998) Grammar Patterns 2: Nouns and Adjectives. London: HarperCollins, COBUILD.

FRANCIS, W. N. & H. KUCERA (1982) Frequency analysis of English usage: Lexicon and grammar. Boston: Houghton Mifflin.

GRANGER, S. (Org.) (1998) Learner English on Computer. New York: Longman.

HALLIDAY, M. A. K. (1991) Corpus studies and probabilistic grammar. In: K. AIJMER & B. ALTENBERG (org.). English corpus linguistics: Studies in honour of Jan Svartvik. London: Longman.

_____. (1992) Language as system and language as instance: The corpus as a theoretical construct. In: J. SVARTVIK (org.). Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82, Stockholm, 4-8 August 1991. Berlin, New York: De Gruyter.

HASAN, R. (1992) Rationality in everyday talk: From process to system. In: J. SVARTVIK (org.). Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82, Stockholm, 4-8 August 1991. Berlin, New York: De Gruyter.

HENNOSTE, T. ET AL. (1998) Structure and usage of the Tartu University Corpus of Written Estonian. International Journal of Corpus Linguistics, 3.2: 279-304.

HOEY, M. (1991) Patterns of Lexis in Text. Oxford: Oxford University Press.

_____. (1997) From concordance to text structure: New uses for computer corpora. In: B. LEWANDOSWKA-TOMASZCZYK & P. J. MELIA (org.). PALC’97 – Practical Applications in Language Corpora. Lodz: Lodz University Press.

HUNSTON, S. & G. FRANCIS (2000) Pattern Grammar – A Corpus-Driven Approach to the Lexical Grammar of English. Amsterdam/ Philadelphia: John Benjamins.

KENNEDY, G. (1991) ‘Between’ and ‘through’: The company they keep and the functions they serve. In: K. AIJMER & B. ALTENBERG (org.). English Corpus Linguistics – Studies in honour of Jan Svartvik. London / New York: Longman.

_____ (1998) An introduction to Corpus Linguistics. New York: Longman.

KJELLMER, G. (1994) A dictionary of English collocations – Based on the Brown Corpus. Oxford: Oxford University Press. (Three volumes)

LANGACKER, R. W. (1987) Foundations of Cognitive Grammar – Volume I – Descriptive Applications. Stanford, CA: Stanford University Press.

_____. (2000) A dynamic usage-based model. In: M. BARLOW & S. KEMMER (org.). Usage-Based Models of Language. Stanford: CSLI.

LEECH, G. (1966) English in advertising: a linguistic study of advertising in Great Britain. London: Longman.

_____ (1974) Semantics. Penguins: Harmondsworth.

_____. (1991) The state of the art in corpus linguistics. In: K. AIJMER & B. ALTENBERG (org.). English corpus linguistics – Studies in honour of Jan Svartvik. London: Longman.

_____. (1992) Corpora and theories of linguistic performance. In: J. SVARTVIK (org.). Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82, Stockholm, 4-8 August 1991. Berlin, New York: De Gruyter.

_____. (1997) Introducing corpus annotation. In: R. GARSIDE et al (org.). Corpus Annotation – Linguistic Information from Computer Text Corpora. London and New York: Longman.

_____. (1999) Review of Biber, Conrad, and Reppen (1997) Corpus Linguistics – Investigating Language Structure and Use. International Journal of Corpus Linguistics, 4.1: 185-188.

MCENERY, T. & A. WILSON (1996) Corpus Linguistics. Edinburgh: Edinburgh University Press.

MOON, R. (1998) Fixed Expressions and Idioms in English – A Corpus-Based Approach. Oxford: Clarendon Press.

NATTINGER, J. R. & J. S. DECARRICO (1992) Lexical phrases and language teaching. Oxford: Oup.

OWEN, C. (1992) Corpus-based grammar and the Heineken effect: Lexico-grammatical description for language learners. Applied Linguistics, 14: 167-187.

PARTINGTON, A. (1998) Patterns and Meanings – Using Corpora for English Language Research and Teaching (Studies in Corpus Linguistics 2). Amsterdam/Philadelphia: John Benjamins.

PAWLEY, A. & H. SYDER (1983) Two puzzles for linguistic theory: Native-like selection and native-like fluency. In: J. RICHARDS & R. SCHMIDT (org.). Language and Communication. London: Longman.

PERCY, C. E. et al (Orgs.) (1996) Synchronic Corpus Linguistics – Papers from the sixteenth International Conference on English Language and Research on Computerized Corpora (ICAME 16). Amsterdam/Atlanta,GA: Rodipi.

PIKE, K. L. (1972) Towards a theory of the structure of human behavior. In: R. M. Brend (org.). Kenneth L Pike – Selected writings. Hague: Mouton.

QUIRK, R. ET AL (1985) A Comprehensive Grammar of the English Language. London: Longman.

SANCHEZ, A. (1995) Definicion e historia de los corpus. In: A. SANCHEZ et al (org.). CUMBRE – Corpus Linguistico de Espanol Contemporaneo. Madrid: SGEL.

SANCHEZ, A. & P. CANTOS (1997a) El ritmo incremental de palabras nuevas en los repertorios de textos. Estudio experimental y comparativo basado en dos corpus linguisticos equivalentes de cuatro millones de palabras, de las lenguas inglesa y espanola y en cinco autores de ambas lenguas. Atlantis, 19.2: 1-27.

_____. (1997b) Predictability of word forms (types) and lemmas in linguistic corpora. A case study based on the analysis of the CUMBRE corpus: An 8-million word corpus of contemporary Spanish. International Journal of Corpus Linguistics, 2.2: 258-280.

SANCHEZ, A. ET AL (Orgs.) (1995) CUMBRE – Corpus Linguistico del Espanol Contemporaneo – Fundamentos, Metodologia, y Aplicaciones. Madrid: SGEL.

SCHÖNFELD, D. (1999) Corpus Linguistics and cognitivism. International Journal of Corpus Linguistics, 4.1: 137-172.

SCOTT, M. (1997) PC Analysis of key words – and key key words. System, 25: 233-245.

SINCLAIR, J. McH. (1966) Beginning the study of lexis. In: C. E. BAZELL (org.). In Memory of J R Firth. London: Longman.

_____. (1987) Collocation: a progress report. In: R. STEELE & T. THREADGOLD (org.). Language topics – Essays in honour of Michael Halliday (Vol. 2). Amsterdam/Philadelphia: John Benjamins.

SINCLAIR, J. (1991) Corpus, Concordance, Collocation. Oxford: Oxford University Press.

_____. (1995) From theory to practice. In: G. LEECH et al (org.). Spoken English on Computer – Transcription, mark-up and application. London: Longman.

_____. (1996) EAGLES Preliminary recommendations on Corpus Typology. EAGLES Document EAG TCWG CTYP/P. Pisa: Consiglio Nazionale delle Ricerche. Istituto di Linguistica Computazionale. Unpublished manuscript. Available at ftp://ftp.ilc.pi.cnr.it/.

SINCLAIR, J. MCH. & A. RENOUF (1988) A lexical syllabus for language learning. In: R. CARTER & M. MCCARTHY (org.). Vocabulary and language teaching. London: Longman.

SINCLAIR, J. MCH. ET AL (1987) COBUILD English Dictionary. London and Birmingham: Collins COBUILD.

STUBBS, M. (1995) Corpus evidence for norms of lexical collocation. In: G. COOK & B. SEIDLHOFER (org.). Principle and Practice in Applied Linguistics – Studies in Honour of H Widdowson. Oxford University Press: Oxford.

SVARTVIK, J. (Org.) (1992) Directions in Corpus Linguistics: Proceedings of Nobel Symposium 82 – Stockholm, 4-8 August 1991 (Trends in Linguistics – Studies and Monographs: 65). Berlin, New York: Mouton De Gruyter.

THORNDIKE, E. L. (1921) Teacher’s Wordbook. New York: Columbia Teachers College.

WEST, M. (1953) A General Service List of English Words. London: Longman.

YANG, D.-H. & M. Song (1998) How much training data is required to remove data sparseness in statistical language learning? NLP Lab., Department of Computer Science, Yonsei University, Seoul, Korea, http://december.yonsei.ac.kr/~dhyang.

ZHOU, Q. & S. Yu (1997) Annotating the Contemporary Chinese Corpus. International Journal of Corpus Linguistics, 2.2: 199-238.

1 Entendido aqui em relação a corpora de linguagem escrita. O primeiro corpus eletrônico de linguagem falada, com 220 mil palavras, é atribuído a John McH. Sinclair (vide Sinclair, 1995, p. 99).

2 A discussão acerca de se a Lingüística de Corpus é uma disciplina ou metodologia será apresentada na seção 6.

3 Aqui entende-se por texto uma amostra de linguagem falada ou escrita delimitada segundo critérios dos compiladores do corpus.

4 Embora incomum, pode-se afinar esta classificação diferenciando-se textos escritos para serem lidos de textos escritos para serem falados (roteiros, palestras, etc), e textos falados para serem ouvidos de textos falados para serem escritos (isto é, ditados).

5 Para uma crítica da descrição gramatical nesta linha vide Owen (1992).

FONTE: DELTA v.16 n.2 São Paulo  2000 Tony Berber SARDINHA (LAEL, PUC-SP)

Compartilhe...Share on FacebookShare on Google+Tweet about this on TwitterShare on LinkedIn

Leia Mais