Artigos de divulgação filológica, como o publicado recentemente em Praza por L.C. Carballal, e trabalhos académicos, como o do catedrático Martinho Montero Santalha, ajudam a criar consenso social sobre qual deve ser considerado o termo patrimonial e qual o castelanismo no par Galiza/Galicia. Os dados quantitativos extraídos dos escritos medievais permitem-nos observar com nitidez que o uso maioritário nessa altura, quando a nossa língua se desenvolvia de forma natural, é Galiza e as suas variantes escritas. A este respeito, considero importante que haja também estudos e trabalhos semelhantes, de acesso aberto e disponíveis na rede, sobre fenómenos linguísticos análogos, para podermos debater com argumentos mais sólidos e em base a dados empíricos. Por exemplo, é interessante termos a nosso dispor dados quantitativos sobre o que acontece com as palavras terminadas em -çom ou -vel e como se distribui o seu uso em relação as variantes terminadas em -cion e -ble Neste breve trabalho, o objectivo é comparar, em termos puramente quantitativos, a frequência de distribuição dos sufixos -çom/-cion e -vel/-ble nun corpus representativo do galego medieval da Galiza. Os resultados serão comparados com os obtidos a partir dum corpus de textos medievais de Portugal do mesmo tamanho. Não se trata dum trabalho filológico e académico com explicações detalhadas e contextualizadas sobre o uso e evolução dos sufixos. É mais bem um artigo de divulgação que tenta só mostrar o mapa da distribuição de uso dos sufixos em estudo.
O corpus do galego medieval da Galiza utilizado para este estudo consta de 1 milhão e meio de palavras em 24 documentos datados entre os séculos XIII e XV. Foi cedido mui amavelmente polo professor Xavier Varela do ILG e forma parte do TMILG (Tesouro Medieval Informatizado da Língua Galega) (Varela, 2004). Foi também a base empírica do trabalho de José Ramom Pichel et al. (2020). Os documentos abrangem diferentes géneros textuais: líricos, ensaístas e notariais. Entre as obras compiladas, incluem-se as Cantigas de Santa Maria, Crónica Geral de Castela, Cancioneiro de Ajuda, cantigas de Airas Nunes e numerosas actas notariais. Para poderdes dispor do corpus é preciso contatar com Xavier Varela. Os textos foram processados com o tokenizador de LinguaKit e scripts PERL orientados à realização de buscas sobre texto tokenizado. De jeito alternativo, é possível fazer buscas semelhantes na web do TMILGA (prévio registo) mediante o uso de expressões regulares que simulem as realizadas no presente trabalho. É fundamental sublinhar que o processamento dos textos foi feito uma vez identificados e separados automaticamente os parágrafos escritos em galego-português frente a excertos, bastante numerosos em documentos notariais, escritos em castelám medieval. Como não existia nenguma ferramenta adaptada para esta tarefa concreta, o identificador de línguas medievais foi elaborado expressamente para este trabalho mediante o treino e configuração da ferramenta QueLingua. A seguir analisamos a distribuição do par –çom/–cion, e depois a de -vel/-ble.
1. Distribuição dos sufixos –çom/–cion
Para levar a cabo o estudo sobre este par de sufixos, foram listadas primeiro todas as variantes gráficas identificadas nos textos:
-çom: -çom, -som, -zom, -çon, -son, -zon, -ção, -são, -sao, -çao, -çõ, -çón, -són, -zón, -zóm
-cion: -cion, -sion, -siom, -çiom, -çion, -ción, -sióm, sión, -çión
Repare-se que escrevo sempre em negrinha e cursiva a forma normalizada dos dous sufixos, -çom e -cion, e só em cursiva as variantes de cada um deles. A seguir, foram extraídas todas as ocorrências das palavras com alguma das variantes listadas. As ocorrências extraídas foram revisadas e os casos não pertinentes removidos, nomeadamente: as formas do verbo ser (som, son, etc.) e as formas com iode desaparecido em estágios iniciais (coraçom, razom, sazom). Devido ao grande número de variantes para um mesmo sufixo, e para simplificar a tarefa, só as formas em singular foram consideradas. Polo mesmo motivo, não foram normalizadas numa forma canónica (ou lema) as diferentes variantes da mesma palavra. Por exemplo, existem múltiplas variantes da mesma palavra “excepção”:
exçeçon 2
exceiçon 2
exçeiçon 7
excepcion 1
exçepçion 1
exçepçom 3
exçepçon 132
excepçon 2
exçeyçon 1
exepçon 19
exeçon 4
Na segunda coluna aparece a frequência de cada variante, sendo a mais frequente, sobejamente, a forma excepçon, que poderia ter sido considerada a forma canónica medieval arredor da qual organizar o resto de variantes. Como já foi dito, este trabalho de normalização/lematização arredor duma forma canónica não foi levado a cabo.
Uma vez extraídas as palavras com os sufixos alvejados, contamos o número de ocorrências totais e número de palavras diferentes por variante e agregamos os resultados para obtermos o valor total de cada sufixo. As seguintes duas tabelas (Tabela 1 e Tabela 2) apresentam a distribuição dos dados quantitativos de cada sufixo, -çom e -cion, e as suas variantes.
O sufixo -çom tem uma frequencia total de 4237 ocorrências em 532 palavras ou formas diferentes, enquanto -cion ocorre 288 vezes em 149 formas diferentes.
O uso do sufixo -çom é claramene maioritário, nomeadamente se tivermos em conta a pouca frequência das palavras com as variantes do sufixo -cion em comparação com as formas terminadas com variantes do sufixo -çom: cada palavra com variantes de -cion ocorre de média só 2 vezes no corpus (288 ocorrências para 149 formas diferentes), enquanto que as palavras com variantes de -çom tendem a ter uma frequência média de 8 (4237 ocorrências para 532 formas diferentes).
Analisando os pormenores dos experimentos realizados, foram achados três indícios que semelham demonstrar que o uso do sufixo -cion está relacionado com a castelanização do galego medieval.
Primeiro indício de castelanização: no século XV, mais castelhanizado, a proporção de palavras com o sufixo -çom ao respeito de -cion é claramente menor que em séculos anteriores, onde a proporção de -çom frente a -cion é maior. A Figura 1 mostra esta tendência. Enquanto nos séculos XIII e XIV a proporção de palavras com sufixo em -çom é por volta de 17 vezes superior, este valor baixa a 11 no século XV. Concretamente, no século XIII há 1109 casos de -çom frente a 67 casos de -cion (16,6 vezes mais casos de çom), enquanto que no XV encontramos 1210 casos de -çom frente a 112 de -cion (11 vezes mais).
Segundo indício de castelanização: Nos parágrafos identificados automaticamente como sendo escritos em castelám (ou num galego medieval mais influenciado polo castelám) a tendência é a contrária. Achamos maior proporção de -cion ao respeito de -çom:
-cion: 163 ocorrências em 69 formas diferentes
-çom: 68 ocorrências em 39 formas diferentes
Terceiro indício de castelanização: Nos textos medievais de Portugal, tal e como se pode observar nas tabelas 3 e 4, o uso de -cion é mui marginal ao respeito de -çom. Estes experimentos foram levados a cabo compilado um corpus de textos de Portugal dos séculos XIII-XV. Trata-se da parte portuguesa medieval do corpus diacrónico e multilingue Carvalho (Pichel et al. 2019, Pichel et al. 2020). Este sub-corpus consta de 1,7 milhões de palavras (ligeiramente mais grande que o corpus medieval de Galiza), e inclui também textos de diferentes géneros, como Chronica de Dom João I, Cantigas de Dom Dinis e documentos notariais. O corpus Carvalho está disponível na ligaçom: http://fegalaz.usc.es/~gamallo/resources/Carvalho.tgz
Alem do uso residual de -cion nos documentos de Portugal, uma outra diferença importante é o uso maioritário das variantes terminadas em m, frente a tendência inversa nos textos galegos onde as duas variantes mais frequentes de -çom são -çon e -son. De resto, existe uma grande simetria no uso das variantes de -çom nos textos da Galiza e de Portugal: encontramos quase as mesmas variantes gráficas de -çom e um número mui próximo de ocorrências de palavras com este sufixo.
2. Distribuição dos sufixos -vel/-ble
O mesmo tipo de experimentos foi levado a cabo para analisar a distribuição do par –vel/-ble, derivados do sufixo latino -BĬLIS. Baseei-me no trabalho de Ramón Mariño (2005) para listar as variantes possíveis dos dous sufixos. Como nos experimentos anteriores, só as formas em singular foram consideradas e os casos errados foram removidos após revisão. As tabelas 5 e 6 mostram uma maior proporção de casos de -vel frente a -ble.
Como no caso do par anterior, foram achados três indícios que demonstram que o uso do sufixo -ble está relacionado com a castelanização do galego medieval.
Primeiro indício de castelanização: Há maior proporção de variantes de -vel sobre variantes de -ble nos séculos XIII e XIV, frente ao século XV, tal e como mostra a Figura 2. Esta mesma tendência também se pode observar no trabalho de Mariño (2005).
Segundo indício de castelanização: Não há maior número de ocorrências de -vel frente a -ble nos parágrafos identificados automaticamente como sendo escritos em castelám:
-ble: 4 ocorrências em 3 formas diferentes,
-vel: 3 ocorrências em 3 formas diferentes
Terceiro indício de castelanização: No corpus galego (tabelas 5 e 6) a distribuição de frequências entre os dous sufixos é mais igualada que em Portugal (tabelas 7 e 8), onde -ble é claramente minoritário. Enquanto em galego a frequência de -vel é só 5,4 vezes maior do que -ble, em Portugal é 32 vezes maior.
Observamos, portanto, que o comportamento de -vel/-ble é muito similar ao de -çom/-cion, nomeadamente no tocante aos indícios, ou mais bem evidências, de castelanização de -ble e -cion.
Os dados analisados no presente trabalho permitem concluir que a decisão de não recuperarmos a variante patrimonial en -çom de muitas palavras, dando preferência à forma semi-culta das terminadas em -cion (por exemplo: “elección”, “xeración”, “perfección”), é questionável. Se a maioria destas formas semi-cultas não aparecem nos textos medievais da Galiza, é difícil perceber por que não foram recuperadas as correspondentes formas patrimoniais frequentes no galego medieval: eleiçon, geraçon, perfeyçõ. A riqueza e produtividade de -çom na época medieval observa-se mesmo em textos de prosa notarial do domínio jurídico-administrativo com palavras mui especializadas tais como anexaçon ou apelaçon.
Por outro lado, sendo a proporção do uso de -vel frente a -ble (5,4) claramente menor que a de -çom frente a -cion (14,7), por que a norma do galego ILG-RAG recuperou -vel e não -çom?
Talvez a resposta tenha a ver com que -çom é um sufixo muito mais produtivo e portanto mais aportuguesador: frente às mais de 4 mil ocorrências de palavras terminadas em -çom na amostra de textos medievais da Galiza, só se documentam pouco mais duma centena de ocorrências com o sufixo -vel nesse mesmo período e na mesma amostra. Seica o sufixo -çom, ao ser demasiado frequente e demasiado português, é percebido como uma bomba que bota abaixo esse equilíbrio impossível que procura uma norma equidistante entre português e castelám.
Recursos
Os léxicos com os sufixos estudados e extraídos dos corpus da Galiza e Portugal podem descarregar-se desde esta ligação:
http://fegalaz.usc.es/~gamallo/resources/sufixos_medievais.zip
Referencias
- Mariño Paz, Ramón (2005): “Forma e función do sufixo –uel no galego medieval”, Cadernos de lingua, 27, 155-193.
- Varela Barreiro, Xavier (2004). Tesouro medieval informatizado da lingua galega. Santiago de Compostela: Instituto da Lingua Galega [http://ilg. usc. es/tmilg](01/09/13-09/10/13) .
- Pichel, J-R., Pablo Gamallo, Iñaki Alegria, Marco Neves (2020) “A Methodology to Measure the Diachronic Language Distance between Three Languages Based on Perplexity”, Journal of Quantitative Linguistics, pp. 1-31. DOI: 10.1080/09296174.2020.1732177.
- Pichel, J.R, Pablo Gamallo, Iñaki Alegria (2019). “Measuring diachronic language distance using perplexity: Application to English, Portuguese, and Spanish, Natural Language Engineering. DOI: 10.1017/S1351324919000378.