Comparar a toponímia galega e basca com n-gramas*

Partilhar

 

*

Um dia, tomando um coffee, os dous autores deste pequeno artigo brinquedo, começamos a falar, que havia alguma toponímia galega que parecia basco: Aranza (em Lugo e em Soutomaior), Orbazai (em Lugo), Mabegondo, e outros. Começamos a brincar com a ideia, de provar como quanto de parecidas eram a toponímia basca e a toponímia galega, utilizando sistemas básicos de comparativa com n-gramas. E assim fizemos. Sem pretender, obviamente, tirar nenhuma conclusão, só queríamos descrever um método quantitativo que poda ajudar ao estudo da toponímia comparada.

O método é muito simples. Se queremos comparar os topónimos de duas áreas geográficas diferentes, partimos de duas listas de topónimos, lista A e lista B, cada uma representando uma das duas áreas geográficas alvo. Para podermos comparar estas duas listas, construímos a seguir dous modelos mais abstractos, baseados em n-gramas de caracteres. Vejamos um exemplo. Suponhamos que temos uma lista com dous topónimos: “Ourense, Mourente”. Uma abstração em 5-gramas (ou pentagramas) de caracteres desta pequena lista é a seguinte:

#oure 1, ouren 2, urens 1, rense 1, ense# 1, #mour 1, moure 1, urent 1, rente 1, ente# 1

Onde “#” é também um carácter que representa princípio ou final de sequência. O número que acompanha a cada 5-grama representa a frequência do mesmo. Neste exemplo, “ouren” aparece duas vezes, enquanto que o resto de pentagramas só uma vez.

Após termos construído automaticamente os dous modelos de n-gramas, modelo A e modelo B, a partir das duas listas iniciais A e B, a seguinte tarefa é procurarmos os n-gramas comuns, é dizer aqueles que aparecem nos dous modelos. Uma vez identificados os n-gramas comuns, procuramos agora organizá-los mediante um peso de relevância. Para definirmos o peso, vamos ter em conta a frequência do n-grama menos frequente no seu modelo, e consideramos como mais relevante o n-grama comum com o peso mínimo mais alto. Chamamos então peso do n-grama comum a esta frequência mínima. A seguir, ordenamos o conjunto dos n-gramas comuns tomando em conta o peso assim definido. Deste jeito, obtemos uma lista ordenada em função da representividade dos n-gramas nos dous modelos. Os n-gramas mais representativos de A e B (peso alto) aparecem acima e os menos representativos (peso baixo) situam-se abaixo.

Fizemos um experimento com duas listas: uma pequena de quase 3.000 topónimos galegos do projeto Topogal de José Henrique Peres Rodríguez, e uma outra maior com quase 50.000 topónimos bascos compilada polo governo do País Basco e disponível na seguinte web: http://www.euskara.euskadi.eus/r59-734/es/. Devemos ter em conta que há uma grande descompensação entre as duas listas. O ficheiro resultado dos experimentos, formado polos 5-gramas comuns às duas listas e ordenados por peso está disponível na seguinte url:

http://fegalaz.usc.es/~gamallo/resources/toponimos-gz-eu.csv

A partir destes resultados, é possível pôr de relevo algumas observações, que podem ou não ter interesse filológico.

Encontrámos oito topónimos galegos com a sequência de caracteres ondo, entre eles Bergondo e Gondomar, embora faltem outros como Abegondo, Cullergondo ou Mabegondo. Em euskera, o sufixo -ondo significa junto a, e é muito frequente na lista basca onde achamos 582 casos. Deles, 8 contêm a sequência gondo, como é o caso do topónimo basco Margondo. Dado que não somos filólogos experientes só conseguimos conjecturar que talvez se trate duma localidade fundada por emigrantes retranqueiros de Gondomar, já que Margondo se encontra em Orduña, bem longe do mar, e Margondo e Gondomar são palindromes.

Achámos também 17 exemplos galegos com a sequência alde, frente a 1005 casos bascos. Em euskera, o sufixo -alde tem um significado muito similar a -ondo, e refere-se ao conceito perto de. Em galego, existem vários topónimos rematados con esta sequência: Aralde, Gontalde, Xalde, Moialde, Abalde. Em euskera, achamos vários casos que contêm a sequência aralde: Baralde, Garalde, Maralde, Txaralde. E outros que contêm um som parecido com xalde: Atxalde, Aretxalde, Etxalde. Além destes casos, frente ao galego Moialde, encontramos o basco Goialde. Ou frente ao nosso Gontalde, achamos os étimos éuskaros Mentalde e Bentalde.

Um outro caso interessante é o sufixo –antes, que se encontra nos topónimos galegos Cervantes, Barrantes, Barbantes, Bemantes e Serantes. É curioso encontrar tamém o mesmo topónimo Serantes em Euskadi, além de um pequeno lugar nas Astúrias com o mesmo nome. Por acaso, isto não admira, porque como dizem os expertos, -antes é sufixo pré-romano indo-europeu.

A toponímia comparada é uma linha de investigação muito sedutora cheia de teses de doutoramento por fazer, embora não tenha entrada na Wikipédia. O uso de modelos quantitativos melhor elaborados, de algoritmos computacionais mais complexos, assim como de fontes de dados mais amplas (por exemplo: o Projeto Topónimos da Galiza, com mais de 400 mil entradas), servirão para encetar estudos mais sérios do que o presente, que aqui remata com a sua piada.

*n-gram

Máis de Paulo Gamallo & J. R. Pichel
No data was found