José Ramom Pichel Campos, empresário informático em Imaxin Software, apresentou recentemente a sua tese de doutoramento na Universidade do País Vasco (UPV). No seu trabalho apresenta uma nova metodologia que permite calcular de forma automática a distância entre idiomas, quer na actualidade quer de um ponto de vista histórico.
A tese foi dirigida por Iñaki Alegría, da EHU/UPV, e Paulo Gamalho, vice-decano na Faculdade de Filologia na USC e especialista em linguística computacional que é o autor da entrevista.
Podes explicar a métrica de distância interlinguística sem entrar em pormenores técnicos ou matemáticos?
Popularmente as pessoas consideramos que quanto menos percebemos uma língua, maior deve ser a distância. Mas isto não é bem assim. As línguas são artefactos humanos inseridos em sociedades onde atuam diferentes poderes económicos e institucionais para além de estarem formadas por diferentes camadas: fonéticas, fonológicas, lexicais, sintáticas, semânticas, pragmáticas, etc. Isto torna bem complexo o cálculo real e completo desta distância.
Assim, por exemplo, atendendo ao plano fonético, o euskera e o castelhano são muito próximos, mas todo o mundo concorda que são línguas completamente diferentes. Polo contrário, a variedade galega da língua e a variedade portuguesa são bem distantes se compararmos foneticamente as diferentes variedades, não acontecendo o mesmo entre a Galiza, Brasil, Angola ou Moçambique. E mesmo atendendo a outras características como a sintaxe, se calhar o galego à partida pode estar mais próximo do português de Portugal que do português do Brasil.
Todos estes assuntos criam nas pessoas que realmente conhecem o galego e o português dúvidas da sua relação atual e também histórica: são duas variedades diversas da mesma língua ou duas línguas diferentes? Como bem diz o linguista e tradutor português Marco Neves: Depende.
Portanto era um grande desafio medir de forma automática esse “depende” e portanto a distância não só para estes casos, mas para qualquer língua sempre baseado em corpora, e que essa distância pudesse ser concretizada numa só métrica.
Por tudo isso, o método que desenvolvemos utiliza uma métrica chamada perplexity que verificamos era boa para a identificação automática de idiomas. Perplexity, é utilizada para saber se um modelo probabilístico, que representa por exemplo uma língua, é capaz de prever uma amostra desconhecida de um texto nessa ou noutra língua. Quanto mais baixa é a perplexity, melhor é o modelo em prever essa amostra, e portanto menos distante deve ser o modelo da amostra. A conclusão final portanto é que se fosse aplicada a línguas, quanta menor a perplexity é que as línguas devem estar mais próximas. Isto é, grosso modo, como funciona o método embora recomende ler os artigos publicados em Researchgate onde é o método apresentado em pormenor. E também aproveito para encorajar as pessoas para medirem distâncias noutras línguas do mundo.
Por tudo isso, o método que desenvolvemos utiliza uma métrica chamada perplexity que verificamos era boa para a identificação automática de idiomas. Perplexity, é utilizada para saber se um modelo probabilístico, que representa por exemplo uma língua, é capaz de prever uma amostra desconhecida de um texto nessa ou noutra língua.
A distância entre o galego padrão e o português padrão está na mesma escala de valor que a de outros casos de variedades europeias, como a distância entre o bósnio e o croata, por exemplo?
Há muitos anos, finalizando o curso de engenharia em informática na Corunha, topei na livraria Couceiro da Corunha com um livro intitulado “Estudios de sociolingüística galega. Sobre a norma do galego culto”, publicado em Galaxia e editado polo professor Monteagudo, onde pola primeira vez dei com o conceito do sociolinguísta Kloss a respeito das línguas por elaboração e as línguas por distanciamento. E se não lembrar mal, para os autores este conceito de língua por elaboração (Ausbau) podia ser aplicado ao galego em relação ao castelhano e português, como o linguista croata Žarko Muljačić tinha escrito em relação a diferentes variedades linguísticas balcânicas.
Posteriormente lim um livro, para mim fundamental, do Fernando Corredoira, publicado em Laiovento: “A construção do português frente ao castelhano. O galego como caso contrário”.
Desde a leitura destes dous livros, para mim que já naquela altura era reintegracionista, foi sempre um desafio saber se era possível calcular essa construção da distância entre línguas, mas baseado em dados. Isto é, se podíamos medir até onde chegavam as teses reintegracionistas baseadas em dados nas distâncias entre galego/português e castelhano.
Foi sempre um desafio saber se era possível calcular essa construção da distância entre línguas, mas baseado em dados. Isto é, se podíamos medir até onde chegavam as teses reintegracionistas baseadas em dados nas distâncias entre galego/português e castelhano.
Depois da experiência, já com tecnologias da linguagem durante 20 anos na empresa imaxin|software mas também graças a participar em projetos de elaboração terminológica e na localização de software, vim que o galego autonómico era construído polas pessoas, convergindo às vezes com o português e às vezes escapando dele, o que costuma dar numa convergência com o castelhano. Parecia-me, naquela altura, que o galego quanto mais se aproximava do português mais divergia do castelhano. E ao contrário.
No entanto, quando comecei a sério com a tese, graças à generosidade e as investigações do professor basco Iñaki Alegria da EHU/UPV, com quem tenho trabalhado em muitos projetos, e também por causa das investigações relevantes no campo do professor galego Paulo Gamalho, comecei a aprender a duvidar mesmo disto.
As investigações fundamentais que ligaram distância entre línguas e identificação automática de idiomas realizadas por Paulo Gamalho, que posteriormente deram lugar à metodologia, mostram que, com efeito, o galego no longo período medieval (XII-XV) a ambas as margens do Minho, tinha uma distância próxima a que existe entre português do Brasil e português europeu atual no caso de utilizarem todos os textos medievais uma ortografia comum próxima da fonológica.
O galego no longo período medieval (XII-XV) a ambas as margens do Minho, tinha uma distância próxima a que existe entre português do Brasil e português europeu atual no caso de utilizarem todos os textos medievais uma ortografia comum próxima da fonológica.
Posteriormente o galego no tempo de Rosalia de Castro ou Eduardo Pondal (segunda metade do século XIX) foi quando mais se distanciou do português, para finalmente convergir progressivamente no século XX. Esta convergência é explicada por causa da vontade de termos um padrão supradialetal compatível com outras variedades românicas, mais visível com o português e mais invisível com o castelhano.
De forma pormenorizada, vimos como na segunda metade do século XX, os textos em galego que usam a norma ILG-RAG e anteriores, são mais próximos do castelhano que do português. Mas no caso de utilizarem galego, português e castelhano uma mesma ortografia, são mais próximos do português.
Traduzindo: quando queremos ter uma padrão para o galego, não parece que exista espaço suficiente para conseguirmos ter uma língua independente distante do português e do castelhano, pois existe uma distância entre galego a respeito do português e do castelhano inferior a que existe entre bósnio e croata quando unificamos as ortografias de galego,português e castelhano.
Traduzindo: quando queremos ter uma padrão para o galego, não parece que exista espaço suficiente para conseguirmos ter uma língua independente distante do português e do castelhano, pois existe uma distância entre galego a respeito do português e do castelhano inferior a que existe entre bósnio e croata quando unificamos as ortografias de galego,português e castelhano.
Fica por ser resolvido, se o galego ainda se aproximaria mais ao português utilizando uma ortografia convergente com a portuguesa europeia, a do Brasil ou a do Acordo Ortográfico. Mas isto fica por demonstrar.
E ao respeito do castelhano? Está o galego padrão aproximando-se do castelhano?
Como comentei previamente e ao contrário do que eu pensava, quando desde o século XX há uma vontade de construir um padrão supradialetal para o galego, esta variedade românica aproxima-se do português e também do castelhano. Mas respeito ao castelhano, quanto mais avança o século XX, mais se aproxima, atingindo a distância mínima na segunda metade do século XX com a ortografia atual.
Será que a tua tese confirma a hipótese de Carvalho Calero: o galego é galego-português ou galego-castelhano?
O propósito da tese não foi confirmar esta hipótese do Carvalho Calero, mas os nossos dados são uma primeira confirmação sobre o comentado polo professor Carvalho Calero, que poderia ser resumido no seguinte: não existe um espaço suficiente entre português e castelhano para existir um padrão de uma terceira língua. E também, que a ortografia é o fator relevante que fai que com a ortografia atual o galego esteja mais próximo do castelhano que do português. Polo contrário, se utilizarem uma ortografia comum galego, português, e castelhano, o galego é mais próximo do português.
A ortografia é o fator relevante que fai que com a ortografia atual o galego esteja mais próximo do castelhano que do português. Polo contrário, se utilizarem uma ortografia comum galego, português, e castelhano, o galego é mais próximo do português.
Portanto, chegamos a partir dos dados a reforçar a hipótese do professor Carvalho Calero com a sua famosa frase: “O galego ou é galego-português ou é galego-castelhano. Ou somos umha forma do sistema ocidental ou somos umha forma do sistema central. Nom há outra alternativa”.
Que outras factos de interesse linguístico achaste nas tuas experiências em relação às distâncias entre outras línguas europeias?
Este método pode ser aplicado à distância atual entre línguas (como é de distante o euskera do português?), entre períodos históricos da mesma língua (como se distancia o período medieval do inglês frente ao inglês do século XIX?), entre períodos históricos de duas ou mais línguas (como se distancia historicamente o português do castelhano?) ou entre períodos históricos de duas variedades diatópicas de línguas (como se distancia o português do Brasil do português europeu desde a segunda metade do século XX até a actualidade?).
Entre os factos mais relevantes que foram descobertos a partir dos números, podemos pôr em destaque: que as línguas ou as variedades historicamente podem convergir ou divergir de diferentes maneiras. Isto é, não necessariamente duas línguas ou variedades a divergir, divergirão sempre. Podem voltar a convergir, ou ao contrário. O qual mostra o fator humano fundamental nesta construção e que foi apontado nos livros previamente mencionados. Isto obviamente reforça especialmente o comentado polo professor Fernando Vázquez Corredoira no seu livro para o caso do galego/português e castelhano. Também que a ortografia tem um papel nesse distanciamento atual e histórico entre línguas, podendo achegar ou separar historicamente as línguas ou variedades.
Por último, que este método também foi capaz de ver de forma automática, isto é muito importante, hipóteses controversas de relacionamento entre línguas, como a relação entre euskera e georgiano, que ainda estando muito longe, relaciona a estas línguas, e que coincide com alguma hipótese de linguistas.