Os grandes modelos de língua, como os que estão por trás de ChatGPT e outros sistemas de diálogo, estão a revolucionar o jeito como interatuamos com os dispositivos e as máquinas. Para buscarmos informação passamos de utilizar palavras clave ou frases simples a formular perguntas complexas perfeitamente construídas, pois intuímos que o sistema nos entende seja qual for a grau de complexidade da língua empregada. Esperamos tamém que nos responda com texto mui bem escrito, bem organizado, coerente e com conteúdo relevante, escrito na mesma língua ou mesmo na mesma variedade utilizada para escrever a pergunta ou instrução com a que iniciámos a interação. Hai dous ou três anos este tipo de interações humano-máquina eram só devaneios da ficção científica, mas, hoje, já estão a ser interiorizadas pola maioria das usuárias de ferramentas de inteligência artificial e formam parte do uso diário destas tecnologias. A medida que usamos ChatGPT e modelos semelhantes, descobrimos tanto as suas potencialidades, como tamém os seus limites, nomeadamente no âmbito da informação factual, pois ainda nos fornecem informações pouco fiáveis e dados falsos.
A medida que usamos ChatGPT e modelos semelhantes, descobrimos tanto as suas potencialidades, como tamém os seus limites, nomeadamente no âmbito da informação factual, pois ainda nos fornecem informações pouco fiáveis e dados falsos.
Sou investigador no âmbito da linguística computacional que trabalha nestas tecnologias hai muitos anos. O meu interesse científico sempre foi tentar modelar e formalizar o jeito como os humanos compreendemos os textos que lemos, de forma a poder descrever os mecanismos e operações subjacentes à linguagem, entendida como capacidade para compreender e gerar expressões em língua natural. Dentro deste quadro teórico formal, que foi sempre o que mais me interessou, a parte computacional não é mais que a faceta experimental que me permite validar diferentes tipos de hipóteses linguísticas. É preciso esclarecer que a parte experimental, que sempre foi (e deve ser) um trabalho de equipa, está a ganhar cada vez mais peso nas minhas pesquisas em detrimento da parte mais teórica e linguística, como é o caso, acho eu, da maioria das investigadoras no nosso âmbito. Digo isto porque vou tentar explicar da forma mais simples possível em que consistem os grandes modelos de língua e como o seu desenvolvimento atual afetou e está a afetar a minha própria investigação. Isto levar-me-á a comentar como o seu desenvolvimento tamém pode afetar o uso e a evolução da nossa língua numa perspetiva reintegracionista.
Os modelos de língua são utilizados em todo tipo de tarefas linguísticas (tradução, reconhecimento e síntese da fala, resumos automáticos, classificação textual, diálogo, etc.) desde hai mais de 30 anos. São treinados com grandes quantidades de texto aprendendo a prever qual é a palavra mais provável tendo em conta uma sequência anterior. A este respeito, os novos modelos de língua, baseados em redes neuronais artificiais, não têm nada de novo. A totalidade ou a grande maioria do seu conhecimento linguístico baseia-se na predição e a estatística. A principal diferença em relação aos modelos tradicionais reside na complexidade e tamanho da arquitetura utilizada para aprender a adivinhar e prever o que se segue a uma determinada sequência linguística. Ora, enquanto muitas de nós testávamos e procurávamos outros tipos de modelos, não baseados apenas na predição, mas noutras operações linguísticas mais complexas, surgiu algo surpreendente. A partir de uma certa dimensão dos modelos, ou seja, quando se utilizam arquiteturas enormes com milhares de milhões de parâmetros com corpus textuais de milhares de milhões de palavras, começam a surgir propriedades inesperadas.
A partir de uma certa dimensão dos modelos, ou seja, quando se utilizam arquiteturas enormes com milhares de milhões de parâmetros com corpus textuais de milhares de milhões de palavras, começam a surgir propriedades inesperadas.
Antes destes grandes modelos, o esperado e habitual era utilizar um modelo de língua na tarefa para a qual foi treinado, ou seja, para gerar texto por predição auto-completando uma sequência anterior, ou bem tentar integrá-lo num sistema desenvolvido para levar a cabo uma tarefa linguística específica, por exemplo, identificar se um texto representa um sentimento positivo ou negativo. Isto era o esperado. Ora bem, os grandes modelos de língua atuais, quando são treinados com redes neuronais artificiais de grande tamanho, não só conseguem auto-completar texto sem problema, mas tamém podem realizar qualquer tarefa dada uma instrução. E é precisamente esta versatilidade e capacidade para ‘compreender’ diferentes tipos de instruções o que está a surpreender à comunidade científica (coloco entre aspas compreender porque o sujeito do verbo não é um organismo biológico com consciência). Por exemplo, um grande modelo atual responderia “positivo” ao texto a seguir que representa uma instrução: “Identifica se a seguinte frase é positiva ou negativa: é um livro genial”. O tipo de resposta que devolve demonstra que surpreendentemente ‘compreendeu’ o texto de entrada. Um pequeno modelo com a arquitetura tradicional, no entanto, procuraria auto-completar o texto como se fosse um simples gerador (é um livro genial … de Castelao), pois não compreende o que se lhe está a pedir, é dizer, não consegue interpretar o texto de entrada como uma instrução onde se lhe solicita classificar a última frase. Frente a esta limitação, os grandes modelos atuais têm uma capacidade de transformação surpreendente para adaptar-se a qualquer tarefa mediante o uso de instruções específicas ou dum conjunto pequeno de exemplos. Hoje, um grande modelo de língua pode ele só efetuar qualquer tarefa, desde que seja feita uma adaptação prévia relativamente simples. Já não é preciso, como antes, desenvolver sistemas específicos para cada tarefa, que integrem ou não pequenos modelos de língua. Chega com desenvolver um grande modelo, que representa o conhecimento linguístico genérico duma ou várias línguas, e adaptá-lo ao que for preciso. ChatGPT é o resultado de ajustar e adaptar o grande modelo GPT-3.5 a múltiplas tarefas linguísticas, incluída a de responder a perguntas em forma de diálogo.
O que é surpreendente e, até certo ponto, misterioso é o facto de uma operação tão simples como a predição de uma palavra em contexto ser suficiente para construir modelos com uma capacidade extraordinária para simular a compreensão das línguas naturais. Parece claro que os seres humanos aprendemos línguas de forma diferente: precisamos de muitos menos dados e utilizamos mais operações cognitivas para além da predição. Isto indica que não é preciso aprender como os humanos para chegar a ter um comportamento mui próximo do humano. Talvez não sejamos assim tão especiais e complicados.
Pola minha parte, sempre pensei que para chegar ao nível de qualidade dos modelos atuais seria necessário introduzir conhecimento linguístico explícito: informação sintática, relações semânticas, e mesmo conhecimento do mundo estruturado em ontologias. Sempre pensei que não é possível desenhar bons modelos sem guiar o processo de aprendizagem mediante conhecimento simbólico e estruturado. Mas não, tal e como expliquei, dispor de muito texto, de muita capacidade de cômputo e aplicar a simples operação de predição permite desenvolver modelos de língua infinitamente melhores do que eu poderia ter imaginado hai alguns anos, modelos que semelham inteligentes porque fingem bem compreender o que se lhes di. No mundo da linguística e, em geral, das ciências cognitivas, tendemos a criticar estes modelos aludindo à sua faceta de papagaios estatísticos, que não sabem mais que repetir ou parafrasear o que está nos textos utilizados durante o treino. A crítica centra-se no absurdo de desenvolver modelos inteligentes a partir de um processo tão rudimentar baseado exclusivamente em ler e adivinhar, ou bem em engolir e cuspir palavras, que é a expressão que utilizamos com tom retranqueiro para ridiculizar o mecanismo de aprendizagem. Mas a verdade é que este processo, quando se fai com grandes arquiteturas computacionais e com muita força bruta, funciona extraordinariamente bem.
A crítica centra-se no absurdo de desenvolver modelos inteligentes a partir de um processo tão rudimentar baseado exclusivamente em ler e adivinhar, ou bem em engolir e cuspir palavras, que é a expressão que utilizamos com tom retranqueiro para ridiculizar o mecanismo de aprendizagem. Mas a verdade é que este processo, quando se fai com grandes arquiteturas computacionais e com muita força bruta, funciona extraordinariamente bem.
Nunca pensei que chegássemos tão longe a partir dum processo de predição tão simples, sobretudo porque, se não houver necessidade de conhecimento especializado para criar bons modelos de língua, a linguística já não tem qualquer utilidade neste âmbito de pesquisa. De facto, cheguei a reconsiderar o meu trabalho, reciclar-me e procurar fazer outras cousas, como escrever mais artigos de divulgação ou focar-me mais na parte docente. Mas decidim deixar de lado, por enquanto, a investigação básica com a qual pretendia encontrar uma forma diferente de modelar a língua, pois é impossível que os meus conhecimentos ajudem a melhorar o a que já existe, para assim concentrar-me no simples desenvolvimento de grandes modelos de galego/português, ou mesmo de grandes modelos multilingues que contenham galego/português, usando, claro, as técnicas existentes.
Estamos num momento clave para as tecnologias linguísticas e, neste contexto, é fundamental a presença do galego em grandes modelos multilingues, como o ChatGPT ou similares. E a presença do galego e de conteúdos da Galiza não deve ser apenas testemunhal, representada por uma pequena amostra de textos. Não se trata apenas de o modelo dominar as diferentes variedades da nossa língua (incluindo o português europeu e brasileiro), mas também de ter um conhecimento profundo da nossa história, sociedade, economia, cultura e política, ao longo dos séculos. ChatGPT, que foi treinado por uma empresa estado-unidense, OpenAI, tem muito menos conhecimento da realidade galega do que da americana. Se lhe perguntades, por exemplo, quais são os cientistas galegos mais relevantes, sempre devolve, na versão atual, Ramón y Cajal como primeira opção, independentemente da língua, variedade ou variante ortográfica que usedes para fazer a pergunta.
ChatGPT, que foi treinado por uma empresa estado-unidense, OpenAI, tem muito menos conhecimento da realidade galega do que da americana. Se lhe perguntades, por exemplo, quais são os cientistas galegos mais relevantes, sempre devolve, na versão atual, Ramón y Cajal como primeira opção, independentemente da língua, variedade ou variante ortográfica que usedes para fazer a pergunta.
Estes modelos fórom treinados com suficiente texto nas diferentes variedades/variantes do galego (norma ILG-RAG, padrão europeu ou variedade brasileira), mas o seu conhecimento da nossa realidade é mui inferior ao que podemos admitir e tolerar. A principal diferença entre o galego e o inglês não está na qualidade da língua utilizada por estes modelos, uma vez que a qualidade do galego é excelente, mas no grau de conhecimento da realidade galega em relação à anglo-saxónica. E isso faz com que as galegas, ou outros membros de culturas minorizadas, estejamos menos interessadas em interagir com sistemas como ChatGPT. Estes desequilíbrios acontecem em todas as comunidades linguísticas, a diferentes níveis. Seguindo o exemplo do mundo lusófono, a comunidade portuguesa europeia sente-se minorizada ao respeito da comunidade brasileira, uma vez que os grandes modelos multilingues foram treinados com dados em português provenientes maioritariamente de fontes brasileiras. E, claro, a discriminação das comunidades africanas de língua portuguesa é ainda maior. De facto, em Portugal, está a ser lançado um projeto para construir um corpus compilado a partir do varrido de toda a web .pt, a fim de construir novos modelos que compreendam melhor, não só a variante linguística europeia, mas também as idiossincrasias sócio-políticas do país. Na minha opinião, deveríamos treinar os modelos com o maior número possível de textos galegos em qualquer norma e variedade (com licenças livres ou acordos de exploração), para fornecer ao modelo um conhecimento muito maior da cultura e da realidade social da Galiza.
Penso que os grandes modelos linguísticos multilingues são uma boa oportunidade, não só para dar voz a um grande número de línguas, mas também para reforçar os polissistemas linguístico-culturais associados a línguas com múltiplas variantes enraizadas em diferentes nacionalidades, como é o caso da lusofonia.
Penso que os grandes modelos linguísticos multilingues são uma boa oportunidade, não só para dar voz a um grande número de línguas, mas também para reforçar os polissistemas linguístico-culturais associados a línguas com múltiplas variantes enraizadas em diferentes nacionalidades, como é o caso da lusofonia.
E no nosso mundo lusófono, o sistema galego deve estar bem presente com a ajuda da comunidade reintegracionista. Para isso, acho que deveríamos procurar que os grandes modelos fossem tamém treinados com textos provenientes do universo linguístico reintegracionista: do portal PGL, de jornais como Novas de Galiza, de revistas como Agália e de editoras como Através. O projeto Nós está atualmente em curso com o objetivo de gerar os recursos abertos necessários para o desenvolvimento de grandes modelos de língua (texto e voz) que disponham da língua galega. Os acordos entre este projeto e todos os fornecedores de texto em norma AGAL são imprescindíveis para que os novos modelos que se estão a desenvolver e se desenvolvam no futuro próximo tamém compreendam e falem em português da Galiza, além de adicionar conteúdos que completem e enriqueçam a nossa realidade socio-cultural.
É o momento de agir e participar ativamente na integração das nossas variedades nos grandes modelos multilingues. Estão reunidas as condições para agir: hai cada vez mais e melhor software livre especializado em treinar grandes modelos, temos na Galiza uma infraestrutura tecnológica excelente como o supercomputador Finisterrae III do CESGA (bem como a grande disponibilidade dos membros do centro para colaborar) e esta-se a levar a cabo um projeto com pessoal da USC e doutras universidades altamente qualificado para desenhar e desenvolver os modelos. Agora, com estas condições reunidas, o prioritário é obtermos dados de alta qualidade mediante acordos de exploração com as organizações fornecedoras de conteúdos, tomando sempre em conta questões éticas, direitos de autor, normas de privacidade, ameaças à liberdade criativa, etc.
O mais curioso destes modelos multilingues é que tudo soma: o galego ILG-RAG melhora o galego AGAL e este melhora o anterior. Não só não é detetada qualquer interferência entre línguas, variedades ou variantes ortográficas, como se observa que todas as línguas e variedades tendem a melhorar quando são processadas em conjunto. É um win-win de manual.