Portugal apresentou o AMALIA, um modelo de linguagem aberto desenvolvido em português europeu, com financiamento do PRR e aplicação prevista em serviços públicos e empresas.
Portugal anunciou o desenvolvimento do AMALIA – Assistente Multimodal Automático de Linguagem com Inteligência Artificial – apresentado como o primeiro modelo de linguagem de código aberto concebido especificamente para português europeu. Trata-se de um sistema de inteligência artificial enquadrado na categoria dos chamados large language models (LLM), capaz de compreender e gerar linguagem natural, e que foi desenvolvido com o objetivo de reduzir a dependência tecnológica de soluções externas e reforçar a capacidade nacional nesta área.
O projeto resulta de um consórcio que reúne várias instituições académicas e científicas portuguesas, incluindo a Universidade NOVA de Lisboa, o Instituto Superior Técnico, as universidades de Coimbra, Porto e Minho, bem como a Fundação para a Ciência e a Tecnologia, através do Arquivo.pt e da FCCN. No total, estiveram envolvidos mais de 60 investigadores nas áreas de inteligência artificial, linguística computacional e engenharia informática. O desenvolvimento decorreu ao longo de cerca de 18 meses, com recurso a infraestruturas de computação avançada nacionais e europeias, como o supercomputador Deucalion, instalado em Guimarães, o MareNostrum 5 e a rede EuroHPC.
O financiamento inicial ascendeu a 5,5 milhões de euros, provenientes do Plano de Recuperação e Resiliência (PRR). Está prevista uma fase adicional até 2027, com um investimento estimado de mais 1,5 milhões de euros, destinado à evolução do modelo e ao reforço da infraestrutura considerada estratégica para garantir autonomia tecnológica.
O AMALIA é disponibilizado em regime de código aberto, sob licença Apache 2.0, o que permite a sua utilização, modificação e distribuição por entidades públicas, privadas ou académicas. Esta característica distingue-o de modelos proprietários, ao possibilitar auditoria, adaptação a diferentes contextos e execução em infraestruturas controladas por entidades nacionais ou europeias. Segundo o enquadramento apresentado, esta abordagem visa assegurar maior transparência, controlo sobre os dados e alinhamento com a regulamentação europeia, incluindo o Regulamento Geral sobre a Proteção de Dados e o AI Act.
O modelo foi treinado com dados disponíveis até junho de 2024, recorrendo a conteúdos públicos e legalmente acessíveis, incluindo materiais do Arquivo.pt. O processo de desenvolvimento decorreu em duas fases. Numa primeira etapa, foi criado um modelo base com cerca de 9 mil milhões de parâmetros, treinado com um volume aproximado de 4 mil milhões de palavras em português. Posteriormente, o sistema foi expandido para uma arquitetura multimodal, passando a integrar capacidades de processamento de texto, documentos digitalizados, imagens e fala.
Entre as funcionalidades identificadas estão a resposta a perguntas, tradução, pesquisa documental e descrição de imagens. O modelo inclui ainda mecanismos de mitigação de risco, filtragem de dados e testes de robustez, com o objetivo de reduzir a probabilidade de gerar conteúdos incorretos ou inadequados. Apesar disso, é reconhecido que, à semelhança de outros sistemas de inteligência artificial, o risco de erro não é totalmente eliminável.
O enquadramento regulatório classifica o AMALIA como um sistema de uso geral, sem risco sistémico, embora o desenvolvimento tenha seguido critérios de segurança, transparência e conformidade com a legislação europeia aplicável. Está igualmente previsto um mecanismo de reporte de problemas ou preocupações através da plataforma IA.gov.pt.
No plano da Administração Pública, o modelo deverá ser progressivamente integrado em serviços digitais do Estado. Entre os primeiros casos de utilização previstos está a criação de assistentes virtuais para apoio ao atendimento no portal gov.pt, bem como aplicações orientadas para automatização de processos administrativos, gestão de informação, apoio à decisão e pesquisa documental. Foram também identificados casos de uso em áreas como cultura, educação e defesa, incluindo apoio a museus, ferramentas para professores e aplicações específicas para a Marinha.
Para além do setor público, o AMALIA é apresentado como uma base tecnológica para desenvolvimento de soluções por empresas, startups e centros de investigação, com aplicação potencial em áreas como saúde, justiça, finanças, indústria, turismo ou atendimento ao cliente. A disponibilização de um modelo otimizado para português europeu poderá, segundo o enquadramento do projeto, reduzir custos de desenvolvimento e facilitar a criação de produtos adaptados ao contexto linguístico e cultural nacional.
Os testes realizados indicam um desempenho competitivo em tarefas relacionadas com o português europeu, nomeadamente na compreensão da língua, do contexto cultural e na execução de instruções, quando comparado com outros modelos abertos. Ainda assim, o AMALIA não é apresentado como um concorrente direto de produtos comerciais desenvolvidos por grandes empresas tecnológicas, mas sim como uma infraestrutura de base sobre a qual poderão ser construídas diferentes aplicações.
A evolução do modelo deverá prosseguir até 2027, incluindo o desenvolvimento de versões com maior número de parâmetros – estimando-se uma futura iteração com cerca de 22 mil milhões – e novas capacidades orientadas para sistemas autónomos e agentes inteligentes. Sendo um projeto de código aberto, está prevista a participação contínua da comunidade científica, empresas e utilizadores no seu desenvolvimento.
Foto: Pexels/Karola
