Sobre o proxecto

1. Sobre o proxecto

1.1 O Proxecto Nós

O proxecto Nós nace co obxectivo de colocar a lingua galega na vangarda das Tecnoloxías Lingüísticas. Con esta finalidade, dende o proxecto desenvolveranse corpus, modelos e recursos tecnolóxicos de alta calidade para o procesamento automático do galego, tanto oral como escrito. Os recursos desenvolvidos no proxecto Nós serán de libre acceso a terceiros, o que permitirá e facilitará o desenvolvemento de produtos e servizos en lingua galega por empresas, institucións e organizacións, tanto públicas como privadas.

O proxecto Nós pretende ser un tractor económico e de impacto, posto que entre as súas finalidades está contribuír á creación dun ecosistema empresarial e de investigación centrado na xeración de recursos para o galego. Á vez, as potencialidades do seu impacto social son profundas, dado que se pretende proporcionar ás galegas e aos galegos a posibilidade de vivir a súa vida no ámbito dixital na súa lingua e contribuír así tamén á normalización lingüística.

1.2 Que é Nós-Tradutor?

Nós-Tradutor é un prototipo de tradución automática de propósito xeral baseada en redes neuronais artificiais que está en fase de probas e mellora continua. Polo momento esta ferramenta traduce de Castelán a Galego e de Inglés a Galego, e viceversa. De forma prioritaria, estamos a traballar na mellora da calidade dos modelos e a obtención de textos para o seu adestramento.

1.3 Como funciona o sistema?

Existen diferentes técnicas de tradución automática (p. ex. baseada en regras, estatística, ou neuronal). Nos-Tradutor utiliza técnicas avanzadas de aprendizaxe profundo baseadas en redes neuronais artificiais. Esta tecnoloxía ten a particularidade de depender da dispoñibilidade de grandes cantidades de datos, e é por isto que para linguas con poucos recursos como o galego, as traducións xeradas de forma automática non son totalmente fiábeis e precisan dunha revisión experta.

Os sistemas anteriores de tradución automática para o galego utilizaban e aínda utilizan estratexias baseadas en regras debido aos seus elevados estándares de calidade no caso de linguas próximas como o castelán ou da mesma familia lingüística como o portugués. A peculiaridade dos sistemas baseados en regras é que son máis literais na súa tradución e cometen erros previsíbeis. Así, é habitual que non saiban traducir o texto na lingua orixinal por falta de vocabulario, que traduzan mal por complexidades gramaticais ou que traduzan nomes propios que non deberían traducir. En contraste, os sistemas de tradución neuronal son menos literais nas súas traducións, non teñen normalmente problemas en traducir palabras descoñecidas, mais poden xerar texto traducido que non está no texto orixinal: as chamadas alucinacións.

Os modelos e corpus utilizados para o adestramento dos sistemas de Nos-Tradutor de castelán-galego e inglés-galego pódense atopar na sección de descargas. Os detalles tecnolóxicos están nas fichas técnicas de HuggingFace (modelo castelán-galego, modelo galego-castelán, modelo inglés-galego, modelo galego-inglés).

1.4 Cal é a calidade do sistema?

Na actualidade, a métrica principal para a avaliación da calidade dos sistemas de tradución automática chámase BLEU (“bilingual evaluation understudy”), un algoritmo que compara a tradución emitida polo sistema con unha tradución de referencia feita por unha tradutora profesional. Os resultados de BLEU para a versión do prototipo publicado nesta web son os seguintes:

Dirección de traduciónTexto de referenciaBLEU
Castelán - GalegoNos_MT_Gold-ES-GL_179.6
Galego-Castelán82.6
Inglés - GalegoNos_MT_Gold-EN-GL_136.8
Galego - Inglés43.6

1.5 Como podes axudarnos a mellorar o sistema?

Existen tres formas prioritarias a través das cales podes axudarnos a mellorar este prototipo: cedendo datos de traducións paralelas, revisando os córpora cos que estamos a traballar, ou revisando as traducións emitidas polo sistema e os seus erros. Se quixeres participar para a mellora dos córpora ou dos modelos que estamos desenvolvendo, só tes que pedir ser incluída na nosa comunidade e entrar en contacto co equipo de tradución automática. Es sempre benvido/a!