1. Sobre o proxecto

1.1 O Proxecto Nós

O proxecto Nós nace co obxectivo de colocar a lingua galega na vangarda das Tecnoloxías Lingüísticas. Con esta finalidade, dende o proxecto desenvolveranse corpus, modelos e recursos tecnolóxicos de alta calidade para o procesamento automático do galego, tanto oral como escrito. Os recursos desenvolvidos no proxecto Nós serán de libre acceso a terceiros, o que permitirá e facilitará o desenvolvemento de produtos e servizos en lingua galega por empresas, institucións e organizacións, tanto públicas como privadas.

O proxecto Nós pretende ser un tractor económico e de impacto, posto que entre as súas finalidades está contribuír á creación dun ecosistema empresarial e de investigación centrado na xeración de recursos para o galego. Á vez, as potencialidades do seu impacto social son profundas, dado que se pretende proporcionar ás galegas e aos galegos a posibilidade de vivir a súa vida no ámbito dixital na súa lingua e contribuír así tamén á normalización lingüística.

1.2 Que é Nós-ASR?

Nós-ASR é un prototipo de recoñecemento automático da fala (ASR ou "Automatic Speech Recognition") en lingua galega baseado en redes neuronais artificiais. Por agora, trátase dunha versión preliminar en fase de probas, que se mellorará a medida que se vaian xerando novos recursos (conxuntos de datos e ferramentas) dentro do Proxecto Nós.

Actualmente, o sistema permite a elección entre dous modelos:

Modelo 0. Modelo base de partida (baseline).
Modelo 1. Modelo base mellorado mediante a integración dun modelo de linguaxe.

1.2 Como funciona o sistema?

Ao longo da historia utilizáronse moitos enfoques para ASR. Un dos métodos máis populares foi o baseado nos modelos ocultos de Markov (HMMs ou “Hidden Markov model”), empregados como modelos acústicos para representar as características espectrais das tramas do sinal de voz.

Nos últimos anos, coa chegada da era do deep learning ou aprendizaxe profunda, as redes neuronais demostraron mellorar significativamente a tarefa de ASR, aplicándose distintas arquitecturas, como as redes neuronais convolucionais (CNNs) ou redes neuronais recorrentes (RNNs). Máis recentemente, as redes coñecidas como “transformers” acadaron un gran rendemento.

Para o desenvolvemento do prototipo Nós-ASR, empregouse o modelo wav2vec2-large-xlsr-53, un modelo tipo transformer preadestrado con datos de 53 linguas. Este modelo preadestrado permite a adaptación a unha nova lingua, mediante técnicas de transferencia de aprendizaxe (transfer-learning), usando conxuntos de datos relativamente pequenos.

O punto de partida para este primeiro prototipo foi o modelo wav2vec2-large-xlsr-53-gl, obtido mediante axuste fino (fine-tunning) do modelo preadestrado usando o corpus Open SLR77. Co obxectivo de mellorar o rendemento deste sistema baseline (modelo 0), probouse a integrar distintos modelos de linguaxe (LMs) no modelo wav2vec2 (modelo 1).

Os modelos utilizados en Nós-ASR pódense atopar na sección de Descargas. Os detalles técnicos de cada modelo pódense consultar na ficha técnica de HuggingFace.

1.3 Cal é a calidade do sistema?

A calidade dun sistema ASR mídese fundamentalmente a través da WER (Word Error Rate), que representa a taxa de erro de palabra. Outra das medidas comunmente utilizadas é a CER (Character Error Rate), que indica a porcentaxe de caracteres que non se recoñecen correctamente.

Por outra banda, para medir o custo que ten o sistema en termos de computación, emprégase o RTF ou “Real Time Factor”, que se calcula como a relación entre o tempo que tarda o sistema en recoñecer o audio de entrada e a duración deste audio. Polo tanto, se o RTF é menor que 1, significa que o sistema é quen de recoñecer a fala en tempo real.

Para a avaliación dos distintos modelos, estimáronse estas tres medidas (a WER, a CER e o RTF) sobre os subconxuntos de test de dous corpus distintos:

Open SLR77 (1,5h)
Common Voice Corpus 7.0 (2,5 h)

Estes dous corpus presentan claras diferenzas en canto á calidade, control e formato das gravacións. Finalmente, escolleuse como modelo 1 a configuración wav2vec2 + LM con mellores resultados.

Os resultados obtidos para os dous sistemas integrados en Nós-ASR (baseline e modelo 1) móstranse na seguinte táboa:

Corpus	Configuración	WER (%)	CER (%)	RTF
Open SLR77	Modelo 0 (baseline)	9.10	3.94	0.01
Open SLR77	Modelo 1	6.86	2.20	0.09
Common Voice 7.0	Modelo 0 (baseline)	22.12	5.09	0.02
Common Voice 7.0	Modelo 1	15.20	3.87	0.14

1.4 Como podes axudarnos a mellorar o sistema?

Para a obtención deste tipo de sistemas é imprescindible a dispoñibilidade de grandes conxuntos de datos, o que supón un problema engadido para as linguas con poucos recursos como o galego. Neste senso, existen dúas formas prioritarias a través das cales podes axudarnos a mellorar os datos dispoñibles para o galego, todas elas a través da iniciativa Mozilla Common Voice:

Aínda que non é imprescindible para comezar a colaborar, é aconsellable que te rexistres na plataforma. O rexistro de usuarios permite que os datos enviados sexan máis ricos ao recollerse información da idade, o xénero e o acento da persoa que realiza a gravación.

No caso de que desexes colaborar na mellora dos modelos que estamos a desenvolver, só tes que solicitar ser incluído na nosa comunidade e poñerte en contacto co equipo de voz. Es sempre benvido/a!