Entrenament d’un Model d’Intel·ligència Artificial per a la Síntesi de Veu en Català: Reptes i Resultats Actuals 🤖🗣️
En el nostre projecte de desenvolupament d’un model Text-to-Speech (TTS) per a la llengua catalana, hem estat treballant intensament amb Matxa-TTS, un model multilocutor i multidialectal que utilitza l’arquitectura Matcha-TTS combinada amb el vocoder alVoCat. Tot i que hem fet avenços significatius, encara ens trobem amb alguns reptes que cal superar per obtenir resultats òptims.
Arquitectura del Model: Matxa-TTS amb alVoCat
El model que estem utilitzant es basa en una arquitectura híbrida que combina Matcha-TTS amb Vocos, utilitzant alVoCat com a vocoder. La seva capacitat per sintetitzar múltiples veus i dialectes ens ha permès treballar amb la riquesa lingüística del català, que presenta diferents variants segons les regions.
La nostra motivació en aquest projecte és garantir que els nostres assistents d’IA puguin parlar en català de manera natural i fluida, tot respectant els matisos dialectals de la llengua. La combinació de Matcha-TTS per al processament de text amb alVoCat com a vocoder ens ofereix una base robusta per aconseguir aquesta fita. Tot i així, encara ens trobem amb alguns problemes que dificulten assolir la qualitat que busquem.
Anàlisi dels Resultats Actuals: On Estem i On Volem Arribar
Durant les proves inicials, hem aconseguit que el model generi veus en català amb un nivell de comprensió i fluïdesa adequat per a aplicacions generals. No obstant això, en l’avaluació més detallada, hem detectat deficiències que impedeixen que el model arribi al nivell de qualitat desitjat:
- Naturalitat de la veu: Tot i que l’ús de alVoCat com a vocoder ens proporciona un bon control sobre la tonalitat i l’intonació, encara notem que la veu generada manca d’una expressivitat natural en alguns contextos, especialment en frases llargues i amb entonació variada.
- Pronunciació dialectal: Una de les nostres prioritats és que el model sigui capaç de diferenciar i utilitzar correctament els dialectes del català (central, valencià, balear, etc.). Actualment, el model té dificultats per capturar aquestes variacions, fet que pot resultar en una pronunciació inexacta segons la variant seleccionada.
- Fluïdesa en la síntesi: Hem observat que, en textos més complexos o amb una estructura sintàctica variada, el model tendeix a generar pauses innecessàries que afecten la fluïdesa del discurs. Això es tradueix en una experiència auditiva menys satisfactòria per als usuaris.
- Enfocament prosòdic: La prosòdia és un altre àmbit en què hem identificat marge de millora. Tot i que la combinació de Matcha-TTS i Vocos permet un cert grau d’adaptació, encara notem que el model no aconsegueix capturar el to emocional de manera consistent, especialment en frases que requereixen un to entusiasta o motivador.
Crítica i Reptes Futurs
Tot i els avanços realitzats, som conscients que encara queda un llarg camí per recórrer abans que la qualitat de la síntesi de veu en català sigui comparable a altres llengües més suportades tecnològicament, com l’anglès o l’espanyol. La manca de dades d’entrenament suficients i diversificades en català és un dels obstacles més grans que hem d’afrontar.
A més, el fet que el model sigui multilocutor i multidialectal suposa un repte afegit, ja que és necessari optimitzar-lo perquè pugui ajustar-se amb precisió a cada situació comunicativa. Això implica entrenar el model amb més dades contextuals, que permetin a la IA entendre no només les paraules, sinó també el context en què s’utilitzen.
Pròximes Fases del Projecte
Per tal de superar aquests reptes, estem treballant en diverses millores:
- Ampliar el corpus d’entrenament: Estem recollint noves mostres de veu de parlants nadius per millorar la diversitat i la qualitat de les dades. Això inclou col·laboracions amb voluntaris i entitats locals que ens ajudin a enriquir la base de dades amb diferents accents i tons.
- Optimitzar l’arquitectura Vocos: Estem explorant noves configuracions de Vocos per millorar la prosòdia i la naturalitat de la veu. Això inclou l’ús d’algoritmes d’aprenentatge profund per ajustar les pauses i la modulació del to.
- Adaptació dialectal: Estem desenvolupant models específics per a cada dialecte, aprofitant les capacitats multilocutor de Matxa-TTS per personalitzar la síntesi segons la variant dialectal seleccionada.
- Avaluació contínua: Continuarem realitzant proves amb usuaris per rebre comentaris en temps real i ajustar el model d’acord amb les seves necessitats i expectatives.
El camí cap a una síntesi de veu en català natural i de qualitat és ple de reptes, però creiem fermament en el potencial de la tecnologia que estem desenvolupant. A mesura que avancem en aquest projecte, esperem que els nostres models no només siguin capaços de parlar català amb fluïdesa, sinó també d’adaptar-se als matisos culturals i emocionals que fan que aquesta llengua sigui tan especial.
Més Informació
Matxa-TTS (Matcha-TTS) Catalan Multiaccent