Societat

Ensenyar català a les màquines

El projecte Aina busca milions de veus per fer la base de dades que permeti portar la llengua oral a les plataformes digitals

El Centre de Supercomputació de Barcelona participa en el projecte, que rep 3 milions d’euros

Ara que es ten­deix de manera clara cap a la comu­ni­cació ver­bal amb tota mena de dis­po­si­tius electrònics, el govern busca volun­ta­ris que ofe­rei­xin la seva veu per gene­rar el pri­mer cor­pus o “dic­ci­o­nari de veu” del català i esta­blir les bases perquè aquesta interacció digi­tal es pugui fer també en català oral. És l’objec­tiu del pro­jecte Aina, enge­gat pel Depar­ta­ment de Polítiques Digi­tals en col·labo­ració amb el Bar­ce­lona Super­com­pu­ting Cen­ter, que enguany s’impul­sarà amb una par­tida de tres mili­ons d’euros.

El pro­jecte no aspira a crear un assis­tent de veu en català, sinó que reco­pila els con­junts mas­sius de dades i els models de la llen­gua cata­lana per tal que qual­se­vol empresa o orga­nit­zació pugui uti­lit­zar-los i desen­vo­lu­par les seves solu­ci­ons o ser­veis específics. Això per­me­tria l’apli­cació de la llen­gua a tra­duc­tors, assis­tents per­so­nals, sin­te­tit­za­dors de veu i clas­si­fi­ca­dors de tex­tos, per exem­ple.

La idea és ense­nyar català a les màqui­nes de manera que la ciu­ta­da­nia pugui rela­ci­o­nar-s’hi i par­ti­ci­par en el món digi­tal en català al mateix nivell que els par­lants d’una llen­gua glo­bal, com ara l’anglès, i evi­tar, així, l’extinció digi­tal de la llen­gua cata­lana.

Mal­grat la glo­ba­lit­zació, la res­pon­sa­ble de la uni­tat de mine­ria tex­tual del Bar­ce­lona Super­com­pu­ting Cen­ter, Marta Ville­gas, defensa que, en el con­text actual, “la tec­no­lo­gia juga a favor” de llengües mino­ritàries com el català. I ho argu­menta: “A Apple o Ama­zon, no els cos­tarà gens incloure el català en el seu catàleg d’idi­o­mes i fer que Siri o Alexa el par­lin. No hau­ran de fer regles específiques o un nou dic­ci­o­nari per al català. El que neces­si­ten són les dades, la base. I si nosal­tres l’esta­blim, posa­ran el català a tot arreu”, diu la res­pon­sa­ble del pro­grama.

En paral·lel a aquest pro­jecte, cal dir que les grans empre­ses tec­nològiques ja han fet alguns movi­ments, amb més o menys eficàcia, per mirar d’imple­men­tar el català pel seu compte. De moment, qui més ha avançat és Goo­gle, que, gràcies al gran volum d’usu­a­ris que té, ja entén el català oral, però encara no el parla. Quan el pro­jecte Aina acabi, però, faci­li­tarà l’arri­bada de la llen­gua a les empre­ses amb molts menys mit­jans.

Els dar­rers anys, el pro­jecte Aina ja ha desen­vo­lu­pat un cor­pus de text de més de 1.770 mili­ons de parau­les, reu­ni­des en 95 mili­ons de fra­ses. Fins i tot s’han començat a reco­llir dades de veu, a par­tir de les ses­si­ons par­la­mentàries, que tenen una trans­cripció tex­tual que per­met uti­lit­zar-les per entre­nar la intel·ligència arti­fi­cial.

A par­tir d’avui, però, el govern vol acce­le­rar la marxa obrint la recol·lecció de veus a tota la població cata­la­no­par­lant, bus­cant la màxima diver­si­tat de vari­ants i edats. Això per­metrà agi­lit­zar el procés: si en els dar­rers tres anys s’han reco­llit mil hores d’enre­gis­tra­ment de veu, l’objec­tiu és que enguany se’n puguin obte­nir mil més.

Amb la feina feta fins ara, s’ha acon­se­guit que la intel·ligència arti­fi­cial cone­gui la sin­taxi de la llen­gua, com s’estruc­tura. En la nova fase, es vol que apro­fun­deixi en el lèxic, en la semàntica i en tota la part oral. “Ja tenim l’esque­let. Ara el que hem de cons­truir és la mus­cu­la­tura, gràcies a un web que per­metrà que qual­se­vol per­sona pugui aju­dar l’Aina a apren­dre el català”, insis­teix el vice­pre­si­dent del govern.

El cor­pus tex­tual que s’ha gene­rat fins ara té un pes de 10 gigaby­tes (GB), res a veure amb el que ocu­pen els de llengües amb una dimensió molt més pla­netària i, per tant, amb molta més faci­li­tat per gene­rar recur­sos. El cor­pus de l’anglès, que ja dis­posa d’arxius de veu (que pesen molt més que els de text) té 825 GB i el del cas­tellà, 570. “És evi­dent que encara tenim molt camí per recórrer”, asse­nyala Ville­gas, sense deter­mi­nar a quin volum de dades vol­dria arri­bar.

La reco­pi­lació de veus es fa des del web pro­jec­te­aina.cat, que enllaça amb la pla­ta­forma Com­mon Voice, de la Fun­dació Mozi­lla. Es tracta d’una ini­ci­a­tiva “per aju­dar a ense­nyar a les màqui­nes com par­len les per­so­nes de veri­tat” i que reco­pila i valida veus en dife­rents idi­o­mes. Segons dades de la mateixa fun­dació, el català és ara la sisena llen­gua amb més hores acu­mu­la­des: en té unes 1.100 d’enre­gis­tra­des i 953 d’apro­va­des, és a dir, que han estat vali­da­des per almenys dos usu­a­ris més de la pla­ta­forma. Com­mon Voice no dis­posa encara de cap regis­tre en aranès i el govern no té intenció de poten­ciar-ho, almenys a curt ter­mini.

En canvi, el vice­pre­si­dent Puig­neró sí que va rei­te­rar la volun­tat d’impul­sar un assis­tent de veu per com­ple­men­tar la pres­tació de ser­veis d’atenció de la Gene­ra­li­tat.

LES FRASES

Nosaltres no farem aplicacions finals, sinó la infraestructura perquè d’altres ho acabin aprofitant
Marta Villegas
Unitat de Mineria de Textos del Barcelona Supercomputing Center

LES XIFRES

Això és un projecte de país en un moment de pressió sobre la llengua i hi dedicarem l’esforç que calgui
Jordi Puigneró
Vicepresident de la Generalitat
1.000
hores
d’enregistrament de veu és l’objectiu que s’han fixat els impulsors del projecte per a aquest any.
10
gigabytes
ocupa el corpus del català, que encara no té veu. El de l’anglès sí que en té i pesa 825 GB. El del castellà, 570.


Identificar-me. Si ja sou usuari verificat, us heu d'identificar. Vull ser usuari verificat. Per escriure un comentari cal ser usuari verificat.
Nota: Per aportar comentaris al web és indispensable ser usuari verificat i acceptar les Normes de Participació.
[X]

Aquest és el primer article gratuït d'aquest mes

Ja ets subscriptor?

Fes-te subscriptor per només 48€ per un any (4 €/mes)

Compra un passi per només 1€ al dia