Els 13 i 14 de novembre passats es van celebrar les jornades “Digitalització, intel·ligència artificial i idiomes: vista general i oportunitats”, organitzades pel Departament de Política Lingüística de la Generalitat de Catalunya, per la Coppieters Foundation i per la Xarxa Europea per a la Diversitat Lingüística (NPLD, per les seues sigles en anglès).
Durant les jornades es van explicar experiències i propostes relacionades amb la supervivència i la promoció de les llengües en el context de la modernitat. Conceptes com ara disglòssia tecnològica o codi lliure van ser constantment tractats, i l’esdeveniment va servir com a posada en comú d’idees procedents de diversos àmbits lingüístics que parteixen des de posicions no favorables tals com el gal·lès, el frisó, el basc o, evidentment, el català. Tot i el punt de partida advers, aquestes llengües tenen futur.
Si el tenen, bàsicament, és gràcies a dos factors: als parlants mobilitzats i conscients i a l’empenta institucional. El conseller de Política Lingüística, Francesc Xavier Vila, s’expressava d’aquesta manera en l’obertura de les jornades, celebrades a l’Institut d’Estudis Catalans, recordant que el català i altres llengües minoritzades no han quedat descavalcades de la tecnologia gràcies a aquests dos factors. Els usuaris ja venien propiciant la inclusió del català en els nous aparells tecnològics, però l’empenta institucional ha adquirit una nova dimensió amb la creació del Departament de Política Lingüística.
El conseller demanava “que la recerca tingui un retorn en l’estabilitat de la llengua”, i donava importància a les polítiques de sensibilització. En aquest sentit, Vila indicava que si hi ha gaps de gènere o de classe social, “cal explorar que hi pugui haver un gap lingüístic” per analitzar qüestions com ara “quin és l’impacte sociolingüístic del fet que hi hagi llengües més equipades tecnològicament que d’altres”.
Eines modernes com Alexa, com el consum a la carta de continguts audiovisuals infantils i juvenils per part dels més joves o les xarxes socials de més abast tals com el TikTok han crescut al marge de les llengües minoritzades. Són, precisament, aquestes comunitats lingüístiques les que han treballat per no quedar excloses d’aquests instruments que ens connecten i ens actualitzen amb el món. I és en aquest sentit que la incorporació del català a la intel·ligència artificial (IA) és fonamental, perquè com explicava Bartomeu Riera, president de la NPLD, “la IA permet a les llengües travessar fronteres i adequar-se a nous contextos”.
Propostes
Les jornades es van obrir amb la presentació de l’estudi “Les llengües d’Europa al mercat de la tecnologia de la llengua”, elaborat pel Departament de Política Lingüística i basat en l’anàlisi de més de 200 referències de productes en 30 idiomes. Aquest estudi situa la presència del català en l’entorn digital al mateix nivell que la del neerlandès, el danès, el suec, el finès, el polonès i el txec, amb una presència d’entre el 57% i el 72% de disponibilitat de les tecnologies analitzades. Aquestes xifres situen la llengua catalana per davant d’altres llengües com el romanès, el grec, l’hongarès, l’eslovac, el croat, el búlgar o l’eslovè, que se situen en una franja inferior (43%-52%).
El treball també revela que la disponibilitat de tecnologies de la llengua en català és desigual, ja que, si bé hi ha una bona oferta en traducció simultània i xatbots d’IA com ChatGPT o d’eines de caràcter corporatiu adreçades a les empreses que es volen relacionar amb els seus clients en català amb sistemes automàtics, es detecten mancances en productes de consum massiu, per exemple els assistents de veu com Alexa o Google Assistant. L’estudi el van presentar Vanessa Bretxa i Anton Ferret.

Durant les jornades es va insistir molt en la importància del paper de la societat civil a l’hora d’introduir les llengües minoritzades en les eines actuals de consum i difusió. Sens dubte, en el cas del català, una de les entitats que ha complert a la perfecció amb aquest paper ha sigut Softcatalà.
Jordi Mas va parlar en nom d’aquesta entitat i va reiterar la necessitat d’entendre que “el codi lliure és un punt de trobada de la societat civil, les institucions i les empreses, una mena d’àgora digital en què tothom pot col·laborar”. S’anomena codi o programari lliure al ‘conjunt d’aplicacions informàtiques que qualsevol persona pot utilitzar, distribuir, copiar, estudiar, modificar, millorar i compartir perquè tothom se’n puga beneficiar’, segons la definició que fa la Generalitat de Catalunya. Amb el codi lliure es pot accedir a materials que permeten desenvolupar sistemes operatius, gestors de correus o processadors de text, i tota mena de programes de manera independent.
Amb la limitació del català a Internet, àmbit en què també pateix les conseqüències de la minorització, el fet de poder accedir de manera lliure a aquestes eines és un avantatge fonamental i una forma moderna d’activisme que Softcatalà i altres organitzacions practiquen des de fa anys. Per això, Jordi Mas demanava a les institucions fer un pas més enllà i treballar a Internet amb dades obertes, tal com també demanaven altres ponents com ara Gemma Boleda, de la Universitat Pompeu Fabra (UPF), o Antoni Oliver, de la Universitat Oberta de Catalunya (UOC), el qual recordava que la inclusió de l’aranès en les noves tecnologies només és possible a través del programari obert.
Qui se centrava en la presència de l’aranès en el món digital era Jordi Suïls, de la Universitat de Lleida, que amb el projecte Linguatec-IA proposava la creació d’eines que permeten que les llengües minoritàries s’incorporen al desenvolupament de les tecnologies del llenguatge a través, per exemple, del reforçament de la traducció automàtica per evitar que els idiomes dominants esdevinguen idiomes pont en aquesta mena de traduccions. El projecte Araina està treballant en aquest aspecte amb la recollida de dades TTS, el sistema computeritzat que converteix el text en parla oral.
La traducció i aquests sistemes adreçats a la comprensió a través de la tecnologia tenen altres finalitats. Mariona Taulé, de la Universitat de Barcelona (UB), parlava d’una eina de transcripció digital especialitzada en el català, Scribal, útil per a resoldre problemes relacionats amb les dificultats auditives per la via de la transcripció i traducció del que un docent explica en classe. El projecte s’està autogestionant des del seu centre acadèmic
En una altra intervenció, tornant a la qüestió de l’obertura tecnològica, Andrés José Román, de Barcelona Supercomputing Center (BSC), explicava que “el problema de propietat de la IA comporta un risc de competència”, i argumentava que, per competir en aquest àmbit a través de la llengua catalana o de qualsevol altra llengua minoritzada, “necessitem grans inversions, fet que ens porta a considerar la incorporació del sector públic no només per qui l’ha de finançar, sinó per qui l’ha de gestionar”, de tal forma que “els models d’IA no depenguin que una corporació faci fallida”. Román feia la constatació d’una de les paradoxes de la IA i d’Internet respecte a les llengües minoritzades: mentre dues terceres parts del món parlen aquestes llengües, aquestes mateixes llengües es troben en desavantatge a Internet.

Per això la creació d’una gran “infraestructura de dades” i dissenyar una estratègia de transferència de tecnologia a través dels diversos actors presents i amb el projecte AINA com a canalitzador són estratègies per guanyar terreny.
Per descomptat, en aquest aspecte torna a ser fonamental la implicació ciutadana. Així ho recordaven també els bascos que van participar en les jornades. Eneko Agirre, del centre HiTZ de la Universitat del País Basc, recordava que “la tecnologia no és neutra”, i que per posicionar llengües com l’èuscar cal “recollir una quantitat enorme de textos, anar a institucions per col·leccionar dades i comptar amb enginyers especialitzats en programaris”. Aitor Aldasoro, viceconseller de Política Lingüística del Govern Basc, admetia la necessitat d’inversions i de col·laborar també amb grans corporacions per dur a terme una estratègia juntament amb agents públics i privats.
Una altra veu política que explicava plans de govern era la de Jeremy Evas, del govern de Gal·les, que es proposava “doblar el nombre de parlants” al seu país i arribar al milió l’any 2050 a través, entre altres elements, d’una IA al servei d’aquest objectiu i amb una estratègia central: la participació de la gent. Segons Evas, un dels obstacles és la “manca de sensibilització cultural” que existeix a Gal·les, i un altre és la creença, per part de Microsoft, que “la llengua del Regne Unit és l’anglès i la d’Espanya és l’espanyol”. Això no és veritat, i cal reeducar Microsoft, deia.
La jornada de divendres
Divendres 15 de novembre va començar amb una taula rodona sobre llengües i intel·ligència artificial, en la qual Maite Melero (Centre de Supercomputació de Barcelona) valorava novament la sensibilització i mobilització de la societat catalana davant la “disglòssia digital”, un terme que es refereix a quan el parlant utilitza una llengua de més abast a l’hora de fer servir les eines tecnològiques, fenomen també habitual en les societats no bilingües i en les generacions joves. Mireia Farrús, de la UB, recordava que “no podem pretendre que totes les llengües tinguin la força de l’anglès”, però apuntava la importància de la implicació social a través d’eines com ara Common Voice per fer que el català no quede marginat de la tecnologia. L’etnògraf digital Josep M. Ganyet indicava que la IA “no és intel·ligent ni universal, sinó que és la suma de moltes intel·ligències humanes” i “els científics, lingüístics i tothom tenim l’obligació moral de sumar-hi les nostres intel·ligències”, afirmava donant valor també a la participació humana i resumint-ne la importància parafrasejant Joan Fuster: “Tota IA que no fem nosaltres la faran contra nosaltres”.
Tot seguit un parell de ponents parlaven de projectes d’àmbit europeu a través de les noves tecnologies. Kristina Kovaité es referia al DIGICHer, impulsat des de Lituània per a digitalitzar patrimoni cultural de les comunitats minoritàries a través de l’ètica i també de la interacció institucional. Recordava, per exemple, que la digitalització del patrimoni cultural i lingüístic té a veure amb les persones, amb les històries que conten, amb els records i amb el sentiment de pertinença, i per això considera que cal preservar aquest atribut també a través de l’àmbit tecnològic, que sovint tendeix a desnaturalitzar-ho.

Des de la Universitat de Bangor (Gal·les), Rhian Hodges parlava de la influència de la IA en les llengües minoritzades d’Europa i proposava col·laboracions estratègiques interuniversitàries, intercanvi de coneixements entre àrees en què conviuen les minories nacionals o la identificació d’oportunitats per a desenvolupar un programa pilot d’intercanvi per a estudiants universitaris de diferents regions lingüístiques. Beca Owen, que treballa en l’ús de les noves tecnologies per part dels estudiants a través del gal·lès a la mateixa universitat, identifica la barrera que suposa “la manca de dades” per a les llengües minoritzades, mentre que aquestes acadèmiques demanaven dissenyar “estratègies tecnològiques adreçades a la pròpia comunitat”, ja que “els parlants de les llengües minoritàries necessiten ser tinguts en compte” a partir de les seues particularitats.
Per a superar aquests obstacles, s’han desenvolupat projectes arreu d’Europa que miren de compensar el desavantatge de les llengües minoritzades en l’àmbit de la tecnologia. Jelske Dijkstra, parlant de frisó —llengua present al nord dels Països Baixos— ha acumulat hores i hores en un programa de l’emissora de ràdio que emet en aquesta llengua des de la Segona Guerra Mundial per crear sistemes de subtitulació automàtica a través de l’emmagatzemat de dades. El basc Asier Basurto se centrava en la traducció automàtica neural observant els diferents usos de l’èuscar en diferents àmbits de la societat —empresa, administració, sanitat i ensenyament— per tal de generar més textos en èuscar, millorar les habilitats lingüístiques dels parlants, qualitat en els textos, eficiència de les organitzacions i autonomia dels treballadors. Basurto reivindicava les “estratègies autocentrades” per a les comunitats d’idiomes minoritaris, ja que “només nosaltres podem promoure la nostra llengua”.
Des de Catalunya una de les ponents, Núria Morales, explicava com s’han aplicat les noves tecnologies a l’hora de gestionar el portal del Diari Oficial de la Generalitat de Catalunya (DOGC) i el Portal Jurídic, espais amb molta dada pública que ara són concretades a través d’un resum automàtic dels textos legals que facilita la comprensió de l’usuari i optimitza el seu temps de lectura. Tot amb la voluntat de “difondre el dret vigent i apropar-lo a la ciutadania”.
Des del sector empresarial Huc Castells, de VERBIO, dedicada al desenvolupament i a la implementació de les tecnologies de la parla en més de vint idiomes i variants dialectals, comentava com a partir de la pandèmia l’empresa va aconseguir diagnosticar l’estat de salut de la població per poder actuar al respecte a través de l’atenció proactiva als ciutadans més vulnerables que es trobaven aïllats gràcies a una captació d’informació prèvia. Amb un sistema automàtic de telefonades que garantia el diàleg de veu es classificaven les respostes de les persones afectades —pel virus o per la soledat— per temàtica i s’identificaven persones simptomàtiques, altes hospitalàries, quantificació de persones que podien haver passat la malaltia als seus domicilis o la detecció de l’estat de salut emocional en aquell moment tan complicat. Un altre servei a les persones dependents a través de la IA era el que presentava Jaume Saltó, del Grup Saltó, amb un robot dissenyat per assistir aquestes persones en català i que va ser presentat físicament davant el públic, que va poder comprovar el seu funcionament.
Una altra proposta era la que plantejaven Adnan Bourrouhou i Maribel Grau per parlar del dictàfon mèdic de transcripció de converses mèdiques en català a través d’INVOX Medical, un sistema que permet el reconeixement i la transcripció precisa dels termes tècnics i mèdics per millorar la qualitat assistencial i generar informes amb més continguts i informació. L’Hospital Clínic de Barcelona està posant en marxa aquest sistema després d’anys en què els informes eren passats a màquina en directe i d’un primer sistema reconeixedor de veu que només funcionava en castellà. “Era una demanda que calia cobrir”, indicaven els ponents, que de moment fan servir el sistema en radiologia i anatomia patològica, però el faran evolucionar per incorporar-lo a altres especialitats.
D’altra banda, Albert Iruela —de l’empresa Omnios— i Gerard Vélez —Fundació.cat— presentaven un sistema de transcripció i traducció en temps real amb la IA que permet simular el to de veu de la persona traduïda en un altre idioma mentre parla en directe. I des d’Euskal Herria, Aitzol Astigarraga, del centre d’IA Orai NLP, plantejava la cooperació en el desenvolupament de tecnologies per a les llengües minoritzades com una idea “fonamental per aprofundir en la sobirania tecnològica i contrarestar el poder de les multinacionals”.
Ignasi Centelles, director de la Coppieters Foundation a Brussel·les cloïa l’acte justificant que amb aquestes iniciatives “no només parlem de dret: parlem de protegir les comunitats”, mentre que el conseller Vila demanava “saber aprofitar la conjuntura actual de canvi per dotar-nos de recursos, guanyar visibilitat, fer-nos forts en l’espai digital i relacionar-nos entre nosaltres i amb les llengües de més abast”. I és que en aquest terreny les fronteres polítiques, que sempre han dificultat tant les comunicacions, s’esvaeixen a través de noves eines i canals de comunicació que presenten contradiccions, però també noves oportunitats.