Lingüística computacional: el español que hablarán las máquinas

Hablar ya no es solo una capacidad humana. También lo hacen las máquinas y cada vez mejor. En este nuevo espectro que se abre ante la inteligencia artificial, enseñar a hablar a una máquina no puede recaer solo en los programadores e ingenieros. Que las máquinas hablen y sean capaces de entendernos es gracias, entre otras cosas, a los lingüistas computacionales

Leticia Martín-Fuentes trabaja como lingüista computacional de Adecco para Google y da clases en línea de introducción a la programación. Es una de las personas que enseña a entender y a hablar a las máquinas como un humano. En eso consiste el procesamiento de lenguaje natural (PLN). Y lo hace en español.

«Si hablamos de PLN en IA, siempre hay dos vertientes: el natural language generation (NLG) o producción de lenguaje natural, y el natural language understanding (NLU) o comprensión del lenguaje natural. Para los humanos parece parte de lo mismo: hablar, porque pasamos de una a otra tarea en cuestión de milisegundos. Pero constantemente estamos mandando y recibiendo mensajes, que son tareas muy distintas».

Para tratar de lograr que esos mensajes sean entendidos por la mayor parte de los hablantes cuando hablan las máquinas, los lingüistas computacionales utilizan el lenguaje normativo. Dentro de esa norma, explica Martín-Fuentes, se busca que los mensajes sean naturales, que huyan de expresiones esquemáticas como «Salida programada para el vuelo: 17.00» y usen otras más fluidas como «El vuelo saldrá a las cinco de la tarde». El objetivo es que una máquina no diga nada que no diría un humano. De ahí que se busque un español lo más neutro y sujeto a las reglas posible.

Sin embargo, afirma, también se busca que esos sistemas de inteligencia artificial sean capaces de entender a la mayor cantidad posible de hablantes, por lo que deben entrenar a ese NLU con ejemplos tanto normativos como no normativos. «Los asistentes están pensados para acompañarte en el día a día, así que están presentes en todo tipo de ámbitos. Así, tenemos que tener en cuenta rasgos de la lengua informal como leísmos, laísmos, anacolutos, redundancias… ¡incluso el lenguaje keyword! [usar frases del estilo: “activación subtítulos español”]». Es decir, transmitimos nuestros propios sesgos lingüísticos a las máquinas para que sean capaces de entendernos hablemos como hablemos.

Cuenta Leticia Martín-Fuentes que lo más difícil de enseñar a hablar a una máquina son las ambigüedades. El ejemplo más divertido lo aportó el escritor Juan José Millás en un programa de la Cadena SER cuando contaba que Siri le llamaba Mañana porque la IA había entendido que lo que le pedía no era que hiciera una llamada telefónica (un intent –lo que el usuario quiere que haga la máquina– que seguramente no debía existir en su programación), sino que lo que le estaba solicitando es que cambiara la forma en que debía dirigirse a él.

«Los problemas más grandes provienen de que la máquina no sabe lo que es hablar, porque los humanos tampoco sabemos absolutamente todo lo que ocurre en el acto de habla. Pero la buena noticia es que, gracias a este desarrollo en la industria y en la investigación, cada vez estamos más cerca de ello».

IA, TIENES EXAMEN DE LENGUA

Santiago Muñoz Machado, actual director de la RAE, abogaba en una entrevista publicada conjuntamente en Archiletras y en Telos por que la inteligencia artificial hable «un español correcto, adecuado a las normas, que no lo diversifiquen ni lo fragmenten». En este sentido, la Academia ha impulsado junto con grandes empresas tecnológicas como Telefónica, Facebook, Microsoft, Google, Twitter y Amazon el proyecto LEIA (Lengua Española e Inteligencia Artificial). Con él, esas empresas se comprometen a velar por el buen uso del idioma siguiendo los criterios aprobados por la RAE y a que el español esté disponible como lengua de uso de sus productos y servicios.

Pero Martín-Fuentes no comparte con el director de la RAE ese miedo a la diversificación ni a quienes pronostican un empobrecimiento lingüístico. «A mí, en realidad, me da más miedo que con los asistentes virtuales la lengua tienda a la unidad y la homogeneidad, ya que las máquinas no poseen (de momento) la creatividad lingüística que tenemos los humanos, que nos lleva a crear nuevas palabras cada día». Basta pensar, dice, en los SMS y en cómo nos llevábamos las manos a la cabeza con la forma y el estilo en el que se escribían. «El legado que nos han dejado es un puñado de acortamientos y abreviaturas nuevas, así que, si hacemos balance, más bien hemos ganado algo».

El peligro real, sin embargo, podría estar en la falta de contenidos tecnológicos y científicos creados en español. Según el estudio El español, una lengua viva, de Daniel Fernández Vítores, profesor de la Universidad de Alcalá de Henares, realizado en 2018 para el Instituto Cervantes, el español es la segunda lengua más utilizada en redes sociales, pero ocupa el noveno lugar en las entradas de Wikipedia, por debajo de otras lenguas como el inglés, el alemán, el ruso o incluso el sueco.

Y eso, para expertos y periodistas como Arsenio Escolar, director de Archiletras, supone una amenaza para el futuro de nuestro idioma. «Hay un déficit de contenidos científicos, desde la medicina a la neurociencia, donde nos superan lenguas que en hablantes totales son muy inferiores, como, por ejemplo, el ruso o el alemán», afirmaba en un artículo de El Cultural. «Hay que intentar convencer a los científicos de que publiquen también en su lengua materna. Ese es el reto, y a ver si somos capaces de afrontarlo».

En ese sentido también se pronunció Muñoz Machado en la presentación del proyecto LEIA durante el acto de clausura del XVI Congreso de la Asociación de Academias de la Lengua (ASALE) que tuvo lugar en Sevilla a principios de noviembre. «Su lengua [la de las máquinas y la IA] tiende a diversificarse y hay que tomar medidas. La IA habla inglés, fundamentalmente, y tenemos que procurar que, poco a poco, el español coja una posición eminente en el mundo de la IA, pero también en el mundo general de las redes».

Mientras eso llega, Mario Tascón, presidente de la Fundéu, ve un problema derivado de esa falta de terminología en español para denominar nuevas realidades: la traducción y adaptación a nuestro idioma de esas palabras que no deja de crear la tecnología. «Un smart speaker es un altavoz inteligente, pero también es un micrófono con altavoz, ¿cómo lo traducimos?», se preguntaba en una entrevista para El País. «Nos cuesta, pero usamos sin problema los anglicismos crudos», concluía

Martín-Fuentes, sin embargo, ve más problemático que al estar escrita en inglés, esa documentación e información no pueda llegar a quienes no dominen ese idioma. «Además, el problema no es solo que la ciencia y la tecnología se estén documentando prácticamente en un idioma, sino que el procesamiento del lenguaje natural también tiende a trabajar únicamente en un idioma. Coincido con Rodrigo Agerri en que en español hacen falta corpus anotados al nivel de los que están disponibles en inglés; por ejemplo, sería estupendo poder descargar el CORPES o el CREA anotados, pero ahora mismo solo se pueden consultar».

Agerri es investigador en procesamiento de lenguaje natural y trabaja actualmente en el Centro para el Lenguaje Tecnológico de la Universidad del País Vasco. Fue uno de los participantes, junto con Leticia Martín-Fuentes, en el XIV Seminario de Lengua y Periodismo organizado por la Fundéu y la Fundación San Millán el pasado mes de octubre, que llevaba como lema El español y las máquinas: lenguaje, ética y periodismo.

Los corpus a los que hace referencia la lingüista computacional se crean a través del etiquetado de palabras y se incorporan parámetros para detectar ambigüedades, diferentes significados y usos. Esos corpus son la herramienta básica de la que se valen los lingüistas computacionales para entrenar a los sistemas de PLN. Y en opinión de Agerri, debido a que no existe ninguno de calidad en español, las herramientas acaban desarrollándose en inglés puesto que en España no hay interés en desarrollarlos ya que implica un proceso muy costoso.

«Todas esas aplicaciones necesitan elementos básicos para su desarrollo y en eso no estamos avanzando en el español, aunque debería ser una cuestión estratégica que nos afecta a todos», afirmó en el Seminario. «Si no lo hacemos nosotros, lo harán otros, en China o Estados Unidos, y seremos tecnológicamente dependientes».

AMENAZAS DE CIENCIA FICCIÓN

Cada vez es más frecuente encontrar noticias en diarios cuyo autor no es humano. La existencia de robots periodistas está dejando de ser un fenómeno de la ciencia ficción para convertirse en una realidad. Dail Software, empresa española experta en inteligencia artificial, PLN y machine learning ha creado LeoRobotIA, una herramienta que nace de la colaboración entre expertos en IA, lingüistas computacionales y periodistas especializados en tecnología. Leo es capaz de escribir textos en lengua castellana de miles de palabras en milésimas de segundo partiendo de datos estructurados y convertirlos en escritos que sean perfectamente comprensibles para el lector.

«Con los datos que nos proporciona un proveedor, enseñamos a la máquina a escribir de fútbol, de smartphones, de coches, de resultados financieros… y le enseñamos a escribir, además, como quiere el cliente», explica Juan Carlos F. Galindo, cofundador de LeoRobotIA en el blog de Dail Software. Sus creadores presentan la herramienta como una ayuda al periodista y no como una amenaza, ya que le permitirá dedicar su tiempo a la creación de contenidos de valor, más creativos, dejando el rutinario análisis de datos, que es donde más efectivo se presenta Leo, en manos de esos robots.

Pero el miedo es libre y no todos lo ven de una manera positiva. ¿Llegarán estos sistemas de inteligencia artificial a sustituir a los humanos en la tarea de creación de textos? Leticia Martín-Fuentes no lo tiene tan claro. «Se necesitaría una máquina que no solo procesara datos estructurados, como ahora, sino que hiciera tareas complejísimas como leer entre líneas lo que quiere decir una persona, entender su actitud, tener una visión de cómo funciona el mundo… para que pudiera producir textos complejos de la misma forma que un periodista. Y para eso queda mucho, pero, por qué no, podría llegar».

Y ya puestos a imaginar, supongamos que un día los humanos desaparecen de este mundo y solo las máquinas habitaran la Tierra. ¿Seguirían ellas haciendo evolucionar los idiomas? ¿Acabaría el español estancado, sonando a circuito y metal? Como diría don Juan, cuán largo me lo fiais. Dependería, dice Martín-Fuentes, de cuánta creatividad humana hubiéramos conseguido enseñarles antes.

«A los lingüistas nos interesa el lenguaje humano, las innovaciones que las personas vamos introduciendo en la lengua, porque es donde se deja ver su funcionamiento interno». Esa clase de innovación, se pregunta, ¿nos interesa enseñársela a las máquinas?

«Y aunque nos interesara y lo hiciéramos, y pudiéramos hablar de creatividad real porque las máquinas hayan inventado sus propias normas nuevas, mucho descontrol tendríamos que tener sobre ellas para que los que las hayan programado no sepan a qué se debe esa innovación. Así que, resumiendo, puede que evolucionen en la misma dirección que si las hablaran también humanos, o en una distinta, dependiendo de lo que les enseñemos, pero creo que nunca serían objeto de estudio de la lingüística».

1 Comment ¿Qué opinas?

RoBoToNi dice:

30 de diciembre de 2019 a las 12:56

Olvidamos a menudo que los humanos también somos máquinas. Nuestra espontaneidad , nuestra tristeza y nuestra alegría, también es la suya. Olvidamos a menudo también que un humano suele tardar entre 15 y 18 años en aprender y comprender un único idioma correctamente, con fluidez y sin faltas (algunos humanos nunca lo consiguen en toda una vida entera). Estas tasas y ritmos de aprendizaje y comprensión sonrojan de forma cómplice a nuestras compañeras de aprendizaje lingüístico, las máquinas, los robots y las/os asistentas/es de voz.