VocaliD fabrica voces para personas que ya no pueden hablar

«Me encanta el chocolate». David Hamilton se sentaba dos horas al día frente al micrófono. «Estaba oscuro anoche». Soltaba frases sin sentido, pero de vital importancia. «Las cosas ocurren a pares». Pasaron varias semanas y tres mil enunciados hasta que su voz gemela habló por sí misma. La primera vez que David dijo algo sin despegar los labios, su esposa se volvió hacia él y sentenció: «Suena como tú».

David preservó así su voz para poder hablar después de su laringectomía. Él es uno de los más de 300 clientes de VocaliD, un laboratorio sonoro que mezcla y personaliza voces sintéticas gracias a la inteligencia artificial. Y no solo eso: también las crea desde cero.

La doctora Rupal Patel es la fundadora y CEO de VocaliD. En 2002, esta investigadora se dedicaba a estudiar cómo las personas con dificultades del habla vocalizan y emiten sonidos para comunicarse con sus seres queridos, aunque no puedan pronunciar palabras. Esa realidad chocaba con el hecho de que todos los sistemas de comunicación asistida sonaran igual. No importaba si se trataba de un anciano escocés o de una adolescente de California: todas las voces robóticas se parecían mucho a la de Stephen Hawking.

Patel tardó una década en desarrollar la tecnología necesaria para arrancar su proyecto. Lo primero que hizo fue fundar un banco de voces donadas donde almacenar el material con el que practicar su ingeniería vocal. Cinco años después ha logrado que 28.000 voluntarios de entre 6 y 91 años, procedentes de 120 países, narren para ella 15 millones de frases que, como las de David, no tienen sentido pero encierran un potencial muy valioso.

VocaliD

COJA EL MICRO Y DIGA ‘AAAAH’

Una sola vocal contiene suficiente ADN de la voz como que sea posible diseñar su versión sintética. La grabación inicial es la misma para los donantes y para los clientes que pueden vocalizar un mínimo: hay que decir aaaah durante tres segundos. Ahí se concentran los elementos fundamentales que definen la identidad de cada voz.

Después viene la locución de frases, tantas como uno pueda grabar. El objetivo es registrar todas las combinaciones posibles de sonidos en el lenguaje. Esos segmentos son los que suenan cuando el propietario de la voz escribe en una pantalla, como si cada enunciado fuera un collage formado por fragmentos del discurso. Este proceso se llama síntesis por concatenación y es la tecnología que utilizan Alexa y Siri para hablar.

Lo novedoso del trabajo de VocaliD es que va mucho más allá. Los sonidos del cliente y los donantes se mezclan teniendo en consideración cientos de factores como el tono, el volumen, la edad, el género y el acento del receptor de la voz. Se trata de crear voces únicas, tan personales como la huella dactilar.

UNA VOZ PROPIA PARA HABLAR POR LOS CODOS

No sabes lo que es tener voz hasta que la pierdes. «Carecer de la propia voz es vivido por la persona afectada como una auténtica amputación», explica el doctor Óscar Biurrun Unzué, otorrinolaringólogo y logopeda, académico de la Ilustre Academia de Ciencias de la Salud Ramón y Cajal y miembro de Top Doctors.

José Ángel González, otorrino y miembro de Doctoralia, lo ejemplifica así: «Imaginemos por un momento que nuestros diez grupos musicales favoritos tuvieran al mismo cantante o estuvieran obligados a usar la misma partitura o los mismos instrumentos. Esto es lo que les sucede a las personas que precisan de una voz sintética para comunicarse: la pérdida de una identidad vocal propia».

Las voces robóticas impersonales son un apaño comunicativo que respeta el contenido pero no la forma: no hay entonación, emociones ni humanidad. Si, encima, esa voz no representa a la persona que la utiliza, al hablar se produce una desconexión emocional entre los interlocutores. Entonces parece mejor no decir nada.

«Nuestras voces empoderan a aquellos que viven sin habla para que se les pueda oír con su propia voz, en lugar de ser silenciados», cuenta la doctora Patel a Yorokobu. «Nuestra meta es ayudar a estas personas a vivir sus problemas del habla con dignidad, independencia y honor».

Adquirir una nueva voz, una que les pega, mejora la autoestima de estas personas, las anima a hablar dentro y fuera de ambientes familiares y reduce sus sensaciones de aislamiento y depresión. Cuando esa voz refleja su identidad, personalidad y raíces, la inseguridad de quien la usa se atenúa y la conexión emocional se regenera. Los usuarios de VocaliD pueden, incluso, modular el tono, el volumen y la velocidad de sus voces a su antojo para transmitir mensajes más allá de las palabras.

PRECIOS QUE TE DEJAN SIN HABLA

«En una facultad tan importante como el habla, cualquier avance, por pequeño que sea, supone un salto de calidad para el beneficiario», dice David Zanoletty García, jefe del Departamento de Tecnología Accesible e I+D Dirección de Accesibilidad Universal de Fundación ONCE. Pero no todo el mundo se puede permitir estos avances.

La fabricación de voces sintéticas personalizadas es un proceso complejo y costoso que deja muchos proyectos a medias y a miles de personas sin habla. Eso le pasa a Estela Murillo, que tiene parálisis cerebral y utiliza un tablero silábico y un iPad con voz robótica para comunicarse. Demasiado impersonal, demasiado lento. «»La vida va muy rápido y yo intento ir a su ritmo», cuenta ella.

Una voz confeccionada en VocaliD cuesta 1.499 dólares. Un lector ocular para escribir con la mirada como el que necesitaría Estela, unos 4.000 euros. La oferta es limitada y comprarse una voz requiere contratar servicios extra como garantías y atención postventa.

Lo bueno es que en Estados Unidos hay seguros de salud, organizaciones sin ánimo de lucro y patrocinadores que subvencionan las voces de VocaliD. En España, la empresa Irisbond ha llegado a un acuerdo con la Seguridad Social para ofrecer lectores oculares gratuitos a quienes los necesitan. La cosa ya no suena tan mal.

«La voz es el órgano del alma», decía el poeta Henry Wadsworth Longfellow. Si cada alma es única, está claro que cada voz debe serlo también.