Fronteras de la comunicación: lenguaje e Inteligencia Artificial

by Silvia Mazzetta Date: 18-01-2021 IA lenguaje comunicación robots PNL

En el libro “Cómo la vida imita al ajedrez” Garry Kasparov narra su historia y sus memorables partidas contra Karpov o Deep Blue.

Deep Blue, así se llamaba el programa de ordenador desarrollado, por IBM, a finales de los noventa, compitió contra el campeón mundial de ajedrez en dos ocasiones. El primer encuentro tuvo lugar en Filadelfia en 1996. La gran exactitud con la que contaba la máquina le llevó a alguna victoria, pero no fue suficiente para derrotar la estrategia de Kasparov, que le llevó a la victoria del primer match humano/máquina.

Un año después se disputó el segundo encuentro, el gran duelo de la historia del ajedrez.

Un encuentro que terminó con la victoria de Deep Blue, pese a los movimientos irregulares de Kasparov en la búsqueda por la nueva victoria.

Justo como en el Juego de la Imitación del que habla el matemático A. Turing. Deep Blue fue nutrido de códigos de conocimiento a través de la imitación de las jugadas de Kasparov, mientras que el ser humano lleva este juego innato desde bebé.

En los últimos años, los algoritmos de aprendizaje profundo han evolucionado para poder vencer a los mejores jugadores del mundo en los juegos de mesa y reconocer las caras con la misma precisión que un humano (o tal vez incluso mejor).

No podemos evitar de mencionar el papel que la Inteligencia Artificial esta llevando a cabo frente al COVID-19. Ejemplo de ello, han sido las diferentes tecnologías y aplicaciones que se han utilizado en Asia, sobre todo en China, para acelerar la secuenciación del genoma.

Pero, dominar las complejidades únicas y de gran alcance del lenguaje humano sigue siendo uno de los retos más difíciles de la IA.

¿El siguiente paso de la evolución humana?

Imagínate que estás en una habitación, solo.

La habitación no tiene ventanas ni puertas, solo un pequeño agujero en una de las paredes y estantes llenos de libros.

Los libros están escritos con símbolos extraños que van acompañados de instrucciones en inglés para convertirlos en otros símbolos igualmente raros.

De repente, cae un un trozo de papel del agujero. Contiene una serie de símbolos que no entiendes, parecido a los que aparecen en los libros. Recorres todas las páginas de cada uno de los libros hasta que encuentras los caracteres que coinciden y sigues las instrucciones, que te dicen qué debes escribir debajo del mensaje original y te indican que tienes que volver a pasar el papel por el agujero, cosa que haces.

Al otro lado de la habitación hay unos chinos, que acaban de recibir una respuesta perfecta a la pregunta que hicieron. Llegan a la conclusión lógica de que hay un hablante nativo de chino en la otra habitación.

Solo que nosotros sabemos que no es así.

Se trata de un experimento mental muy debatido conocido como: «la habitación china».

Fue propuesto por el filósofo John Searle en 1980. En el experimento, los libros simplemente dan instrucciones sobre cómo recibir una información, manipular los caracteres en función de las relaciones que tienen entre sí y proporcionar un resultado, no son diccionarios.

Los libros actúan como un programa de ordenador.

Searle creía que el test de Turing no era fiable para poner a prueba la inteligencia de las máquinas. Cualquier programa de IA podría llegar a aprender las reglas de un idioma y dar la impresión de tener el mismo conocimiento de la lengua que un hablante nativo.

Estas interacciones entre los ordenadores y las lenguas humanas constituyen la base del procesamiento del lenguaje natural o PLN: el reconocimiento de voz, en la síntesis de textos, el análisis de sentimientos, la traducción automática, han mejorado muchisimo desde los años 80.

Hoy en día los traductores más conocidos, consiguen traducir bastante bien también las la expresiónes idiomáticas.

¿Pero como lo hacen?

¿Qué significan las palabras y las frases para un ordenador, que solo entiende de ceros y de unos?

Aunque los ordenadores no entienden realmente el lenguaje de la misma forma que lo hacen los humanos, entrenarles para que aprendan, no es tan diferente de nuestra propia experiencia de aprendizaje del lenguaje. Si se enseñan suficientes ejemplos a un ordenador, este comenzará a reconocer patrones.

Pero ¿cuál es el sustituto de la comprensión humana? Las matrices de palabras, que constituyen las unidades fundamentales de cualquier tarea de procesamiento del lenguaje natural.

Una matriz de palabras es, basicamente, una secuencia de números que almacena información sobre el significado de la palabra.

Las matrices de palabras llegan a capturar de manera eficiente algo denominado «hipótesis distribucional», un concepto que el lingüista británico John Rupert Firth definió de forma muy acertada en su obra de 1957, « A synopsis of lingustic theory».

"Para conocer una palabra, fíjate en las que la acompañan".

El campo de la semántica distribucional sostiene que las palabras y frases que aparecen en contextos similares (distribuciones similares) tienen significados parecidos.

La capacidad de las computadoras de comprender efectivamente todo el lenguaje humano transformaría completamente la forma en que nos relacionamos con las marcas, negocios y organizaciones en todo el mundo.

Los métodos computacionales de matrices de palabras se basan justo en esto: en la idea de que el contexto de una palabra puede ayudarnos a determinar lo que significa dicha palabra si vemos un número suficiente de ejemplos variados.

Finalmente, llegamos a los algoritmos reales para el cálculo de matrices de palabras, como Word2Vec, desarrollado por Tomas Mikolov y sus compañeros investigadores de Google en el 2013.

El objetivo principal del algoritmo es, para una palabra determinada, predecir las palabras vecinas mediante la utilización de una gran cantidad de textos como datos de entrenamiento.

Hoy en día, la mayoría de las empresas no tienen tiempo de responder a todas las preguntas de los clientes. Pero imagina si una compañía realmente pudiera escuchar, entender y responder a cada pregunta, en cualquier momento y en cualquier canal (levante la mano quien tiene Alexa en su casa).

Se tardó hasta 2015 en construir un algoritmo que pudiera reconocer rostros con una precisión comparable a la de los humanos. DeepFace de Facebook tiene una precisión del 97,4%, justo por debajo del 97,5% del rendimiento humano. Como referencia, el algoritmo de reconocimiento facial del FBI sólo alcanza una precisión del 85%, lo que significa que sigue siendo erróneo en más de uno de cada siete casos.

El algoritmo del FBI fue hecho a mano por un equipo de ingenieros. Cada característica, como el tamaño de una nariz y la ubicación relativa de sus ojos fue programada manualmente. El algoritmo de Facebook funciona con funciones aprendidas paso paso. Facebook usó una arquitectura especial de aprendizaje profundo llamada Redes Neuronales Convolucionales (Convolutional Neural Networks ) que imita cómo las diferentes capas en nuestra corteza visual procesan las imágenes. Debido a que no sabemos exactamente cómo vemos, las conexiones entre estas capas son aprendidas por el algoritmo.

Facebook fue capaz de lograr esto porque descubrió cómo poner en su lugar dos componentes esenciales de una IA a nivel humano: una arquitectura que podía aprender características, y datos de alta calidad etiquetados por millones de usuarios que habían etiquetado a sus amigos en las fotos que compartían.

El lenguaje: ese desconocido

La visión es un problema que la evolución ha resuelto en millones de especies diferentes, pero el lenguaje parece ser mucho más complejo. Por lo que sabemos, actualmente somos la única especie que se comunica con un lenguaje complejo.

Como mencionamos, hace menos de una década, los algoritmos sólo contaban la frecuencia con la que ocurrían ciertas palabras.

Pero este enfoque ignora claramente el hecho de que las palabras tienen sinónimos y sólo significan algo si están dentro de un determinado contexto.

En 2013, word2vec de Tomas Mikolov mapeó los sinónimos uno encima del otro: fue capaz de modelar el significado como el tamaño, el género, la velocidad, e incluso aprender las relaciones funcionales como los países y sus capitales.

La pieza que faltaba, sin embargo, era el contexto.

El verdadero avance en este campo llegó en 2018, cuando Google introdujo el modelo BERT.

Jacob Devlin y su equipo reciclaron una arquitectura típicamente usada para la traducción automática y la hicieron aprender el significado de una palabra en relación a su contexto en una oración.

Enseñando al modelo a rellenar las palabras que faltan en los artículos de Wikipedia, el equipo fue capaz de incrustar la estructura del lenguaje en el modelo BERT. Con sólo una cantidad limitada de datos etiquetados de alta calidad, fueron capaces de afinar el BERT para una multitud de tareas que van desde encontrar la respuesta correcta a una pregunta hasta comprender realmente de qué trata una frase. Fueron los primeros en realmente clavar los dos elementos esenciales para la comprensión del lenguaje: la arquitectura correcta y grandes cantidades de datos de alta calidad de los que aprender.

En 2019, los investigadores de Facebook fueron capaces de llevar esto aún más lejos. Entrenaron un modelo similar al BERT en más de 100 idiomas simultáneamente. El modelo fue capaz de aprender tareas en un idioma, por ejemplo, inglés, y utilizarlo para la misma tarea en cualquiera de los otros idiomas, como el árabe, el chino y el hindi. Este modelo agnóstico de idiomas tiene el mismo rendimiento que el BERT en el idioma en el que se entrena y sólo hay un impacto limitado al pasar de un idioma a otro.

Todas estas técnicas son realmente impresionantes por sí mismas, pero a principios de 2020 los investigadores de Google finalmente fueron capaces de superar el rendimiento humano en una amplia gama de tareas de comprensión del lenguaje.

Google llevó la arquitectura del BERT a sus límites entrenando una red mucho más grande con aún más datos.

Este llamado modelo T5 ahora se desempeña mejor que los humanos en el etiquetado de frases y en encontrar las respuestas correctas a una pregunta. El modelo mT5, es casi tan bueno como los humanos bilingües en el cambiando de un lenguaje a otro, pero puede hacerlo con más de 100 lenguajes a la vez.

Posibilidades

Imagina robots de chat que pueden entender lo que escribes en cualquier idioma imaginable. Comprenderán el contexto y recordarán conversaciones anteriores. Todo el tiempo obtendrás respuestas que ya no son genéricas, sino que realmente van al grano.

Los motores de búsqueda serán capaces de entender cualquier pregunta que tengas. Producirán respuestas adecuadas y ni siquiera tendrás que usar las palabras clave correctas. Tendrás un colega de la IA que sabe todo lo que hay que saber sobre los procedimientos de tu empresa. No más preguntas de los clientes que están a sólo una búsqueda en Google si conoces la jerga correcta. Y los colegas que se preguntan por qué la gente no leyó todos los documentos de la empresa se convertirá en una cosa del pasado.

Surgirá una nueva era de bases de datos.

Cualquier memorándum, correo electrónico, informe, etc., será automáticamente interpretado, almacenado e indexado.

Y eso es sólo la punta del iceberg. Cualquier procedimiento que actualmente aún requiere que un humano entienda el lenguaje está ahora a punto de ser interrumpido o automatizado.

¿Parece una película de ciencia ficción?

Desafortunadamente (o no) es la realidad.

Fuentes:

Language AI is really heating up, Pieter Buteneers is Director of Engineering in Machine Learning and AI

A synopsis of lingustic theory, 1957, John Rupert Firth

Palabra de Robot, Inteligencia Artificial y comunicación, 2006,Óscar Villarroya