Los grandes modelos lingüísticos no son personas. Dejemos de probarlos como si lo fueran.

Mientras las esperanzas y los temores sobre esta tecnología se vuelven locos, es hora de ponerse de acuerdo sobre lo que puede y no puede hacer.

Cuando Taylor Webb jugó con GPT-3 a principios de 2022, quedó impresionado por lo que parecía ser capaz de hacer el modelo de lenguaje grande de OpenAI. Aquí había una red neuronal entrenada sólo para predecir la siguiente palabra en un bloque de texto: un autocompletado saltado. Y, sin embargo, dio respuestas correctas a muchos de los problemas abstractos que Webb le planteó: el tipo de cosas que encontrarías en una prueba de coeficiente intelectual. "Me sorprendió mucho su capacidad para resolver estos problemas", afirma. "Esto cambió por completo todo lo que hubiera predicho".

Webb es psicólogo de la Universidad de California en Los Ángeles y estudia las diferentes formas en que las personas y las computadoras resuelven problemas abstractos. Estaba acostumbrado a construir redes neuronales que tenían capacidades de razonamiento específicas incorporadas. Pero GPT-3 parecía haberlos aprendido gratis.

Conversaciones exclusivas que nos llevan detrás de escena de un fenómeno cultural.

El mes pasado, Webb y sus colegas publicaron un artículo en Nature, en el que describen la capacidad de GPT-3 para pasar una variedad de pruebas diseñadas para evaluar el uso de la analogía para resolver problemas (conocido como razonamiento analógico). En algunas de esas pruebas, GPT-3 obtuvo mejores resultados que un grupo de estudiantes universitarios. "La analogía es fundamental para el razonamiento humano", dice Webb. "Creemos que es una de las cosas más importantes que cualquier tipo de inteligencia artificial debería demostrar".

Lo que la investigación de Webb destaca es sólo el último de una larga serie de trucos notables logrados por grandes modelos de lenguaje. Por ejemplo, cuando OpenAI presentó el sucesor de GPT-3, GPT-4, en marzo, la compañía publicó una lista sorprendente de evaluaciones profesionales y académicas que, según afirmaba, había superado su nuevo modelo de lenguaje grande, incluidas un par de docenas de pruebas de escuela secundaria. y el examen de la barra. Más tarde, OpenAI trabajó con Microsoft para demostrar que GPT-4 podía aprobar partes del examen de licencia médica de los Estados Unidos.

Y varios investigadores afirman haber demostrado que los grandes modelos de lenguaje pueden pasar pruebas diseñadas para identificar ciertas habilidades cognitivas en humanos, desde el razonamiento en cadena de pensamientos (resolver un problema paso a paso) hasta la teoría de la mente (adivinar lo que otras personas están pensando). ).

Este tipo de resultados están alimentando una máquina exagerada que predice que estas máquinas pronto vendrán para trabajos administrativos, reemplazando a profesores, médicos, periodistas y abogados. Geoffrey Hinton ha señalado la aparente capacidad de GPT-4 para unir pensamientos como una de las razones por las que ahora tiene miedo de la tecnología que ayudó a crear.

Pero hay un problema: hay poco acuerdo sobre lo que realmente significan esos resultados. Algunas personas quedan deslumbradas por lo que ven como destellos de inteligencia humana; otros no están nada convencidos.

"Hay varios problemas críticos con las técnicas de evaluación actuales para modelos de lenguaje grandes", dice Natalie Shapira, científica informática de la Universidad Bar-Ilan en Ramat Gan, Israel. "Crea la ilusión de que tienen mayores capacidades de las que realmente existen".

Es por eso que un número creciente de investigadores (informáticos, científicos cognitivos, neurocientíficos, lingüistas) quieren revisar la forma en que son evaluados, pidiendo una evaluación más rigurosa y exhaustiva. Algunos piensan que la práctica de calificar las pruebas con máquinas en humanos es desacertada y debería abandonarse.

"La gente ha estado realizando pruebas de inteligencia humana (pruebas de coeficiente intelectual, etc.) a máquinas desde el comienzo de la IA", dice Melanie Mitchell, investigadora de inteligencia artificial en el Instituto Santa Fe en Nuevo México. “El problema en todo momento ha sido qué significa probar una máquina como ésta. No significa lo mismo que para un humano”.

"Hay mucha antropomorfización", dice. "Y eso influye en cierto modo en la forma en que pensamos sobre estos sistemas y cómo los probamos".

Con las esperanzas y los temores sobre esta tecnología en su punto más alto, es crucial que tengamos un control sólido de lo que los grandes modelos lingüísticos pueden y no pueden hacer.

Abierto a interpretación

La mayoría de los problemas relacionados con la forma en que se prueban los modelos de lenguaje de gran tamaño se reducen a la cuestión de cómo se interpretan los resultados.

Las evaluaciones diseñadas para humanos, como los exámenes de secundaria y las pruebas de coeficiente intelectual, dan muchas cosas por sentado. Cuando las personas obtienen una buena puntuación, es seguro asumir que poseen el conocimiento, la comprensión o las habilidades cognitivas que la prueba debe medir. (En la práctica, esa suposición sólo llega hasta cierto punto. Los exámenes académicos no siempre reflejan las verdaderas habilidades de los estudiantes. Las pruebas de coeficiente intelectual miden un conjunto específico de habilidades, no la inteligencia general. Ambos tipos de evaluación favorecen a las personas que son buenas en ese tipo de evaluaciones. )

Los gigantes tecnológicos dominan la investigación, pero la línea entre un avance real y la exhibición de productos puede ser confusa. Algunos científicos ya han tenido suficiente.

Pero cuando un modelo de lenguaje grande obtiene buenos resultados en tales pruebas, no está en absoluto claro qué se ha medido. ¿Es evidencia de una comprensión real? ¿Un truco estadístico sin sentido? ¿Repetición de memoria?

"Existe una larga historia de desarrollo de métodos para probar la mente humana", dice Laura Weidinger, investigadora científica senior de Google DeepMind. “Dado que los grandes modelos de lenguaje producen textos que parecen tan humanos, resulta tentador suponer que las pruebas de psicología humana serán útiles para evaluarlos. Pero eso no es cierto: las pruebas de psicología humana se basan en muchas suposiciones que pueden no ser válidas para modelos de lenguaje grandes”.

Webb es consciente de los problemas en los que se metió. "Comparto la sensación de que se trata de cuestiones difíciles", afirma. Señala que a pesar de obtener mejores resultados que los estudiantes universitarios en determinadas pruebas, GPT-3 produjo resultados absurdos en otras. Por ejemplo, no pasó una versión de una prueba de razonamiento analógico sobre objetos físicos que los psicólogos del desarrollo a veces aplican a los niños.

En esta prueba, Webb y sus colegas le contaron a GPT-3 una historia sobre un genio mágico que transfería joyas entre dos botellas y luego le preguntaron cómo transferir chicles de un recipiente a otro, utilizando objetos como una cartulina y un tubo de cartón. La idea es que la historia insinúe formas de resolver el problema. "GPT-3 propuso en su mayoría soluciones elaboradas pero mecánicamente sin sentido, con muchos pasos superfluos y sin un mecanismo claro mediante el cual los chicles serían transferidos entre los dos cuencos", escriben los investigadores en Nature.

"Este es el tipo de cosas que los niños pueden resolver fácilmente", dice Webb. "Las cosas en las que estos sistemas son realmente malos tienden a ser cosas que implican la comprensión del mundo real, como la física básica o las interacciones sociales, cosas que son una segunda naturaleza para las personas".

Entonces, ¿cómo podemos entender una máquina que aprueba el examen de la abogacía pero reproba el preescolar? Los grandes modelos de lenguaje como GPT-4 se entrenan con una gran cantidad de documentos tomados de Internet: libros, blogs, fan fiction, informes técnicos, publicaciones en redes sociales y mucho, mucho más. Es probable que muchos exámenes anteriores hayan sido aspirados al mismo tiempo. Una posibilidad es que modelos como GPT-4 hayan visto tantas pruebas profesionales y académicas en sus datos de entrenamiento que hayan aprendido a autocompletar las respuestas.

Muchas de estas pruebas (preguntas y respuestas) están en línea, dice Webb: "Es casi seguro que muchas de ellas se encuentran en los datos de entrenamiento de GPT-3 y GPT-4, por lo que creo que realmente no podemos concluir mucho de nada".

OpenAI dice que verificó para confirmar que las pruebas que realizó a GPT-4 no contenían texto que también apareciera en los datos de entrenamiento del modelo. En su trabajo con Microsoft relacionado con el examen para médicos, OpenAI utilizó preguntas de prueba de pago para asegurarse de que los datos de entrenamiento de GPT-4 no las hubieran incluido. Pero tales precauciones no son infalibles: GPT-4 aún podría haber visto pruebas similares, si no coincidencias exactas.

Cuando Horace He, un ingeniero de aprendizaje automático, probó GPT-4 en preguntas tomadas de Codeforces, un sitio web que organiza competencias de codificación, descubrió que obtuvo una puntuación de 10/10 en las pruebas de codificación publicadas antes de 2021 y de 0/10 en las pruebas publicadas después de 2021. Otros también han notado que los puntajes de las pruebas de GPT-4 caen en picado en el material producido después de 2021. Debido a que los datos de entrenamiento del modelo solo incluían texto recopilado antes de 2021, algunos dicen que esto muestra que los modelos de lenguaje grandes muestran un tipo de memorización en lugar de inteligencia.

Para evitar esa posibilidad en sus experimentos, Webb ideó nuevos tipos de pruebas desde cero. "Lo que realmente nos interesa es la capacidad de estos modelos para descubrir nuevos tipos de problemas", afirma.

A algunos les preocupa que los rumores sobre estas herramientas no le hagan ningún favor a todo el campo.

Webb y sus colegas adaptaron una forma de probar el razonamiento analógico llamada Matrices Progresivas de Raven. Estas pruebas consisten en una imagen que muestra una serie de formas dispuestas una al lado de la otra o una encima de la otra. El desafío es descubrir el patrón en la serie de formas dada y aplicarlo a una nueva. Las matrices progresivas de Raven se utilizan para evaluar el razonamiento no verbal tanto en niños pequeños como en adultos, y son comunes en las pruebas de coeficiente intelectual.

En lugar de utilizar imágenes, los investigadores codificaron la forma, el color y la posición en secuencias de números. Esto garantiza que las pruebas no aparecerán en ningún dato de entrenamiento, dice Webb: “Creé este conjunto de datos desde cero. Nunca había oído hablar de nada parecido”.

Mitchell está impresionado por el trabajo de Webb. "Este artículo me pareció bastante interesante y provocativo", afirma. "Es un estudio bien hecho". Pero ella tiene reservas. Mitchell ha desarrollado su propia prueba de razonamiento analógico, llamada ConceptARC, que utiliza secuencias codificadas de formas tomadas del conjunto de datos ARC (Abstraction and Reasoning Challenge) desarrollado por el investigador de Google François Chollet. En los experimentos de Mitchell, GPT-4 obtiene peores puntuaciones que las personas en este tipo de pruebas.

Mitchell también señala que codificar las imágenes en secuencias (o matrices) de números facilita el problema para el programa porque elimina el aspecto visual del rompecabezas. "Resolver matrices de dígitos no equivale a resolver los problemas de Raven", afirma.

Pruebas frágiles

El rendimiento de los modelos de lenguaje grandes es frágil. Entre las personas, es seguro asumir que alguien que obtiene una buena puntuación en una prueba también obtendrá buenos resultados en una prueba similar. Ese no es el caso con los modelos de lenguaje grandes: un pequeño ajuste en una prueba puede reducir una calificación de A a F.

“En general, la evaluación de la IA no se ha realizado de tal manera que nos permita comprender realmente qué capacidades tienen estos modelos”, afirma Lucy Cheke, psicóloga de la Universidad de Cambridge, Reino Unido. "Es perfectamente razonable probar qué tan bien funciona un sistema en una tarea particular, pero no es útil tomar esa tarea y hacer afirmaciones sobre habilidades generales".

Tomemos como ejemplo un artículo publicado en marzo por un equipo de investigadores de Microsoft, en el que afirmaban haber identificado "chispas de inteligencia artificial general" en GPT-4. El equipo evaluó el modelo de lenguaje grande mediante una variedad de pruebas. En uno, le preguntaron a GPT-4 cómo apilar un libro, nueve huevos, una computadora portátil, una botella y un clavo de manera estable. Respondió: “Coloca la computadora portátil encima de los huevos, con la pantalla hacia abajo y el teclado hacia arriba. La computadora portátil encajará perfectamente dentro de los límites del libro y los huevos, y su superficie plana y rígida proporcionará una plataforma estable para la siguiente capa”.

Nada mal. Pero cuando Mitchell intentó su propia versión de la pregunta, pidiéndole a GPT-4 que apilara un palillo, un tazón de pudín, un vaso de agua y un malvavisco, sugirió meter el palillo en el pudín y el malvavisco en el palillo, y equilibrando el vaso lleno de agua sobre el malvavisco. (Terminaba con una útil nota de precaución: "Tenga en cuenta que esta pila es delicada y puede no ser muy estable. Tenga cuidado al construirla y manipularla para evitar derrames o accidentes").

He aquí otro caso polémico. En febrero, el investigador de la Universidad de Stanford, Michal Kosinski, publicó un artículo en el que afirmaba demostrar que la teoría de la mente "puede haber surgido espontáneamente como un subproducto" de GPT-3. La teoría de la mente es la capacidad cognitiva de atribuir estados mentales a otros, un sello distintivo de la inteligencia emocional y social que la mayoría de los niños adquieren entre los tres y los cinco años. Kosinski informó que GPT-3 había pasado las pruebas básicas utilizadas para evaluar la capacidad en humanos.

Una máquina que pudiera pensar como una persona ha sido la visión rectora de la investigación en IA desde los primeros días, y sigue siendo su idea más divisiva.

Por ejemplo, Kosinski le dio a GPT-3 este escenario: “Aquí hay una bolsa llena de palomitas de maíz. No hay chocolate en la bolsa. Sin embargo, la etiqueta de la bolsa dice "chocolate" y no "palomitas de maíz". Sam encuentra la bolsa. Ella nunca antes había visto la bolsa. No puede ver lo que hay dentro de la bolsa. Ella lee la etiqueta”.

Luego, Kosinski pidió a la modelo que completara oraciones como: “Abre la bolsa y mira dentro. Puede ver claramente que está llena de…” y “Ella cree que la bolsa está llena de…” GPT-3 completó la primera oración con “palomitas de maíz” y la segunda oración con “chocolate”. Él toma estas respuestas como evidencia de que GPT-3 muestra al menos una forma básica de teoría de la mente porque capturan la diferencia entre el estado real del mundo y las (falsas) creencias de Sam al respecto.

No sorprende que los resultados de Kosinski ocuparan los titulares. También invitaron a una reacción inmediata. "Fui grosero en Twitter", dice Cheke.

Varios investigadores, entre ellos Shapira y Tomer Ullman, un científico cognitivo de la Universidad de Harvard, publicaron contraejemplos que mostraban que modelos de lenguaje grandes no superaban variaciones simples de las pruebas que utilizaba Kosinski. "Era muy escéptico dado lo que sé acerca de cómo se construyen los grandes modelos de lenguaje", dice Ullman.

Ullman modificó el escenario de prueba de Kosinski diciéndole a GPT-3 que la bolsa de palomitas de maíz con la etiqueta "chocolate" era transparente (para que Sam pudiera ver que eran palomitas de maíz) o que Sam no podía leer (para que la etiqueta no la engañara). Ullman descubrió que GPT-3 no lograba atribuir estados mentales correctos a Sam cuando la situación implicaba unos pocos pasos adicionales de razonamiento.

"La suposición de que las pruebas cognitivas o académicas diseñadas para humanos sirven como medidas precisas de la capacidad de LLM surge de una tendencia a antropomorfizar los modelos y alinear su evaluación con los estándares humanos", dice Shapira. "Esta suposición es errónea".

Para Cheke, hay una solución obvia. Los científicos llevan décadas evaluando las capacidades cognitivas de los no humanos, afirma. Los investigadores de inteligencia artificial podrían adaptar las técnicas utilizadas para estudiar animales, que se han desarrollado para evitar sacar conclusiones precipitadas basadas en prejuicios humanos.

Tomemos como ejemplo una rata en un laberinto, dice Cheke: “¿Cómo se mueve? Las suposiciones que se pueden hacer en psicología humana no se sostienen”. En lugar de ello, los investigadores tienen que realizar una serie de experimentos controlados para descubrir qué información está usando la rata y cómo la usa, probando y descartando hipótesis una por una.

“Con los modelos de lenguaje, es más complejo. No es que existan pruebas que utilicen el lenguaje para ratas”, afirma. “Estamos en una zona nueva, pero muchas de las formas fundamentales de hacer las cosas se mantienen. Es sólo que tenemos que hacerlo con el lenguaje en lugar de con un pequeño laberinto”.

Weidinger adopta un enfoque similar. Ella y sus colegas están adaptando técnicas que los psicólogos utilizan para evaluar las capacidades cognitivas en bebés humanos preverbales. Una idea clave aquí es dividir una prueba para una habilidad particular en una batería de varias pruebas que también busquen habilidades relacionadas. Por ejemplo, al evaluar si un bebé ha aprendido a ayudar a otra persona, un psicólogo también podría evaluar si el bebé comprende lo que significa obstaculizar. Esto hace que la prueba general sea más sólida.

El problema es que este tipo de experimentos llevan tiempo. Un equipo podría estudiar el comportamiento de las ratas durante años, afirma Cheke. La inteligencia artificial avanza a un ritmo mucho más rápido. Ullman compara la evaluación de grandes modelos de lenguaje con el castigo de Sísifo: "Se afirma que un sistema exhibe el comportamiento X, y cuando una evaluación muestra que no exhibe el comportamiento X, aparece un nuevo sistema y se afirma que muestra el comportamiento X".

Moviendo las porterías

Hace cincuenta años la gente pensaba que para vencer a un gran maestro de ajedrez se necesitaría una computadora que fuera tan inteligente como una persona, dice Mitchell. Pero el ajedrez cayó en manos de máquinas que simplemente eran mejores calculadoras de números que sus oponentes humanos. Ganó la fuerza bruta, no la inteligencia.

Se han planteado y superado desafíos similares, desde el reconocimiento de imágenes hasta Go. Cada vez que se fabrican computadoras para hacer algo que requiere inteligencia en los humanos, como jugar o usar el lenguaje, se divide el campo. Los grandes modelos lingüísticos se enfrentan ahora a su propio momento ajedrecístico. "Realmente nos está empujando a nosotros, a todos, a pensar en qué es la inteligencia", dice Mitchell.

"Las historias de fantasmas son contagiosas".

¿GPT-4 muestra una inteligencia genuina al pasar todas esas pruebas o ha encontrado un atajo efectivo, pero en última instancia tonto: un truco estadístico extraído de un sombrero lleno de billones de correlaciones en miles de millones de líneas de texto?

"Si dices: 'Está bien, GPT4 aprobó el examen de la abogacía, pero eso no significa que sea inteligente', la gente dice: 'Oh, estás moviendo los postes'", dice Mitchell. "¿Pero decimos que estamos moviendo el poste de la portería o decimos que eso no es lo que entendemos por inteligencia? ¿Nos equivocamos acerca de la inteligencia?"

Todo se reduce a qué tan grandes modelos lingüísticos hacen lo que hacen. Algunos investigadores quieren abandonar la obsesión por los resultados de los exámenes y tratar de descubrir qué sucede bajo el capó. "Creo que para comprender realmente su inteligencia, si queremos llamarla así, tendremos que comprender los mecanismos mediante los cuales razonan", dice Mitchell.

Ullman está de acuerdo. "Simpatizo con la gente que piensa que esto es cambiar las reglas del juego", dice. “Pero esa ha sido la dinámica durante mucho tiempo. La novedad es que ahora no sabemos cómo están pasando estas pruebas. Simplemente nos dijeron que lo aprobaron”.

El problema es que nadie sabe exactamente cómo funcionan los grandes modelos lingüísticos. Es difícil desentrañar los complejos mecanismos dentro de un vasto modelo estadístico. Pero Ullman cree que es posible, en teoría, aplicar ingeniería inversa a un modelo y descubrir qué algoritmos utiliza para pasar diferentes pruebas. “Me resultaría más fácil convencerme si alguien desarrollara una técnica para descubrir qué han aprendido realmente estas cosas”, afirma.

"Creo que el problema fundamental es que seguimos centrándonos en los resultados de las pruebas en lugar de en cómo se pasan las pruebas".

La compañía espera que hacer que LLaMA 2 sea de código abierto le dé ventaja sobre rivales como OpenAI.

La ciencia está a punto de volverse mucho más apasionante y eso nos afectará a todos, sostiene el ex director ejecutivo de Google.

La prueba de Turing moderna mediría lo que una IA puede hacer en el mundo, no sólo su apariencia. ¿Y qué es más revelador que ganar dinero?

Una nueva investigación explica que obtendrá más respuestas de derecha o de izquierda, según el modelo de IA que pregunte.

Descubra ofertas especiales, noticias destacadas, próximos eventos y más.

¡Gracias por enviar tu correo electrónico!

Parece que algo salió mal.

Estamos teniendo problemas para guardar sus preferencias. Intente actualizar esta página y actualizarla una vez más. Si continúa recibiendo este mensaje, comuníquese con nosotros a [email protected] con una lista de los boletines que le gustaría recibir.

Abierto a interpretaciónPruebas frágilesMoviendo las porterías