Home Tecnología Las alucinaciones de IA están empeorando, incluso cuando los nuevos sistemas se...

Las alucinaciones de IA están empeorando, incluso cuando los nuevos sistemas se vuelven más potentes

17
0
Las alucinaciones de IA están empeorando, incluso cuando los nuevos sistemas se vuelven más potentes


El mes pasado, un bot de IA que maneja el soporte técnico para el cursor, Una herramienta prometedora para programadores de computadorasalertó a varios clientes sobre un cambio en la política de la empresa. Dijo que ya no se les permitía usar el cursor en más de una sola computadora.

En publicaciones enojadas para tableros de mensajes de Internetlos clientes se quejaron. Algunos cancelaron sus cuentas del cursor. Y algunos se pusieron aún más enojados cuando se dieron cuenta de lo que había sucedido: el bot Ai había anunciado un cambio de política que no existía.

“No tenemos esa política. Por supuesto, es libre de usar el cursor en múltiples máquinas”, el director ejecutivo y cofundador de la compañía, Michael Truell, escribió En una publicación de Reddit. “Desafortunadamente, esta es una respuesta incorrecta de un bot de soporte de IA de primera línea”.

Más de dos años después de la llegada de ChatGPT, compañías tecnológicas, trabajadores de oficina y consumidores cotidianos están utilizando bots de IA para una gran variedad de tareas. Pero todavía no hay forma de garantizar que estos sistemas produzcan información precisa.

Las tecnologías más nuevas y poderosas, los llamados sistemas de razonamiento de compañías como Openi, Google y la nueva empresa china Deepseek, están generando más errores, no menos. A medida que sus habilidades matemáticas han mejorado notablemente, su manejo de los hechos se ha vuelto más agitado. No está del todo claro por qué.

Los bots de IA de hoy se basan en sistemas matemáticos complejos que aprenden sus habilidades al analizar enormes cantidades de datos digitales. No hacen, y no pueden, decidir qué es verdad y qué es falso. A veces, simplemente crean cosas, un fenómeno que algunos investigadores de IA llaman alucinaciones. En una prueba, las tasas de alucinación de los sistemas de IA más nuevos fueron tan altas como del 79 por ciento.

Estos sistemas utilizan probabilidades matemáticas para adivinar la mejor respuesta, no un conjunto estricto de reglas definidas por ingenieros humanos. Entonces cometen un cierto número de errores. “A pesar de nuestros mejores esfuerzos, siempre alucinarán”, dijo AMR Awadallah, director ejecutivo de Vectara, una nueva empresa que construye herramientas de inteligencia artificial para las empresas y un ex ejecutivo de Google. “Eso nunca desaparecerá”.

Durante varios años, este fenómeno ha generado preocupaciones sobre la confiabilidad de estos sistemas. Aunque son útiles en algunas situaciones, como escribir documentos de términos, resumir documentos de la oficina y generar código de computadora, sus errores pueden causar problemas.

Los bots de IA vinculados a motores de búsqueda como Google y Bing a veces generan resultados de búsqueda que son ridículamente incorrectos. Si les pides un buen maratón en la costa oeste, podrían sugerir una carrera en Filadelfia. Si le dicen el número de hogares en Illinois, podrían citar una fuente que no incluye esa información.

Esas alucinaciones pueden no ser un gran problema para muchas personas, pero es un problema grave para cualquier persona que use la tecnología con documentos judiciales, información médica o datos comerciales confidenciales.

“Pasas mucho tiempo tratando de averiguar qué respuestas son objetivas y cuáles no”, dijo Pratik Verma, cofundador y director ejecutivo de Okahuuna empresa que ayuda a las empresas a navegar por el problema de la alucinación. “No lidiar con estos errores correctamente básicamente elimina el valor de los sistemas AI, que se supone que automatizarán las tareas para usted”.

Cursor y el Sr. Truerell no respondieron a las solicitudes de comentarios.

Durante más de dos años, compañías como OpenAI y Google mejoraron constantemente sus sistemas de IA y redujeron la frecuencia de estos errores. Pero con el uso de nuevos sistemas de razonamiento, los errores están aumentando. Los últimos sistemas Operai alucinan a un ritmo más alto que el sistema anterior de la compañía, según las propias pruebas de la compañía.

La compañía descubrió que O3, su sistema más poderoso, alucinó el 33 por ciento del tiempo al ejecutar su prueba de referencia Personqa, que implica responder preguntas sobre figuras públicas. Eso es más del doble de la tasa de alucinación del sistema de razonamiento anterior de OpenAI, llamado O1. El nuevo O4-Mini alucinado a una tasa aún más alta: 48 por ciento.

Cuando se ejecuta otra prueba llamada SimpleQA, que hace preguntas más generales, las tasas de alucinación para O3 y O4-Mini fueron 51 por ciento y 79 por ciento. El sistema anterior, O1, alucinó el 44 por ciento del tiempo.

En un artículo que detalla las pruebasOpenai dijo que se necesitaba más investigación para comprender la causa de estos resultados. Debido a que los sistemas de IA aprenden de más datos de los que las personas pueden envolver la cabeza, los tecnólogos luchan por determinar por qué se comportan de las formas en que lo hacen.

“Las alucinaciones no son inherentemente más frecuentes en los modelos de razonamiento, aunque estamos trabajando activamente para reducir las tasas más altas de alucinación que vimos en O3 y O4-Mini”, dijo una portavoz de la compañía, Gaby Raila. “Continuaremos nuestra investigación sobre alucinaciones en todos los modelos para mejorar la precisión y la confiabilidad”.

Hannaneh Hajishirzi, profesor de la Universidad de Washington e investigador del Instituto Allen de Inteligencia Artificial, es parte de un equipo que recientemente ideó una forma de rastrear el comportamiento de un sistema para volver al Datos individuales en los que fue entrenado. Pero debido a que los sistemas aprenden de tantos datos, y porque pueden generar casi cualquier cosa, esta nueva herramienta no puede explicar todo. “Todavía no sabemos cómo funcionan exactamente estos modelos”, dijo.

Las pruebas de compañías e investigadores independientes indican que las tasas de alucinación también están aumentando para modelos de razonamiento de compañías como Google y Deepseek.

Desde finales de 2023, la compañía del Sr. Awadallah, Vectara, tiene rastreado con qué frecuencia los chatbots se desvían de la verdad. La compañía le pide a estos sistemas que realicen una tarea directa que se verifique fácilmente: resumir artículos de noticias específicos. Incluso entonces, los chatbots inventan la información persistentemente.

La investigación original de Vacerara estimó que en esta situación los chatbots constituyeron información al menos el 3 por ciento del tiempo y, a veces, hasta el 27 por ciento.

En el año y medio desde entonces, compañías como OpenAI y Google empujaron esos números hacia el rango de 1 o 2 por ciento. Otros, como la nueva empresa de San Francisco antrópica, rondaban el 4 por ciento. Pero las tasas de alucinación en esta prueba han aumentado con los sistemas de razonamiento. El sistema de razonamiento de Deepseek, R1, alucinó el 14.3 por ciento del tiempo. El O3 de Openai subió a 6.8.

(El New York Times ha demandado a Openai y a su socio, Microsoft, acusándolos de infracción de derechos de autor con respecto al contenido de noticias relacionados con los sistemas de IA. Openai y Microsoft han negado esas afirmaciones).

Durante años, compañías como OpenAI se basaron en un concepto simple: cuantos más datos de Internet alimentan en sus sistemas de inteligencia artificial, mejor funcionarían esos sistemas. Pero usaron casi todo el texto en inglés en Internet, lo que significaba que necesitaban una nueva forma de mejorar sus chatbots.

Por lo tanto, estas compañías se inclinan más en una técnica que los científicos llaman aprendizaje de refuerzo. Con este proceso, un sistema puede aprender el comportamiento a través de prueba y error. Funciona bien en ciertas áreas, como las matemáticas y la programación de computadoras. Pero se está quedando corto en otras áreas.

“La forma en que se capacitan estos sistemas, comenzarán a centrarse en una tarea y comenzarán a olvidarse de otros”, dijo Laura Pérez-Beltrachini, investigadora de la Universidad de Edimburgo que se encuentra entre un equipo examinando de cerca el problema de la alucinación.

Otro problema es que los modelos de razonamiento están diseñados para pasar tiempo “pensando” a través de problemas complejos antes de decidirse por una respuesta. A medida que intentan abordar un problema paso a paso, corren el riesgo de alucinar en cada paso. Los errores pueden agotarse a medida que pasan más tiempo pensando.

Los últimos bots revelan cada paso a los usuarios, lo que significa que los usuarios también pueden ver cada error. Los investigadores también han encontrado que en muchos casos, los pasos que muestran un bot son no relacionado con la respuesta que finalmente ofrece.

“Lo que el sistema dice que está pensando no es necesariamente lo que está pensando”, dijo Aryo Pradipta Gema, investigador de IA en la Universidad de Edimburgo y miembro de Anthrope.



Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here