En septiembre, Openai dio a conocer una nueva versión de ChatGPT diseñada para razonar a través de tareas que involucran matemáticas, ciencias y programación de computadoras. A diferencia de las versiones anteriores del chatbot, esta nueva tecnología podría pasar tiempo “pensando” a través de problemas complejos antes de decidirse por una respuesta.
Pronto, la compañía dijo que su nueva tecnología de razonamiento había superado a los sistemas líderes de la industria en una serie de pruebas que rastrean el progreso de la inteligencia artificial.
Ahora otras compañías, como Google, Anthrope y Deepseek de China, ofrecen tecnologías similares.
¿Pero puede la IA realmente razonar como un humano? ¿Qué significa que una computadora piense? ¿Estos sistemas realmente se acercan a la verdadera inteligencia?
Aquí hay una guía.
¿Qué significa cuando razona un sistema de IA?
El razonamiento solo significa que el chatbot pasa un tiempo adicional trabajando en un problema.
“El razonamiento es cuando el sistema hace un trabajo adicional después de que se hace la pregunta”, dijo Dan Klein, profesor de informática en la Universidad de California, Berkeley, y director de tecnología de Scaled Cognition, una nueva empresa de IA.
Puede romper un problema en pasos individuales o intentar resolverlo a través de prueba y error.
El chatgpt original respondió preguntas de inmediato. Los nuevos sistemas de razonamiento pueden resolver un problema durante varios segundos, o incluso minutos, antes de responder.
¿Puedes ser más específico?
En algunos casos, un sistema de razonamiento refinará su enfoque de una pregunta, tratando repetidamente de mejorar el método que ha elegido. Otras veces, puede intentar varias formas diferentes de abordar un problema antes de decidirse por uno de ellos. O puede volver y verificar algo de trabajo que hizo unos segundos antes, solo para ver si era correcto.
Básicamente, el sistema intenta lo que pueda para responder a su pregunta.
Esto es como un estudiante de escuela primaria que está luchando por encontrar una manera de resolver un problema de matemáticas y garabatea varias opciones diferentes en una hoja de papel.
¿Qué tipo de preguntas requieren un sistema de IA para razonar?
Potencialmente puede razonar sobre cualquier cosa. Pero el razonamiento es más efectivo cuando hace preguntas que involucran matemáticas, ciencias y programación de computadoras.
¿En qué se diferencia un chatbot de razonamiento de los chatbots anteriores?
Podría pedirle chatbots anteriores que le muestren cómo habían alcanzado una respuesta particular o para verificar su propio trabajo. Debido a que el ChatGPT original había aprendido de texto en Internet, donde las personas mostraron cómo habían recibido una respuesta o verificar su propio trabajo, también podría hacer este tipo de autorreflexión.
Pero un sistema de razonamiento va más allá. Puede hacer este tipo de cosas sin que se lo pregunten. Y puede hacerlos de manera más extensa y compleja.
Las empresas lo llaman un sistema de razonamiento porque parece que funciona más como una persona que piensa en un problema difícil.
¿Por qué es importante el razonamiento de IA ahora?
Empresas como OpenAI creen que esta es la mejor manera de mejorar sus chatbots.
Durante años, estas compañías confiaron en un concepto simple: cuantos más datos de Internet bombearon a sus chatbots, mejor se desempeñaron esos sistemas.
Pero en 2024, usaron casi todo el texto en Internet.
Eso significaba que necesitaban una nueva forma de mejorar sus chatbots. Entonces comenzaron a construir sistemas de razonamiento.
¿Cómo se construye un sistema de razonamiento?
El año pasado, compañías como OpenAI comenzaron a apoyarse en gran medida en una técnica llamada Reffory Learning.
A través de este proceso, que puede extenderse durante meses, un sistema de IA puede aprender comportamiento a través de una amplia prueba y error. Al trabajar a través de miles de problemas matemáticos, por ejemplo, puede aprender qué métodos conducen a la respuesta correcta y cuáles no.
Los investigadores han diseñado mecanismos de retroalimentación complejos que muestran el sistema cuando ha hecho algo bien y cuando ha hecho algo mal.
“Es un poco como entrenar a un perro”, dijo Jerry Tworek, un investigador de Operai. “Si el sistema funciona bien, le das una galleta. Si no funciona bien, dices ‘mal perro'”.
(El New York Times demandó a Openai y su socio, Microsoft, en diciembre por la infracción de derechos de autor del contenido de noticias relacionados con los sistemas de IA).
¿Funciona el aprendizaje de refuerzo?
Funciona bastante bien en ciertas áreas, como matemáticas, ciencias y programación de computadoras. Estas son áreas donde las empresas pueden definir claramente el buen comportamiento y lo malo. Los problemas matemáticos tienen respuestas definitivas.
El aprendizaje de refuerzo no funciona tan bien en áreas como la escritura creativa, la filosofía y la ética, donde la distinción entre lo bueno y lo malo es más difícil de precisar. Los investigadores dicen que este proceso generalmente puede mejorar el rendimiento de un sistema de IA, incluso cuando responde preguntas fuera de las matemáticas y las ciencias.
“Aprende gradualmente qué patrones de razonamiento lo llevan en la dirección correcta y cuáles no”, dijo Jared Kaplan, director científico de Anthrope.
¿Son los sistemas de aprendizaje y razonamiento de refuerzo lo mismo?
No. El aprendizaje de refuerzo es el método que las empresas usan para construir sistemas de razonamiento. Es la etapa de entrenamiento que finalmente permite a los chatbots razonar.
¿Estos sistemas de razonamiento todavía cometen errores?
Absolutamente. Todo lo que hace un chatbot se basa en probabilidades. Elige una ruta que más se parezca a los datos de los que aprendió, ya sea que esos datos vinieran de Internet o se generaron a través del aprendizaje de refuerzo. A veces elige una opción que está mal o no tiene sentido.
¿Es este un camino hacia una máquina que coincide con la inteligencia humana?
Los expertos en IA están divididos en esta pregunta. Estos métodos aún son relativamente nuevos, y los investigadores aún están tratando de comprender sus límites. En el campo AI, los nuevos métodos a menudo progresan muy rápidamente al principio, antes de disminuir la velocidad.