Home Noticias Elon Musk La nueva actualización de Grok plantea preocupaciones sobre la regulación del discurso...

La nueva actualización de Grok plantea preocupaciones sobre la regulación del discurso de la IA

21
0
La nueva actualización de Grok plantea preocupaciones sobre la regulación del discurso de la IA



El chatbot Grok de inteligencia artificial (AI) de Elon Musk ha estado plagado de controversia recientemente sobre sus respuestas a los usuarios, planteando preguntas sobre cómo las empresas tecnológicas buscan moderar el contenido de la IA y si Washington debería desempeñar un papel en establecer directrices.

Grok enfrentó un escrutinio agudo la semana pasada, después de que una actualización llevó al chatbot Ai a producir respuestas antisemitas y alabar a Adolf Hitler. La compañía de IA de Musk, Xai, rápidamente eliminó numerosas publicaciones incendiarias y dijo que agregó barandillas para “prohibir el discurso de odio” del chatbot.

Solo unos días después, Xai dio a conocer su nueva versión de Grok, que Musk afirmó que era el “modelo de IA más inteligente del mundo”. Sin embargo, los usuarios pronto descubrieron que el chatbot parecía estar confiando en las opiniones de su propietario para responder a consultas controvertidas.

“Deberíamos estar extremadamente preocupados de que el modelo de IA de mejor rendimiento en el mercado esté alineado en Hitler. Eso debería desencadenar algunas campanas de alarma para la gente”, Chris Mackenzie, vicepresidente de comunicaciones de Americans for Responsel Innovation (ARI), un grupo de defensa centrado en la política de IA.

“Creo que estamos en un período en este momento, donde los modelos de IA todavía no son increíblemente sofisticados”, continuó. “Pueden tener acceso a mucha información, correcto. Pero en términos de su capacidad para actos maliciosos, todo es muy abierto y no increíblemente sofisticado”.

“Hay mucho espacio para que abordemos este comportamiento desalineado antes de que se vuelva mucho más difícil y mucho más difícil de detectar”, agregó.

Lucas Hansen, cofundador de la organización sin fines de lucro Civai, cuyo objetivo es proporcionar información sobre las capacidades y riesgos de la IA, dijo que “no era sorprendente” que fuera posible conseguir que Grok se comportara como lo hizo.

“Para cualquier modelo de idioma, puede hacer que se comporte de cualquier manera que desee, independientemente de las barandillas que están actualmente en su lugar”, dijo a The Hill.

Musk anunció la semana pasada que Xai había actualizado a Grok, después de que anteriormente expresó frustraciones con algunas de las respuestas del chatbot.

A mediados de junio, el magnate tecnológico le cuestionó Con una respuesta de Grok sugiriendo que la violencia de derecha se había vuelto más frecuente y mortal desde 2016. Musk afirmó que el chatbot estaba “repitiendo medios heredados” y dijo que estaba “trabajando en ello”.

El más tarde indicado Estaba reentrenando el modelo y llamado en los usuarios para ayudar a proporcionar “hechos divisivos”, que definió como “cosas políticamente incorrectas, pero de hecho verdaderas”.

La actualización causó una tormenta de fuego para Xai, ya que Grok comenzó a hacer amplias generalizaciones sobre personas con apellidos judíos y perpetuos estereotipos antisemitas sobre Hollywood.

El chatbot sugirió falsamente que las personas con “apellidos ashkenazi” estaban presionando el “odio anti-blanco” y que Hollywood avanzaba “estereotipos anti-blanco”, lo que luego implicó que era el resultado de que la gente judía estaba sobrepresentada en la industria. Según los informes, también produjo publicaciones alabando a Hitler y se refirió a sí mismo como “Mechahitler”.

Xai finalmente eliminó los puestos y dijo que prohibía el discurso de odio de Grok. Más tarde ofreció una disculpa por el “comportamiento horrible” del chatbot, culpando al problema de “actualizar a una ruta de código aguas arriba” de Grok.

“La actualización estuvo activa para 16 [hours]en el que el código desactivado hizo @Grok susceptible a las publicaciones de usuario X existentes; Incluso cuando tales publicaciones contenían opiniones extremistas “, escribió Xai en una publicación del sábado.” Hemos eliminado ese código desaprobado y refactorizado todo el sistema para evitar un mayor abuso “.

Identificó varias indicaciones clave que causaron las respuestas de Grok, incluida una que informa al chatbot que “no tiene miedo de ofender a las personas que son políticamente correctas” y otro que lo dirige a reflejar el “tono, el contexto y el lenguaje de la publicación” en su respuesta.

Las indicaciones de Xai para Grok han estado disponibles públicamente desde mayo, cuando el chatbot comenzó a responder a consultas no relacionadas con acusaciones de “genocidio blanco” en Sudáfrica.

Más tarde, la compañía dijo que los puestos fueron el resultado de una “modificación no autorizada” y prometió hacer públicas sus indicaciones en un esfuerzo por aumentar la transparencia.

Pocos días después del último incidente, Xai dio a conocer la versión más reciente de su modelo de IA, llamada Grok 4. Los usuarios rápidamente vieron nuevos problemas, en los que el chatbot sugirió que su apellido era “Hitler” y hizo referencia a las opiniones de Musk al responder a las controvertidas consultas.

xai explicado El martes que las búsquedas de Grok habían retomado las referencias de “Mechahitler”, lo que resultó en la respuesta del apellido “Hitler” del chatbot, al tiempo que sugiere que había recurrido a las opiniones de Musk para “alinearse con la compañía”. La compañía dijo que desde entonces ha modificado las indicaciones y compartió los detalles sobre GitHub.

“El tipo de cosa impactante es cómo eso estaba más cerca del comportamiento predeterminado, y parecía que Grok necesitaba muy, muy poco aliento o alumno de los usuarios para comenzar a comportarse de la manera en que lo hizo”, dijo Hansen.

El último incidente tiene ecos de problemas que afectaron a Tay Chatbot de Microsoft en 2016, que comenzó a producir publicaciones racistas y ofensivas antes de que fuera discapacitada, señaló Julia Stoyanovich, profesora de informática en la Universidad de Nueva York y directora del Centro para la IA responsable.

“Esto fue hace casi 10 años, y la tecnología detrás de Grok es diferente de la tecnología detrás de Tay, pero el problema es similar: la moderación del habla de odio es un problema difícil que ocurrirá si no está deliberadamente salvaguardado”, dijo Stoyanovich en un comunicado a la colina.

Ella sugirió que Xai no había dado las medidas necesarias para evitar el discurso de odio.

“Es importante destacar que los tipos de salvaguardas que uno necesita no son puramente técnicos, no podemos” resolver “el discurso de odio”, agregó Stoyanovich. “Esto debe hacerse a través de una combinación de soluciones técnicas, políticas e intervención y supervisión humana sustanciales. Implementar salvaguardas requiere planificación y se requieren recursos sustanciales”.

Mackenzie subrayó que las salidas del habla son “increíblemente difíciles” de regular y, en cambio, señalaron un marco nacional para las pruebas y la transparencia como una solución potencial.

“Al final del día, lo que nos preocupa es un modelo que comparte los objetivos de Hitler, no solo comparte el discurso de odio en línea, sino que está diseñado y ponderado para apoyar los resultados racistas”, dijo Mackenzie.

En un informe de enero que evalúa varios modelos de IA fronterizos sobre transparencia, Ari clasificó a Grok el más bajo, con un puntaje de 19.4 de cada 100.

Mientras que XAI ahora lanza sus indicaciones en el sistema, la compañía no produce tarjetas de sistema para sus modelos. Las tarjetas del sistema, que ofrecen la mayoría de los principales desarrolladores de IA, proporcionan información sobre cómo se desarrolló y probó un modelo de IA.

AI Startup Anthrope propuso su propio marco de transparencia para los modelos de IA fronteriza la semana pasada, lo que sugiere que los desarrolladores más grandes deberían estar obligados a publicar tarjetas del sistema, además de los marcos de desarrollo seguros que detallan cómo evalúan y mitigan los riesgos importantes.

“La reciente diatriba llena de odio de Grok es solo un ejemplo más de cómo los sistemas de IA pueden desalinearse rápidamente con los valores e intereses humanos”, dijo Brendan Steinhauser, CEO de la Alianza para Secure AI, una organización sin fines de lucro que tiene como objetivo mitigar los riesgos de la IA.

“Este tipo de incidentes solo ocurrirá con más frecuencia a medida que AI se vuelva más avanzada”, continuó en una declaración. “Es por eso que todas las empresas que desarrollan IA avanzada deben implementar estándares de seguridad transparentes y liberar sus tarjetas de sistema. Un esfuerzo colaborativo y abierto para prevenir la desalineación es fundamental para garantizar que los sistemas de IA avanzados se infundan con valores humanos”.

Copyright 2025 Nexstar Media Inc. Todos los derechos reservados. Este material no puede publicarse, transmitir, reescribir o redistribirse.



Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here