La inteligencia artificial es una mentirosa notoria, pero Microsoft ahora dice que tiene una solución para eso. Comprenderlo aumentará algunas cejas: y hay razones para ser escéptico. Microsoft reveló hoy Correction, un servicio que intenta corregir automáticamente el texto generado por IA que es incorrecto en términos factuales. Correction primero señala el texto que puede ser erróneo, como un resumen de la llamada de ganancias trimestrales de una empresa que posiblemente ha atribuido mal citas, y luego lo verifica comparando el texto con una fuente de verdad (por ejemplo, transcripciones cargadas).
Correction, disponible como parte de la API de Seguridad de Contenido de IA de Azure de Microsoft (actualmente en vista previa), se puede utilizar con cualquier modelo de IA generador de texto, incluido el Llama de Meta y el GPT-4o de OpenAI. «Correction está impulsado por un nuevo proceso que utiliza modelos de lenguaje pequeños y grandes para alinear las salidas con documentos de referencia», dijo un portavoz de Microsoft a TechCrunch. «Esperamos que esta nueva función respalde a los constructores y usuarios de IA generativa en campos como la medicina, donde los desarrolladores de aplicaciones determinan que la exactitud de las respuestas es de gran importancia.»
Google introdujo una función similar este verano en Vertex AI, su plataforma de desarrollo de IA, para permitir a los clientes «fundamentar» los modelos utilizando datos de proveedores de terceros, sus propios conjuntos de datos o la Búsqueda de Google. Pero los expertos advierten que estos enfoques no abordan la causa de las alucinaciones. «Intentar eliminar las alucinaciones de la IA generativa es como intentar eliminar el hidrógeno del agua», dijo Os Keyes, candidato a doctorado en la Universidad de Washington que estudia el impacto ético de la tecnología emergente. «Es un componente esencial de cómo funciona la tecnología.»

Los modelos generadores de texto alucinan porque en realidad no «saben» nada. Son sistemas estadísticos que identifican patrones en una serie de palabras y predicen qué palabras vendrán a continuación en función de los innumerables ejemplos en los que están entrenados. Como resultado, las respuestas de un modelo no son respuestas, sino simplemente predicciones de cómo se respondería una pregunta si estuviera presente en el conjunto de entrenamiento. Por lo tanto, los modelos tienden a jugar rápidos y sueltos con la verdad. Un estudio encontró que el ChatGPT de OpenAI responde incorrectamente a preguntas médicas la mitad del tiempo. La solución de Microsoft es un par de modelos meta que se cruzan y se parecen a correctores de estilo para resaltar y reescribir alucinaciones.
Un modelo clasificador busca fragmentos posiblemente incorrectos, fabricados o irrelevantes de texto generado por IA (alucinaciones). Si detecta alucinaciones, el clasificador incorpora un segundo modelo, un modelo de lenguaje, que intenta corregir las alucinaciones de acuerdo con los «documentos de referencia» especificados. «Correction puede mejorar significativamente la confiabilidad y confianza del contenido generado por IA al ayudar a los desarrolladores de aplicaciones a reducir la insatisfacción del usuario y los posibles riesgos de reputación», dijo el portavoz de Microsoft. «Es importante tener en cuenta que la detección de fundamentos no resuelve la ‘exactitud’, pero ayuda a alinear las salidas de IA generativa con documentos de referencia.»
Keyes tiene dudas al respecto. «Podría reducir algunos problemas,» dijo, «Pero también generará nuevos. Después de todo, la biblioteca de detección de alucinaciones de Correction también presumiblemente es capaz de alucinar.» Cook agregó que también hay un ángulo de negocio cínico en cómo Microsoft está empaquetando Correction. La función es gratuita por sí sola, pero la «detección de fundamentos» necesaria para detectar alucinaciones para que Correction revise solo es gratuita hasta 5,000 «registros de texto» por mes. Cuesta 38 centavos por 1,000 registros de texto después de eso.
Microsoft ciertamente está bajo presión para demostrar a los clientes y accionistas que su IA vale la inversión. En el segundo trimestre solamente, el gigante tecnológico invirtió casi $19 mil millones en gastos de capital y equipos principalmente relacionados con la IA. Pero la compañía aún no ha visto ingresos significativos de la IA. Según un artículo en The Information, muchos primeros adoptantes han pausado implementaciones de la plataforma generativa de IA líder de Microsoft, Microsoft 365 Copilot, debido a preocupaciones de rendimiento y costos. Para un cliente que utiliza Copilot para reuniones de Microsoft Teams, la IA supuestamente inventó asistentes e insinuó que las llamadas trataban sobre temas que nunca se discutieron realmente. La precisión y el potencial de alucinaciones son ahora una de las mayores preocupaciones de las empresas al pilotar herramientas de IA, según una encuesta de KPMG.