Los modelos de IA de OpenAI, Anthropic y otros laboratorios líderes en IA se están utilizando cada vez más para ayudar en tareas de programación. El CEO de Google, Sundar Pichai, dijo en octubre que el 25% del nuevo código de la empresa es generado por IA, y el CEO de Meta, Mark Zuckerberg, ha expresado la ambición de desplegar ampliamente modelos de codificación de IA dentro del gigante de las redes sociales.
Sin embargo, incluso algunos de los mejores modelos de hoy tienen dificultades para resolver errores de software que no confundirían a desarrolladores experimentados.
Un nuevo estudio de Microsoft Research, la división de I+D de Microsoft, revela que modelos, incluyendo el Claude 3.7 Sonnet de Anthropic y el o3-mini de OpenAI, no logran depurar muchos problemas en un punto de referencia de desarrollo de software llamado SWE-bench Lite. Los resultados son un recordatorio desalentador de que, a pesar de las audaces declaraciones de empresas como OpenAI, la IA todavía no está a la altura de los expertos humanos en áreas como la codificación.
Los coautores del estudio probaron nueve modelos diferentes como base para un «agente basado en una sola indicación» que tenía acceso a varias herramientas de depuración, incluido un depurador de Python. Encomendaron a este agente con resolver un conjunto seleccionado de 300 tareas de depuración de software de SWE-bench Lite.

Según los coautores, incluso cuando equipado con modelos más fuertes y recientes, su agente rara vez completó con éxito más de la mitad de las tareas de depuración. Claude 3.7 Sonnet tuvo la tasa de éxito promedio más alta (48,4%), seguido por el o1 de OpenAI (30,2%), y el o3-mini (22,1%).
[[IMG::
]]Un gráfico del estudio. El «aumento relativo» se refiere al impulso que los modelos obtuvieron al estar equipados con herramientas de depuración. Créditos de la imagen: Microsoft
¿Por qué el rendimiento decepcionante? Algunos modelos tuvieron dificultades para usar las herramientas de depuración disponibles y entender cómo diferentes herramientas podrían ayudar con diferentes problemas. El problema más grande, sin embargo, fue la escasez de datos, según los coautores. Especulan que no hay suficientes datos que representen «procesos de toma de decisiones secuenciales» — es decir, trazas de depuración humana — en los datos de entrenamiento actuales de los modelos.
«Creemos firmemente que el entrenamiento o el ajuste fino [de modelos] puede hacerlos mejores depuradores interactivos», escribieron los coautores en su estudio. «Sin embargo, esto requerirá datos especializados para cumplir con el entrenamiento de tales modelos, por ejemplo, datos de trayectoria que registren agentes interactuando con un depurador para recopilar la información necesaria antes de sugerir una corrección de errores».
