¿Han descubierto los investigadores una nueva «ley de escalado» para la inteligencia artificial? Eso es lo que sugiere algo del bombo en las redes sociales, pero los expertos son escépticos.
Las leyes de escalado de IA, un concepto un tanto informal, describen cómo mejora el rendimiento de los modelos de IA a medida que aumenta el tamaño de los conjuntos de datos y los recursos informáticos utilizados para entrenarlos. Hasta hace aproximadamente un año, el escalado de «preentrenamiento» – entrenar modelos cada vez más grandes en conjuntos de datos cada vez más grandes – era la ley dominante con claridad, al menos en el sentido de que la mayoría de los laboratorios de IA de vanguardia lo adoptaban.
El preentrenamiento no ha desaparecido, pero han surgido dos leyes adicionales de escalado, el escalado de post-entrenamiento y el escalado de tiempo de prueba, para complementarlo. El escalado de post-entrenamiento es básicamente ajustar el comportamiento de un modelo, mientras que el escalado de tiempo de prueba implica aplicar más cómputo a la inferencia, es decir, ejecutar modelos, para impulsar una forma de «razonamiento» (ver: modelos como R1).
Investigadores de Google y la UC Berkeley propusieron recientemente en un paper lo que algunos comentaristas en línea han descrito como una cuarta ley: «búsqueda en tiempo de inferencia».
La búsqueda en tiempo de inferencia hace que un modelo genere muchas posibles respuestas a una consulta en paralelo y luego seleccione la «mejor» de todas. Los investigadores afirman que puede aumentar el rendimiento de un modelo de hace un año, como el Google Gemini 1.5 Pro, a un nivel que supera al modelo de «razonamiento» o1-preview de OpenAI en pruebas de ciencia y matemáticas.
«[A]l simplemente muestrear 200 respuestas al azar y autoverificarlas, Gemini 1.5 – un antiguo modelo de principios de 2024 – supera a o1-preview y se acerca a o1», escribió Eric Zhao, un colega de doctorado de Google y uno de los coautores del paper, en una serie de publicaciones en X. «¡La magia es que la autoverificación naturalmente se vuelve más fácil a gran escala! Se esperaría que seleccionar una solución correcta se volviera más difícil cuanto más grande sea su grupo de soluciones, ¡pero sucede lo contrario!»
Varios expertos dicen que los resultados no son sorprendentes, sin embargo, y que la búsqueda en tiempo de inferencia puede que no sea útil en muchos escenarios.

Matthew Guzdial, investigador de IA y profesor asistente en la Universidad de Alberta, le dijo a TechCrunch que el enfoque funciona mejor cuando hay una buena «función de evaluación» – es decir, cuando la mejor respuesta a una pregunta se puede determinar fácilmente. Pero la mayoría de las consultas no son tan claras.
«[S]i no podemos escribir un código para definir lo que queremos, no podemos utilizar la búsqueda de [tiempo de] inferencia», dijo. «Para algo como la interacción del lenguaje general, no podemos hacer esto […] Generalmente no es un enfoque muy bueno para resolver la mayoría de los problemas».
Eric Zhao, investigador de Google y uno de los coautores del estudio, se opuso ligeramente a las afirmaciones de Guzdial.
«Nuestro paper se centra en casos en los que no tienes acceso a una ‘función de evaluación’ o ‘código para definir lo que queremos’, a lo que normalmente nos referimos como verificador de verdad fundamental», dijo. «En cambio, estamos estudiando cuándo la evaluación es algo que el [modelo] necesita descubrir intentando verificarse a sí mismo. De hecho, el punto principal de nuestro paper es que la brecha entre este régimen y el régimen donde sí tienes verificadores de verdad fundamentales […] puede reducirse agradablemente con la escala.»
Pero Mike Cook, investigador en el King’s College de Londres especializado en IA, estuvo de acuerdo con la evaluación de Guzdial, agregando que destaca la diferencia entre el «razonamiento» en el sentido de la IA y los procesos de pensamiento humano.
«La búsqueda en tiempo de inferencia no ‘eleva el proceso de razonamiento’ del modelo», dijo Cook. «Es solo una forma de trabajar alrededor de las limitaciones de una tecnología propensa a cometer errores muy confiados […] Intuitivamente, si tu modelo comete un error el 5% del tiempo, entonces comprobar 200 intentos del mismo problema debería hacer que esos errores sean más fáciles de detectar.»
Es seguro que la noticia de que la búsqueda en tiempo de inferencia puede tener limitaciones no será bien recibida por una industria de IA que busca escalar eficientemente el razonamiento de modelos. Como señalan los coautores del paper, los modelos de razonamiento de hoy pueden acumular miles de dólares de cómputo en un solo problema matemático. Parece que la búsqueda de nuevas técnicas de escalado continuará.
