Un sistema de IA desarrollado por Google DeepMind, el laboratorio líder de investigación en IA de Google, parece haber superado al medallista de oro promedio al resolver problemas de geometría en una competencia internacional de matemáticas.
El sistema, llamado AlphaGeometry2, es una versión mejorada de un sistema, AlphaGeometry, que DeepMind lanzó en enero pasado. En un estudio recién publicado, los investigadores de DeepMind detrás de AlphaGeometry2 afirman que su IA puede resolver el 84% de todos los problemas de geometría de los últimos 25 años en la Olimpiada Matemática Internacional (IMO), un concurso matemático para estudiantes de secundaria.
¿Por qué le importa a DeepMind una competencia matemática de nivel secundario? Bueno, el laboratorio piensa que la clave para una IA más capaz podría estar en descubrir nuevas formas de resolver problemas de geometría desafiantes, específicamente problemas de geometría euclidiana.
Demostrar teoremas matemáticos, o explicar lógicamente por qué un teorema (por ejemplo, el teorema de Pitágoras) es cierto, requiere razonamiento y la capacidad de elegir entre diferentes pasos posibles hacia una solución. Estas habilidades para resolver problemas podrían, si DeepMind tiene razón, resultar ser un componente útil en futuros modelos de IA de propósito general.
De hecho, este verano pasado, DeepMind demostró un sistema que combinaba AlphaGeometry2 con AlphaProof, un modelo de IA para el razonamiento matemático formal, para resolver cuatro de seis problemas de la IMO de 2024. Además de problemas de geometría, enfoques como estos podrían extenderse a otras áreas de matemáticas y ciencias, por ejemplo, para ayudar con cálculos de ingeniería complejos.
AlphaGeometry2 tiene varios elementos centrales, incluyendo un modelo de lenguaje de la familia Gemini de Google y un «motor simbólico.» El modelo Gemini ayuda al motor simbólico, que utiliza reglas matemáticas para inferir soluciones a problemas, a llegar a demostraciones factibles para un teorema de geometría dado.
[[IMG::
Los problemas de geometría de la Olimpiada se basan en diagramas que necesitan que se agreguen «construcciones» antes de poder ser resueltos, como puntos, líneas o círculos. El modelo Gemini de AlphaGeometry2 predice qué construcciones podrían ser útiles para agregar a un diagrama, a las que el motor hace referencia para hacer deducciones.
Básicamente, el modelo Gemini de AlphaGeometry2 sugiere pasos y construcciones en un lenguaje matemático formal al motor, que —siguiendo reglas específicas— verifica estos pasos para una coherencia lógica. Un algoritmo de búsqueda permite a AlphaGeometry2 realizar múltiples búsquedas de soluciones en paralelo y almacenar hallazgos posiblemente útiles en una base de conocimientos común.
AlphaGeometry2 considera que un problema está «resuelto» cuando llega a una demostración que combina las sugerencias del modelo Gemini con los principios conocidos del motor simbólico.
Debido a las complejidades de traducir demostraciones a un formato que la IA pueda entender, hay escasez de datos de entrenamiento de geometría utilizables. Por lo tanto, DeepMind creó sus propios datos sintéticos para entrenar el modelo de lenguaje de AlphaGeometry2, generando más de 300 millones de teoremas y demostraciones de complejidad variable.

El equipo de DeepMind seleccionó 45 problemas de geometría de las competencias de la IMO de los últimos 25 años (de 2000 a 2024), que incluían ecuaciones lineales y ecuaciones que requerían mover objetos geométricos alrededor de un plano. Luego «tradujeron» estos en un conjunto más grande de 50 problemas. (Por razones técnicas, algunos problemas tuvieron que dividirse en dos.)
Según el documento, AlphaGeometry2 resolvió 42 de los 50 problemas, superando la puntuación promedio del medallista de oro de 40.9.
Claro, hay limitaciones. Una peculiaridad técnica impide que AlphaGeometry2 resuelva problemas con un número variable de puntos, ecuaciones no lineales e inecuaciones. Y AlphaGeometry2 no es técnicamente el primer sistema de IA en alcanzar un rendimiento de nivel de medalla de oro en geometría, aunque es el primero en lograrlo con un conjunto de problemas de este tamaño.
AlphaGeometry2 también tuvo un desempeño inferior en otro conjunto de problemas de la IMO más difíciles. Para un desafío adicional, el equipo de DeepMind seleccionó problemas —29 en total— que habían sido nominados para los exámenes de la IMO por expertos en matemáticas, pero que aún no habían aparecido en una competencia. AlphaGeometry2 solo pudo resolver 20 de estos.
Sin embargo, es probable que los resultados del estudio alimenten el debate sobre si los sistemas de IA deberían basarse en la manipulación de símbolos —es decir, la manipulación de símbolos que representan conocimiento utilizando reglas— o en las redes neuronales, que se asemejan más al cerebro.
AlphaGeometry2 adopta un enfoque híbrido: su modelo Gemini tiene una arquitectura de red neuronal, mientras que su motor simbólico se basa en reglas.
Los defensores de las técnicas de redes neuronales argumentan que el comportamiento inteligente, desde el reconocimiento de voz hasta la generación de imágenes, puede surgir simplemente de cantidades masivas de datos y computación. Contra los sistemas simbólicos, que resuelven tareas definiendo conjuntos de reglas de manipulación de símbolos dedicadas a trabajos particulares, como editar una línea en un procesador de textos, las redes neuronales intentan resolver tareas a través de aproximaciones estadísticas y el aprendizaje a través de ejemplos.
Las redes neuronales son la base de sistemas de IA potentes como el modelo «razonamiento» o1 de OpenAI. Pero, argumentan los partidarios de la IA simbólica, no son la solución final; la IA simbólica podría estar mejor posicionada para codificar eficientemente el conocimiento del mundo, razonar a través de escenarios complejos y «explicar» cómo llegaron a una respuesta, argumentan estos partidarios.
«Es sorprendente ver el contraste entre el progreso espectacular continuo en este tipo de puntos de referencia y, al mismo tiempo, los modelos de lenguaje, incluidos los más recientes con «razonamiento», siguen teniendo dificultades con algunos problemas de sentido común simples», dijo a TechCrunch Vince Conitzer, profesor de informática de la Universidad Carnegie Mellon especializado en IA. «No creo que todo sea humo y espejos, pero ilustra que todavía no sabemos realmente qué comportamiento esperar del próximo sistema. Estos sistemas probablemente tendrán un impacto muy importante, por lo que es urgente que los entendamos y comprendamos mucho mejor los riesgos que plantean.»
AlphaGeometry2 quizás demuestra que los dos enfoques —la manipulación de símbolos y las redes neuronales— combinados son un camino prometedor en la búsqueda de una IA generalizable. De hecho, según el documento de DeepMind, o1, que también tiene una arquitectura de red neuronal, no pudo resolver ninguno de los problemas de la IMO que AlphaGeometry2 pudo responder.
Esto puede no ser así para siempre. En el documento, el equipo de DeepMind dijo que encontró evidencia preliminar de que el modelo de lenguaje de AlphaGeometry2 era capaz de generar soluciones parciales a problemas sin la ayuda del motor simbólico.
«Los resultados respaldan la idea de que los modelos de lenguaje grandes pueden ser autosuficientes sin depender de herramientas externas [como motores simbólicos]», escribió el equipo de DeepMind en el documento, «pero hasta que la velocidad [del modelo] se mejore y las alucinaciones se resuelvan por completo, las herramientas seguirán siendo esenciales para las aplicaciones matemáticas».
