Informe de 145 páginas de DeepMind sobre seguridad AGI: ¿suficiente para convencer a los escépticos?

Spread the love

Google DeepMind publicó el miércoles un detallado documento sobre su enfoque de seguridad para la AGI, que se define aproximadamente como la inteligencia artificial que puede llevar a cabo cualquier tarea que un humano pueda realizar. La AGI es un tema algo controversial en el campo de la IA, con detractores sugiriendo que no es más que un sueño utópico. Otros, incluidos importantes laboratorios de IA como Anthropic, advierten que está a la vuelta de la esquina y podría resultar en daños catastróficos si no se toman medidas para implementar salvaguardas adecuadas.

El documento de 145 páginas de DeepMind, que fue coescrito por el cofundador de DeepMind, Shane Legg, predice que la AGI podría llegar para 2030, y que podría resultar en lo que los autores llaman «daños graves». El documento no define concretamente esto, pero da el ejemplo alarmista de «riesgos existenciales» que «destruyen permanentemente a la humanidad». «[Anticipamos] el desarrollo de una AGI excepcional antes de que termine la década actual», escribieron los autores. «Una AGI excepcional es un sistema que tiene una capacidad que coincide al menos con el percentil 99 de adultos expertos en una amplia gama de tareas no físicas, incluidas tareas metacognitivas como aprender nuevas habilidades».

Desde el principio, el documento contrasta el enfoque de DeepMind en la mitigación de riesgos de AGI con el de Anthropic y OpenAI. Anthropic, según dice, pone menos énfasis en «capacitación, monitoreo y seguridad robustos», mientras que OpenAI está demasiado entusiasmado con «automatizar» una forma de investigación de seguridad de IA conocida como investigación de alineación. El documento también pone en duda la viabilidad de la IA superinteligente, una IA que puede realizar trabajos mejor que cualquier humano. (OpenAI recientemente afirmó que está cambiando su objetivo de AGI a superinteligencia). Sin una «innovación arquitectónica significativa», los autores de DeepMind no están convencidos de que los sistemas superinteligentes emergerán pronto, o incluso nunca lo harán. Sin embargo, el documento considera plausible que los paradigmas actuales permitan una «mejora recursiva de la IA»: un bucle de retroalimentación positiva donde la IA realiza su propia investigación de IA para crear sistemas de IA más sofisticados. Y esto podría ser increíblemente peligroso, afirman los autores.

En un nivel más alto, el documento propone y aboga por el desarrollo de técnicas para bloquear el acceso de actores maliciosos a una AGI hipotética, mejorar la comprensión de las acciones de los sistemas de IA y «fortalecer» los entornos en los que la IA puede actuar. Reconoce que muchas de las técnicas son incipientes y tienen «problemas de investigación abiertos», pero advierte contra ignorar los desafíos de seguridad que podrían estar en el horizonte. «La naturaleza transformadora de la AGI tiene el potencial tanto para beneficios increíbles como para daños graves», escriben los autores. «Como resultado, para construir AGI de manera responsable, es crítico que los desarrolladores de IA de vanguardia planeen de manera proactiva mitigar los daños graves».

Algunos expertos no están de acuerdo con las premisas del documento. Heidy Khlaaf, científico jefe de IA en el Instituto AI Now, dijo que cree que el concepto de AGI está demasiado mal definido para ser «rigurosamente evaluado científicamente». Otro investigador de IA, Matthew Guzdial, profesor asistente en la Universidad de Alberta, dijo que no cree que la mejora recursiva de la IA sea realista en la actualidad. «La mejora recursiva es la base de los argumentos de la singularidad de la inteligencia», dijo Guzdial, «pero nunca hemos visto evidencia de que funcione». Sandra Wachter, una investigadora que estudia tecnología y regulación en Oxford, argumenta que una preocupación más realista es que la IA se refuerce a sí misma con «salidas inexactas». «Con la proliferación de salidas generativas de IA en Internet y la sustitución gradual de datos auténticos, los modelos ahora están aprendiendo de sus propias salidas que están plagadas de mentiras o alucinaciones». En este punto, los chatbots se utilizan predominantemente para la búsqueda y la búsqueda de la verdad. Eso significa que constantemente corremos el riesgo de recibir mentiras y creer en ellas porque se presentan de manera muy convincente.

A pesar de ser exhaustivo, es poco probable que el documento de DeepMind resuelva los debates sobre qué tan realista es la AGI y las áreas de seguridad de IA que necesitan más atención urgente.