¡El agente operador de OpenAI me ayudó a mudarme, pero también tuve que ayudarlo!

Spread the love

OpenAI me dio una semana para probar su nuevo agente de IA, Operator, un sistema que puede hacer tareas por ti en internet de forma independiente.

Operator es lo más parecido que he visto a la visión de la industria tecnológica de los agentes de IA: sistemas que pueden automatizar las partes aburridas de la vida, liberándonos para hacer lo que realmente amamos. Sin embargo, a juzgar por mi experiencia con el agente de OpenAI, los sistemas de IA verdaderamente «autónomos» aún están fuera de alcance.

OpenAI entrenó un nuevo modelo para alimentar a Operator, que combina la comprensión visual de GPT-4o con las capacidades de razonamiento de o1.

Ese modelo parece funcionar bien para tareas básicas; vi a Operator hacer clic en botones, navegar por menús en sitios web y completar formularios. La IA tuvo éxito ocasionalmente tomando acciones de forma independiente, y trabaja mucho más rápido que los agentes basados en la web que he visto de Anthropic y Google.

Pero durante mi prueba, me encontré asistiendo al agente de OpenAI más de lo que me habría gustado. Sentí que estaba entrenando a Operator a través de cada problema, cuando en realidad quería liberarme de ciertas tareas por completo.

Demasiado a menudo durante mi prueba, tuve que responder varias preguntas, otorgar permisos, completar información personal y ayudar al agente cuando se quedaba atascado.

En términos de automóviles, Operator es como conducir un automóvil con control de crucero, ocasionalmente quitando el pie del pedal y dejando que el automóvil se conduzca solo, pero está lejos de ser un piloto automático completo.

De hecho, OpenAI afirma que las pausas frecuentes de Operator son parte del diseño.

La IA que alimenta a Operator, al igual que la IA que alimenta a los chatbots como ChatGPT de OpenAI, no puede trabajar de forma fiable de forma independiente durante largos períodos de tiempo, y es propensa al mismo tipo de alucinaciones. Debido a eso, OpenAI no quiere darle al sistema demasiado poder de toma de decisiones o información sensible del usuario. Quizás esa sea una elección segura por parte de OpenAI, pero reduce la practicidad de Operator.

Dicho esto, el primer agente de OpenAI es una impresionante prueba de concepto, y una interfaz, para una IA que pueda usar el frontal de cualquier sitio web. Pero para crear sistemas de IA verdaderamente independientes, las empresas tecnológicas necesitarán construir modelos de IA más confiables que no requieran tanta dirección.

Un poco demasiado «manos a la obra»

Mi prueba con Operator coincidió con la semana en la que me estaba mudando de apartamento, así que tuve la ayuda del agente de OpenAI con la logística de la mudanza.

Le pedí a Operator que me ayudara a comprar un nuevo permiso de estacionamiento. El agente de OpenAI me dijo: «Claro», y abrió una ventana en su navegador en la pantalla de mi PC.

Luego, Operator realizó una búsqueda de un permiso de estacionamiento en San Francisco en el navegador, me llevó al sitio web correcto de la ciudad e incluso a la página correcta.

Operator todavía te permite usar el resto de tu computadora mientras trabaja, algo que no se puede decir de Project Mariner de Google. Esto se debe a que el agente de OpenAI no está realmente trabajando en la computadora, sino en algún lugar de la nube.

La interfaz del operador

Para mi permiso de estacionamiento, tuve que otorgar permiso a Operator para iniciar diferentes procesos unas cuantas veces. También se detuvo para pedirme que completara formularios con información personal, como mi nombre, número de teléfono y dirección de correo electrónico. En ocasiones, Operator también se perdió, lo que me obligó a tomar el control del navegador y poner al agente de nuevo en curso.

En otra prueba, le pedí a Operator que hiciera una reserva en un restaurante griego. Para su crédito, Operator me encontró un buen lugar en mi área con precios razonables. Pero tuve que responder más de media docena de preguntas durante el proceso.

Si tienes que intervenir seis o más veces solo para reservar una mesa a través de un agente de IA, ¿en qué momento es más fácil hacerlo tú mismo? Esa es una pregunta que me hice mucho mientras probaba Operator.

Agente como plataforma

En algunas de mis pruebas, me encontré con sitios web que bloquearon a Operator por alguna razón. Por ejemplo, intenté reservar un electricista usando TaskRabbit, pero el agente de OpenAI me dijo que se encontró con un error, y me preguntó si podía usar un servicio alternativo en su lugar. Expedia, Reddit y YouTube también bloquearon al agente de IA para acceder a sus plataformas.

Sin embargo, otros servicios están recibiendo a Operator con los brazos abiertos. Instacart, Uber y eBay colaboraron con OpenAI para el lanzamiento de Operator, permitiendo que el agente navegue por sus sitios web en nombre de los humanos.

Estas empresas se están preparando para un futuro en el que un subconjunto de las interacciones de los usuarios son facilitadas por un agente de IA.

«Los clientes están utilizando Instacart a través de una variedad de puntos de entrada diferentes», dijo Daniel Danker, director de producto de Instacart, en una entrevista con TechCrunch. «Vemos a Operator como, potencialmente, otro de esos puntos de entrada».

Permitir que el agente de OpenAI use el sitio web de Instacart en nombre de una persona parece que separaría a Instacart de sus clientes. Sin embargo, Danker dice que Instacart quiere satisfacer a los clientes donde sea que estén.

«Realmente estamos entusiasmados con nuestra creencia, similar a OpenAI, de que los sistemas agentes tendrán un impacto importante en cómo los consumidores interactúan con las propiedades digitales», dijo el director de IA de eBay, Nitzan Mekel-Bobrov, en una entrevista con TechCrunch.

Incluso si los agentes de IA se vuelven populares, Mekel-Bobrov dice que espera que los usuarios siempre acudan al sitio web de eBay, señalando que «los destinos en línea no van a desaparecer».

Problemas de confianza

Tuve algunos problemas para confiar en Operator después de que alucinara un par de veces, y casi me cuesta varios cientos de dólares.

Por ejemplo, le pedí al agente que me encontrara un estacionamiento cerca de mi nuevo apartamento. Terminó sugiriendo dos garajes que dijo que tomarían solo unos minutos caminar.

Además de estar fuera de mi rango de precios, los garajes estaban realmente lejos de mi apartamento. Uno estaba a 20 minutos a pie, y el otro a 30 minutos. Resulta que Operator había ingresado la dirección incorrecta.

Por eso OpenAI no le da a su agente tu número de tarjeta de crédito, contraseñas o acceso al correo electrónico. Si OpenAI no me hubiera permitido intervenir aquí, Operator habría desperdiciado cientos de dólares en un lugar de estacionamiento que no necesitaba.

Alucinaciones como esta son un obstáculo clave para tener agentes autónomos realmente útiles: aquellos que pueden ocuparse de tareas molestas por ti. Nadie confiará en los agentes si son propensos a cometer errores básicos, especialmente errores con consecuencias del mundo real.

Con Operator, OpenAI parece haber construido herramientas impresionantes para permitir que los sistemas de IA naveguen por la web. Pero estas herramientas no serán tan útiles hasta que la IA subyacente pueda hacer de manera confiable lo que los usuarios le piden que haga. Hasta entonces, los humanos seguirán asistiendo a los agentes, y no al revés. Y eso va en contra del propósito.

TechCrunch tiene un boletín centrado en IA. ¡Regístrate aquí para recibirlo en tu bandeja de entrada todos los miércoles!