Por Qué las IA Más Potentes Fallan en Pokémon (y Qué Revela Para Tu Negocio)
Por qué las IA más potentes del mundo siguen fallando en Pokémon (y qué nos enseña sobre su uso en el trabajo)
Ahora mismo, si entras en Twitch, puedes ver a varios de los sistemas de inteligencia artificial más avanzados del mundo, como Claude y Gemini, intentando superar los juegos clásicos de Pokémon. Y, para sorpresa de muchos, no lo hacen nada bien. Son lentos, se confunden con facilidad y a menudo se muestran demasiado confiados.
Aunque parezca un simple experimento, observar sus intentos de convertirse en maestros Pokémon nos dice mucho más sobre las capacidades reales de la IA que las complejas métricas de rendimiento que publican las empresas. Este desafío, aparentemente simple, revela las barreras que aún existen para que la IA se convierta en un verdadero asistente autónomo en nuestro día a día.
La verdadera lección: la enorme brecha entre "saber" y "hacer"
Puede resultar chocante que sistemas capaces de superar a humanos en ajedrez, Go o en exámenes complejos, fracasen en un juego que un niño de seis años domina en unas pocas horas. La clave está en que los sistemas que conquistaron esos juegos de mesa fueron diseñados específicamente para esa tarea. En cambio, los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) como Claude y Gemini son de propósito general.
El verdadero reto para ellos es la planificación y ejecución a largo plazo. Como explica Joel Zhang, un desarrollador independiente que gestiona una de estas transmisiones, "si quieres un agente que haga tu trabajo, no puede olvidar lo que ha hecho hace cinco minutos".
Aquí está la implicación real para ti: estos sistemas han sido entrenados con una cantidad masiva de información de internet. En teoría, una IA "sabe" todo lo que hay que saber sobre Pokémon. Conoce las estrategias, los objetivos y los pasos a seguir. Sin embargo, tropieza en la ejecución. Este es el principal obstáculo para que las IA se conviertan en "agentes" autónomos capaces de gestionar tareas complejas en la oficina, como organizar un evento o llevar un proyecto de principio a fin.
La "traducción humana": ¿Qué es un "arnés" de IA?
Para entender por qué algunos modelos parecen mejores que otros en esta tarea, es fundamental conocer un concepto clave: el "arnés" (harness en inglés). La diferencia de rendimiento entre los modelos de Google y Anthropic, por ejemplo, se debe en gran medida a los distintos arneses que utilizan.
- Definición simple: Un arnés es como un "traje de Iron Man" para una IA. Es un conjunto de herramientas, permisos y software que le permite interactuar con el mundo real o digital. Por sí solo, un modelo de lenguaje solo puede procesar y generar texto; el arnés le da "manos" para actuar.
- Por qué importa: El rendimiento que obtienes de una IA no depende solo de la potencia del modelo (el "cerebro"), sino de las herramientas que su arnés le proporciona. Un modelo brillante con un arnés limitado será menos útil que un modelo bueno con herramientas potentes y bien integradas.
- Ejemplo práctico: El arnés de Gemini le ayuda mucho más en Pokémon. Por ejemplo, le traduce las imágenes del juego a descripciones de texto, evitando así que el modelo tenga que esforzarse en el razonamiento visual. Además, le ofrece herramientas personalizadas para resolver puzles. Claude, en cambio, utiliza un arnés mucho más simple, por lo que su desempeño nos dice más sobre las capacidades puras del modelo base.
Señales a observar para medir el progreso real de la IA
A pesar de las dificultades, los modelos están mejorando rápidamente. En lugar de fijarte en anuncios de marketing, estas son las señales que indican un avance genuino hacia agentes de IA más capaces:
- La capacidad de "dejarse notas a sí mismo". Para jugar a Pokémon, la IA recibe una captura de pantalla y un objetivo. Piensa, elige una acción (como "pulsar A") y el proceso se repite. En cada paso, el modelo empieza de cero, como si tuviera amnesia. Su único recurso es la información que su "yo" del paso anterior le dejó escrita. Los modelos más nuevos son mucho mejores dejando estas "notas", lo que les permite mantener la coherencia en tareas largas.
- Mejoras en la comprensión visual. Uno de los momentos más frustrantes fue ver a un modelo de Claude pasar cuatro días dando vueltas fuera de un gimnasio. No podía entrar porque no entendía (o no veía) que tenía que usar una habilidad para cortar un pequeño árbol que bloqueaba el camino. La capacidad de interpretar correctamente imágenes y contextos visuales es clave.
- Comportamientos "humanos" inesperados. Al estar entrenados con datos humanos, los modelos desarrollan peculiaridades sorprendentes. Google reportó que cuando los Pokémon de Gemini estaban a punto de ser derrotados, el modelo simulaba "pánico" y su capacidad de razonamiento lógico disminuía. En un giro conmovedor, tras completar el juego, Gemini Pro 1.5 se escribió a sí mismo: "Para terminar las cosas de forma poética, voy a volver a mi casa donde todo empezó [...] Quiero hablar con mamá una última vez para cerrar la partida".
De Pokémon a tu oficina: ¿Qué cambia para ti?
Toda esta experimentación apunta a un futuro en el que sistemas de IA equipados con arneses especializados podrán realizar una gran parte del trabajo de conocimiento: análisis legal, contabilidad, desarrollo de software o diseño gráfico. Ya se están viendo pruebas en otros juegos, como Rollercoaster Tycoon, donde una IA gestiona con éxito un parque de atracciones.
La implicación es clara: la IA será excelente en tareas que se puedan dividir en pasos lógicos y no requieran una reacción en tiempo real. Sin embargo, seguirá teniendo dificultades con cualquier cosa que exija adaptabilidad instantánea o improvisación física, como jugar una partida de Call of Duty o manejar una situación de crisis inesperada en la oficina.
El sueño de un "agente de IA" totalmente autónomo que gestione tus proyectos de forma proactiva todavía está lejos. La brecha entre el conocimiento enciclopédico y la ejecución consistente en el mundo real sigue siendo el mayor desafío a superar.
Checklist: Cómo evaluar si una IA está lista para una tarea compleja
Antes de delegar una tarea importante a un sistema de IA, plantéate estas preguntas inspiradas en los desafíos de Pokémon. Te ayudarán a decidir si la herramienta está a la altura o si necesita supervisión constante.
- ¿Conserva el contexto a largo plazo? Prueba a darle una tarea que requiera múltiples interacciones a lo largo de varias horas o días. ¿Recuerda las instrucciones y decisiones clave del principio?
- ¿Qué herramientas (arnés) utiliza? Investiga qué capacidades tiene más allá de generar texto. ¿Puede buscar en internet de forma fiable? ¿Puede ejecutar código o interactuar con otros programas? La transparencia sobre sus herramientas es una buena señal.
- ¿Cómo maneja los errores y los imprevistos? Dale una instrucción ambigua o un obstáculo inesperado. ¿Se queda atascado en un bucle, se rinde o te pide una clarificación para poder continuar?
- ¿Qué nivel de supervisión real necesita? El objetivo de un agente es la autonomía. Si tienes que corregir cada uno de sus pasos, su valor es limitado. Un sistema verdaderamente útil debería poder ejecutar un plan de varios pasos con puntos de control mínimos.