Evox News
Por
6 min de lectura

Nuevo Modelo de OpenAI Supera a la Competencia en Pruebas de Investigación Web con IA

El más reciente modelo de inteligencia artificial o3 de ChatGPT ha demostrado ser superior a las alternativas de Anthropic, Claude, Gemini de Google y Deepseek de Hangzhou en un reciente estudio comparativo de agentes de IA enfocados en la investigación web. A pesar de este avance, la brecha entre las capacidades humanas y las de los mejores agentes de IA aún es considerable.

La firma de investigación FutureSearch sometió a 11 modelos de lenguaje grandes a un conjunto de 89 tareas de investigación complejas y del mundo real. Cada modelo fue evaluado en su habilidad para identificar fuentes originales, buscar datos relevantes, recopilar evidencia, compilar la información obtenida y validar las afirmaciones realizadas.

El rendimiento más alto alcanzado fue de 0.51 en una escala donde un agente «perfecto» se estimaría en alrededor de 0.8. Esto indica que los agentes de IA actualmente disponibles, incluso los más avanzados, son superados con relativa facilidad por investigadores humanos.

«Podemos concluir que los agentes de vanguardia… tienen un rendimiento sustancialmente inferior al de los investigadores generalistas inteligentes a los que se les da tiempo suficiente», señala el estudio.

A continuación, se presentan las puntuaciones obtenidas por los diversos modelos de IA:

  1. o3 (OpenAI): 0.51
  2. Claude 3.7 Sonnet (Think): 0.49
  3. Claude 3.7 Sonnet (Std): 0.48
  4. Gemini 2.5 Pro: 0.45
  5. GPT-4.1L: 0.42
  6. DeepSeek-R1: 0.31
  7. Mistral Small: 0.30
  8. GPT-4 Turbo: 0.27
  9. Gemma 3: 0.20

A pesar de estas diferencias, los agentes de IA están experimentando mejoras significativas a un ritmo acelerado. Comparando el puntaje de 0.27 obtenido por ChatGPT-4-Turbo hace un año, los investigadores estiman que «aproximadamente el 45% de la brecha entre los investigadores generalistas inteligentes y los agentes de vanguardia» se ha cerrado en tan solo un año de desarrollo.

Además, los agentes de IA gratuitos o de bajo costo, como DeepSeek, no están tan lejos en rendimiento de los agentes de IA de gama alta y de pago de OpenAI. Si bien o3 de OpenAI lidera el grupo, con Claude y Gemini siguiéndole de cerca, los modelos cerrados demuestran una clara superioridad en tareas de investigación intensiva. Sin embargo, los modelos de código abierto y gratuitos están adquiriendo cada vez más capacidades.

No obstante, todos los agentes de IA basados en LLM aún presentan desafíos importantes. Se quedan cortos en comparación con los investigadores humanos, especialmente en áreas como la planificación estratégica, la exhaustividad, la evaluación de la calidad de las fuentes y la «gestión de la memoria», donde tienden a olvidar hallazgos anteriores durante la tarea. Un problema particular es que los agentes de IA a menudo incurren en «satisfacción», aceptando un nivel de calidad inferior en lugar de optimizar hasta encontrar la respuesta de mayor calidad disponible.

Esta es una de las razones clave por las que el modelo o3 de ChatGPT obtuvo el primer lugar. ChatGPT-o3 tendía a validar sus respuestas de manera más exhaustiva y a detenerse con menos frecuencia antes de encontrar las mejores respuestas disponibles.

Dado que en un año se ha logrado cerrar casi la mitad de la brecha entre los humanos expertos y los mejores agentes de IA, es posible que no pase mucho tiempo antes de que los agentes de IA superen incluso a los mejores humanos.

Sin embargo, considerando los recientes problemas de ChatGPT con su último modelo, que se percibe como demasiado complaciente, es evidente que el camino hacia la mejora no es lineal.

Por ahora, al menos, seguirá siendo fundamental verificar los resultados generados por cualquier aplicación de IA generativa, como los agentes de IA, para garantizar su precisión.

Insights de Evox News: Cómo esta noticia puede impactar tu negocio

La creciente capacidad de los agentes de IA para realizar investigaciones web tiene implicaciones significativas para las empresas. En primer lugar, representa una oportunidad para optimizar la eficiencia y reducir costos en áreas como la investigación de mercado, el análisis de la competencia y la recopilación de inteligencia empresarial. Las empresas que adopten estas tecnologías podrán automatizar tareas que antes requerían horas de trabajo manual, liberando recursos humanos para actividades de mayor valor estratégico.

En segundo lugar, la competencia entre los diferentes modelos de IA (OpenAI, Google, Anthropic) impulsa la innovación y la mejora continua. Esto significa que las empresas deben mantenerse al tanto de los últimos avances para aprovechar las herramientas más efectivas y rentables. La elección del agente de IA adecuado dependerá de las necesidades específicas de cada negocio, considerando factores como el costo, la precisión y la capacidad de personalización.

Finalmente, es crucial recordar que, si bien los agentes de IA están mejorando rápidamente, aún no son perfectos. Las empresas deben implementar controles de calidad para verificar la precisión de los resultados generados por la IA y evitar tomar decisiones basadas en información errónea. La combinación de la inteligencia artificial con la experiencia humana sigue siendo fundamental para obtener los mejores resultados y mantener una ventaja competitiva en el mercado.

Compartir este artículo