Inicio Tecnología Fable 5 acaba de establecer un nuevo récord de desempeño laboral independiente...

Fable 5 acaba de establecer un nuevo récord de desempeño laboral independiente con IA, pero aún no puede reemplazar a los humanos

10
0

Samuel Boivin/NurPhoto vía Getty Photos

Siga ZDNET: Agréganos como fuente preferida en Google.


Conclusiones clave de ZDNET

  • Fable 5 acelera la tasa de éxito de la IA en tareas remotas al 16%.
  • Las capacidades de IA permanecen por todo el mapa.
  • Aún así, las habilidades de los agentes se han «cuadruplicado en menos de ocho meses», dijo CAIS.

Después de una breve pausa, el elogiado modelo Fable 5 de Anthropic está de regreso y está restableciendo el estándar para la automatización del trabajo.

El gobierno de EE.UU. volvió a autorizar el modelo, que según Anthropic comparte similitudes de capacidad con Mythos 5, todavía disponible sólo para el uso de organizaciones selectas, el 30 de junio. Pero antes de que fuera retirado, el El Centro para la Seguridad de la IA (CAIS) probó Fable 5 en su Índice de trabajo remoto (RLI), lanzado en octubre de 2025. Dejó fuera del agua el Opus 4.8 de Anthropic y el GPT-5.5 de OpenAI, cada uno relativamente nuevo y considerado impresionante.

Además: Cómo vencer al algoritmo de IA y conseguir el trabajo de tus sueños

RLI mide «con qué frecuencia los agentes de IA pueden completar proyectos independientes reales y económicamente valiosos […] con una calidad que un cliente que paga realmente aceptaría», explicó CAIS en el estudio. Estos pueden incluir diseño gráfico y asistido por computadora, análisis de datos, trabajo de video y más. Como en otras pruebas similares de capacidad humana, cada entregable que crean los modelos es evaluada por humanos contra un entregable estándar profesional. La tasa de automatización resultante refleja la distribución de proyectos donde los evaluadores encontraron que lo que produjo la IA period tan bueno o mejor que el trabajo profesional humano.

CAIS pidió a Fable 5, GPT-5.5 y Opus 4.8 que diseñaran una maqueta 3D de un anillo de compromiso, crearan un anuncio de video y trazaran un plano, entre otras pruebas. Los investigadores le dieron a cada modelo archivos de entrada generados por humanos para comenzar, de manera comparable a cómo prepararía a un profesional independiente con documentos e información relevantes para un trabajo.

Además: Mythos de Anthropic está evolucionando más rápido de lo esperado, informa la agencia de seguridad AI

Fable 5 alcanzó una tasa de automatización del 16,1%, un récord para el punto de referencia, y el doble que Opus 4.8, que obtuvo un 8,3%. GPT-5.5 quedó en tercer lugar con un 6,3%, pero CAIS señaló que los tres modelos obtuvieron puntuaciones más altas que todos los modelos evaluados hasta ahora.

«Para poner en contexto, el líder publicado anteriormente se situó en el 4,17% (Opus 4.6 con el andamio de Claude Cowork), y el campo alcanzó un máximo del 2,5% cuando se publicó RLI», dijo CAIS. «La frontera se ha más que cuadriplicado en menos de ocho meses, una señal concreta de lo rápido que están avanzando los agentes de IA económicamente capaces».

captura de pantalla-2026-07-02-at-2-28-40pm.png

Tasas de automatización medidas por CAIS frente a su punto de referencia RLI.

CAIS

CAIS señaló que sus pruebas se vieron interrumpidas por el cierre del gobierno de Fable 5 a mediados de junio, pero que incluso estos resultados parciales distinguen al modelo.

«Incluso bajo el peor supuesto de que Fable 5 fallara en todos los proyectos faltantes, su tasa de automatización seguiría siendo del 14,6%, más alta que la de cualquier otro modelo», dijeron los investigadores.

Qué significa esto para los autónomos

Si bien la tasa de aceleración del modelo de IA es significativa en solo unos pocos meses, eso no se traduce automáticamente en el reemplazo o la pérdida de empleos independientes en todos los ámbitos. El dieciséis por ciento aún no se acerca al 100%. Más allá de eso, a pesar de los beneficios demostrables, la IA no es una solución perfecta y atractiva para todas las organizaciones; Las preocupaciones de seguridad y otros obstáculos a la adopción a menudo hacen que la integración de herramientas de IA sea un proceso lento y de varios pasos para la mayoría de las empresas, al menos al principio. Para reemplazar completamente a los trabajadores autónomos humanos, las organizaciones probablemente necesitarían una pink de agentes para verificar elementos como la calidad del trabajo, el presupuesto y el cronograma; la compensación no es uno a uno.

Además: hice que Gemini y Claude escribieran mis respuestas por correo electrónico, pero solo uno suena como yo.

CAIS intentó reemplazar al evaluador humano con un «juez LLM», aparentemente para ver qué tan lejos del ser humano podía llegar razonablemente este experimento, pero el modelo falló.

«Evaluar un resultado de RLI es en sí mismo una tarea exigente y de agencia», explicó CAIS. «Hacerlo correctamente significa abrir los archivos del proyecto en las aplicaciones profesionales adecuadas, operar esas aplicaciones de manera competente y formarse un juicio como lo haría un cliente, las mismas habilidades de uso de computadoras en las que los agentes de hoy en día todavía son más débiles».

Además: Cómo configuro los límites de uso de la API de OpenAI para evitar el gasto excesivo de los agentes y otras pesadillas de facturación de IA

Dicho esto, mejorar las capacidades podría reducir algunas oportunidades de autónomos para empresas específicas que ya integran con éxito la IA. Además, si las habilidades para el uso de computadoras son la limitación precise y están a punto de mejorar en función de la inversión de la industria en modelos cada vez más agentes, ese obstáculo podría eventualmente desaparecer. Al ritmo, los modelos han ido mejorando otros puntos de referencia que miden la habilidad de los agentes, que pueden llegar antes de lo que podemos imaginar.

Hablando de tiempo: CAIS también descubrió que cuando una tarea le lleva más tiempo a un humano, eso no significa necesariamente que será más difícil de completar para la IA. Ese análisis de horizonte temporal es válido para la codificación, por ejemplo, pero no para la gama más amplia de tareas remotas para las que mide RLI. En este momento, es difícil sacar conclusiones de esto para el futuro.

«Algunos trabajos que son rápidos para un profesional cualificado quedan fuera del alcance [for AI]como transcribir música o probar un juego en tiempo actual, mientras que otros trabajos que a una persona le llevarían horas, como el arte digital o la codificación, se completan con los modelos actuales en minutos», escribió CAIS.



fonte

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí