A medida que los sistemas de IA empresarial escalan para manejar flujos de trabajo complejos, los profesionales enfrentan el desafío de dirigir las subtareas a las herramientas y habilidades adecuadas. Los agentes pueden tener cientos de herramientas y habilidades y confundirse sobre cuál usar en cada paso de un flujo de trabajo.
Para abordar este desafío, los investigadores de Alibaba desarrollaron HabilidadTejedorun marco que crea un gráfico de ejecución para una tarea determinada y elige las habilidades adecuadas para cada uno de los nodos. También presentan la descomposición consciente de las habilidades (SAD), una técnica novedosa que utiliza un circuito de retroalimentación para permitir al agente buscar y examinar candidatos a herramientas relevantes de forma iterativa. Este enfoque compositivo y mecanismo de bucle de retroalimentación distinguen a SkillWeaver de otros marcos de enrutamiento de herramientas que eligen herramientas de una sola vez.
SkillWeaver se relaciona con aplicaciones de inteligencia synthetic del mundo actual donde los agentes orquestan de forma autónoma ecosistemas de múltiples herramientas, como el Protocolo de contexto modelo (MCP), para ejecutar operaciones comerciales de varios pasos, como descargar conjuntos de datos, transformar información y crear informes visuales.
En la práctica, los experimentos de los investigadores con SkillWeaver muestran que la implementación de este enfoque de recuperación y enrutamiento aumenta significativamente la precisión y scale back el consumo de tokens en más del 99 % en comparación con exponer ingenuamente a los agentes a una biblioteca de herramientas completa.
Para los profesionales que crean agentes de IA, la conclusión principal es que la granularidad de la descomposición de tareas es el mayor obstáculo para la recuperación precisa de herramientas.
El desafío del enrutamiento de habilidades
Las habilidades son un patrón clave en las arquitecturas modernas de agentes LLM. Una habilidad es una especificación de herramienta modular y reutilizable que utiliza documentación estructurada en lenguaje pure.
A medida que los agentes empresariales se integran con ecosistemas de herramientas masivos, dirigir con precisión las consultas de los usuarios hacia las habilidades adecuadas se convierte en una tarea difícil. Exponer una biblioteca completa a un LLM para encontrar la herramienta adecuada es muy ineficiente, supera rápidamente los límites del contexto y devour cientos de miles de tokens.
La mayoría de los marcos de uso de herramientas actuales intentan resolver esto mediante la recuperación de API, la comparación de documentación o estructuras jerárquicas que tratan el enrutamiento estrictamente como una selección de una sola habilidad o un problema por paso.
Sin embargo, este paradigma de habilidad única es insuficiente para entornos empresariales porque las consultas del mundo actual son inherentemente compositivas. Una solicitud comercial estándar como «Descargar el conjunto de datos, transformarlo y crear informes visuales» no se puede cumplir con una sola herramienta. Requiere desglosar el mensaje y secuenciar un cliente API, un procesador de datos y una herramienta de visualización en un plan de ejecución cohesivo de varios pasos.
Cómo funcionan SkillWeaver y SAD
Para abordar esto, los investigadores enmarcan el problema de manejar tareas complejas que requieren múltiples habilidades como «enrutamiento de habilidades compositivas». Dado un mensaje de usuario complejo y una vasta biblioteca de herramientas, un agente debe descubrir simultáneamente cómo dividir la solicitud en una secuencia de subtareas atómicas, cómo asignar cada subtarea a la mejor habilidad disponible y cómo componer esas habilidades en un plan ejecutable.
SkillWeaver organiza este proceso a través de tres etapas distintas: descomponer, recuperar y componer. En la primera etapa, un LLM actúa como un descomponedor de tareas, dividiendo la consulta compleja del usuario en una secuencia de subtareas, cada una de las cuales requiere una habilidad. Una vez que las subtareas están claramente definidas, el sistema utiliza un modelo de integración para comparar cada subtarea con la biblioteca de habilidades y obtener una lista corta de las principales herramientas candidatas para cada paso.
En la etapa closing, un planificador evalúa a los candidatos recuperados en función de qué tan bien trabajan juntos. Comprueba la compatibilidad entre habilidades para garantizar que los resultados de una herramienta fluyan naturalmente hacia las entradas de la siguiente. Luego crea un plan de ejecución closing como un gráfico acíclico dirigido (DAG) que traza las dependencias para que las tareas independientes puedan ejecutarse potencialmente en paralelo.
Por ejemplo, considere un usuario que le pide a un agente de IA que «descargue el conjunto de datos, lo transforme y cree informes visuales». En la etapa de descomposición, el LLM del descomponedor lo divide en tres subtareas distintas: descargar el conjunto de datos, transformar los datos y crear los informes.
En la etapa de recuperación, el sistema busca en la biblioteca y encuentra candidatos como «api-client» o «http-fetch» para la tarea uno, «csv-parser» o «etl-pipeline» para la tarea dos, y así sucesivamente. Finalmente, la etapa de redacción evalúa estas opciones, selecciona la combinación específica de «api-client», «csv-parser» y «chart-gen» que son más compatibles y las conecta en un flujo de trabajo closing listo para ejecutar.
Un desafío clave de este proceso es que los LLM a menudo producen descripciones de pasos genéricas que no coinciden con el vocabulario técnico específico de las habilidades reales disponibles en la biblioteca. Para solucionar este problema, SkillWeaver presenta la descomposición iterativa consciente de las habilidades (SAD), un novedoso circuito de retroalimentación. SAD funciona haciendo que el LLM redacte un plan inicial, realizando una búsqueda preliminar para encontrar habilidades que coincidan vagamente y luego reintroduciendo esas habilidades recuperadas en el LLM como sugerencias. Esto permite al LLM reescribir su descomposición para que la granularidad y el vocabulario se alineen perfectamente con las herramientas reales que existen.
SkillWeaver en acción
Para evaluar el rendimiento de SkillWeaver en escenarios empresariales realistas, los investigadores crearon un punto de referencia personalizado llamado CompSkillBench. Consta de 300 consultas de varios pasos de diferentes niveles de dificultad. Para reflejar entornos del mundo actual, utilizaron una biblioteca de 2209 habilidades del mundo actual obtenidas del ecosistema público de MCP, que cubre 24 categorías funcionales como infraestructura de nube, finanzas y bases de datos.
Para el motor central, los investigadores utilizaron principalmente un modelo liviano de 7 mil millones de parámetros (Qwen2.5-7B-Instruct) para la descomposición de tareas, junto con un recuperador de búsqueda semántica estándar (MiniLM con un índice FAISS) para encontrar las herramientas. SkillWeaver se evaluó con tres configuraciones principales: un método «LLM-Direct» de fuerza bruta en el que insertaron todos los nombres de las herramientas en el mensaje de un modelo grande, una descomposición básica basada en LLM sin SAD y un bucle de agente estilo ReAct.
Los experimentos indican que la descomposición de tareas es el principal cuello de botella. El comportamiento estándar de LLM se queda corto cuando se trata de bibliotecas de herramientas grandes, pero el ciclo de retroalimentación SAD mueve drásticamente la aguja. En la configuración básica, el modelo 7B logró una precisión de descomposición (es decir, predecir el número correcto de pasos) solo el 51,0% de las veces. Al activar el circuito de retroalimentación SAD, la precisión saltó al 67,7% (con el modelo Qwen-Max más grande, la precisión alcanzó el 92%). En tareas «difíciles» que requieren de cuatro a cinco habilidades distintas, SAD mejoró la precisión en un 50%.
Un hallazgo fascinante fue que los modelos más grandes pueden funcionar peor cuando no están guiados. Cuando se probó en la configuración básica, un modelo más grande de 14 mil millones de parámetros vio su precisión caer por debajo de la precisión del modelo 7B porque tendía a sobredescomponer las tareas en pasos microscópicos e innecesarios. Una vez que se introdujo SAD, las sugerencias de herramientas recuperadas anclaron el modelo a la realidad y aumentaron su precisión. Esto sugiere que alinear a un agente con el vocabulario de herramientas específicas suele tener más impacto que pagar por un LLM más grande y costoso.
Otra conclusión importante son los ahorros simbólicos. La línea de base de LLM-Direct, que utilizó el modelo Qwen-Max muy grande, mostró que falla la introducción de todas las herramientas en el indicador de un modelo grande. A pesar de las capacidades de desglose de tareas casi perfectas, el modelo masivo solo recuperó la categoría de herramienta correcta el 21,1% de las veces cuando estaba inundado de opciones de herramientas. El enfoque de recuperación y enrutamiento dirigido de SkillWeaver superó ampliamente esto en precisión, al tiempo que redujo el consumo de la ventana de contexto de aproximadamente 884 000 tokens a aproximadamente 1160 tokens por consulta, una reducción del 99,9 %. Para los profesionales, esto se traduce directamente en costos de API drásticamente más bajos y tiempos de respuesta más rápidos.
Finalmente, la línea de base tradicional de ReAct falló por completo, logrando una precisión de descomposición del 0%. Su bucle colapsa naturalmente los planes de varios pasos en acciones aisladas en lugar de trazar explícitamente una secuencia cohesiva y de múltiples herramientas.
Consideraciones para desarrolladores
Si bien los investigadores aún no han publicado el código fuente de SkillWeaver, su trabajo se basó en herramientas disponibles en el mercado que pueden reproducirse fácilmente.
La descomposición consciente de las habilidades (SAD), que es la innovación clave en el corazón del marco, es un bucle inteligente de recuperación e ingeniería rápida. Los autores han compartido las plantillas de mensajes en su artículo y los desarrolladores pueden implementarlas ellos mismos con bastante facilidad utilizando bibliotecas de orquestación estándar como LangChain, LlamaIndex o incluso scripts de Python sin formato.
En cuanto al componente de recuperación, los autores construyeron el marco central utilizando todo-MiniLM-L6-v2un modelo de integración de código abierto. Descubrieron que cambiar un codificador comercial ligeramente más potente (BGE-base-es-v1.5) aumentó inmediatamente la precisión sin ningún ajuste. Si bien un bicodificador disponible en el mercado es excelente para incluir una herramienta relevante entre los 10 mejores candidatos casi el 70% de las veces, tiene dificultades para clasificar consistentemente la herramienta perfecta exactamente en el número uno, y lo logra solo alrededor del 37% de las veces. Para cerrar esta brecha, los equipos probablemente necesitarán implementar un codificador cruzado secundario o un reclasificador basado en LLM para reordenar a los 10 candidatos principales.
Un requisito de preparación inicial es vectorizar la biblioteca de herramientas y crear un índice FAISS por adelantado. En la práctica, este es un obstáculo insignificante. Incorporar e indexar las 2209 habilidades en el punto de referencia tomó apenas 15 segundos. Una vez creadas, la recuperación de herramientas del índice agrega menos de 15 milisegundos de latencia por consulta. Para entornos empresariales, sincronizar el índice de herramientas es un trabajo trivial en segundo plano.
Una limitación precise de SkillWeaver es la falta de recuperación de errores. Si bien SkillWeaver traza con éxito un DAG appropriate para su ejecución, el estudio piloto de los autores reveló los desafíos de las cadenas de herramientas de varios pasos. Por ejemplo, si una llamada API falla en el paso dos, toda la cadena se rompe. La contribución principal del artículo se limita a la fase de enrutamiento y planificación. Para una verdadera implementación de producción, los profesionales deben crear sus propios mecanismos de recuperación, respaldo y reintento de errores además de la etapa de redacción para manejar los tiempos de espera de API del mundo actual o resultados con formato incorrecto.












