Início Tecnologia Os logs de consulta SQL contêm o contexto que os agentes de...

Os logs de consulta SQL contêm o contexto que os agentes de IA precisam para parar de alucinar junções

15
0

Quando a equipe de dados da Miro apontou os agentes de IA diretamente para o ambiente Snowflake, os agentes obtiveram a resposta errada em mais de 65% das vezes. O problema não period o modelo – period o contexto. Com mais de 10.000 tabelas e nenhuma camada semântica para orientar o roteamento, os agentes não tinham como saber quais ativos de dados correspondiam a quais questões de negócios.

DataHub está lançando na quinta-feira uma camada de inteligência de contexto que explora o histórico de consultas SQL existente para construir um índice semântico – e o expõe a agentes by way of MCP, LangChain, Equipment de desenvolvimento de agentes do Google e CrewAI. A empresa chama isso de Context Intelligence e é construído na mesma infraestrutura de log de consulta que o DataHub usou para rastreamento de linhagem em implantações de produção em todo o mundo.

A empresa foi fundada pela equipe que construiu o DataHub como um projeto de código aberto no LinkedIn, onde o cofundador e CTO Shirshanka Das liderou a infraestrutura de dados por quase 11 anos. O projeto de código aberto conta agora com mais de 15.000 colaboradores e 3.000 implantações de produção em todo o mundo.

“Pela primeira vez, as empresas podem transformar anos de histórico de consultas de analistas em uma base de conhecimento viva e recuperável, onde os agentes param de alucinar junções porque têm acesso às junções que funcionaram antes, validadas pelas pessoas que as administraram”, disse Shirshanka Das, cofundador e CTO da DataHub, ao VentureBeat em entrevista exclusiva.

Por que o histórico de consultas supera o esquema bruto para roteamento de agentes

O DataHub começou como um projeto de gerenciamento de metadados no LinkedIn, criado para resolver dois problemas simultaneamente: tornar os dados fáceis de encontrar e usar em toda a organização e, ao mesmo tempo, garantir que eles fossem usados ​​apenas pelos motivos certos. Das abriu o código-fonte do projeto no início de 2020, após quase seis anos de desenvolvimento interno.

O principal caso de uso nos anos seguintes tem sido a linhagem – compreender como os dados fluem dos sistemas operacionais através da infraestrutura de streaming para os armazéns e para as ferramentas de negócios. Auditorias de conformidade regulatória, triagem operacional e integração de novos engenheiros dependem desse gráfico de linhagem. Postgres é a fonte mais conectada na base de implantação do DataHub globalmente, seguida por MySQL, Oracle e os principais armazéns em nuvem, incluindo Snowflake e Google BigQuery. A plataforma oferece suporte a mais de 100 fontes de metadados conectadas.

Essa base implantada é importante para o que o DataHub está lançando. Os recursos de extração de log de consulta e análise de SQL que alimentam a Inteligência de Contexto foram desenvolvidos ao longo de anos de implantação de produção, e não foram criados para esta versão. A mesma infraestrutura agora atende agentes que consultam um índice semântico em tempo de execução.

“A camada de consumo mudou de humanos para agentes”, disse Das.

A Inteligência de Contexto explora o histórico de consultas validadas, não os logs brutos

Context Intelligence é uma nova camada de capacidade construída sobre a base de metadados de código aberto existente do DataHub. A plataforma de código aberto passou anos extraindo e analisando logs de consulta de armazéns conectados para rastreamento de linhagem. Essa mesma infraestrutura é a base do Context Intelligence para construir o índice semântico. A capacidade é nova. O encanamento subjacente não é.

Filtragem de sinal. Os logs de consulta do warehouse contêm muito ruído para serem usados ​​diretamente. O mecanismo do DataHub filtra o que Das descreve como “consultas de ouro”, ou seja, consultas de analistas de alta qualidade e pipelines programados que representam lógica de negócios comprovada.

Invertendo SQL em definições semânticas. O mecanismo extrai padrões dessas consultas e os traduz em definições de texto estruturado que o DataHub chama de âncoras semânticas. Essas âncoras formam a base de recuperação que os agentes utilizam antes de gerar o SQL. “Você quase pode pensar nisso como inverter texto para SQL”, disse Das.

Validação humana no topo. O Context Hub permite que especialistas do domínio revisem o contexto proposto pela IA, resolvam definições conflitantes e simulem o impacto das mudanças antes da publicação. O DataHub revela casos em que equipes diferentes calculam a mesma métrica de maneira diferente e os elevam para resolução humana.

Como Miro fez com que agentes de IA trabalhassem em 10.000 tabelas Snowflake

Miro, a plataforma de colaboração digital, já estava usando o DataHub para rastreamento de linhagem e análise de impacto quando começou a testar agentes analíticos em seu ambiente Snowflake. Ronald Angel, gerente de produto da plataforma de dados da Miro, disse à VentureBeat que a escala do patrimônio de dados se tornou o problema imediatamente. O envio de consultas em linguagem pure diretamente ao Snowflake MCP produziu respostas incorretas em mais de 65% das vezes. A exposição de mais de 10.000 tabelas diretamente aos agentes causou muita confusão para um roteamento confiável.

Miro resolveu o problema organizando os dados em produtos de dados bem definidos que restringem o que os agentes podem ver, em vez de expor o esquema bruto. A arquitetura de produção é executada a partir de solicitações de usuários enviadas by way of Claude Chat ou Claude Cowork por meio de uma camada de contexto onde o MCP do DataHub mapeia a linguagem pure para os ativos de dados apropriados e depois passa para o MCP do Snowflake para geração de SQL.

Angel disse que a camada de contexto extrai metadados, relacionamentos entre entidades, histórico de consultas e intenção de negócios para cada tabela Snowflake, especificamente a qual pergunta de negócios cada entidade foi projetada para responder. Esses sinais semânticos permitem que o agente identifique as entidades corretas do banco de dados antes de escrever o SQL, em vez de adivinhar apenas pelo esquema.

Pinecone, Oracle, Redis, Microsoft: como o DataHub se ajusta à pilha de contexto

Fornecedores de dados, incluindo Pinecone, Oracle e Redis, possuem recursos de memória contextual. No lado da plataforma, a Microsoft desenvolveu seu Cloth IQ como uma camada semântica para contexto.

O argumento do DataHub não é a paridade de recursos. A empresa está posicionando a camada de contexto como neutra em termos de plataforma – provisionando contexto em endpoints existentes, como visualizações semânticas do Snowflake e Microsoft Cloth IQ, em vez de substituí-los.

“Muitas vezes as pessoas querem ser neutras em termos de plataforma no que diz respeito à camada de contexto”, disse Das.

Kevin Petrie, analista da BARC, disse ao VentureBeat que vê a capacidade do DataHub de integrar diversos metadados para objetos estruturados e não estruturados, incluindo documentos e imagens, como um diferencial no mercado.

“Muitos outros fornecedores estão mais focados em tabelas estruturadas, que fornecem fatos confiáveis, mas muitas vezes carecem do rico contexto dos objetos de texto”, disse ele.

Michael Ni, vice-presidente e analista principal da Constellation Analysis, disse ao VentureBeat que para ele o que se destaca na camada de contexto do DataHub é o suporte à mudança da catalogação passiva para a inteligência semântica continuamente atualizada. Ni descreveu a competição por contexto como a próxima grande guerra de plataformas, argumentando que quem controla o contexto em tempo de execução controla a camada de decisão para dados, agentes, fluxos de trabalho e decisões.

“Os compradores precisam ter cuidado, uma vez que muitos fornecedores suportam apenas uma parte dos recursos de contexto completos necessários para IA e soluções de agente”, disse Ni. “Os compradores devem ter clareza sobre seus requisitos de gerenciamento de contexto, já que a memória vetorial não tem significado comercial, o significado comercial não é governança e governança não é execução.”

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui