Início Tecnologia A nova ferramenta da Microsoft permite que os desenvolvedores criem testes de...

A nova ferramenta da Microsoft permite que os desenvolvedores criem testes de comportamento de IA usando descrições de texto

14
0

Pesquisadores e laboratórios de IA avançaram muito na avaliação de modelos de IA para tudo, desde segurança e conformidade com a bajulação e alinhamento. Mas parece que as empresas e os programadores enfrentam uma necessidade nova e específica: garantir que o seu sistema de IA se comporta conforme pretendido para o seu produto ou serviço específico.

Em uma tentativa de tornar o processo de teste mais simples, a Microsoft retirou na terça-feira AFIRMARabreviação de Pontuação Adaptativa Orientada a Especificações para Testes de Avaliação e Regressão.

A estrutura de código aberto, diz a Microsoft, facilita a avaliação do comportamento de IA específico do aplicativo, usando IA para transformar descrições de objetivos, políticas ou comportamentos pretendidos de alto nível em linguagem pure em testes completos e pontuados que podem ser investigados.

ASSERT obtém descrições em linguagem simples do comportamento e das políticas esperados de um modelo de IA, transforma-os em um conjunto estruturado de comportamentos aceitáveis ​​e inaceitáveis, gera cenários de problemas e casos de teste, executa-os no sistema de destino e pontua os resultados. Ele também pode registrar os caminhos que o sistema de IA percorre, incluindo ações intermediárias e chamadas de ferramentas, para que os desenvolvedores possam inspecionar onde ocorrem as falhas.

Os desenvolvedores também podem fornecer contexto, ferramentas e restrições do sistema, se quiserem personalizar ainda mais o que as avaliações cobrem.

Por exemplo, um desenvolvedor pode especificar que um agente de IA de pesquisa de documentos não deve enviar e-mails para pessoas de fora da empresa, limitar informações confidenciais a executivos de nível C e fornecer resumos concisos com o contexto anterior em mente. ASSERT usará essas regras para gerar casos de teste que verificam se o sistema segue essas regras continuamente.

Créditos da imagem:Microsoft

A estrutura, de acordo com a Microsoft, preenche uma lacuna que avaliações mais amplas e gerais não conseguem quando os modelos de IA se destinam a se comportar de uma maneira moldada pelo contexto, políticas e ferramentas de um aplicativo ou produto.

“Uma das coisas que aprendemos é que as avaliações são absolutamente críticas para tomar boas decisões”, disse Sara Pássarodiretor de produtos de IA Responsável da Microsoft. “Porque se você não entende o comportamento do sistema de IA, é realmente difícil saber se ele está atendendo aos padrões da sua organização […] O que descobrimos é que se você realmente deseja ter um sistema confiável, você deve avaliar muito mais dimensões específicas da aplicação.”

Chook disse que o ASSERT pode ser usado para avaliar sistemas durante sua construção, após a implantação e até mesmo para monitoramento contínuo.

O lançamento ocorre em meio a uma mudança gradual, porém mais ampla, na indústria de IA. À medida que os modelos se tornam mais capazes, os pesquisadores estão se concentrando em testes repetíveis e verificações de regressão, com LEME de Stanford, AILuminate do MLCommonse grupos de avaliação como METRO lançar benchmarks para medir como os modelos se comportam sob diferentes condições.

Quando você compra por meio de hyperlinks em nossos artigos, podemos ganhar uma pequena comissão. Isso não afeta nossa independência editorial.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui