O que é aprendizado de máquina assistido por humanos? Dados melhores e modelos mais eficazes

O que é aprendizado de máquina assistido por humanos? Dados melhores e modelos mais eficazes
O loop de aprendizado humano e de máquina usa feedback humano para eliminar erros nos dados de treinamento e aumentar a precisão do modelo.
Os modelos de aprendizado de máquina geralmente estão longe de ser perfeitos. Ao usar as previsões do modelo para fins que afetam a vida das pessoas, como uma classificação de aprovação de crédito, um humano é aconselhado a revisar pelo menos algumas das previsões: aquelas com baixo nível de confiança, aquelas que estão fora do alcance e um controle de qualidade amostra aleatória.
Além disso, a falta de dados bem marcados (anotados) muitas vezes dificulta o aprendizado supervisionado (a menos que você seja um professor onde seus alunos não têm nada para fazer). Uma maneira de implementar o aprendizado semissupervisionado em dados não marcados é rotular alguns dados para propagação do modelo, usar previsões de alta confiança para o modelo provisório (ou transferir aprendizado do modelo) para marcar mais dados (automarcação) e enviar previsões sobre baixa confiança para verificar Humano (aprendizagem ativa). O processo pode ser repetido e tende a melhorar de transição para transição na prática.
Confira também:
Em suma, o aprendizado de máquina de loop humano depende do feedback humano para melhorar a qualidade dos dados usados para treinar modelos de aprendizado de máquina. Em geral, o aprendizado de máquina humano trata de amostrar bons dados que um humano pode marcar (anotação), usar esses dados para treinar o modelo e usar o modelo para amostrar mais dados para anotação. Existem muitos serviços disponíveis para gerenciar esse processo.
Verdade do terreno do Amazon SageMaker
O Amazon SageMaker oferece dois serviços de descrição de dados: Amazon SageMaker Ground Truth Plus e Amazon SageMaker Ground Truth. Ambas as opções identificam dados brutos, como imagens, texto e vídeos, e adicionam rótulos informativos para criar conjuntos de dados de treinamento de alta qualidade para modelos de aprendizado de máquina. Com o Ground Truth Plus, os especialistas da Amazon configuram fluxos de trabalho de etiqueta de dados para você e, no processo, o aprendizado avançado e a validação automatizada da etiquetagem são aplicados.
inteligência artificial aumentada da amazon
Enquanto o Amazon SageMaker Ground Truth lida com a pré-classificação de dados, o Amazon Augmented AI (Amazon A2I) fornece validação humana de previsões de baixa confiança ou amostras de previsão aleatória de modelos implementados. A IA aprimorada gerencia a criação do fluxo de trabalho de revisão e os revisores humanos. Integra-se com serviços de machine learning e IA da AWS, bem como modelos implantados no endpoint do Amazon SageMaker.
DataRobot – Human in the Ring
O DataRobot possui um recurso de IA modesto que permite definir regras para detectar previsões incertas, entradas externas e áreas pouco monitoradas. Essas regras podem levar a três ações possíveis: nenhuma ação (somente monitoramento); invalidar a previsão (geralmente com um valor “seguro”); ou retornar um erro (rejeitar a previsão). A DataRobot escreveu documentação sobre humanos no loop, mas não consegui encontrar nenhuma implementação em seu site além das regras de humildade.
Google Cloud Human-in-the-Loop
O Google Cloud oferece processamento Human-in-the-Loop (HITL) integrado aos serviços de Document AI, mas, como neste artigo, nada para processamento de imagem ou vídeo. Atualmente, o Google oferece suporte a fluxos de trabalho de revisão HITL para os seguintes processadores:
Processadores de pedidos:
Faturas
recibos
Processadores de empréstimo:
1003 Analista
1040 Analisador
Tabela C do Analisador 1040
1040 Tabela E Analisador
Analisador 1099-DIV
Analisador 1099-G
1099-INT. Analisador
Analisador 1099-MISC
analista de extrato bancário
Declaração analisada pelo analista HOA
Analisador de extrato de hipoteca
Analisador de cupom de pagamento
Analista de Aposentadoria / Declaração de Investimento
Analisador W2 محلل
Analisador W9
programas de serviço humano
Pode ser difícil configurar anotações de imagens humanas, como classificação de imagens, detecção de objetos e segmentação semântica, para rotular conjuntos de dados. Felizmente, existem muitas boas ferramentas comerciais e de código aberto que os rotuladores podem usar.
A Humans in the Loop, uma empresa que se descreve como uma “empresa social que oferece soluções éticas de força de trabalho para impulsionar a indústria de IA”, bloga periodicamente sobre suas ferramentas de anotação favoritas. Em suas entradas mais recentes, eles listaram 10 ferramentas de anotação de visão computacional de código aberto: Label Studio, Diffgram, LabelImg, CVAT, ImageTagger, LabelMe, VIA, Make Sense, COCO Annotator e DataTurks. Essas ferramentas são frequentemente usadas para anotar conjuntos de treinamento e algumas podem gerenciar conjuntos de anotações.
Por exemplo, a Computer Vision Annotation Tool (CVAT) é poderosa, atualizada e funciona no Chrome. Ainda é uma das principais ferramentas que nós e nossos clientes usamos para rotulagem, pois é muito mais rápida do que muitas ferramentas no mercado.”
O CVAT README no GitHub escreve: “CVAT é uma ferramenta de anotação de imagem e vídeo interativa baseada na Web gratuita para visão computacional. É usada por nossa equipe para anotar milhões de objetos com propriedades diferentes. Muitas decisões de interface do usuário e experiência do usuário são baseadas em feedback de equipes profissionais de anotação de dados. Experimente online em cvat.org.” É necessário criar um login para executar a demonstração.
O CVAT é lançado como código aberto sob a licença do MIT. A maioria dos devedores ativos da Intel opera em Nizhny Novgorod, Rússia. O vídeo introdutório do CVAT mostra como funciona o processo de rotulagem.
Como você pode ver, o processamento de loop humano pode contribuir para o processo de aprendizado de máquina em dois pontos: a criação inicial de conjuntos de dados marcados para aprendizado supervisionado e a revisão e correção de previsões potencialmente problemáticas quando o modelo é executado. O primeiro caso de uso ajuda a suavizar o modelo e o segundo caso ajuda a definir o modelo.
Fonte: InfoWorld