Qu’est-ce que l’apprentissage automatique assisté par l’homme ? De meilleures données et des modèles plus efficaces

148

What is human-assisted machine learning? Better data and more effective models

Qu’est-ce que l’apprentissage automatique assisté par l’homme ? De meilleures données et des modèles plus efficaces

La boucle d’apprentissage humain et machine utilise la rétroaction humaine pour éliminer les erreurs dans les données de formation et augmenter la précision du modèle.

Les modèles d’apprentissage automatique sont souvent loin d’être parfaits. Lors de l’utilisation des prédictions du modèle à des fins qui affectent la vie des gens, comme une cote d’approbation de crédit, il est conseillé à un humain d’examiner au moins certaines des prédictions : celles avec un niveau de confiance faible, celles qui sortent de la plage et un contrôle de qualité échantillon aléatoire.

De plus, le manque de bonnes données étiquetées (annotées) rend souvent l’apprentissage supervisé difficile (sauf si vous êtes un professeur où vos étudiants n’ont rien à faire). Une façon de mettre en œuvre l’apprentissage semi-supervisé sur des données non étiquetées consiste à étiqueter certaines données pour l’ensemencement du modèle, à utiliser des prédictions de haute confiance dans le modèle intermédiaire (ou à transférer l’apprentissage du modèle) pour étiqueter plus de données (auto-étiquetage) et à envoyer des prédictions. sur la faible confiance pour vérifier Humain (apprentissage actif). Le processus peut être répété et tend à s’améliorer d’une transition à l’autre dans la pratique.

Vérifiez également :

En bref, l’apprentissage automatique en boucle humaine s’appuie sur la rétroaction humaine pour améliorer la qualité des données utilisées pour former les modèles d’apprentissage automatique. En général, l’apprentissage automatique humain consiste à échantillonner de bonnes données qu’un humain peut étiqueter (annotation), à utiliser ces données pour former le modèle et à utiliser le modèle pour échantillonner davantage de données à des fins d’annotation. Il existe de nombreux services disponibles pour gérer ce processus.

Amazon SageMaker Ground Truth

Amazon SageMaker propose deux services de description des données : Amazon SageMaker Ground Truth Plus et Amazon SageMaker Ground Truth. Les deux options identifient les données brutes telles que les images, le texte et les vidéos, et ajoutent des étiquettes d’information pour créer des ensembles de données de formation de haute qualité pour les modèles d’apprentissage automatique. Avec Ground Truth Plus, les experts d’Amazon configurent pour vous des workflows d’étiquetage de données et, ce faisant, un apprentissage avancé et une validation automatisée de l’étiquetage sont appliqués.

intelligence artificielle augmentée amazon

Alors qu’Amazon SageMaker Ground Truth s’occupe de la pré-classification des données, Amazon Augmented AI (Amazon A2I) fournit une validation humaine des prédictions peu fiables ou des échantillons de prédiction aléatoires à partir de modèles implémentés. L’IA améliorée gère à la fois la création du workflow de révision et les réviseurs humains. S’intègre à AWS AI et aux services d’apprentissage automatique ainsi qu’aux modèles déployés sur le point de terminaison Amazon SageMaker.

DataRobot – Humain dans l’anneau

DataRobot dispose d’une fonction d’IA modeste qui vous permet de définir des règles pour détecter les prédictions incertaines, les entrées externes et les zones peu surveillées. Ces règles peuvent conduire à trois actions possibles : aucune action (surveillance uniquement) ; invalider la prédiction (généralement avec une valeur « sûre »); ou renvoyer une erreur (rejeter la prédiction). DataRobot a écrit de la documentation sur l’humain dans la boucle, mais je n’ai trouvé aucune implémentation sur leur site autre que les règles d’humilité.

Google Cloud Human-in-the-Loop

Google Cloud propose un traitement Human-in-the-Loop (HITL) intégré à ses services Document AI, mais comme dans cet article, rien pour le traitement des images ou des vidéos. Actuellement, Google prend en charge les workflows d’examen HITL pour les processeurs suivants :

Processeurs de commandes :

Factures

Reçus

Processeurs de prêt :

1003 Analyste

1040 Analyseur

Analyseur 1040 Tableau C

1040 Tableau E Analyseur

Analyseur 1099-DIV

Analyseur 1099-G

1099-INT . Analyseur

Analyseur 1099-MISC

analyste de relevés bancaires

Déclaration analysée par l’analyste HOA

Analyseur d’extraits hypothécaires

Payez l’analyseur de coupon

Analyste retraite / Relevé de placement

Analyseur W2 محلل

Analyseur W9

programmes de services à la personne

Il peut être difficile de configurer des annotations d’images humaines, telles que la classification d’images, la détection d’objets et la segmentation sémantique, pour étiqueter des ensembles de données. Heureusement, il existe de nombreux bons outils commerciaux et open source que les étiqueteurs peuvent utiliser.

Humans in the Loop, une entreprise qui se décrit comme une « entreprise sociale qui fournit des solutions de main-d’œuvre éthiques pour propulser l’industrie de l’IA », blogue périodiquement sur ses outils d’annotation préférés. Dans leurs dernières entrées, ils ont répertorié 10 outils d’annotation de vision par ordinateur open source : Label Studio, Diffgram, LabelImg, CVAT, ImageTagger, LabelMe, VIA, Make Sense, COCO Annotator et DataTurks. Ces outils sont souvent utilisés pour annoter des ensembles d’apprentissage, et certains peuvent gérer des ensembles d’annotations.

Par exemple, Computer Vision Annotation Tool (CVAT) est puissant, à jour et fonctionne dans Chrome. C’est toujours l’un des principaux outils que nous et nos clients utilisons pour l’étiquetage, car il est beaucoup plus rapide que de nombreux outils sur le marché. »

CVAT README sur GitHub écrit : « CVAT est un outil d’annotation d’images et de vidéos interactif gratuit basé sur le Web pour la vision par ordinateur. Il est utilisé par notre équipe pour annoter des millions d’objets avec différentes propriétés. De nombreuses décisions relatives à l’interface utilisateur et à l’expérience utilisateur sont basées sur les commentaires. des équipes d’annotation de données professionnelles. Essayez-le en ligne sur cvat.org. » Il est nécessaire de créer un identifiant pour exécuter la démo.

CVAT est publié en open source sous la licence MIT. La plupart des débiteurs actifs d’Intel opèrent à Nizhny Novgorod, en Russie. La vidéo d’introduction CVAT montre comment fonctionne le processus de labellisation.

Qu'est-ce que l'apprentissage automatique assisté par l'homme ? De meilleures données, des modèles plus efficaces — IDG

Comme vous pouvez le constater, le traitement en boucle humaine peut contribuer au processus d’apprentissage automatique à deux niveaux : la création initiale d’ensembles de données balisés pour l’apprentissage supervisé, et l’examen et la correction des prédictions potentiellement problématiques lors de l’exécution du modèle. Le premier cas d’utilisation aide à lisser le modèle et le deuxième cas aide à définir le modèle.

Source : InfoWorld

MR.abdulkader

148