¿Qué es el aprendizaje automático asistido por humanos? Mejores datos y modelos más efectivos

MR.abdulkader

What is human-assisted machine learning? Better data and more effective models

¿Qué es el aprendizaje automático asistido por humanos? Mejores datos y modelos más efectivos

El ciclo de aprendizaje humano y automático utiliza la retroalimentación humana para eliminar errores en los datos de entrenamiento y aumentar la precisión del modelo.

Los modelos de aprendizaje automático a menudo están lejos de ser perfectos. Cuando se usan las predicciones del modelo para fines que afectan la vida de las personas, como una calificación de aprobación de crédito, se recomienda a un ser humano que revise al menos algunas de las predicciones: aquellas con un nivel de confianza bajo, aquellas que están fuera de rango y un control de calidad. muestra aleatoria.

Además, la falta de buenos datos etiquetados (anotados) a menudo dificulta el aprendizaje supervisado (a menos que sea un profesor donde sus alumnos no tienen nada que hacer). Una forma de implementar el aprendizaje semisupervisado en datos sin etiquetar es que las personas etiqueten algunos datos para la generación de modelos, utilicen predicciones de alta confianza en el modelo provisional (o transfieran el aprendizaje del modelo) para etiquetar más datos (autoetiquetado) y envíen predicciones. sobre baja confianza para verificar Humano (aprendizaje activo). El proceso puede repetirse y tiende a mejorar de una transición a otra en la práctica.

Compruebe también:

En resumen, el aprendizaje automático de bucle humano se basa en la retroalimentación humana para mejorar la calidad de los datos utilizados para entrenar modelos de aprendizaje automático. En general, el aprendizaje automático humano se trata de muestrear buenos datos que un humano puede etiquetar (anotación), usar esos datos para entrenar el modelo y usar el modelo para muestrear más datos para la anotación. Hay muchos servicios disponibles para gestionar este proceso.

Verdad sobre el terreno de Amazon SageMaker

Amazon SageMaker ofrece dos servicios de descripción de datos: Amazon SageMaker Ground Truth Plus y Amazon SageMaker Ground Truth. Ambas opciones identifican datos sin procesar, como imágenes, texto y videos, y agregan etiquetas informativas para crear conjuntos de datos de capacitación de alta calidad para modelos de aprendizaje automático. Con Ground Truth Plus, los expertos de Amazon configuran flujos de trabajo de etiquetas de datos para usted y, en el proceso, se aplican el aprendizaje avanzado y la validación automatizada del etiquetado.

amazon inteligencia artificial aumentada

Mientras que Amazon SageMaker Ground Truth se ocupa de la preclasificación de datos, Amazon Augmented AI (Amazon A2I) proporciona validación humana de predicciones de baja confianza o muestras de predicciones aleatorias de modelos implementados. La IA mejorada administra tanto la creación del flujo de trabajo de revisión como los revisores humanos. Se integra con los servicios de aprendizaje automático e IA de AWS, así como con los modelos implementados en el punto de enlace de Amazon SageMaker.

DataRobot – Humano en el ring

DataRobot tiene una característica de IA modesta que le permite establecer reglas para detectar predicciones inciertas, entradas externas y áreas poco monitoreadas. Estas reglas pueden conducir a tres acciones posibles: ninguna acción (solo monitoreo); invalidar la predicción (generalmente con un valor «seguro»); o devolver un error (rechazar la predicción). DataRobot escribió documentación sobre humanos en el circuito, pero no pude encontrar ninguna implementación en su sitio además de las reglas de humildad.

Google Cloud Human-in-the-Loop

Google Cloud ofrece procesamiento Human-in-the-Loop (HITL) integrado en sus servicios de Document AI, pero como en este escrito, nada para el procesamiento de imágenes o videos. Actualmente, Google admite flujos de trabajo de revisión HITL para los siguientes procesadores:

Procesadores de pedidos:

Facturas

ingresos

Procesadores de préstamos:

1003 Analista

Analizador 1040

Analizador 1040 Tabla C

1040 Tabla E Analizador

Analizador 1099-DIV

Analizador 1099-G

1099-INT Analizador

Analizador 1099-MISC

analista de extractos bancarios

Declaración analizada por HOA Analyst

Analizador de extractos de hipotecas

Analizador de cupones de pago

Analista de jubilación / Declaración de inversión

Analizador W2 محلل

Analizador W9

programas de servicios humanos

Puede ser difícil configurar anotaciones de imágenes humanas, como clasificación de imágenes, detección de objetos y segmentación semántica, para etiquetar conjuntos de datos. Afortunadamente, hay muchas buenas herramientas comerciales y de código abierto que los etiquetadores pueden usar.

Humans in the Loop, una empresa que se describe a sí misma como una «empresa social que ofrece soluciones éticas para la fuerza laboral para potenciar la industria de la IA», escribe periódicamente en su blog sobre sus herramientas de anotación favoritas. En sus entradas más recientes, han enumerado 10 herramientas de anotación de visión artificial de código abierto: Label Studio, Diffgram, LabelImg, CVAT, ImageTagger, LabelMe, VIA, Make Sense, COCO Annotator y DataTurks. Estas herramientas se usan a menudo para anotar conjuntos de entrenamiento y algunas pueden administrar conjuntos de anotaciones.

Por ejemplo, Computer Vision Annotation Tool (CVAT) es potente, está actualizada y funciona en Chrome. Sigue siendo una de las principales herramientas que nosotros y nuestros clientes usamos para el etiquetado, ya que es mucho más rápido que muchas herramientas en el mercado».

CVAT README en GitHub escribe: «CVAT es una herramienta gratuita de anotación de imágenes y videos interactiva basada en la web para la visión por computadora. Nuestro equipo la utiliza para anotar millones de objetos con diferentes propiedades. Muchas decisiones sobre la interfaz de usuario y la experiencia del usuario se basan en los comentarios. de equipos profesionales de anotación de datos. Pruébelo en línea en cvat.org.” Es necesario crear un inicio de sesión para ejecutar la demostración.

CVAT se publica como código abierto bajo la licencia MIT. La mayoría de los obligados activos de Intel operan en Nizhny Novgorod, Rusia. El video introductorio de CVAT muestra cómo funciona el proceso de etiquetado.

¿Qué es el aprendizaje automático asistido por humanos? Mejores datos, modelos más efectivos — IDG

Como puede ver, el procesamiento de bucle humano puede contribuir al proceso de aprendizaje automático en dos puntos: la creación inicial de conjuntos de datos etiquetados para aprendizaje supervisado y la revisión y corrección de predicciones potencialmente problemáticas cuando se ejecuta el modelo. El primer caso de uso ayuda a suavizar el modelo y el segundo caso ayuda a establecer el modelo.

Fuente: InfoWorld

MR.abdulkader