人工智能

什么是人工辅助机器学习?更好的数据和更有效的模型

什么是人工辅助机器学习?更好的数据和更有效的模型

人类和机器学习循环使用人类反馈来消除训练数据中的错误并提高模型的准确性。

机器学习模型通常远非完美。在将模型的预测用于影响人们生活的目的(例如信用批准评级)时,建议人们至少查看一些预测:低置信水平的预测、超出范围的预测和质量控制随机抽样。

此外,缺乏良好的标记(注释)数据通常会使监督学习变得困难(除非您是教授,而您的学生无事可做)。对未标记数据实施半监督学习的一种方法是让人们标记一些数据以进行模型播种,使用对中间模型的高置信度预测(或迁移模型学习)来标记更多数据(自标记),并发送预测关于检查人的信心不足(主动学习)。该过程可以重复,并且在实践中趋于从过渡到过渡改进。

还要检查:

简而言之,人类循环机器学习依赖于人类反馈来提高用于训练机器学习模型的数据质量。一般来说,人类机器学习就是对人类可以标记(注释)的良好数据进行采样,使用该数据来训练模型,并使用模型来采样更多数据进行注释。有许多服务可用于管理此过程。

Amazon SageMaker Ground Truth

Amazon SageMaker 提供两种数据描述服务:Amazon SageMaker Ground Truth Plus 和 Amazon SageMaker Ground Truth。这两个选项都可以识别图像、文本和视频等原始数据,并添加信息标签来为机器学习模型创建高质量的训练数据集。借助 Ground Truth Plus,亚马逊专家为您设置数据标签工作流程,并在此过程中应用标签的高级学习和自动验证。

亚马逊增强人工智能

虽然 Amazon SageMaker Ground Truth 处理数据预分类,但 Amazon Augmented AI (Amazon A2I) 提供对来自已实施模型的低置信度预测或随机预测样本的人工验证。增强型 AI 可管理审阅工作流程创建和人工审阅者。与 AWS AI 和机器学习服务以及部署在 Amazon SageMaker 终端节点上的模型集成。

DataRobot – 擂台上的人

DataRobot 具有适度的 AI 功能,允许您设置规则来检测不确定的预测、外部输入和低监控区域。这些规则可以导致三种可能的动作:无动作(仅监控);使预测无效(通常使用“安全”值);或返回错误(拒绝预测)。DataRobot 在循环中编写了有关人类的文档,但除了谦逊的规则之外,我在他们的网站上找不到任何实现。

Google Cloud 人工在环

谷歌云在其 Document AI 服务中提供了 Human-in-the-Loop (HITL) 处理,但在撰写本文时,没有任何图像或视频处理功能。目前,Google 支持以下处理器的 HITL 审核工作流程:

订单处理器:

发票

收据

贷款处理器:

1003分析师

1040 解析器

1040 分析仪表 C

1040 表 E 解析器

1099-DIV 分析仪

1099-G 分析仪

1099-INT . 分析仪

1099-MISC 分析仪

银行报表分析师

HOA分析师分析声明

抵押提取分析仪

支付优惠券分析器

退休分析师/投资声明

W2 产品分析仪

W9 解析器

人性化服务计划

配置人类图像注释(例如图像分类、对象检测和语义分割)来标记数据集可能很困难。幸运的是,标签人员可以使用许多优秀的商业和开源工具。

Humans in the Loop 是一家将自己描述为“为 AI 行业提供合乎道德的劳动力解决方案的社会企业”的公司,它定期发布关于其最喜欢的注释工具的博客。在他们最近的条目中,他们列出了 10 个开源计算机视觉标注工具:Label Studio、Diffgram、LabelImg、CVAT、ImageTagger、LabelMe、VIA、Make Sense、COCO Annotator 和 DataTurks。这些工具常用于标注训练集,有些可以管理标注集。

例如,计算机视觉注释工具 (CVAT) 功能强大、是最新的并且可以在 Chrome 中运行。它仍然是我们和我们的客户用于标签的主要工具之一,因为它比市场上的许多工具快得多。”

GitHub 上的 CVAT README 写道,“CVAT 是一个免费的基于 Web 的交互式图像和视频注释工具,用于计算机视觉。我们的团队使用它来注释数百万具有不同属性的对象。许多用户界面和用户体验决策都是基于反馈来自专业的数据注释团队。在 cvat.org 在线试用。“需要创建登录才能运行演示。

CVAT 在 MIT 许可下作为开源发布。英特尔的大部分活跃债务人都在俄罗斯下诺夫哥罗德开展业务。CVAT 介绍视频展示了标记过程的工作原理。


什么是人工辅助机器学习? 更好的数据,更有效的模型
身份证
 

正如您所看到的,人工循环处理可以在两个方面对机器学习过程做出贡献:最初创建标记为监督学习的数据集,以及在模型运行时审查和纠正可能存在问题的预测。第一个用例有助于平滑模型,第二个用例有助于设置模型。

资料来源:信息世界

Related Articles

Back to top button