如何快速准备高质量的AI数据?

【摘要】 随着AI的快速发展,如何快速准备大量高质量的数据已经成为AI开发过程中一个极具挑战性的问题! 为了解决这类问题,本案例将为您演示:1.如何使用数据校验功能快速对数据进行清洗;2.如何使用自动分组功能从众多数据中选出想要的数据;3.如何使用标注工具快速完成标注;4.如何使用智能标注等功能加速数据标注。用户只需要进行确认或者稍作调整即可完成标注,可以大大提高数据标注效率,节省用户标注时间。

如何快速准备高质量的AI数据?

一、背景

通常来讲,AI人工智能的三要素是数据、算法和算力。这三要素缺一不可,都是人工智能快速发展的必备条件。这一轮AI热潮得以快速发展,也正是得益于这三个要素已经准备就绪。数据的质量会影响模型的精度,一般来说,大量高质量的数据更有可能训练出高精度AI模型。现在很多算法使用常规数据能将准确率做到85%或者90%,而商业化应用往往要求更高,如果将要模型精度提升至96%甚至99%,则需要大量高质量的数据,这个时候也会要求数据更加精细化、场景化、专业化,这往往也成为了AI模型突破瓶颈的关键性条件。

而在大多数人工智能和机器学习项目中,数据准备和工程任务占了80%以上的时间,其中数据清洗和数据标注占了整个项目的50%左右。而数据准备非常消耗人力,如何快速准备大量高质量的数据已经成为AI开发过程中一个极具挑战性的问题。

0统计.png

ModelArts是面向AI开发者的一站式开发平台,能够支撑开发者从数据到AI应用的全流程开发过程,包含数据处理、算法开发、模型训练、模型部署等操作。并且提供AI Gallery功能,能够在市场内与其他开发者分享数据、算法、模型等。为了能帮用户快速准备大量高质量的数据,ModelArts数据管理提供了以下主要能力:

  • 提供了数据预览和多维筛选等功能方便AI开发者快速识别数据;
  • 提供了数据校验、自动分组等数据处理功能加速数据清洗;
  • 提供了12种以上的标注工具来帮助用户标注各个场景的数据;
  • 提供了智能标注、团队标注等功能加速标注、保障标注质量。

    更多功能请见ModelArts数据管理

    总结.jpg

    ModelArts数据管理为准备高质量的AI数据提供的能力

本案例将以交通标志识别原始数据集为基础,将使用ModelArts为您演示:(1).如何使用数据校验功能快速对数据进行清洗;(2).如何使用自动分组功能从众多数据中选出想要的数据;(3).如何使用标注工具快速完成标注;(4).如何使用智能标注等功能加速数据标注。用户只需要进行确认或者稍作调整即可完成标注,可以大大提高数据标注效率,节省用户标注时间。

当您完成这个案例,您将掌握如何使用ModelArts快速准备大量高质量的数据。

二、准备

在开始之前,您需要进行相关的准备工作,包括注册华为云账号、实名认证、ModelArts全局配置和OBS相关操作,详细请参考此文档

三、操作

本次案例主要分为以下几个步骤:①从AI Gallery下载数据集到ModelArts数据管理,② 数据校验:处理非法数据,③自动分组:删除不想要的数据,④数据标注:对数据打标注,⑤智能标注:使用AI技术加速数据标注,⑥发布数据集:共享数据。

流程图2.jpg

操作流程图

1. 下载数据集

该案例的数据集名称为“交通标志识别原始数据集”,已经上传到AI GalleryAI Gallery地址为https://marketplace.huaweicloud.com/markets/aihub/datasets/list/。进入AI Gallery后需要选择数据栏,然后在AI Gallery搜索数据集名称“交通标志识别原始数据集”,或者点击数据集链接下载。

1搜索数据集.png

搜索数据集名称“交通标志识别原始数据集”

2 数据集详情.png

“交通标志识别原始数据集” 详情

选择该数据集进行下载,配置数据集的目标位置(需要现在OBS创建桶和目录),修改名称为“交通标志识别”,可以根据自己的情况加上描述。点击确认下载后,页面会跳转到“我的数据”页面,这个时候可以点击“我的下载”页面查看下载进度。

3下载数据集.png

下载“交通标志识别原始数据集”4下载进度2.png

下载进度

5数据集详情.png

数据集详情

2. 数据清洗

1)数据识别

当完成数据下载后,一般需要先进行数据识别,查看数据的大致情况,比如有多少数据、数据是什么样的、是否需要清洗等。这个时候可以点击“开始标注”,可以对数据进行预览,可以看到数据集样本列表。总共706张图片:交通标志识别数据500张,其中100张已标注,400张未标注;植物200张;其他数据6张。样本列表中的图片也会展示标签信息,右侧有该数据集的全部标签信息。目前已有的标签为:

标签名

含义

green_go

绿灯标签,表示可以通行

red_stop

红灯标签,表示需要停止

yellow_back

黄灯标签

pedestrian_crossing

斑马线,人行横道

speed_limited

限速标签

speed_unlimited

不限速标签

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享