新聞資訊
NEWS INFORMATION
|
什麽是數據標注?1. 什么是数据标注 这个是IT互联网公司的一个职位,数据标注员就是使用自动化的工具从互联网上抓取、收集数据包括文本、图片、语音等等,然后对抓取的数据进行整理与标注。相当于互联网上的”专职编辑“。 这个岗位工作任务简单的,没什么技术含量。工资基本也不高,大部分3000-4000,很少有5000以上的。而且这类IT公司大部分都是民营公司,待遇不会太高。 訓練集和測試集都是標注過的數據。 在進行數據標注之前,我們首先要對數據進行清洗,得到符合我們要求的數據。數據的清洗包括去除無效的數據、整理成規整的格式等等。具體的數據要求可以和算法人員確認。 2. 举例说明 我們在聊天軟件中,通常會有一個語音轉文本的功能,這種功能的實現大多數人可能都會知道是由智能算法實現的,但是很少有人會想,算法爲什麽能夠識別這些語音呢,算法是如何變得如此智能的? 其實智能算法就像人的大腦一樣,它需要進行學習,通過學習後它才能夠對特定數據進行處理,反饋。 正如語音的識別,模型算法最初是無法直接識別語音內容的,而是經過人工對語音內容進行文本轉錄,將算法無法理解的語音內容轉化成容易識別的文本內容,然後算法模型通過被轉錄後的文本內容進行識別並與相應的音頻進行邏輯關聯。 也許會有人問,那麽不同的語速、音色模型算法怎麽能夠分辨呢。這就是爲什麽模型算法在學習時需要海量數據的原因,這些數據必須覆蓋常用語言場景、語速、音色等,全面的數據才能訓練出出色的模型算法。語音標注的過程如下圖示,便于理解。 3. 常见的数据标注类型 1. 分类标注: 分类标注,就是我们常见的打标签。一般是从既定的标签中选择数据对应的标签,是封闭集合。如下图,一张图就可以有很多分类 / 标签:成人、女、黄种人、长发等。对于文字,可以标注主语、谓语、宾语,名词动词等。 適用:文本、圖像、語音、視頻 應用:臉齡識別,情緒識別,性別識別 2. 标框标注: 机器视觉中的标框标注,很容易理解,就是框选要检测的对象。如人脸识别,首先要先把人脸的位置确定下来。 適用:圖像 應用:人臉識別,物品識別 3. 区域标注: 相比于标框标注,区域标注要求更加精确。边缘可以是柔性的。如自动驾驶中的道路识别。 應用:自動駕駛 4. 描点标注: 一些对于特征要求细致的应用中常常需要描点标注。人脸识别、骨骼识别等。 應用:人臉識別、骨骼識別 5. 其他标注: 标注的类型除了上面几种常见,还有很多个性化的。根据不同的需求则需要不同的标注。如自动摘要,就需要标注文章的主要观点,这时候的标注严格上就不属于上面的任何一种了。(或则你把它归为分类也是可以的,只是标注主要观点就没有这么客观的标准,如果是标注苹果估计大多数人标注的结果都差不多。) ———————————————— 版权声明:本文为CSDN博主「麦地与诗人」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文鏈接:https://blog.csdn.net/YPP0229/article/details/97789995 |