本書主要適用于參加“數(shù)據(jù)標注”職業(yè)技能等級認證的人員,是數(shù)據(jù)標注領域的實訓教材。為了更好地培養(yǎng)數(shù)據(jù)標注員,將著重對常見的文本、語音和圖像標注任務類型進行介紹及訓練,輔助從事標注行業(yè)的學習者快速地完成系統(tǒng)化學習,進行標注實戰(zhàn)工作。 本書對文本的分類標注和實體標注、語音的轉(zhuǎn)寫和校對以及圖像的2D拉框任務進行逐一講解和分析,每種標注類型均配有對應的規(guī)范、舉例分析、習題及解析。同時,本書還針對各類標注配套了多種子任務類型或多個領域的實操練習題,目的是幫助標注學習者增長見識,從而實現(xiàn)系統(tǒng)、完整的標注學習和實戰(zhàn)練習。
王會珍,博士,東北大學計算機學院講師,新加坡南洋理工大學訪問學者。2002年7月畢業(yè)于東北大學計算機科學與技術專業(yè),獲得工學學士學位。同年,推薦本校研究生,從師朱靖波教授,從事自然語言處理方向的研究工作。2004年3月轉(zhuǎn)入碩博連讀課程,攻讀計算機應用專業(yè)的博士學位,從師張斌教授、朱靖波教授,2008年3月獲得博士學位。主要研究方向為:機器學習、文本分類、主題檢測與追蹤、知識圖譜、自動問答。2002年起,一直致力于文本分析處理方面的研究與開發(fā)工作,曾作為主要研發(fā)人員參加國家自然基金課題、國家863計劃項目、國家242計劃項目的申請及研究。在國內(nèi)外期刊雜志和學術會議上發(fā)表五十多篇學術論文,包括國際計算語言學領域頂級國際學術會議ACL、COLING、IEEE-NLPKE、IJCNLP、ICCPOL、《軟件學報》、《中文信息學報》等國內(nèi)期刊。研究成果曾獲得遼寧省科技進步三等獎。
第1章 數(shù)據(jù)標注概述 001
1.1 什么是數(shù)據(jù)標注 002
1.2 數(shù)據(jù)標注的行業(yè)現(xiàn)狀 003
1.2.1 政策層面 003
1.2.2 行業(yè)需求 004
1.2.3 行業(yè)發(fā)展 006
1.2.4 市場結(jié)構(gòu) 007
1.3 數(shù)據(jù)標注的應用場景 009
1.3.1 智能教育 009
1.3.2 智慧醫(yī)療 011
1.3.3 智慧司法 013
1.3.4 智慧金融 014
1.3.5 智慧出行 016
1.3.6 智能家居 017
1.3.7 智慧農(nóng)業(yè) 018
1.3.8 智能營銷 020
1.3.9 智能安防 021
1.3.10 智能制造 022
1.3.11 智慧物流 023
1.4 常見標注任務類型介紹 025
1.4.1 文本標注 025
1.4.2 語音標注 034
1.4.3 圖像標注 037
1.5 實訓習題 043
第2章 數(shù)據(jù)標注實訓平臺 044
2.1 平臺基本功能介紹 044
2.2 平臺支持標注類型及操作頁面展示 050
第3章 文本標注實訓 053
3.1 分類標注 053
3.1.1 認識分類標注 054
3.1.2 分類標注實訓之相關性標注 056
3.1.3 相關性標注規(guī)范 057
3.1.4 實訓習題 069
3.2 命名實體標注 072
3.2.1 認識命名實體及實體標注 072
3.2.2 命名實體標注實訓之通用實體標注 074
3.2.3 實訓習題 092
第4章 語音標注—語音切割轉(zhuǎn)寫 095
4.1 認識語音切割轉(zhuǎn)寫 095
4.2 語音切割轉(zhuǎn)寫實訓 096
4.2.1 語音轉(zhuǎn)寫標注規(guī)范 096
4.2.2 項目案例分析 109
4.3 實訓習題 111
第5章 圖像標注—2D拉框 114
5.1 認識2D拉框 114
5.2 拉框標注之2D人體拉框標注 116
5.2.1 2D人體拉框標注規(guī)范 116
5.2.2 項目案例分析 137
5.3 實訓習題 138
第6章 全流程項目實訓 144
6.1 標注項目的基本操作流程 144
6.2 全流程標注項目實操步驟詳解 147
6.2.1 進入全流程項目練習頁并查看任務要求 148
6.2.2 原始數(shù)據(jù)獲取 149
6.2.3 數(shù)據(jù)處理 150
6.2.4 項目創(chuàng)建 151
6.2.5 項目配置 152
6.2.6 標注實施 156
6.2.7 標注結(jié)果導出 159
6.3 全流程標注項目案例演示 160
6.4 實訓習題 165