推薦序
大規模高質量的訓練數據是當今數據驅動的人工智能技術與應用創新的重要基礎,而訓練數據的構建離不開人工主導的數據標注。標注數據中蘊含的人類知識和經驗是許多人工智能算法的基礎,因此數據標注可以看作是實現從人類智能向人工智能轉化的橋梁。特別是以深度神經網絡為代表的人工智能技術需要更大規模的訓練數據,使得傳統小規模專標注難以滿足人工智能技術發展的需要。在這種情況下,出現了基於互聯網的眾包標注,其通過平臺將數據標注需求方和標注者連接起來,從而依靠互聯網上未知大量用戶的群體智能實現高效的數據標注。例如,斯坦福大學通過眾包標注構建了ImageNet數據集,推動了計算機視覺和深度學習算法的進步;卡內基梅隆 大學的reCAPTCHA 項目利用眾包技術幫助《紐約時報》實現了過去110年的報紙的 數字化工作。這些基於群體智能的數據標注模式和平臺為我從事群體智能的研究提供了鮮活的案例和啟發。
伴隨人工智能產業的發展,為了滿足日益增長的標注數據需求,我國出現了數據標注員等新的職業崗位,並出現了許多專門從事數據標注業務的企業。這些企業雇傭大量的數據標注員,並引入工程管理方法,通過標注員之間的群智協同完成客戶的標注項目,由此可見,數據標注已逐漸走向群智化、職業化。北京航空航天大學軟件開發環境國家重點實驗室的李未院士領導了群體智能方向的論證和規劃,推動了群體智能列入國家新一代人工智能發展規劃。近年來,我一直擔任軟件開發環境國家重點實驗室學術委員會委員,有更多機會了解實驗室在群體智能方面的工作。作為實驗室的骨干成員,北航的孫海龍教授在群體智能理論和方法方面開展了深入的研究,在群智化數據標注方面提出了一繫列提高數據標注效率和質量的新方法,發表在人工智能領域的重要學術會議 AAAI和IJCAI等。百度公司作為國際知名的互聯網公司,一方面自身有大量的數據標注需求,另一方面研發了百度眾測平臺提供數據標注服務,並開展了大量的數據標注實踐。此次雙方聯合編寫的《群智化數據標注技術與實踐》教材是一個產教研融合的範例。教材梳理了數據標注發展的脈絡,把握住了當前數據標注的“群智化”特征,對數據標注的基本概念、關鍵方法、支撐工具和應用案例等進行了全面介紹。特別是該教材已列入工業和信息化部“十四五”規劃教材。我相信該教材對於培養數據標注人纔,推動我國人工智能技術的發展一定能夠起到重要作用。
借此教材出版之際,我希望更多行業關注數據標注問題。實際上,許多行業的專業人員每天都在產生大量高質量的標注數據,例如,判讀醫學影像數據的醫務工作者產生著醫學影像標記數據;判讀聲吶信號的聲吶員產生著水聲標記數據等。如何高效、低成本、合規地彙聚和使用這些行業的標注數據,對於人工智能的研究具有重要意義,對於我國數字經濟發展同樣具有重要意義,無論是普通高等教育還是高等職業教育,都需要提高學生的數據意識和能力。今年5月1日《中華人民共和國職業教育法》頒布施行, 該法明確,職業教育是與普通教育具有同等重要地位的教育類型,高等職業教育不再被視為高等教育的一個初級層次,而是與普通高等教育具有同等重要地位的教育類型,兩種教育類型具有很強的互補性。從數據標注實踐中,我們可以看到研究型大學和職業 型大學在人纔培養上的合作空間。北京航空航天大學軟件開發環境國家重點實驗室與百度公司聯合編寫的《群智化數據標注技術與實踐》教材,既是一個產教研融合的範例, 也是研究型大學和職業型大學合作培養人工智能人纔的實踐。
王懷民
中國科學院院士
2022年7月20日
前言
近年來,以機器學習為代表的人工智能技術快速發展,已成為推動各行業創新發展的新技術引擎,因而得到世界各國政府、學術界和產業界的普遍重視。在各類機器學習方法中,決策樹、樸素貝葉斯、支持向量機、k近鄰、AdaBoost以及神經網絡等有監督學習算法得到廣泛應用,而訓練高質量的有監督機器學習模型往往需要豐富的訓練數據,尤其是對於深度神經網絡等具有大量參數的機器學習模型來說,往往需要更大規模的訓練數據集。
數據標注是構建訓練數據集的核心技術,其依賴人類標注員使用標注工具完成對待標注數據的標記或者解釋。在數據標注技術的發展過程中,形成了兩種典型的數據標注模式:專家標注和群智化標注。早期訓練機器學習模型僅需要較少的標注數據,數據標注的工作往往由少量的標注專家即可完成。采用專家標注模式的標注質量較高,但是平均標注成本高。群智化標注包括眾包標注和數據工廠標注兩種形式。一方面,隨著復雜機器學習模型的不斷提出,特別是深度神經網絡的快速發展,對標注數據的需求越來越大,互聯網上出現了眾包標注模式。眾包標注的代表性工作是斯坦福大學李飛飛教授團隊利用眾包模式構建的著名的圖像標注數據集ImageNet,其有力地推動了深度學習技術與應用的發展。相對專家標注,眾包標注的成本較低,但是標注人員的不確定性給數據標注的質量提出了新挑戰。另一方面,隨著人工智能的廣泛應用,對標注數據的需求與日俱增,為了滿足日益增長的數據標注需求,逐漸出現以數據標注為核心業務的實體企業或者部門,這些企業或部門從客戶那裡接收待標注數據,並通過設立標注項目、組建標注員團隊、部署標注工具或平臺和管理標注過程等活動開展標注任務,終向客戶提供高質量標注數據,我們將這種標注形式稱為“數據標注工廠”。國內的百度、阿裡、騰訊和等互聯網企業紛紛推出數據標注平臺,支撐基於數據標注工廠模式提供高效優質的數據標注服務。無論是眾包標注,還是數據標注工廠,它們的共同特點是利用大量標注員的“群智”貢獻實現對海量數據的標注。總之,群智化標注模式的出現與發展演進是數據標注從小規模、自給自足方式發展成為大規模、職業化方式的
重要標志,是為了滿足人工智能對標注數據需求不斷增長的必然結果。
在此背景之下,培養大量高素質的數據標注員對於推動我國人工智能技術創新與產業發展,縮小我國與國際人工智能先進水平的差距具有重要意義,對數據標注員的職業化教育和培訓成為我國教育領域的一項緊迫任務,相關的教材建設尤為重要。在數據標注領域,目前市面上有限的幾種教材在對數據標注發展過程的繫統化梳理,以及對當前以“群智化”為主要特征的數據標注過程管理、標注技術和應用實踐中的新問題和新特性的把握等方面尚需改進。北京航空航天大學軟件開發環境國家重點實驗室的李未院士等科學家率先開拓了“群體智能(Crowd Intelligence)”研究方向,並推動群體智群智化數據標注技術與實踐能列入國家新一代人工智能發展規劃,北京航空航天大學成為開展“群體智能”方向研究的先行者和優勢單位,在相關理論和技術方面積累了豐富成果。百度公司是大數據和人工智能領域中科研和實踐的先鋒企業,在國內很早就研發了“百度眾測”平臺,在山西省等地率先建立了人工智能基礎數據產業基地,有力推動了群智化數據標注技術的研發與應用。為此,雙方聯合成立了教材編寫團隊,旨在充分發揮雙方在學術研究和產業應用實踐方面的優勢與積累,編寫一本高質量的反映數據標注技術特點的教材,希望能夠為我國人工智能方面的人纔培養和技術創新做出貢獻。本書重點介紹群智化數據標注的基礎知識、關鍵技術、繫統工具和應用實踐等內容。從數據標注對人工智能技術與應用的重要意義出發,梳理了數據標注從小規模、自給自足模式向大規模、職業化標注模式的發展脈絡,深刻把握當前以眾包和數據標注工廠為代表的標注模式所呈現的“群智化”關鍵特征,結合不同類型的數據以及典型應用場景對數據標注的基本概念、關鍵技術、支撐工具和繫統平臺、組織和管理方法等進行繫統性介紹。其中,第1~第4章對群智化數據標注的基礎概念、技術及繫統等進行詳細介紹;第5~第8章則分別對文本、音頻、圖像和視頻四類數據的標注進行介紹;第9、第10兩章則從自動駕駛數據標注、人臉與人體數據標注的真實場景出發,從實操的角度進行闡述;第11章對數據標注的未來發展進行展望。本書以培養人工智能應用所急需的數據標注人纔為目標,適合作為高職、大專院校人工智能和大數據等相關專業的教材,也適合從事數據標注職業的技術人員以及人工智能技術實踐者閱讀。
本書由北京航空航天大學的師生和百度在線網絡技術(北京)有限公司的技術人員聯合編寫。在編寫過程中,北京航空航天大學的博士生王子哲和柴磊重點參與了第1~第4章和第11章的編寫工作,以及全書內容的整體規劃、反復校對和多輪迭代修改工作;碩士生顧睿肜以及郝延樸、石澤宏、劉源森、闫思橋、戴芳菲、姜昊等本科生同學參與了第5~第10章內容的編寫與校對等工作;百度公司的蔣曉琳、李昱霖、李明、陸汀、譚小紅、蔣志堅、洪至遠、王光浩、項光特、張亞萍、朱於磊、劉皓、侍紀偉、楊佳瑩、馬利艷、王瑞霞、孫源婕和劉悅旻等為標注平臺及實踐案例方面的內容編寫、全書編寫工作的組織、內容審核與校對等方面給予了重要支持;北京航空航天大學的陳志珺、孫成斌、齊斌航、瀋逸君、王仲池、隋睿、許淳逸、李兆天、王乾偉和亓魯等研究生多次參與書稿的校對工作。
中國科學院院士王懷民特別為本書作序,王院士是我國開展群體智能研究的著名專家,我們對王院士的支持致以誠摯的感謝! 工業和信息化部批準了本書的“‘十四五’規劃教材”立項申請,特別感謝工業和信息化部以及評審專家對本書的認可和支持!本書中闡述的群智化標注的一些思想和方法是編者在長期開展研究工作的過程中形成的,這些工作得到了國家自然科學基金項目(61932007,61972013和62141209)和國家重點研發計劃(2019YFB1705902和2016YFB1000804)的支持,感謝科技部和國家自然科學基金委員會! 此外,在本書編寫過程中,參考、引用了許多學術界和工業界數據標注方面的理論方法、關鍵技術、繫統工具和應用實踐等成果和應用案例,在此,對相關的學者、技術人員和工程師等表示衷心感謝!
盡管我們已盡努力保證本書的編寫質量,但由於水平所限,書中難免存在錯誤與不當之處,望廣大讀者批評指正,我們會持續改進本書的內容,歡迎讀者通過電子郵件ehailong@hotmail.com 提供寶貴意見和建議。
編 者
2022年7月於北京