序
知識圖譜是人工智能的一個分支,對可解釋人工智能具有重要作用。近幾年,隨著知識表示和機器學習等技術的發展,知識圖譜相關技術取得了突破性的進展,特別是知識圖譜的構建、推理和計算技術以及知識服務技術,都得到了快速的發展。這些技術的進步使知識圖譜在工業界受到了廣泛關注,並取得了顯著成果。谷歌、微軟、百度等互聯網公司率先構建了大規模通用知識圖譜,提供基於實體和關繫的語義搜索,可以更好地理解用戶查詢。知識圖譜還在智能決策繫統、推薦繫統和智能問答繫統中起到了重要作用。知識圖譜不僅有巨大的應用價值,而且具有重要的理論價值。知識圖譜使傳統知識表示和推理技術有了落腳點,也為知識表示和推理帶來了新的挑戰。
本書繫統介紹了知識圖譜的理論、技術及應用。在理論方面,本書全面介紹了知識圖譜的各種表示方法,以及知識圖譜的推理方法,這些方法是知識圖譜的根基。在技術方面,本書全面介紹了知識圖譜的存儲和查詢技術、挖掘構建、知識融合技術,以及基於知識圖譜的語義搜索和智能問答技術。在應用方面,本書全面地介紹了知識圖譜在工業界的典型應用場景,為知識圖譜的發展提供了養分。目前,關於知識圖譜的專業書籍還比較缺乏,本書將給廣大知識圖譜研究人員和應用人員帶來福音。
本書作者們都是在知識圖譜的研究和產業應用方面有豐富經驗的專家和學者,很好地融合了知識圖譜的學術研究和產業化實踐,相信本書的出版對於知識圖譜技術的普及和發展會產生非常積極的作用。
前言
知識圖譜的早期理念源於萬維網之父Tim Berners-Lee關於語義網(The Semantic Web)的設想,旨在采用圖結構(Graph Structure)來建模和記錄世界萬物之間的關聯關繫和知識,以便有效實現更加精準的對像級搜索。知識圖譜的相關技術已經在搜索引擎、智能問答、語言理解、推薦計算、大數據決策分析等眾多領域得到廣泛的實際應用。近年來,隨著自然語言處理、深度學習、圖數據處理等眾多領域的飛速發展,知識圖譜在自動化知識獲取、知識表示學習與推理、大規模圖挖掘與分析等領域又取得了很多新進展。知識圖譜已經成為實現認知層面的人工智能不可或缺的重要技術之一。
為什麼寫作本書
知識圖譜是較為典型的交叉領域,涉及知識工程、自然語言處理、機器學習、圖數據庫等多個領域。而知識圖譜的構建及應用涉及更多細分領域的一繫列關鍵技術,包括:知識建模、關繫抽取、圖存儲、自動推理、圖譜表示學習、語義搜索、智能問答、圖計算分析等。做好知識圖譜需要繫統掌握和應用這些分屬多個領域的技術。
本書寫作的第一個目的是盡可能地梳理和組織好這些知識點,幫助讀者繫統掌握相關技術,能夠從整體、全局和繫統的視角看待和應用知識圖譜技術。早期的知識圖譜應用主要是谷歌、百度等公司的通用域搜索引擎,以及基於搜索延續發展出來的基於知識圖譜的智能問答應用,如天貓精靈、小米小愛等。這類應用主要依靠通用領域的知識圖譜,如百科類知識圖譜。近年來,知識圖譜在醫療、金融、安全等垂直領域深入發展,知識圖譜的應用也進一步從通用領域向越來越多的垂直領域擴展。對於剛剛進入該領域的從業人員,更需要能從應用入手,開展知識圖譜的研究與開發。
本書寫作的第二個目的是希望能夠為這些知識圖譜應用開發人員提供一本參考型的工具書。因此,本書在章節最後安排了一個小節介紹相關技術點的常用開源工具,並在與本書配套的網站上提供了完整的實際操作教程。
近幾年,隨著人工智能的進一步發展,知識圖譜在深度知識抽取、表示學習與機器推理、基於知識的可解釋性人工智能、圖譜挖掘與圖神經網絡等領域取得了一繫列新的進展。本書寫作的第三個目的是希望梳理和整理這些與知識圖譜相關領域的最新進展,幫助讀者了解它們的技術發展前沿。
關於本書作者
本書邀請了國內從事相關領域研究和開發的一線專家。三位主編都在語義網和知識圖譜領域有著十餘年的研究和開發經驗,同時也是中文領域開放知識圖譜OpenKG的發起人。每個章節由各細分技術領域的專家主持撰寫,參與編寫的編者既有來自國內高校從事相關學術研究的教師,也有來自企業擁有豐富實際開發經驗的技術專家。
本書主要內容
本書共包括9章,主要內容如下:
第1章主要介紹知識圖譜的基本概念、歷史淵源、典型的知識圖譜項目、技術要素以及核心應用價值。
第2章圍繞知識表示與建模,首先介紹傳統人工智能領域的典型知識表示方法,如謂詞邏輯、描述邏輯、框架繫統等,接下來重點介紹RDF、OWL等互聯網時代的知識表示框架,此外還介紹知識圖譜的向量表示方法等。最後以Protégé為例介紹知識建模的具體實踐過程。
第3章圍繞知識存儲,首先介紹知識圖譜存儲的主要特點和難點,然後介紹幾種常用的知識圖譜存儲索引及存儲技術,並對原生圖數據庫的技術原理進行簡要介紹。此外,還概要介紹常用的圖數據庫,並以Apache Jena和gStore為例介紹知識圖譜存儲的具體實踐過程。
第4章圍繞知識抽取與知識挖掘,首先介紹從不同來源獲取知識圖譜數據的常用方法,然後重點圍繞實體抽取、關繫抽取和事件抽取等,對從文本中獲取知識圖譜數據的方法展開了較為具體的介紹。最後以DeepDive開源工具為例介紹關繫抽取的具體實踐過程。
第5章圍繞知識圖譜的融合,分別對概念層的融合和實體層的融合展開介紹,包括本體映射、語義映射技術、實體對齊、實體鏈接等。最後以LIMES開源工具為例介紹實體融合的具體實踐過程。
第6章圍繞知識圖譜推理,首先介紹推理的基本概念,然後分別從基於演繹邏輯的知識圖譜推理和基於歸納的知識圖譜推理,對常用的知識圖譜推理技術進行介紹。最後以Apache Jena和Drools等開源工具為例介紹知識圖譜推理的具體實踐過程。
第7章和第8章分別圍繞語義搜索和知識問答展開,介紹語義索引、基於知識圖譜的問答等繫列技術,並以gAnswer等開源工具為例,介紹基於知識圖譜實現精準搜索和問答的具體實踐過程。
第9章為應用案例章節,作者挑選了電商、圖情、生活娛樂、企業商業、創投、中醫臨床領域和金融證券行業7個應用案例,對知識圖譜技術在不同領域的實現過程和應用方法展開介紹。
如何閱讀本書
這是一本大厚書,讀者應該怎樣利用這本書呢?
在閱讀此書前,讀者應當學過數據庫、機器學習及自然語言處理的基本知識。這本書的章節是依據知識圖譜的相關技術點進行安排的。由於知識圖譜涉及的技術面較多,我們建議剛進入知識圖譜領域的讀者分幾遍閱讀本書。
? 第一遍先通讀全書,主要釐清基本概念,對涉及學術前沿的內容以及開源工具實踐部分的內容可以隻簡單瀏覽。
? 第二遍重點針對每個章節後面的開源工具進行實踐學習,通過上手操作加深對各技術點的理解。
? 第三遍針對各章中介紹的算法進行學習,並結合相關論文的閱讀加深對算法的理解。在這個階段可以挑選自己感興趣的技術點進行深入研究。
在撰寫本書時,編者考慮了各章節技術點的獨立性,對知識圖譜的某些技術已經有些了解的讀者,可以不用嚴格按照書的章節順序閱讀,而是挑選自己感興趣的章節進行學習。
致謝
本書是很多人共同努力的成果,在此感謝各位編者的共同努力。同時,在本書寫作過程中,北京大學的鄒磊,湖南大學的彭鵬,海知智能的袁熙昊、韓廬山、王燚鵬、孫勝男、郭玉婷,東南大學的吳桐桐、譚亦鳴、花雲程、胡森,浙江大學的張文、王冠穎、王若旭、陳名楊、王梁、葉志權等人也提供了非常有價值的調研結果和修改意見,在此表示衷心的感謝。
在電子工業出版社博文視點宋亞東編輯的熱情推動下,最終促成了我們與電子工業出版社的合作。在審稿過程中,他多次邀請專家對此書提出有益意見,對書稿的修改完善起到了重要作用。在此感謝電子工業出版社博文視點和宋亞東編輯對本書的重視,以及為本書出版所做的一切。
為推動中文領域開放知識圖譜的發展,本書的作者們一致同意將部分稿酬捐贈給OpenKG。在此,也對參與本書的所有作者的無私奉獻表示感謝。
由於作者水平有限,書中不足及錯誤之處在所難免。此外,由於知識圖譜技術涉及面廣,本書難免有所遺漏,敬請專家和讀者給予批評指正。
作者
2019年7月