內容簡介
由於網上的信息載體主要是文本,所以信息抽取技術對於那些把互聯網當成是知識來源的人來說是至關重要的。信息抽取繫統可以看成是把信息從不同文檔中轉換成結構化數據繫統。因此,成功的信息抽取繫統將把互聯網變成巨大的數據庫。信息抽取技術是近十年來發展起來的新領域,遇到許多新的機遇和挑戰。
全書分兩篇(原理篇共11章、應用篇共7章)。原理篇主要討論了信息抽取(IE)概念、任務、挑戰和評測方法;基於NLP、統計、認知的信息抽取方法;命名實體識別、共指消解、模板填充、Web信息抽取等。應用篇介紹了兩個開發工具(GATE和WHISK),分析了IE在人機接口、電子交易、智能交通、競爭情報、問答繫統、自動文摘等領域的應用。
本書可作為本科高年級數據挖掘課程的參考書或研究生自然語言處理課程的教材,也可作為智能應用繫統開發的參考資料。
全書分兩篇(原理篇共11章、應用篇共7章)。原理篇主要討論了信息抽取(IE)概念、任務、挑戰和評測方法;基於NLP、統計、認知的信息抽取方法;命名實體識別、共指消解、模板填充、Web信息抽取等。應用篇介紹了兩個開發工具(GATE和WHISK),分析了IE在人機接口、電子交易、智能交通、競爭情報、問答繫統、自動文摘等領域的應用。
本書可作為本科高年級數據挖掘課程的參考書或研究生自然語言處理課程的教材,也可作為智能應用繫統開發的參考資料。