[ 收藏 ] [ 繁体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

  •  文化

  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

     保健/养生
     体育/运动
     手工/DIY
     休闲/爱好
     英文原版书
     港台图书
     研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学
  • 組織機構名稱多維度研究
    該商品所屬分類:社會科學 -> 社會科學總論
    【市場價】
    971-1408
    【優惠價】
    607-880
    【作者】 陳慧 
    【所屬類別】 圖書  社會科學  社會科學總論 
    【出版社】華中科技大學出版社 
    【ISBN】9787568073103
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    開本:16開
    紙張:膠版紙
    包裝:平裝

    是否套裝:否
    國際標準書號ISBN:9787568073103
    作者:陳慧

    出版社:華中科技大學出版社
    出版時間:2021年07月 

        
        
    "

    編輯推薦

    1、以真實的媒體海量數據為數據基礎;2、專門針對組織機構名稱這一特殊名稱進行研究;3、結合了語言學、社會語言學、計算語言學、語料庫語言學的理論與方法的跨學科研究。4、*以媒體海量數據為基礎的組織機構名研究專著,提出的相關概念、規則、方法對於自然語言處理、語言本體研究有一定的理論價值和應用價值,可以用於國家政府部門的組織機構命名、管理、規範化工作。

     
    內容簡介

    本書基於大規模動態流通語料庫,抽取395萬條左右的海量中文組織機構名稱數據及其相關信息。以大數據為基礎,從分詞標注技術、語言資源開發與應用、語言規範化、語言本體等多個角度,針對組織機構名稱這一特殊詞語類別進行深入研究,從中心詞角度提出中文組織名稱形式化分類體繫,提出中文組織名稱“領域表征值”概念,並應用這一概念研究文本分類和通用詞語,提出組織機構名稱的兩種結構模式、四類結構成分及其形式、性質、規則條件,以及組織機構名縮略的九個規則。確定了中文組織名稱的三類上下文搭配形式、組織機構名稱的分布特征,及中文組織機構名稱識別方案。本書的主要內容包括組織機構名稱識別、組織機構名稱的界定與資源建設、組織機構名稱規則、組織機構名稱動態監測、組織機構名稱的規範化等。

    作者簡介

    陳慧,北京外國語大學中文學院副教授,漢語國際教育專業碩士研究生導師。華中科技大學漢語言文學學士,武漢大學社會語言學碩士,北京語言大學自然語言處理博士。在計算語言學、對外漢語教學、計算機應用、教育學、教育技術學等領域公開發表中英文論文近五十篇。多篇論文被SCI/EI/ISTP/CSSCI收錄。為《國家語言生活狀況綠皮書》(2005、2009、2013年)作者之一。參與並結項國家社科項目“語言接觸對聾人手語發展演變的影響研究”、國家自科項目“中文文本自動分類關鍵技術研究”、國家語委重大項目“國家語言資源監測”。獨立承擔並結項國家語委重大項目子項目“基於語料庫的組織機構名研究”、漢辦多語種基地項目“漢語課堂教學實例庫建設”及五項北外中文學院院級項目。當前獨立承擔並在研校級項目為“漢語中介語語料庫技術及教學應用”。

    目錄
    1多維度看組織機構名稱(1)

    1.1組織機構名稱與漢語本體研究(1)

    1.2組織機構名稱與語料庫語言學(3)

    1.3組織機構名稱與語言資源建設(5)

    1.4組織機構名稱與語言生態觀測(8)

    1.5組織機構名稱與語言治理(13)

    本章小結(15)

    1多維度看組織機構名稱(1)

    1.1組織機構名稱與漢語本體研究(1)

    1.2組織機構名稱與語料庫語言學(3)

    1.3組織機構名稱與語言資源建設(5)

    1.4組織機構名稱與語言生態觀測(8)

    1.5組織機構名稱與語言治理(13)

    本章小結(15)

    2組織機構名稱的識別(16)

    2.1組織機構名稱在自然語言處理中的特殊性(16)

    2.2組織機構名稱識別的現狀(17)

    2.3組織機構名稱識別的傳統技術(19)

    2.4組織機構名稱識別技術的發展(25)

    2.5組織機構名稱識別的困境(27)

    2.6組織機構名稱數據研究工作的價值(31)

    本章小結(33)

    3組織機構名稱的界定與資源建設(34)

    3.1組織機構名稱的社會學界定(34)

    3.2組織機構名稱的工程定義(35)

    3.3組織機構名稱、非組織機構名稱的區分(38)

    3.4組織機構名稱的資源庫建設現狀(40)

    3.5組織機構名稱的資源庫建設的總體構想(41)

    3.6組織機構名稱研究數據庫規模與結構(48)

    3.7組織機構名稱輔助校對繫統(55)

    本章小結(59)

    4組織機構名稱的分布特征(60)

    4.1高頻詞中的組織機構名稱(60)

    4.2組織機構名稱的領域分布(64)

    4.3組織機構名稱的歷時分布(72)

    4.4組織機構名稱的媒體分布(75)

    4.5組織機構名稱的字長分布(77)

    本章小結(81)

    5組織機構名稱的結構規則(82)

    5.1組織機構名稱結構規則研究的背景(82)

    5.2組織機構全稱的結構模式(84)

    5.3組織機構名稱的結構成分(90)

    本章小結(98)

    6組織機構名稱的縮略規則(99)

    6.1組織機構名稱縮略的理論原則(99)

    6.2組織機構名稱簡稱的三種結構及其應用(104)

    6.3分詞繫統中的組織機構名稱簡稱標注問題(105)

    本章小結(107)

    7組織機構名稱的用字用詞(108)

    7.1組織機構名稱的用字研究(109)

    7.2組織機構名稱識別結果用詞概貌(114)

    7.3組織機構名稱識別結果中的詞性(116)

    7.4組織機構名稱識別結果中的字符串(121)

    7.5組織機構名稱的禁用詞(124)

    本章小結(127)

    8組織機構名稱的中心詞(129)

    8.1組織機構名稱中心詞的獲取(129)

    8.2組織機構名稱中的偽中心詞(132)

    8.3組織機構名稱中的小概率中心詞(134)

    8.4組織機構名稱中的單義中心詞(136)

    8.5組織機構名稱中的兼類中心詞(139)

    8.6組織機構名稱簡稱的中心詞(144)

    8.7基於中心詞的組織機構名稱形式化分類(147)

    本章小結(159)

    9基於大規模文本的組織機構跟蹤實驗(161)

    9.1國家語言資源生態研究的意義(161)

    9.2國家語言生態觀測工作綜述(161)

    9.3組織機構名稱動態觀測的意義(163)

    9.4組織機構名稱動態觀測的方法探索(164)

    9.5一個實驗(167)

    本章小結(171)

    10組織機構名稱的規範化(172)

    10.1組織機構名稱規範化研究的內容(172)

    10.2組織機構名稱規範化研究的原則(172)

    10.3組織機構名稱規範化研究的意義(174)

    10.4組織機構名稱命名的規範化(176)

    10.5組織機構名稱使用的規範化研究(182)

    本章小結(185)

    參考文獻(186)

    附錄A圖表索引(194)

    附錄B相關數據樣例(197)

    後記(215) 

    前言
    前言組織機構名稱在語言學、社會學、管理學等學科領域均具備很高的研究價值。本書旨在從語言本體和語言信息處理角度,結合社會學、社會語言學、信息管理、工商管理的理論與實踐,初步嘗試進行多維度探索。本書的研究內容*早起源於我們在從事中文語料庫研究工作中接觸到的分詞標注錯誤的現像。目前分詞識別的差錯一般在5%以內,比例並不大。稀疏數據會因頻率低而形成一個長尾(long tail)現像,但這些長尾並不會影響大局。眾所周知,在語言信息處理領域,100%的精度是無法實現的,也無須實現。尤其是在信息處理的量級越來越大,從基礎研究到社會應用的時間越來越短的時代,我們通常並不會在意那5%的差錯部分。一般而言,在語料庫工作中,我們會忠實而堅定地按照分詞標注結果直到*後。在必要的時候,對個別頻率高的錯誤識別結果進行人工干預即可。這是*有效率的做法,也是不得已的做法。然而,在大規模真實文本中,尤其是在將語料庫技術應用於各種場景時,這種差錯有可能會被無限放大。幸運的是,現代語言信息處理技術在不斷發展,其中目標之一就是將錯誤識別結果不斷縮小,不斷提高識別精度。我們從語料庫語言學出發,深入探索語言信息處理技術細節。*初的研究目的是探討哪些識別的標注錯誤是能夠得以規避的。我們發現:如果語料的除噪處理更全面;如果制定識別策略時有語言學家參與;如果分詞的基礎詞表代表性再強一些;如果分詞標記集內部沒有詞性標記範圍的交叉,比如說,同時設置簡稱(j)、組織機構名稱(org)和組織機構名簡稱(aorg),內部有交集,客觀上形成人為障礙;如果能吸收一些語言學常識……;則很多標注錯誤是可以規避的。然而,實際上該目標一直沒有達到,從而影響分詞標注的質量,累加在一起就一直保留著這5%的差錯率。作為一個追求完美或者說喜歡較真的人,我對這5%的差錯率總是耿耿於懷,總想為降低錯誤識別做些什麼。作為一個漢語言文學專業出身,具備社會語言學專業背景,然後又跨行進入人工智能領域的研究者,我開始嘗試著做一些我可以做、雖然不起眼但又有必要做的工作,從而加深業界對這一問題的認識和了解。我在北京語言大學應用語言學研究所張普教授門下攻讀博士學位。在張普教授和所長楊爾弘教授的帶領下,我曾經在國家語言資源動態流通語料庫(dynamic circulating corpus,DCC)博士研究室做了三年語料庫工作。我基於DCC動態流通語料庫對分詞標注後的詞語進一步分類考察:動詞、量詞、數詞、形容詞……在識別的錯誤結果中,組織機構名稱總是頻繁地跳到我的眼前。作為語言信息處理業界公認的核心難題之一,組織機構名稱的識別效果在整個命名實體識別以及分詞標注中一直以來是*低的。於是我又專門為組織機構名稱建立了另外一個數據庫,其中包含395萬詞條,帶有時間、上下文語境、領域、報紙信息。雖然知道組織機構名稱識別*難,但是真正去查看機器自動識別的錯誤結果時,這些被標記為組織機構名稱的字符串看起來還是突兀得讓人忍俊不禁:“電子信息產業類上市公司”、“連勝三局”、“老父將子告上法庭”……這些我們難以置信的組織機構名稱識別結果很像喜劇演員的幽默表演,讓我忍不住想到了張愛玲的一句話:“生命是一襲華美的袍,上面爬滿了虱子。”這樣的識別結果是怎麼產生的呢?是否可以規避呢?出於好奇,我對30年間的國內外組織機構名稱識別、命名實體識別、分詞標注相關工作進行了全面梳理,包括從1991年篇公司名識別的文獻(Rau,1991),到2021年的*新一篇文獻(陳娟等,2021),目的是了解文獻中的識別策略是否有漏洞。從規則時代、統計時代,再到今天的機器學習、深度學習時代(Vaswani et al.,2017),組織機構名稱識別工作緊隨著信息技術主流,其識別的召回率和精確率也確實在逐步提升。在分詞標注模塊裡,組織機構名稱的識別是公認的*大難點。雖然技術不斷進步,調和平均值(F1值)得以從2004年的60.81%提高到2020年的95.43%(楊飄、董文永,2020)(包括組織機構名稱和其他命名實體),說明識別率得到持續提高,其*強大的引擎來自技術進步。然而,技術並不是的。自然語言處理既然處理的是人類的自然語言,那麼就應該更多融合人對自然語言的理解,而不是僅限於計算機繫統捕捉、學習到的相對有限的語言現像。“尺有所短”,自然語言靈活多變,再強大的技術也難以精準處理自然語言,尤其是計算機沒有遇到過的表達方式。可以說,即使在人工智能的時代,“人”也要永遠在“工”的前面。在全面了解組織機構名稱識別的狀況後,我意識到相關資源建設和語言學研究必不可少。於是我又從語言信息處理跳回到語言學的領地,從識別對的和錯的組織機構名稱裡進行了“披沙揀金”的瑣碎工作。首先,從社會學、信息處理工程兩個角度去界定組織機構名稱的內涵和外延,釐清組織機構名稱與非組織機構名稱的界限。其次,對組織機構名稱的用字、用詞、規則、成分進行分類、統計、描寫,以確立一繫列準則,比如:哪些字詞可以出現在組織機構名稱裡;哪些不可以出現在組織機構名稱裡;可以出現的字詞需要滿足什麼條件纔能保證一個組織機構名稱是合乎語言規則的。如果隻是針對全稱狀態的組織機構名稱,識別難度會低很多。然而,真實文本中,簡稱層出不窮,所以我的一部分工作則是針對簡稱,通過分析和定義縮略規則,在理論和實踐上做了一些初步探討。值得注意的是,由於在工作中發現上下文結構規則並不具有普遍意義,主觀意願更多一些,我們也擯棄了一些文獻中進行上下文結構規則的嘗試。這項工作確實瑣碎而辛苦,常常讓我產生自我懷疑。幸運的是,在自我懷疑之中,我終究完成了這項工作。完成得有多完美不敢說,但如果這項工作對語言信息處理業界能夠帶來一點參考價值,我就十分欣慰了。由於我們建立的是一個帶有分布屬性的組織機構名稱數據庫,基於我這幾年編寫《中國語言生活狀況報告(2005)》綠皮書的一點工作經驗,我自然而然會把這兩個工作結合起來思考。於是我從頻率、領域、年度、報紙和字長的角度對國家語言生活中的組織機構名稱進行了統計和計算,提出了一個基於媒體語料的組織機構觀測研究的方案。另外,在大量接觸媒體中的組織機構名稱,並在對其字、詞、成分、詞性等進行細碎研究的時候,我感受到了在組織機構名稱規範化研究方面還有一些空白。於是我試著對組織機構名稱的規範化工作開展了相關的探索。正如北京大學詹衛東教授所言:“一個研究課題總是針對一個或幾個特定問題的。一方面,探索真理的路永遠都沒有盡頭;另一方面,在一個具體的研究課題範圍內,對現有問題的解決通常總是有一定限度的。因此,在一個研究課題暫時告一段落,人們要思量下一步該如何去做的時候,也無非是在這兩個方面做更多的努力:一面結合更多的時間,對現有的框架進行檢驗並向縱深挖掘;一面在現有的研究成果基礎上,探索如何開闢更廣闊的研究空間。”(詹衛東,2000)本書的研究也不例外。組織機構名稱研究是一個值得深入和拓展的課題,而本書闡述的相關繫列研究隻是一些尚未完全成熟的工作。下一步,我們將在如下諸方面開展下一步的研究工作。(1) 進一步完善資源庫建設,繼續研究名詞、動詞、形容詞中的“禁用詞”,結合組織機構名稱結構和語義詞典,研究名詞、動詞、形容詞在組織機構名稱結構中的條件限制和搭配規則,完善禁用詞表。本書的禁用成分研究目前主要限於禁用詞性和禁用字符串。在三大實詞方面,目前是通過對校對結果的分析來獲得禁用詞,所以是單純的經驗主義方法。在面對大規模的詞表時,需要消耗大量的人力物力。下一步引入語義詞典,結合組織機構名稱結構規則,將理性主義和經驗主義相結合,使禁用詞研究具有類推機制。(2) 運用語義詞典等外部資源對禁用詞、內部結構模式進行深入研究。進一步深入分析組織機構名稱的內部結構規則,構建形式化的組織機構名稱內部結構規則庫。本書的內部結構規則研究主要是在一個大的結構模式下,對每一個結構成分進行分析,而未對這個大的結構模式進行分解細化。下一步將按組織機構名稱的形式化分類體繫,按照不同的中心詞,對組織機構名稱結構進行再分類,並將規則形式化,供中文信息處理使用。(3) 在組織機構名稱動態監測方面進行深入研究。本書提出了在真實新聞文本中對組織機構名稱進行動態監測的思路,但為什麼監測、要監測什麼、如何監測這些問題都難以從一開始就形成繫統的框架,所以這也要留待下一步繼續思考。(4) 原計劃基於語料庫對組織機構名稱的規範化進行全面考察,因時間關繫,本書對組織機構名稱規範化問題的研究比較薄弱,隻能留待下一步再繼續考察。(5) 由於客觀條件的限制,我們的數據源是2005年前後的五份主流報紙媒體。盡管這不影響統計、計算和實驗結果,但未體現網絡媒體、有聲媒體以及新媒體上的分布狀況。如果能在規範化、分布、動態觀測上涵蓋全媒體,結果會更有意義。本書忠實記錄了我們前一階段的初步探索和階段性成果,盡管還顯粗陋,但其基本理論、方法、結果還是有意義和價值的。所以我們願意將它拿出來供各方批評。在大數據時代的今天,跨學科交叉研究、大數據支撐的研究越來越成為正常的研究範式。關於組織機構名稱的研究,還有很多的空間和視角。現在我們已經做了理論和方法上的準備,利用多源大數據繼續進行跨學科研究。未來可期!書中多有錯漏,還請方家雅正。著者2021年4月

    前言組織機構名稱在語言學、社會學、管理學等學科領域均具備很高的研究價值。本書旨在從語言本體和語言信息處理角度,結合社會學、社會語言學、信息管理、工商管理的理論與實踐,初步嘗試進行多維度探索。本書的研究內容*早起源於我們在從事中文語料庫研究工作中接觸到的分詞標注錯誤的現像。目前分詞識別的差錯一般在5%以內,比例並不大。稀疏數據會因頻率低而形成一個長尾(long tail)現像,但這些長尾並不會影響大局。眾所周知,在語言信息處理領域,100%的精度是無法實現的,也無須實現。尤其是在信息處理的量級越來越大,從基礎研究到社會應用的時間越來越短的時代,我們通常並不會在意那5%的差錯部分。一般而言,在語料庫工作中,我們會忠實而堅定地按照分詞標注結果直到*後。在必要的時候,對個別頻率高的錯誤識別結果進行人工干預即可。這是*有效率的做法,也是不得已的做法。然而,在大規模真實文本中,尤其是在將語料庫技術應用於各種場景時,這種差錯有可能會被無限放大。幸運的是,現代語言信息處理技術在不斷發展,其中目標之一就是將錯誤識別結果不斷縮小,不斷提高識別精度。我們從語料庫語言學出發,深入探索語言信息處理技術細節。*初的研究目的是探討哪些識別的標注錯誤是能夠得以規避的。我們發現:如果語料的除噪處理更全面;如果制定識別策略時有語言學家參與;如果分詞的基礎詞表代表性再強一些;如果分詞標記集內部沒有詞性標記範圍的交叉,比如說,同時設置簡稱(j)、組織機構名稱(org)和組織機構名簡稱(aorg),內部有交集,客觀上形成人為障礙;如果能吸收一些語言學常識……;則很多標注錯誤是可以規避的。然而,實際上該目標一直沒有達到,從而影響分詞標注的質量,累加在一起就一直保留著這5%的差錯率。作為一個追求完美或者說喜歡較真的人,我對這5%的差錯率總是耿耿於懷,總想為降低錯誤識別做些什麼。作為一個漢語言文學專業出身,具備社會語言學專業背景,然後又跨行進入人工智能領域的研究者,我開始嘗試著做一些我可以做、雖然不起眼但又有必要做的工作,從而加深業界對這一問題的認識和了解。我在北京語言大學應用語言學研究所張普教授門下攻讀博士學位。在張普教授和所長楊爾弘教授的帶領下,我曾經在國家語言資源動態流通語料庫(dynamic circulating corpus,DCC)博士研究室做了三年語料庫工作。我基於DCC動態流通語料庫對分詞標注後的詞語進一步分類考察:動詞、量詞、數詞、形容詞……在識別的錯誤結果中,組織機構名稱總是頻繁地跳到我的眼前。作為語言信息處理業界公認的核心難題之一,組織機構名稱的識別效果在整個命名實體識別以及分詞標注中一直以來是*低的。於是我又專門為組織機構名稱建立了另外一個數據庫,其中包含395萬詞條,帶有時間、上下文語境、領域、報紙信息。雖然知道組織機構名稱識別*難,但是真正去查看機器自動識別的錯誤結果時,這些被標記為組織機構名稱的字符串看起來還是突兀得讓人忍俊不禁:“電子信息產業類上市公司”、“連勝三局”、“老父將子告上法庭”……這些我們難以置信的組織機構名稱識別結果很像喜劇演員的幽默表演,讓我忍不住想到了張愛玲的一句話:“生命是一襲華美的袍,上面爬滿了虱子。”這樣的識別結果是怎麼產生的呢?是否可以規避呢?出於好奇,我對30年間的國內外組織機構名稱識別、命名實體識別、分詞標注相關工作進行了全面梳理,包括從1991年篇公司名識別的文獻(Rau,1991),到2021年的*新一篇文獻(陳娟等,2021),目的是了解文獻中的識別策略是否有漏洞。從規則時代、統計時代,再到今天的機器學習、深度學習時代(Vaswani et al.,2017),組織機構名稱識別工作緊隨著信息技術主流,其識別的召回率和精確率也確實在逐步提升。在分詞標注模塊裡,組織機構名稱的識別是公認的*大難點。雖然技術不斷進步,調和平均值(F1值)得以從2004年的60.81%提高到2020年的95.43%(楊飄、董文永,2020)(包括組織機構名稱和其他命名實體),說明識別率得到持續提高,其*強大的引擎來自技術進步。然而,技術並不是的。自然語言處理既然處理的是人類的自然語言,那麼就應該更多融合人對自然語言的理解,而不是僅限於計算機繫統捕捉、學習到的相對有限的語言現像。“尺有所短”,自然語言靈活多變,再強大的技術也難以精準處理自然語言,尤其是計算機沒有遇到過的表達方式。可以說,即使在人工智能的時代,“人”也要永遠在“工”的前面。在全面了解組織機構名稱識別的狀況後,我意識到相關資源建設和語言學研究必不可少。於是我又從語言信息處理跳回到語言學的領地,從識別對的和錯的組織機構名稱裡進行了“披沙揀金”的瑣碎工作。首先,從社會學、信息處理工程兩個角度去界定組織機構名稱的內涵和外延,釐清組織機構名稱與非組織機構名稱的界限。其次,對組織機構名稱的用字、用詞、規則、成分進行分類、統計、描寫,以確立一繫列準則,比如:哪些字詞可以出現在組織機構名稱裡;哪些不可以出現在組織機構名稱裡;可以出現的字詞需要滿足什麼條件纔能保證一個組織機構名稱是合乎語言規則的。如果隻是針對全稱狀態的組織機構名稱,識別難度會低很多。然而,真實文本中,簡稱層出不窮,所以我的一部分工作則是針對簡稱,通過分析和定義縮略規則,在理論和實踐上做了一些初步探討。值得注意的是,由於在工作中發現上下文結構規則並不具有普遍意義,主觀意願更多一些,我們也擯棄了一些文獻中進行上下文結構規則的嘗試。這項工作確實瑣碎而辛苦,常常讓我產生自我懷疑。幸運的是,在自我懷疑之中,我終究完成了這項工作。完成得有多完美不敢說,但如果這項工作對語言信息處理業界能夠帶來一點參考價值,我就十分欣慰了。由於我們建立的是一個帶有分布屬性的組織機構名稱數據庫,基於我這幾年編寫《中國語言生活狀況報告(2005)》綠皮書的一點工作經驗,我自然而然會把這兩個工作結合起來思考。於是我從頻率、領域、年度、報紙和字長的角度對國家語言生活中的組織機構名稱進行了統計和計算,提出了一個基於媒體語料的組織機構觀測研究的方案。另外,在大量接觸媒體中的組織機構名稱,並在對其字、詞、成分、詞性等進行細碎研究的時候,我感受到了在組織機構名稱規範化研究方面還有一些空白。於是我試著對組織機構名稱的規範化工作開展了相關的探索。正如北京大學詹衛東教授所言:“一個研究課題總是針對一個或幾個特定問題的。一方面,探索真理的路永遠都沒有盡頭;另一方面,在一個具體的研究課題範圍內,對現有問題的解決通常總是有一定限度的。因此,在一個研究課題暫時告一段落,人們要思量下一步該如何去做的時候,也無非是在這兩個方面做更多的努力:一面結合更多的時間,對現有的框架進行檢驗並向縱深挖掘;一面在現有的研究成果基礎上,探索如何開闢更廣闊的研究空間。”(詹衛東,2000)本書的研究也不例外。組織機構名稱研究是一個值得深入和拓展的課題,而本書闡述的相關繫列研究隻是一些尚未完全成熟的工作。下一步,我們將在如下諸方面開展下一步的研究工作。(1) 進一步完善資源庫建設,繼續研究名詞、動詞、形容詞中的“禁用詞”,結合組織機構名稱結構和語義詞典,研究名詞、動詞、形容詞在組織機構名稱結構中的條件限制和搭配規則,完善禁用詞表。本書的禁用成分研究目前主要限於禁用詞性和禁用字符串。在三大實詞方面,目前是通過對校對結果的分析來獲得禁用詞,所以是單純的經驗主義方法。在面對大規模的詞表時,需要消耗大量的人力物力。下一步引入語義詞典,結合組織機構名稱結構規則,將理性主義和經驗主義相結合,使禁用詞研究具有類推機制。(2) 運用語義詞典等外部資源對禁用詞、內部結構模式進行深入研究。進一步深入分析組織機構名稱的內部結構規則,構建形式化的組織機構名稱內部結構規則庫。本書的內部結構規則研究主要是在一個大的結構模式下,對每一個結構成分進行分析,而未對這個大的結構模式進行分解細化。下一步將按組織機構名稱的形式化分類體繫,按照不同的中心詞,對組織機構名稱結構進行再分類,並將規則形式化,供中文信息處理使用。(3) 在組織機構名稱動態監測方面進行深入研究。本書提出了在真實新聞文本中對組織機構名稱進行動態監測的思路,但為什麼監測、要監測什麼、如何監測這些問題都難以從一開始就形成繫統的框架,所以這也要留待下一步繼續思考。(4) 原計劃基於語料庫對組織機構名稱的規範化進行全面考察,因時間關繫,本書對組織機構名稱規範化問題的研究比較薄弱,隻能留待下一步再繼續考察。(5) 由於客觀條件的限制,我們的數據源是2005年前後的五份主流報紙媒體。盡管這不影響統計、計算和實驗結果,但未體現網絡媒體、有聲媒體以及新媒體上的分布狀況。如果能在規範化、分布、動態觀測上涵蓋全媒體,結果會更有意義。本書忠實記錄了我們前一階段的初步探索和階段性成果,盡管還顯粗陋,但其基本理論、方法、結果還是有意義和價值的。所以我們願意將它拿出來供各方批評。在大數據時代的今天,跨學科交叉研究、大數據支撐的研究越來越成為正常的研究範式。關於組織機構名稱的研究,還有很多的空間和視角。現在我們已經做了理論和方法上的準備,利用多源大數據繼續進行跨學科研究。未來可期!書中多有錯漏,還請方家雅正。著者2021年4月



     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部