語言是一個繫統,具有層級性,音義結合的雙面單位從低級單位到高級單位依次是語素(字)、詞、短語、句子、篇章等。高一級單位是由低一級單位按照一定規則組合而成的,如果能夠繫統地總結出這些規則,就可以提高計算機語言信息處理智能化水平,加快中文信息化的發展,同時對於辭書編纂、語言教學也有積極的推動作用。這些規則實際涉及到語法的、語義的甚至語用的,而且還涉及到讀音等。按照以上的認識,近些年我們進行了繫統的現代漢語語言資源開發,從字(語素)到構詞、到詞義網、到新詞語、句法語義多信息標注語料庫,再到漢語拼音詞彙數據庫、方言有聲資源庫等,逐步構建現代漢語綜合語言知識庫。這樣我們開發的大規模語言資源實際包括兩大部分:(1)語言知識庫,主要是針對語素(字)、詞這兩級語言單位的,包括《漢字義類信息庫》、《漢語語義構詞信息庫》、《新詞語電子詞典》、《新編同義詞詞林》、《漢語拼音詞彙數據庫》、《方言數據庫》等;(2)大型標注語料庫,包括短語、句子級的,對真實文本標注詞性、句法成分、語義角色、詞義等信息的語料庫,篇章級的文本蘊含信息庫、中小學生語言偏誤語料庫等。語言知識庫是辭書編纂需要的基礎知識和資源,選詞立目、注音、詞性標注等都依靠這些知識。大型標注語料庫可以使原始語言資源結構化、數據化,是計算機辭書自動生成的基礎,至少也為辭書編纂中的選詞、釋義、詞性標注、配例等提供便捷手段和豐富的資源,提高辭書編纂的速度與質量。