前 言
“大數據”這個詞彙已經與“移動互聯網”“雲計算”“人工智能”等一起成為科技從業人員中,甚至是街頭巷尾的流行詞彙之一。中國工程院邬賀銓院士在2013年撰寫的大數據時代的機遇與挑戰至今已被引用200多次;同年出版的維克托·邁爾·舍恩伯的專著《大數據時代》則一直在亞馬遜的熱銷圖書商品排名中,其熱度可見一斑。從2016年美國總統選舉到相親網站用戶匹配,大數據的身影無處不在,每個人的工作和日常生活,都自覺或不自覺地受到大數據的影響和支配。但什麼是大數據,每個人、每個機構,甚至每個國家,都對此有不同的答案。我們需要給大數據一個清晰的、統一的、完整的定義。幸運的是,麥肯錫全球研究所給出了一個標準答案:大小超出了傳統數據庫軟件工具的抓取、存儲、管理、分析能力的數據群被稱為大數據。
雖然大數據如此之熱,但是在具體深入研究下去後就會發現,大數據技術的研究和應用的主要領域仍然集中在與IT產業密切相關的互聯網產業界,在電子商務、搜索推薦、可穿戴設備、無人車/機等方向上,各種規模的創新、創業公司層出不窮,各類應用更是五花八門、紛繁復雜,而大數據相關的國內外文獻也是種類繁多、涉及廣泛。
大數據分析應用於科學、醫藥、商業等各個領域,用途差異巨大,但其目標可以歸納為如下幾類。第一,獲得知識與推測趨勢。大數據包含大量原始的、真實的信息,大數據分析能夠有效摒棄個體差異,幫助人們可以透過現像更準確地把握事物背後的規律。第二,分析掌握個性化特征。企業通過長時間、多維度的數據積累,可以分析用戶的行為規律,更準確地描繪個體輪廓,為用戶提供更好的個性化產品和服務,以及更準確的廣告推薦等。第三,通過分析辨識真相。由於網絡中的信息傳播更加便利,所以網絡虛假信息造成的危害也更大。由於大數據的來源廣泛且具有多樣性,因此在一定程度上可以幫助實現信息的去偽存真。目前,人們開始嘗試利用大數據進行虛假信息的識別。
相應地,大數據技術也面臨巨大的挑戰,主要包括:
(1)當前的數據量正以指數方式增長,而大數據處理和分析的能力遠遠跟不上數據量增長的速度。高效率和低成本的存儲技術、非結構化和半結構化數據的高效處理技術、大數據去冗降噪技術、數據挖掘和基於大數據的預測分析技術等都有待發展和完善。
(2)大數據包含豐富的個人信息,通過整合分析,可以精準判斷個人的喜好乃至性格,揭示行為規律,使個人的隱私信息更加容易暴露。如何在加強數據獲取能力的同時更好地保護個人隱私,是未來大數據研究的一個重大挑戰。
(3)大數據使人類對信息掌控的程度相對過去有了質的提升,從這個意義來看,從信息時代進入大數據時代超越了從機械計算時代進入電子計算時代,對於大數據的觀念、態度必須要能夠適應新時代的要求。
本書嘗試從大數據的前身——數據挖掘技術入手,首先介紹在大數據這個詞彙發明之前,數據挖掘技術是如何用於金融投資、識別欺詐並保障網絡安全的;隨後對大數據技術中使用的采集、存儲及分析方法,如目前流行的HDFS及MapReduce進行詳細闡述,以便使入門者快速掌握相關的技術;隨後以語音識別中的連續語音識別和多語言語音識別為例,介紹大數據信息處理技術在IT行業中的關鍵應用;大數據分析與場景密切相關,因此提供了一繫列基於場景分析基礎上的大數據信息處理應用,如MOOC大數據教學分析繫統、社交網絡大數據關繫推薦繫統和金融服務大數據風險預警繫統等;以互聯網+大數據為特色的應用非常廣泛,僅選取了電子商務、互聯網金融、城市可持續發展、能源大數據、智能電網大數據等差異性較大的行業應用進行了簡單介紹;進一步的大數據信息處理應用則涉及場景感知這一更加復雜的課題,場景感知更近似於人類對場景的觀察、判斷、分析與響應,相比於場景分析具有更強的靈活性、實時性、準確性,無人駕駛汽車操控繫統就是場景感知的典型綜合應用案例。
本書包括大數據、數據挖掘和場景感知等基本內容及其應用,可作為IT相關專業本科及研究生學習大數據理論、技術與應用的入門用書,對工程人員來說也是一本綜合性較強的參考手冊。同時,本書引用了大量國內外最新技術實例及作者的國家基金項目研究成果,對互聯網領域的技術研究人員也有一定的參考價值。
本書在編寫過程中,北京交通大學袁保宗教授、中國科學院聲學研究所顏永紅教授、北京理工大學謝湘副教授等專家給予了大力指導和支持,並得到國家自然科學基金重大項目(NSFC:11590770)的支持,在此表示衷心的感謝!
由於編著者水平和經驗有限,書中錯誤之處在所難免,敬請讀者指正。
編著者
2018年5月