前言
從20世紀80年代中期開始,我一直在做數據分析工作——最初是做數據庫管理信息繫統的研發工作,接著從事數據建模工作,後來又做數據倉庫繫統研發,以及數據共享與交換平臺構建的工作。從2015年起,我又開始從事行業大數據分析與數據挖掘工作。2017年年底,因為年齡的原因,我不再從事一線的研發工作,轉而扮演技術顧問的角色,並應邀開辦大數據技術講座。出乎意料的是,講座的反響非常熱烈,並陸續接到各種講課的邀請:有科普性質的,也有專業研討性質的;既有二三十人的課堂討論式講座,也有三四百人的禮堂演講式講座,還有聽眾更廣泛的中國電子科技集團內部視頻會議方式的講座。一年來,共開辦了20多場大數據技術專題講座,制作的講課用幻燈片多達600多張。
2018年5月,我的老領導,也是中國電科首席科學家、大數據與人工智能方面的知名專家,看了我的幻燈片後,建議我以此為素材,結合自己多年的工作經驗,寫一本大數據技術方面的專著。在領導和同事們的鼓勵下,從2018年6月份開始,我一頭扎進寫作中,經過4個月的努力,終於完成了初稿。由於是第一次寫書,很多方面沒有經驗,遇到了很多困難。幸得中國電子科技集團公司第二十八研究所C4ISR技術國防科技重點實驗室主任丁峰研究員鼎力相助,他指派王菁博士協助我整理書稿。王菁博士不僅重新繪制了書中的圖、表,補充編寫了邏輯回歸算法,還為每章增加了思考與練習題,並負責書稿出版的所有事務性工作。
目前,國家正在大力倡導和鼓勵大數據技術和產業的發展。但一年多來,通過與關心大數據技術的各個層次人員接觸,我發現在具體承擔技術決策、管理和研發任務的人員中,有些人對大數據技術的實現途徑、能力與限定、關鍵環節的認識不夠透徹,這很容易造成技術決策和方向選擇出現偏差。因此,在編寫本書時,我不僅要通俗易懂地介紹大數據挖掘技術全貌,還要講解技術細節和技術難點,以免把這本書寫成純粹的科普讀物。書中既要有通俗的比喻,也涉及嚴謹的數學公式推導;所參考的書籍既有經典、嚴謹的《數據挖掘概念與技術》和《信息檢索導論》,也有通俗易懂的《世界是隨機的大數據時代的概率統計學》和《圖解機器學習》。這是一項十分艱巨的任務,希望這種嘗試能夠為各個層次的讀者都能帶來幫助。
最後還要感謝我的家人對我的理解和支持,他們免除了我所有的家庭雜務,以使我有充足的時間和精力潛心寫作。
2018年11月於南京