“小愛同學!”“我在。”“今天天氣怎麼樣啊?”“今天氣溫……”若干年以前,很難想像,一位畢生都與黃土打交道的67歲老人,在早上起床後會時間與一個“盒子”有這樣的一段對話。然而,在21世紀20年代的當下,類似的事情屢見不鮮。
以5G ABC為代表的“智慧未來”已悄然到來。其中,5G並不僅僅指帶寬的增加,其更是互聯網基礎建設完善化的代名詞,它也是未來超級信息化社會基建工程的標的物;ABC則分別指代人工智能(AI)、大數據(Big Data)和雲計算(Cloud Computing)。
如果說ABC是個組織結構,那麼組成這個龐大、高效“巨無霸&rdquo就是數據。在這個時代,數據不僅是資源,更是資產,身居這個時代的人們,要學著去組織和管理這些無形的獨立實體。世界經濟論壇報告曾經預測,未來的大數據將成為新的財富高地,其價值可能堪比石油,而“大數據之父”維克托也樂觀地表示,把數據列入企業資產負債表隻是時間問題。企業已經意識到要實現數字化轉型,那麼個人如何纔能在這個風口展翅翱翔?毫無疑問,提升個人的數據素養是的途徑。隻有如此,人們纔能坦然面對ABC給我們帶來的一切好與不好,纔能找到自己在未來中的角色和位置。
本書是陸紅教授主持的北京市教育委員會科技計劃立項課題“基於機器學習方法的房價大數據分析模型構建研究”的研究成果之一,主要由“數據素養概述”“國內外DL教育的現狀分析”“邁向DL的步:走近Python”“實踐Python與DL的千絲萬縷關繫”“DL行而不輟,DT未來可期”五部分組成。
第1章主要介紹了數據素養相關的概念,包含數、數據、大數據以及數據素養。在每個概念的闡述中引用了大量前人的研究成果和網絡上提供的史料圖片,再現了各個概念出現的背景和發展歷程。除此之外,還運用了多個官方網站的數據資源,對數據的類別以及數據與信息、知識、智慧之間的關繫進行了詮釋。後通過分析、概括、總結本書對數據素養內涵的定義,建立了數據素養內涵模型。
第2章主要分析了國內現階段高校數據素養涉及的領域,分析了我國數據素養教育現存的問題。通過對比國外數據素養教育現狀,如美國、歐盟、日本等國家和地區在數據素養教育過程中國家戰略實施的過程,總結得出了在我國實施數據素養教育需要共建數據素養教育生態圈,隻有在以個人需求為導向、以學校教育為基礎、社會實踐相融合、政策有力支持保障的情況下纔能將數據素養教育推向新層次的結論。
第3章主要介紹了什麼是計算機程序設計語言,什麼是Python,Python的主要特點和優勢。在此前提下,介紹了Python的主要使用場景,並對一些不適合使用Python的情況進行了簡略分析;詳細介紹了在Windows操作繫統中如何配置Python開發環境,並以“你好,Python”為例說明了如何創建Python項目和程序,以及如何運行Python程序和查看程序運行結果;繫統闡述了Python中變量、對像、基本數據類型、組合對像、自定義函數、流程控制、異常及異常處理、注釋等重要內容。
第4章主要介紹了如何運用Python及其常見的工具庫實現數據存取、數據清洗和數據可視化,進一步體現了Python在提升數據素養中的重要價值。其中,數據存取部分根據數據存取位置,分別對各類方法做了詳細介紹;在數據清洗中對如何使用正則表達式、如何處理數據缺失值、如何使用Beautiful Soup做了詳細說明。在這兩個前提下,分別介紹了Pandas和NumPy & Matplotlib等在數據分析和可視化中的應用方式。
第5章主要介紹了在大數據時代研究數據素養所必須知道的數學理論,包括統計學、信息論和混沌理論等。在此前提下,介紹了探索性數據分析的工作方式,包括異常值分析、對比分析和回歸分析等;詳細介紹了在大數據領域常用的智能算法,比如降維算法、遺傳算法、RBM算法和AdaBo算法等;繫統闡述了模式識別、機器學習和深度學習等方面的應用場景和常用的算法;提出在大數據時代,運用數據素養相關方法搞清“問題是什麼”是步,分辨“問題在哪裡”是第二步,衡量“問題的大小或數量多少”是第三步,找到“問題如何解決”纔是終極目標。
本書結構清晰、簡約、嚴密,理論方面涉及數據素養方面的基本概念、模型(第1章),國內外數據素養教育的現狀(第2章),以及數據素養中不可忽略的各種算法(第5章)等;實踐方面則詳細介紹了使用Python完成數據讀取、數據處理、數據分析和數據可視化等的具體方法和步驟(第3章和第4章)。有志於在數據素養方面有所研究和突破的讀者,通過閱讀本書,不僅可以學習數據素養的相關理論,還可以完成一些有利於提升數據素養的實踐項目。
本書在撰寫過程中,得到了陸紅、劉瑞新等同人的幫助,書中的部分插圖由李子豪繪制,在此特別感謝。另外,如果沒有家人的支持,沒有父親、母親無微不至的關心,也許本書還需要更長時間纔能與讀者見面,在此一並感謝。
由於Python及其插件不斷升級,加之數據素養涉及的領域比較廣泛,也許書中處理某些問題的途徑有更優的替代方案,這都有待於日後不斷深入研究,真誠希望讀者能夠提出寶貴的建議。
作者
2021年2月(除夕)