序
隨著大數據時代的到來,移動互聯網絡和智能手機迅速普及,多種形態的移動互聯應用蓬勃發展,電子商務、雲計算、互聯網金融、物聯網、虛擬現實、機器人等不斷滲透並且重塑傳統產業,大數據當之無愧地成了新的產業革命核心。
聯合國教科文組織以 6 種聯合國官方語言正式發布的《北京共識——人工智能與教育》中提出,各國要制定相應政策,推動人工智能與教育、教學和學習繫統性融合,利用人工智能加快建設開放靈活的教育體繫,促進全民享有公平、有質量、適合每個人的終身學習機會。這表明基於大數據的人工智能和教育進入了新的階段,這是一個數據科學的“百年未有之大變局”。
高等教育是教育繫統中的重要組成部分,高等院校作為人纔培養的重要載體,肩負著為社會培育人纔的重要使命。然而,大數據和人工智能相關專業是2016 年纔獲批的新專業,專業建設、師資、課堂都面臨著巨大考驗,如何培養學生服務社會經濟發展的實踐能力,成為目前亟待解決的問題。2018 年6 月21 日,教育部陳寶生部長在新時代中國高等學校本科教育工作會議首次提出了“金課”的概念,“金專”“金課”“金師”迅速成為中國高等教育新時代的熱詞,大數據和人工智能相關專業如何形成中國特色、世界水平的金專、金課、金師和金教材是當代教育教學改革的難點和熱點。
同時,實踐教學是在一定的理論指導下,通過引導學習者的實踐活動,從而傳承實踐知識、形成技能、發展實踐能力、提高綜合素質的教學活動。目前,高校教學體繫的設置有諸多限制因素,過多地偏向理論教學,課程設置與企業實際應用切合度不高,學生無法把理論轉化為實踐應用技能。課程內容設置方面看似繁多又各自為“政”,課程設置存在冗餘、缺漏、體繫不健全等問題。為此,“泰迪杯”組委會與電子工業出版社共同策劃“大數據專業繫列圖書”,該繫列圖書采用校企聯合編寫的形式,希望能有效解決大數據相關專業教材緊缺的問題。這與2019 年10 月24 日教育部發布的《關於一流本科課程建設的實施意見》(教高〔2019〕8 號)提出的“堅持分類建設、堅持扶強扶特、提升高階性、突出創新性、
增加挑戰度”遵循原則完全契合。本繫列圖書的第一大特點是注重學生實踐能力的培養,根據高校實踐教學中的痛點,首次提出“魚骨教學法”的概念。以企業真實需求為導向,學生學習技能緊緊圍繞企業實際應用需求,將學生需要掌握的理論知識通過企業案例的形式進行銜接,達到知行合一、以用促學的目的。
大數據專業應該以大數據技術應用為核心,緊緊圍繞大數據應用閉環的流程進行教學,使學生從宏觀上理解大數據技術在行業中的具體應用場景及應用方法。高校現有的大數據課程集中在如何進行數據處理、建模分析、參數調整,使得模型的結果更加準確上,但是,完整的大數據應用卻往往是容易被忽視的部分。本繫列圖書的第二大特點是圍繞大數據應用的整個流程,從數據采集、數據遷移、數據存儲、數據分析與挖掘,最終到數據可視化。覆蓋完整的大數據應用流程,涵蓋企業大數據應用中的各個環節,符合企業大數據應用真實場景。
在教育部全面實施“六卓越一撥尖”計劃 2.0 的背景下,如何響應我國高等教育人纔培養體制機制的綜合改革,如何重新定位和全面提升我國高等教育的質量?希望本繫列圖書能夠起到拋磚引玉的作用,從而加快推進新工科、新醫科、新農科、新文科為代表的一流本科課程的“雙萬計劃”建設;落實“讓學生忙起來,管理嚴起來和教學活起來”,讓中國大數據和人工智能的專業、課程、課堂、慕課等相關本科與高職的人纔培養質量有一個質的提升;借助數據科學的引導,在文、理、農、工、醫等全方位發力,培養各個行業的卓越人纔,培養未來的領軍人纔。“泰迪杯”自2013 年創辦以來,賽題來源於企業、管理機構和科研院所等經過適當簡化加工的實際問題,貼近現實熱點需求;數據隻做必要的脫敏處理,保持原始狀態。競賽圍繞大數據挖掘的整個流程,從數據采集、數據遷移、數據挖掘、專題應用到數據可視化,覆蓋完整的數據挖掘流程,涵蓋企業應用中的各個環節,與目前大數據專業人纔培養目標高度一致,因而得到全國各高校的熱烈反響,也得到了全國各界專家學者的傾力支持與協助。其不依賴於數學建模,甚至不依賴於傳統模型的競賽形式,獲得了工業界、產業界、行業界的高度認可,已成為國內大學生乃至研究生的重要學科競賽。2018 年,“泰迪杯”增加數據分析技能賽子賽項,為高職及中職技能型人纔培養提供理論、技術和資源方面的支持。經過多年的發展,“泰迪杯”已經成為全國高校大學生大數據技術最主要的交流平臺。截至2019 年,全國共有近800 所高校,約1 萬名研究生、5 萬名本科生、2 萬名高職生參加了“泰迪杯”的相關比賽。
不斷探究數據科學類專業課程體繫、課程教學改革,以及課程思政建設,積極開展融入新時代中國特色社會主義建設中的成就和需要解決的重大課題也正是大數據和人工智能相關專業需要研究的教學課題。本繫列圖書正是思考與實踐“立德樹人”這一根本任務在大數據專業、技術和課程上的具體化、操作化和目標化,並逐次展開,也希望讀者能將使用、實踐過程中的意見、建議及時反饋給我們,形成大數據時代的新型“編寫、使用、反饋”螺旋式上升的繫列教材建設樣板。
前 言
目前,無論是手機助手一類的應用,還是類似掃地機器人的實物產品,都在以更加智能化的方式,方便人們的工作與生活。這一切的基礎是海量的數據,而實現應用與產品智能化目標背後依靠的則是人工智能技術。海量的數據和人工智能技術之間相輔相成,如果沒有海量的數據,人工智能技術無從發展;如果沒有人工智能技術,海量的數據也無法發揮其應有的價值。雖然人工智能技術取得了令人矚目的成就,但其還尚未在真正意義上深入各個細分領域,市場上缺少人工智能和細分領域知識兩方面都熟悉的專業人纔。就醫療健康領域而言,醫護從業人員具有極強的醫療健康領域的專業知識,但是缺乏對人工智能技術的認知與運用能力,無法發揮現有數據的價值,而人工智能相關的從業者往往缺乏醫療健康領域的專業知識。編寫本書主要目的就是打破人工智能技術和醫療健康領域的壁壘,推動人工智能技術與醫療健康領域的融合。
本書特色
本書內容由淺入深地進行安排,不僅講解機器學習基本原理和基本方法,而且通過大量醫療領域的案例實現對醫療健康數據的處理和分析,能夠在很大程度上輔助醫護人員進行臨床決策。通過本書學習,讀者不僅能夠掌握機器學習算法建模前的數據準備,篩選構造機器學習算法指標的特征工程、不同類別的機器學習算法,還能夠掌握臨床診療數據、電子病歷檔案數據及影像數據等多源異構數據的處理方法,以及醫療圖像、文本等數據的讀取、預處理、可視化
等知識。同時,本書還介紹了具有開源、去編程化的TipDM 數據挖掘建模平臺,通過拖曳的圖形化操作就能實現數據分析的全流程。希望通過本書,能夠提升醫學類學生的數據處理能力,醫學領域的創新創業能力,以及通過人工智能技術解決醫學領域實際問題的能力。本書可以作為醫學類院校數據科學與大數據技術專業的核心課程教材,以及醫工專業的專業核心課程或選修課程教材。在此基礎上,還可以作為臨床、口腔、醫技、檢驗、影像、公共衛生等醫學類專業進階層次的專業限選課程或拓展課程的教材。目前,本書配套的課程是上海健康醫學院的優質在線課程和校重點課程,同時是上海高校大學計算機課程教學改革立項項目。
本書適用對像
(1)學習機器學習相關課程的高校學生
目前國內不少高校將機器學習引入教學中,在互聯網、金融、醫療等行業的相關專業開設了與機器學習相關的課程,但目前這一課程將Python 基礎與機器學習割裂開來,在知識不夠繫統的同時,也增加了課業負擔。本書將Python 基礎與機器學習常用編程精煉整合,幫助零基礎的讀者更快地學會機器學習編程。
(2)學習機器學習應用的開發人員
機器學習應用的開發人員的主要工作是將機器學習相關的算法應用到實際業務繫統中。本書提供了詳細的機器學習接口的用法與說明,能夠幫助機器學習應用的開發人員快速而有效地建立起數據分析應用的算法框架,迅速完成機器學習應用的開發。
(3)進行機器學習應用研究的科研人員
科研人員理論基礎強,但其要實現機器學習算法,需要花費大量的時間。本書可以為科研人員提供一個算法快速實現的通道,在短時間內實現理論驗證,同時本書也可為科研繫統提供機器學習相關的功能支撐。
代碼下載及問題反饋
為了幫助讀者更好地使用本書,泰迪雲課堂提供了配套的教學視頻。對於本書配套的原始數據文件、Python 程序代碼,讀者可以從“泰迪杯”數據挖掘挑戰賽網站免費下載。為方便教師授課,本書還提供了PPT 課件等教學資源。
本書第 1 章由劉巧紅編寫,第2 章由張良均編寫,第3 章由李萍編寫,第4 章由陳棟編寫,第5 章由張敏編寫,第6 章由任和、李建華編寫,第7 章由凌晨編寫,第8 章~第11 章由孫麗萍編寫。
我們已經盡最大努力避免在文本和代碼中出現錯誤,但是由於水平有限,編寫時間倉促,書中難免出現一些疏漏和不足的地方。如果您有更多的寶貴意見,歡迎在微信公眾號:泰迪學社回復“圖書反饋”進行反饋,更多本繫列圖書的信息可以在“泰迪杯”數據挖掘挑戰賽網站查閱。