了得網圖書_大數據掘金：挖掘商業世界中的數據價值

內容簡介

在數據洪流中沙裡淘金，挖掘大數據背後的價值窪地，為企業帶來下一個增長紅利。
在互聯網風氣雲湧的時代，很多企業擁有數據金礦，卻很少能挖出真金白銀。數據本身不產生價值，企業隻有分析和利用大數據，纔能將散落在各個平臺中的數據的真正商業價值挖掘出來。數據挖掘已成為解決復雜商業問題、抓住商機的常用工具。
《大數據掘金》一書介紹了數據挖掘與分析領域的**案例，揭示了如何繫統運用數據，找出其中隱含的模式與聯繫，幫助你更好的利用收集到的數據為自己服務。
在這本書中，你將見識數據挖掘過程、方法與技巧當前在商業領域廣闊的應用，學習使用有效的數據管理方法、工具和矩陣，認識文本和網頁數據挖掘，進行大數據整合以及更多相關數據分析知識：
分析：實用、有效的分類；
數據挖掘：將數據轉化為信息和知識；
應用：涉及市場營銷、金融、醫療衛生、國防等領域；
方法與標準：KDD、CRISP-DM、SEMMA以及六西格瑪（Six Sigma DMAIC）方法；
數據與方法：處理結構化、非結構化、半結構化的數據；
算法與統計：鄰近算法、神經網絡算法、SVMs；
文本分析與挖掘：情感分析、自然語言分析；
大數據：數量、種類、速度、真實性、可變性及價值。

第1 章分析學入門 / 1 /
分析學與分析有區別嗎 / 3 /
數據挖掘該歸何處 / 3 /
分析學何以突然受到追捧 / 4 /
分析學的應用領域 / 6 /
分析學面臨的主要挑戰 / 6 /
分析學的發展歷史 / 8 /
分析學的簡單分類 / 12 /
分析學的前沿技術——以IBM Watson 為例 / 17 /
第2 章數據挖掘入門 / 25 /
數據挖掘是什麼 / 28 /
哪些不屬於數據挖掘 / 30 /
數據挖掘最常見的應用 / 32 /
數據挖掘能夠發現怎樣的規律 / 36 /
常用的數據挖掘工具 / 41 /
數據挖掘的負面影響：隱私問題 / 46 /
第3 章數據挖掘過程 / 54 /
數據庫知識獲取過程 / 54 /
跨行業標準化數據挖掘流程 / 56 /
SEMMA / 62 /
數據挖掘六西格瑪方法 / 66 /
哪種方法最好 / 69 /
第4 章數據與數據挖掘的方法 / 74 /
數據挖掘中的數據屬性 / 74 /
數據挖掘中的數據預處理 / 77 /
數據挖掘方法 / 82 /
預測法 / 83 /
分類法 / 83 /
決策樹 / 91 /
數據挖掘中的聚類分析 / 93 /
K 均值聚類算法 / 97 /
關聯法 / 98 /
Apriori 算法 / 102 /
對數據挖掘的誤解與事實 / 103 /
第5 章數據挖掘算法 / 112 /
近鄰算法 / 113 /
評估相似性：距離度量 / 114 /
人工神經網絡 / 117 /
支持向量機 / 128 /
線性回歸 / 133 /
邏輯回歸 / 138 /
時間序列預測 / 140 /
第6 章文本分析和情感分析 / 145 /
自然語言處理 / 150 /
文本挖掘應用 / 154 /
文本挖掘的流程 / 159 /
文本挖掘工具 / 171 /
情感分析 / 172 /
第7 章大數據分析學 / 183 /
大數據從何而來 / 184 /
定義“大數據”的V 們 / 186 /
大數據的關鍵概念 / 190 /
大數據分析處理的商業問題 / 195 /
大數據科技 / 196 /
數據科學家 / 205 /
大數據和流分析法 / 208 /
數據流挖掘 / 210 /
譯者後記 / 213 /

查看全部↓

精彩書摘

杜爾森·德倫博士的著作簡明清晰、內容豐富，為渴望了解數據分析、數據挖掘和“大數據”的讀者提供了實用的學習工具。在商業活動越來越復雜、越來越趨向全球化的今天，決策者必須依靠現有的信息采取快速準確的行動，現代數據挖掘和分析是制定決策所必不可少的。本書明確了該領域當前的最佳做法，向讀者——主要是學生和從業者——展示了如何應用數據的挖掘與分析發現數據隱含的規律與聯繫，如何利用這些信息改進並提升整個決策過程。
作者選取了適量的概念、技術和案例幫助讀者真正理解數據挖掘技術的運行原理。這些技術包括：數據挖掘過程、方法與技術，數據的作用與管理，工具與量表，文本與網頁挖掘，情感分析，以及接下來與最新大數據分析方法的整合。
在第1 章中，作者巧妙地將數據分析的源頭追溯到了第二次世界大戰時期（見圖1—2），使用下列期刊的讀者信息作為數據：20 世紀70 年代的《決策支持繫統》（Decision Support Systems）、20 世紀80 年代的《企業/ 高管IS 繫統》（Enterprise/Executive IS Systems）以及我們都聽說過的20 世紀90 年代和21世紀初期的《商務智能》（Business Intelligence），最後還有當前的《分析》（Analytics）和《大數據時代》（Big Data）。第1 章的內容為後續即將論述的數據挖掘打下基礎。
在第2 章中，作者對數據挖掘進行了簡明易懂的描述，並進行了準確的分類，將數據挖掘與其他幾個相關的術語區分開來，明確表示了數據挖掘的實際意義是發現知識。認識到數據挖掘實質上是在堅持許多原則的基礎上解決問題與制定決策，無疑是思維上的一次洗禮，許多人都認為數據挖掘本身是一種新概念。這一章運用現實生活中的真實案例、具有啟發性的圖表以及平實的語言，向廣大讀者揭開了數據挖掘的神秘面紗。這種方法十分巧妙，將數據挖掘這樣看似復雜而又富有技術含量的話題介紹給了普羅大眾。
在第3 章中，德倫博士以淺顯易懂的形式向讀者展示了規範數據挖掘過程的不同方法。該章介紹的第一種方法是數據庫知識獲取（Knowledge Discovery in Database，KDD），這種方法由業界先驅尤薩馬·法雅德（Usama Fayyad）首創。德倫博士在討論中展示了KDD 技術，並用圖表加以說明（見圖3—1），清楚地顯示了運用KDD 技術進行數據挖掘的過程。與此同時，這一章還介紹了眾多團體或個人提出的其他數據挖掘方案，這些方案共同構成了數據挖掘這一領域基本思想的沿革發展。為了顯示這些方案的實用性，德倫博士還在最後提供了一個案例研究——“挖掘癌癥數據，獲取最新知識”。
第4 章主要研究數據挖掘中使用到的數據，包括目前越來越頻繁使用的文本數據（即非結構化、非數字性的數據，占當今世界可用數據的近90%）。數據準備是數據挖掘最重要的一步，要建立實際可用的模型，所用的數據必須經過處理統計，否則就像俗語中說的“無用輸入，無用輸出”。因此，在數據挖掘過程中近乎90% 以上的時間都花在了數據準備這一環節。德倫博士竭盡所能采取種種方法統計整理數據，為進一步的數據分析做好準備，這些準備包括打造數據鏈，測試數據組，為學習者提供最人性化的k 倍交叉核實界面（見圖4—6）。
在第5 章中，德倫博士介紹了最常見的數據挖掘運算，其講解簡明易懂，外行人也能看出門道。此外，他還全面介紹了神經網絡與支持向量機（Support Vector Machines，SVM），使這些原本晦澀難懂的數學工具變得生動易學。其中，德倫博士親自設計的演算示例也讓本書物超所值。
第6 章詳細講述了文本挖掘（即文本分析）。一開始，德倫博士引用了我們在2012 年出版的《實用數據挖掘》（Practical Data Mining，我本人是這本書的主編）首次使用的圖表。博士成功地將我們1 100 頁的著作濃縮成短短一章——事實上，這樣的濃縮版本對初學者而言更有意義。干得漂亮，德倫！
最後，在第7 章中，德倫博士介紹了當前分析領域一個炙手可熱的名詞——大數據分析。我們幾乎每天都能在新聞中聽到“大數據”這個詞，它到底是什麼意思呢？對不同的人而言，這個詞有著不同的含義。但作為一個在數據挖掘領域活躍了15 年以上的人，我可以說每時每刻都與大數據打交道。數據存儲空間的成本越來越低，雲存儲逐漸進入人們的生活，一臺小小的筆記本電腦都能夠進行數據分析中的分配步驟和多線程運算。輕薄的平板電腦甚至能夠勝過幾十年前存放在開著冷氣的庫房中的主服務器。現在人們甚至可以用智能手機管理幾個服務器和雲存儲。數據正日漸變“大”，而處理數據所需的物理實體卻越來越“小”。
但是大多數人對大數據都存在著誤解，至少在我看來是這樣的。許多人認為數據挖掘必須用到大數據。我與住院醫師有過10 年的合作，他們希望在為期一年的項目中研究盡可能多的案例，但在有限的時間內隻能找到一部分所需的材料。以傳統統計學標準來看，這些小型數據組的研究是沒有任何意義的，但是我發現，使用工具學習這種現代數據挖掘方法，往往能夠從小數據組中得到有用的假設，獲得從前使用傳統費雪學派p 值統計法不可能得到的信息。在20世紀，傳統統計學還被認為是非主流的統計方法，而在20 世紀以前，貝葉斯統計法（Bayesian statistics）曾統領了數據分析領域長達幾百年之久。隨著21 世紀的到來，貝葉斯統計的現代形式，包括SVM、NN 及其他工具學習模型卷土重來，我們又回到了貝葉斯的時代。雖然對於“傳統統計訓練”而言，還需要一定時間來理解和跟上時代的潮流，但是統計領域的前沿陣地無疑是屬於貝葉斯統計法、數據挖掘和大數據的。
所有想要了解數據挖掘並在這一方面掌握一技之長的讀者都應該選擇這本書，當閱讀到本書的最後一頁就會發現，你已經完全了解這一領域，如蛹化蝶飛。
加裡·麥尼博士（Dr. Gary D. Miner）
戴爾信息管理集團軟件事業部
高級分析師、醫療保健應用專家
（其兩部著作曾經獲得PROSE 獎）
……

查看全部↓

商品搜索

商品分类

【醫學】

【各大出版社】

【医学】

【各大出版社】

編輯推薦

內容簡介

作者簡介

目錄

精彩書摘