了得網計算機/網絡_探尋數據背後的邏輯：R語言數據挖掘之道

編輯推薦

√不隻介紹R語言，更深入數據挖掘的本質：探尋數據背後的邏輯，挖掘人們的欲望、需求及態度
√深入淺出介紹R語言數據挖掘，以及數據挖掘和機器學習中的常見算法
√枚舉了很多有趣的實例及其在商務領域的應用
√涉及多種數據類型和不同的挖掘任務
就R語言而言，書中詳述了R語言的特點和一些弊端的經驗性克服方法。
就數據挖掘而言，書中詳細演示了從數據清洗、變量轉換、篩選、構建模型、調優、監控及代碼部署等一繫列完整的流程。

內容簡介

數據分析、數據挖掘的本質是探尋數據背後的邏輯，挖掘人們的欲望、需求、態度等。本書不僅僅教會讀者如何掌握數據挖掘相關技能，更教會讀者如何從數據挖掘結果中分析出更深層次的邏輯。

《探尋數據背後的邏輯：R語言數據挖掘之道》主要介紹使用R語言進行數據挖掘的過程。具體內容包括R軟件的安裝及R語言基礎知識、數據探索、數據可視化、回歸預測分析、時間序列分析、算法選擇流程及十大算法介紹、數據抓取、社交網絡關繫分析、情感分析、話題模型、推薦繫統，以及數據挖掘在生物信息學中的應用。另外，本書還介紹了R腳本優化相關內容，使讀者的數據挖掘技能更上一層樓。

《探尋數據背後的邏輯：R語言數據挖掘之道》適合從事數據挖掘、數據分析、市場研究的工作者及學生群體，以及對數據挖掘和數據分析感興趣的初級讀者。

作者簡介

宋雲生，中山大學生命科學學院碩士畢業，混跡於醫藥商業、汽車制造等多個行業，先後從事市場研究、BI（商業智能）、質量控制等多個領域的數據研究和落地應用，現主攻自然語言理解領域的實際應用。

張堅洪，華南農業大學數學與應用數學本科畢業，先後從事汽車、金融等行業，主要工作方向為數據倉庫、數據挖掘在互聯網金融領域的應用。

黎新年，中山大學生命科學學院博士畢業，主要研究方向為基因組的進化、群體演化和繫統發育。

第1章萬事不隻開頭難1
1.1 工欲善其事，必先利其器：安裝1
1.1.1 安裝R和RStudio1
1.1.2 安裝數據包3
1.1.3 數據包加載、卸載、升級，查看幫助文檔5
1.1.4 什麼樣的R包值得相信7
1.2 了解R的對像8
1.2.1 如何進行常見的算術運算8
1.2.2 R語言的三大數據類型10
1.2.3 向量及其運算12
1.2.4 因子變量鮮有人知的秘密15
1.2.5 矩陣相關運算及神奇的特征值17
1.2.6 數據框及其篩選、替換、添加、排序、去重18
1.2.7 與數組（array）相比，表單（list）的用處更加廣泛22第1章萬事不隻開頭難1
1.1 工欲善其事，必先利其器：安裝1
1.1.1 安裝R和RStudio1
1.1.2 安裝數據包3
1.1.3 數據包加載、卸載、升級，查看幫助文檔5
1.1.4 什麼樣的R包值得相信7
1.2 了解R的對像8
1.2.1 如何進行常見的算術運算8
1.2.2 R語言的三大數據類型10
1.2.3 向量及其運算12
1.2.4 因子變量鮮有人知的秘密15
1.2.5 矩陣相關運算及神奇的特征值17
1.2.6 數據框及其篩選、替換、添加、排序、去重18
1.2.7 與數組（array）相比，表單（list）的用處更加廣泛22
1.2.8 如何進行數據結構之間的轉化23
1.3 R語言的重器：函數26
1.3.1 自編函數26
1.3.2 有用的R字符串函數29
1.4 控制流在R語言裡隻是一種輔助工具31
1.4.1 判斷32
1.4.2 循環33
1.5 數據的讀入與輸出35
1.5.1 常見數據格式的輸入／輸出（CSV、TXT、RDATA、XLSX）35
1.5.2 數據庫連接：Oracle、MySQL及Hive37
1.5.3 亂碼就像馬賽克一樣讓人討厭39

第2章數據探索，招招都是利器41
2.1 不要在工作後纔認識“髒數據”41
2.1.1 以老板信服的方式處理缺失數據42
2.1.2 異常值預警48
2.1.3 字符處理正則表達式不再是天書49
2.2 數據透視、數據整形、關聯融合與批量處理50
2.2.1 還忘不掉Excel的數據透視表嗎50
2.2.2 你能給數據做整形手術嗎：long型和wide型52
2.2.3 關聯合並表54
2.2.4 數據批處理：R語言裡重要的一個函數家族：*pply55
2.3 一招完成數據探索報告58
2.4 拯救你的很多時候是基礎理論61
2.4.1 參數檢驗及非參檢驗62
2.4.2 學了很多算法卻忘了方差分析68
2.4.3 多因素方差分析及協方差作用70
2.4.4 很多熟悉的數據處理方法已經成笑話，工具箱該換了73

第3章從商務氣質的數據可視化說起84
3.1 說說數據可視化的專業素養84
3.1.1 數據可視化歷史上有多少背影等你仰望84
3.1.2 商務圖表應該具有哪些素質87
3.1.3 那些你不知道的圖表誤導性伎倆94
3.1.4 如何快速解構著名雜志的圖表98
3.2 ggplot2包：一個價值的態度103
3.2.1 一張圖學會ggplot2包的繪圖原理105
3.2.2 基礎繪圖科學：ggplot2包的主題函數繼承關繫圖（關繫網絡圖）127
3.2.3 基礎圖表一網打盡132
3.2.4 古老的地圖煥發新顏151
3.3 將靜態圖轉為D3交互圖表：plotly156
3.4 從基礎到進階的變形圖表157
3.4.1 馬賽克圖（分類變量描述性分析）157
3.4.2 Sankey圖和chordDiagram圖158

第4章分位數回歸模擬股票指數風險通道163
4.1 用線性回歸預測醫院的藥品銷售額163
4.2 多項式回歸及常見回歸方程的書寫168
4.3 Lasso回歸和回歸評價的常見指標170
4.4 分位數回歸擬合上證指數風險通道175

第5章時間序列分析181
5.1 時間序列分析：分析帶有時間屬性的數列181
5.2 不是所有序列都叫時間序列181
5.3 時間序列三件寶：趨勢、周期、隨機波動183
5.3.1 趨勢183
5.3.2 周期184
5.3.3 隨機波動186
5.4 預測分析186
5.4.1 指數平滑法186
5.4.2 ARIMA模型預測188

第6章選擇什麼算法也有一套流程192
6.1 重新審視一下這幾個模型192
6.1.1 Logistic回歸192
6.1.2 我要的不是一棵樹，而是整座森林：隨機森林195
6.1.3 神奇的神經網絡196
6.2 銀行信用卡評估模型之變量篩選197
6.2.1 變量構建197
6.2.2 Logistic回歸變量篩選198
6.2.3 隨機森林變量篩選203
6.2.4 人工神經網絡建模204
6.3 必須面對的模型評估204

第7章深入淺出十大算法208
7.1 C5.0算法208
7.1.1 一個重要的概念：信息熵208
7.1.2 非列變量選擇的實例209
7.1.3 C5.0算法的R實現210
7.2 K-means算法212
7.2.1 K-means算法的R實現212
7.2.2 怎麼確定聚類數213
7.3 支持向量機（SVM）算法213
7.3.1 通俗理解SVM214
7.3.2 SVM的R實現216
7.4 Apriori算法216
7.4.1 舉例說明Apriori217
7.4.2 Apriori算法的R實現219
7.5 EM算法220
7.5.1 舉例說明EM算法221
7.5.2 EM算法的R實現222
7.6 PageRank算法223
7.7 AdaBoost算法224
7.8 KNN算法與K-means算法有什麼不同226
7.9 Naive Bayes（樸素貝葉斯）算法227
7.10 CART算法228

第8章數據抓取231
8.1 數據挖掘工程師不可抱怨“巧婦難為無米之炊”231
8.2 抓取股市龍虎榜數據，踫踫運氣232
8.2.1 了解XML和Html樹狀結構，纔能庖丁解牛233
8.2.2 了解RCurl包和網頁解析函數234
8.2.3 抓取股票龍虎榜235
8.2.4 資金流入分析237
8.3 抓取某家醫藥信息網站全站藥品銷售數據240
8.3.1 所有醫藥公司名稱一網打盡240
8.3.2 為什麼抓取數據時可以使用For循環242
8.3.3 不要把代碼寫復雜244
8.3.4 用Sankey數據流描繪醫藥市場份額流動248

第9章不可不說的社交網絡關繫254
9.1 社交網絡圖254
9.1.1 社交網絡圖告訴你和誰交朋友254
9.1.2 這幾個基本概念你需要抓牢256
9.1.3 還有比本章任務更有趣的數據挖掘嗎259
9.2 你還要裝備幾個評價指標260
9.2.1 社交網絡大小260
9.2.2 社交網絡關繫的完備性261
9.2.3 節點實力評價262
9.3 全球某貨物貿易中的親密關繫263
9.3.1 全球某貨物貿易數據整合清洗263
9.3.2 分組和社交網絡中心267
9.3.3 全球某貨物交易圈：尋找各自的小伙伴270
9.4 中國電影演藝圈到底有沒有“圈”276
9.4.1 數據清洗與整形276
9.4.2 看看演藝圈長什麼樣279
9.4.3 誰纔是演藝圈的“關繫戶”281
9.4.4 用Apriori算法查查演藝圈合作的“朋友”關繫283
9.4.5 給推薦合作伙伴284

第10章情感分析：一種準確率高達90%的新方法？287
10.1 情感分析及其應用：這是老生常談287
10.1.1 情感分析的用途287
10.1.2 情感分析的方法論288
10.1.3 有關情感分析的一些知識和方向289
10.2 文本分析的基本武器：R290
10.2.1 RJava包配置290
10.2.2 Rwordseg包安裝291
10.2.3 jieba分詞包安裝291
10.3 基於詞典的情感分析的效果好過瞎猜嗎292
10.3.1 數據整理及詞典構建292
10.3.2 分詞整理297
10.3.3 情感指數計算299
10.3.4 方法評價：優、缺點分析300
10.4 監督式情感分析：挑選訓練數據集是所有人心中的痛301
10.4.1 TFIDF指標301
10.4.2 構建語料庫302
10.4.3 隨機森林模型304
10.4.4 算法評估：隨機森林應該建多少棵樹308
10.5 一種準確率高達90%的新方法316
10.5.1 拿來主義的啟示316
10.5.2 情感詞典和規則構建317
10.5.3 樸素貝葉斯情感分析器329
10.5.4 支持向量機（SVM）、決策樹等情感分析器330
10.5.5 如何選擇支持SVM的核函數339
10.5.6 情感分類器方法評價343
10.6 談談情感分析的下一步思考344

第11章話題模型：很多牛人過不去的坎兒346
11.1 話題模型與文案文本集346
11.1.1 任務仍然是以處理dirty data 開始347
11.1.2 數據清洗348
11.2 話題模型中幾個重要的數據處理步驟350
11.2.1 中文分詞350
11.2.2 數據整型352
11.2.3 怎樣設定“閾值”353
11.3 上帝有多少個色子：話題數量估計356
11.3.1 通俗地說一遍話題模型356
11.3.2 主題數估計與交叉檢驗357
11.3.3 如何使用復雜度、對數似然值確定主題數362
11.4 LDA話題模型竟然能輸出這麼多關繫368
11.4.1 輸出主題——詞彙及其概率矩陣368
11.4.2 輸出主題——文檔歸屬及其概率矩陣369
11.5 話題之間也有社交（衍生）關繫嗎370
11.6 話題模型的幾個強大衍生品372
11.6.1 話題模型提取特征詞372
11.6.2 三種方法確定聚類的類數和文本層次聚類373
11.6.3 漂亮的文本聚類樹和批量繪制大類詞雲圖375

第12章排名就是簡單的推薦繫統嗎？378
12.1 全球宜居城市綜合實力排行378
12.1.1 綜合實力排行：專家法VS數據驅動法379
12.1.2 怎麼比較兩個排名結果382
12.2 協同過濾推薦繫統383
12.2.1 基於商品的協同過濾繫統（ItemCF）386
12.2.2 基於用戶的繫統過濾繫統（UserCF）388
12.2.3 推薦繫統效果評比390

第13章生物信息學中的數據挖掘案例392
13.1 生物信息學與R語言392
13.2 生物信息學中常用的軟件包392
13.2.1 軟件包簡介392
13.2.2 數據表示方式——對像類（class）393
13.2.3 生物信息學R包簡介：Bioconductor和CRAN393
13.2.4 ape包394
13.2.5 讀懂你的對像404
13.2.6 修改工具包中的函數以適應新情況407

第14章產品化：關於內存、速度和自動化411
14.1 不同終端調用、自動化執行R腳本及參數傳遞411
14.2 與速度、內存、並行相關的程序優化414

前言

前言
什麼是規範化的數據挖掘流程

人總是被自己日常從事的工作所蒙蔽雙眼，看不到事態發展的整體面貌，為了手裡的工作而工作，這就是所謂的迷失吧。一個數據挖掘項目不僅僅是數據挖掘工程師手中的一部分工作（雖然它是工作的核心），作為一個力求向上的人，要跳出來看看項目的全貌。隻有對項目全程有了足夠的了解，纔能更加有效地使用數據挖掘、機器學習、數據分析的工具。前言
什麼是規範化的數據挖掘流程

人總是被自己日常從事的工作所蒙蔽雙眼，看不到事態發展的整體面貌，為了手裡的工作而工作，這就是所謂的迷失吧。一個數據挖掘項目不僅僅是數據挖掘工程師手中的一部分工作（雖然它是工作的核心），作為一個力求向上的人，要跳出來看看項目的全貌。隻有對項目全程有了足夠的了解，纔能更加有效地使用數據挖掘、機器學習、數據分析的工具。
數據挖掘項目一般可以分為問題邊界、清洗整理、數據探索、算法評估、結果提升、結果報告、繫統集成和繫統測試8個主要的模塊。一般而言，可以盡量將這些模塊合並，但無論怎麼合並，它們在項目中都是不可或缺的（當然，有些項目並沒有其中某些模塊的需求，比如市場研究項目，它們可能就不需要繫統集成）。從右圖中可以看到數據清洗、數據探索、算法評估占據了項目的大部分時間，這也說明它們是項目的核心內容，缺了這3項，就不能再稱為是數據挖掘項目了。
數據挖掘項目流程如下圖所示。

問題邊界
問題邊界一般是項目的開頭部分，可以分為4點。首先要和業務部門細致溝通，從業務背景中提煉出對業務問題的描述，限定項目要解決的問題，便於組織力量集中對這些問題設計解決方案。然後根據解決構想將業務問題轉換為數據語言，限定將要使用的數據界限，搞清楚要牽涉哪些數據。之後為了吸引業務部門必須整理出業務效用，告訴業務部門如果解決這些問題能夠得到哪些改善，完成業務部門哪些具體目標。後要將以上問題整理成一個可行的解決方案。很多人忽略了這個階段，其後果就是業務部門覺得挖掘出來的結果不是他們想要的，或者節外生枝補充各種相關的或不相關的業務問題，終扭曲了項目本身，使工作反復無常。所以，在項目實施之前，非常仔細地溝通並制定一個完善的問題邊界非常重要。

清洗整理
清洗整理是數據挖掘工程師非常熟悉的工作，但是，很少有人認識到這是項目中花費時間多的部分，很多人會以為算法評估部分纔會花費多的時間。其實不然，如果數據清洗進行得不順利，則將直接影響後面的工作和模型的效果。首先要設計暢通、高效的數據抽取程序，將數據從各種數據平臺抽取出來供數據挖掘工具使用，然後進行數據清洗，將數據轉化為數據挖掘工具便於處理的對像類型（在R裡指list、data.frame、arrary等），再進行質量清洗，包括處理缺失值、異常值、其他污點（在文本挖掘中多如牛毛）等。之後要對數據整形，包括一些統計變化，例如中心化、標準化、降維等，更重要的是數據形狀的變化。
還有一項就是數據抽樣，面對大數據，在數據處理階段就要進行抽樣，不能因為要清洗一個點就清洗全量的數據，那樣會花費大量的時間。不如抽取小樣本進行測試，等進行完數據清洗程序後，再進行全量數據的整體清理，這樣反而更加省時省事，這裡的樣本量需要盡量保證抽到足夠多的問題數據，同時要讓程序運行起來非常輕松、高效。

數據探索
數據探索要完成兩個目標：變量轉換和變量篩選。其中變量轉換既包括變量的重新計算變形，也包括概念變量的構建，比如，在客戶流失預警項目中要定義什麼樣的客戶是流失客戶，就會產生出一個新的變量。如果這個變量的定義不能用業務進行合理解釋，那麼下面的工作就是“瞎子點燈白費油”了。有些變量不僅不會對模型產生正向的影響，而且除了影響速度，還會降低模型的效果。顯然進行變量篩選就非常重要了。谷歌預測流感模型篩選變量足以證明數據探索多麼重要，而且在大數據環境下，數據探索已不再是一件輕而易舉就能完成的事情了。

算法評估
算法評估是數據挖掘項目的靈魂。算法評估首先要求我們充分了解算法或模型的參數意義，然後需要預留測試數據集。模型評估不是僅僅比較模型結果的準確性是否存在差異（別忘了統計學教導我們比較差異時要判斷差異的顯著水平），所以，模型比較是對不同模型準確性均值的比較。算法篩選完成後，工作就告一段落了，這時要和業務部門一起對結果進行業務解釋，不能進行業務解釋的數據挖掘結果就是為了數據挖掘而數據挖掘，這顯然就是迷失在了項目中，遺忘了項目要解決的問題邊界。後要對結果進行完整的評估報告。評估報告是必需的，因為除了將它給領導看，更重要的是它能幫助你總結發現這個過程中可以改善的節點。

結果提升
首先要判斷是否需要調整算法或模型，包括更換算法或調整參數。如果模型調整沒有必要，那麼就要考慮使用模型融合提高模型效率。模型融合的方法包括裝袋（Bagging）和提升（Boosting）等，有些方式可能用業務解釋起來比較困難，這也是數據挖掘工程師要考慮的問題之一，顯然，有些問題選擇可解釋模型比較好。在項目中對一些情況好另做處理。

結果報告
“丑媳婦也要見公婆，”分析結果報告終要給業務部門的同事學習，教他們如何使用數據挖掘的結果進行業務分析和部署，其中主要成果要突出，吸引他們的眼球，一定要聯繫業務具體的困境或具體的業務情景，即所謂的對癥下藥。規律和結果必須通過易讀的方式傳達給受眾，充滿技巧的數據可視化是不二之選，將美妙的可視化圖表嵌入具體的應用情景中進行宣講，往往能達到事半功倍的效果，因此，在此處無論多麼努力都不為過。SWOT分析是業務部門喜歡的分析方式，我們當然不能放過，以對方熟悉的方式表達自己的訴求，是交流的法寶。
模塊固化這一步工作的快慢取決於之前的工作，如果之前已經考慮到後面要進行模塊固化，那麼就會將代碼寫得比較規範、注釋良好，這種情況下就很容易將數據清洗、數據整形、變量轉換、模型構建、結果輸出等模塊的內容固定下來，成為一個數據有進口及有出口的腳本文件。

繫統集成
將固化下來的模塊按照一定的秩序集成在一起，就成為一個分析的腳本體繫。在這個體繫中，有輸入就有產出，中間不需要人工干預，是一個有序的自動化腳本體繫。這一步考驗數據挖掘工程師對每一步任務的理解。良好的模塊集成可以提升整個繫統的速度，減少後期維護的時間和次數。

模塊集成後要與其他繫統集成在一起，首先要和數據平臺（數據庫、Hive、Hadoop）對接，為分析模塊提供數據來源和存儲分析結果，同時要和前臺展示對接，將結果可視化，讓結果真正接觸受眾，即所謂的為決策者提供支持。
繫統測試

這麼一個“五髒俱全”的繫統需要維護在所難免，總有一些情況會導致數據分析模塊宕機，所以，代碼一定要寫得盡量規範，注釋要盡量清晰，否則在維護時會有一種再造繫統的感覺。關於規範請參看Google＇s R Style Guide。

序言
提綱挈領式心訣：一名數據挖掘工程師的成長之路

我的學習之路
不知不覺畢業兩年多了，有一些大音如霜工作室的讀者總想了解一下我是怎麼學習數據挖掘、數據分析的，下面就綜合大家常見的問題分享一下自己的經歷、經驗。

我不是學數學的，也不是學計算機的，研究生的專業是植物學，而且方向是植物分類，可以說很難和數據挖掘、市場研究等領域扯上關繫。能扯上關繫的也就是我的舍友是做生物信息學研究的。
說

一句丟人的話，在讀本科時上的SPSS課我都不知道在講什麼。那時沒考過計算機等級考試，原因是我每分鐘打漢字的速度都不過關，講這麼多，隻是為了告訴讀者，我的基礎並不扎實。

需要說明的是，我的英語還不錯，在大一和大二分別通過了英語四、六級考試（而其他科目則學得比較一般，因為我每學期隻有一兩個主要學習目標），在大四我讀了很多英文文獻。因為在讀研究生期間需要查閱大量文獻，我需要給這些文章建立一個數據庫，於是年少無知的我就選擇了Access。選擇Access的原因並不是我比較熟悉它，而是我的老師用它，我至今也不會太多的操作。這應該算是我開始接觸數據分析了。
使用高級語言時，記不住函數不要緊，但是你要有很強的搜索能力。
之所以講這一段經歷，不是為了說明我起步晚，而是為了說明建立Access文獻數據庫鍛煉了我的英文搜索能力。我一踫到問題，就在Google裡搜索，很快就能找到答案。於是Google幾乎成了我的眼睛，真正做到了用Google搜索、發郵件、社交、閱讀和寫作。在公司裡曾經傳說，如果是連我都搜不到的內容，那麼別人更不可能搜到。有些年輕人就怕英文，我並不是崇洋媚外，客觀地想一想，現在的很多知識都是從歐美起源的，如果你連這門世界語言都不掌握，那麼你獲得的資料永遠都是二手資料。另外，無論你是找函數還是找包、模塊，抑或是為問題尋找答案，使用Google進行英文搜索會為你很多時間。掌握這門語言並不需要你聽、說、讀、寫樣樣精通，而是將其作為一種工具，應用起來比較方便就可以了。

要善用英文搜索，原因很簡單，你所用的編程語言或軟件大多是外國人構建的，並且在國外已經普及，相關的問答社區早已完善，你踫到的問題可能早就有人解決了。

在搜索文獻的過程中，我喜歡上了《經濟學人》的Graphic Details欄目，發現其繪制的圖表非常漂亮、專業，於是我就開始學習Excel，盡自己所能將Excel圖表做得更漂亮、更專業，這些經歷為我日後做數據可視化打下了堅實的基礎：我知道了商務色彩搭配及圖表要簡潔、易讀等原則，我知道怎麼使自己的圖表特色鮮明。後來看了大前研一先生的著作，了解了專業精神，我曾經寫下這樣一句話，以勉勵自己：
所謂專業，即每一個細節都經得起推敲。

有一天，舍友看到我用Excel作圖，嘲笑我孤陋寡聞，推薦我學習R語言，然後我就開始搜尋一些R語言入門讀物進行閱讀，慢慢地知道了關於這門語言的粗淺知識。

這個時候已經到研二下半學期了，我需要為自己未來的工作做打算了：是步入園林行業還是就此轉行？必須做一個決斷。我發現自己真的對植物分類不感興趣，而我做家教的學生的媽媽是星空傳媒的一個經理，平時待我很好，她說畢業可以介紹我去做市場研究。我了解了一下市場研究，發現其中涉及一些數據分析的內容（現在看起來很簡單），於是，我從此決定踏上數據分析這條“不歸路”。

為了快速上手、熟悉統計學知識，我並沒有馬上深入地學習R語言，而是像以往一樣懶懶散散地學習（後悔當時沒有實戰學習）。我通過搜索發現，市場研究的崗位大多將熟練使用SPSS作為硬性要求，偶爾也會要求熟悉R語言，但SPSS對我來說更容易上手，於是就開始學習SPSS。SPSS幫助我鞏固了統計學知識，當學習完簡單的統計學知識後，我發現SPSS不夠靈活，很多功能不夠用，做出的圖表很難看（這對於我來說是無法忍受的），因此，網絡上有一些人鄙視SPSS，但很推崇R語言。於是我決定要深入地學習R語言。我先將SPSS的功能在R中做了一遍，有了一些自己的理解後，我開始在自己的論文裡做一些數據分析的內容。

現在想來，如果我直接在實戰中學習可能會更多的時間。

實戰更能鍛煉技能水平。

研二快結束了，開始找工作了。我找工作的目的很明確，如果工作不是做數據分析、數據研究的，那麼我寧願放棄這個工作的機會。非數據研究的崗位我也不去面試，這樣又省下了大量的時間學習。

在工作中學習

2013年畢業後，我去了一家醫藥市場研究公司，當時的工作並不太忙，我有大量的時間學習。但這時也暴露了我的弱點，公司的數據並不是很規整（raw data）的，往往需要標準化等，而且數據規模也不再是之前練習時那麼小，在面對這些髒數據、大一點的數據時，我的數據清洗水平顯得捉襟見肘。周圍的人都是Excel高手，如果跟著他們學，估計也能成為高手，但是我一定要在R中做數據清洗整理，反正公司的工作不是很多，我就一點點地學習和積累，這樣我的數據處理能力就逐漸扎實起來了。其間我用兩天讀完了《異類》這本書，感觸很深，閱讀經歷已經寫成一篇文章在我們的公眾號裡分享了。

任何一個工具在剛開始學習時都會覺得它很糟糕，其實這並不是工具的問題，而是自己的知識體繫跟不上節奏，或者是它的很多方法與自己原有的認知相反，這時不要急於否定它，而是要深入地學習它。知識體繫是一個積累過程，為自己準備一萬個小時計劃吧。

我們公司當時在做BI（商業智能），於是我接觸了市面上常見的BI工具，包括Tableau、QV等，我熟悉它們的優、劣勢，也熟悉它們的數據可視化效果。因為需要將R語言的頁面融入BI中，所以我熟悉了shiny包，做了一些頁面，但我漸漸看到R語言在做這些通用語言的工作時所暴露的缺點，於是開始接觸Python。

後來，我們的合作公司的總經理聽說我比較熟悉R語言，就向我請教，我們一起討論了R語言和數據挖掘。得知他們在做文本挖掘，於是在我閑暇時間開始學習中文文本挖掘的內容。沒有成型的數據和書，我就看帖子，去一個個地實現，然後積累經驗，這時我對R的操作算得上非常熟練了，從實現到速度優化（並行計算等）等也已經非常熟練，積累的代碼也非常多了。

後來，那個經理找我做醫院處方數據挖掘工作，之後，他請我去負責法院文本數據挖掘，我沒去，但成了他們的外援，仍然沒收過錢，他們搭建的一臺服務器也幫助我了解了不少Linux的知識。

剛開始，鍛煉自己的機會遠遠比錢重要，反正自己閑著也是閑著，但是這種情況隻適用於剛開始。

後來，我們公司推出了微信公眾號平臺，我開始給公司的公眾號寫文章。其間我為公司的公眾號寫了多篇關於綜合排名的文章，閱讀量達到4萬多人次，當時公眾號的粉絲纔2 000人左右。後來我又制作了評價醫院市場趨勢的綜合指標體繫，現在公司也一直在沿用這套指標，這些工作中的小點子都是我在公交車上想出來的。

除要把工作當成一種謀生手段外，還必須有極大的興趣，要麼不做，要麼做好。

另外，我在公交車上讀完了Data Mining with R learning by case studies、Machine Learning for Hackers、R Graphics Cookbook等書籍，之所以提這三本書，是因為我不止讀過一遍，這三本書很有特色，本幫助我學習了各種算法，第二本幫助我接觸了實際應用中的知識，第三本幫我熟練了ggplot的函數素結構。我開始學會利用零散的時間，堅持積累，也開始學習高度自律。

古之成大事者，不唯有超世之纔，亦必有堅韌不撥之志。

——蘇軾

其實，我一直幻想著有一個自己想寫什麼就寫什麼的平臺，於是，我和小伙伴們開通了微信公眾號，直到現在，我們更注重文章的可讀性、趣味性，而不僅僅是技術，但是每一篇文章都可以作為一個小項目讓希望學習數據分析的讀者能鍛煉一下自己的技能。

經常有讀者問學數據分析就一定要學編程嗎？以及為什麼要看英文資料？針對這兩個問題，我寫下了這樣一段對話，希望你能在對話中找到答案。

為什麼學習數據分析？

賺錢！

什麼樣的人容易賺錢？

技能比別人高的！

英語是不是一般人的難關？是不是大家都想學習傻瓜式操作軟件？

是！

那麼如果大家都這麼想，你應該怎麼做？

很明顯，你要做其他人不願意做的事情，纔能賺到別人不能賺的錢！

作為數據分析師，一定要將自己和技術區分開，分析數據、挖掘數據本質上是探尋數據背後的人心，挖掘人們的欲望、需求、態度等，所以數據分析師還要盡量拓寬自己的視野和知識結構，盡自己所能博覽群書。

我的經歷大體如此，中間會有各種迷茫、各種蒼白無力，但是如果你缺少什麼，就去搜集資料，做出判斷，努力去爭取，這一點總不會錯，千萬不要一味地否定你不了解的東西，這也是我對待未知領域的態度。

作為一名技術人員，要讓自己的知識時刻在進步！這是一種宿命。

商品搜索

商品分类

【醫學】

【各大出版社】

在工作中學習