了得網計算機/網絡_IBM SPSS Modeler數據與文本挖掘實戰

編輯推薦

本書是完全來自於實踐的Modeler數據分析與挖掘的實戰型著作；

全書通過15個行業應用案例，介紹Modeler在數據分析與挖掘領域中的應用；

本書是作者在行業工作中的經驗分享，因此所涉及到的案例具體很強的實用性，可以用來解決你在商業應用中的實際問題。

內容簡介

《IBM SPSS Modeler數據與挖掘實戰》一書書主要包括兩部分內容：在數據挖掘部分，重點介紹了各種數據挖掘方法的基本原理及應用，包括回歸分析、時間序列分析、因子分析、決策樹分析、判別分析、聚類分析、人工神經網絡、貝葉斯網絡以及社交網絡分析等；在文本挖掘部分，重點介紹了文本挖掘的節點，以及具體的實現過程。每一章都詳細介紹了數據和文本挖掘的基本原理和分析過程，同時在實例中也介紹了SPSS Modeler中大部分節點的使用方法及應用步驟。

本書提供了15個來自行業應用中的案例，旨在通過繫統的工作案例使讀者能夠掌握應用技巧的同時，卓有成效地提升解決實際問題的能力。

本書對於高校理工學科、經濟金融學科及數量分析方面的學生，以及數據挖掘和分析方面的研究人員和從業人員等，具有很強的可讀性、可操作性與可使用性，尤其適合商業銷售、經濟管理、社會研究和人文教育等行業的相關人員閱讀。

作者簡介

王國平，畢業於上海海洋大學，碩士，就職於上海大智慧股份有限公司，從事金融數據研究、金融產品設計工作，有多年的數據挖掘與分析以及行業案例實踐經驗。本書是首本著作，是在實踐工作中的經驗分享。

第1部分 數據挖掘篇
第1章 數據挖掘概述
  1.1 什麼是數據挖掘
    1.1.1 數據挖掘的定義
    1.1.2 數據挖掘的發展階段
    1.1.3 數據挖掘的技術特征
  1.2 與傳統技術的比較
    1.2.1 數據挖掘和統計分析
    1.2.2 數據挖掘和數據倉庫
    1.2.3 數據挖掘和OLAP
    1.2.4 數據挖掘和Web挖掘
  1.3 常用的數據挖掘軟件
    1.3.1 SAS EM
    1.3.2 SPSS Modeler
    1.3.3 Intelligent Miner
  1.4 應用實例：目標客戶分析
    1.4.1 研究方法
    1.4.2 數據分析
    1.4.3 研究結論
第2章 SPSS Modeler軟件概述
  2.1 軟件簡介
    2.1.1 軟件發展
    2.1.2 軟件界面
    2.1.3 軟件特點
    2.1.4 軟件功能
    2.1.5 軟件算法
    2.1.6 高級功能
    2.1.7 軟件安裝
  2.2 行業應用
    2.2.1 通信行業
    2.2.2 政府行業
    2.2.3 金融行業
    2.2.4 制造行業
    2.2.5 醫藥行業
    2.2.6 教育科研
    2.2.7 市場調研
    2.2.8 連鎖零售
  2.3 數據挖掘流程
    2.3.1 業務理解
    2.3.2 數據理解
    2.3.3 數據準備
    2.3.4 建立模型
    2.3.5 評估模型
    2.3.6 應用模型
  2.4 應用實例：藥物效果研究
    2.4.1 研究方法
    2.4.2 數據分析
    2.4.3 研究結論
第3章 SPSS Modeler基礎操作
  3.1 數據輸入
    3.1.1 數據庫
    3.1.2 可變文件
    3.1.3 固定文件
    3.1.4 SAS文件
    3.1.5 Statistics文件
    3.1.6 Excel文件
  3.2 數據流操作
    3.2.1 生成數據流
    3.2.2 添加和刪除節點
    3.2.3 連接數據流
    3.2.4 修改連接節點
    3.2.5 執行數據流
  3.3 圖形制作
    3.3.1 散點圖
    3.3.2 直方圖
    3.3.3 網絡圖
    3.3.4 評估圖
  3.4 應用實例：產品銷售預測
    3.4.1 研究方法
    3.4.2 數據分析
    3.4.3 研究結論
第4章 回歸分析
第5章 時間序列
第6章 因子分析
第7章 決策樹
第8章 判別分析
第9章 聚類分析
第10章 關聯分析
第11章 人工神經網絡
第12章 貝葉斯網絡
第13章 社交網絡分析
第2部分 文本挖掘篇
第14章 文本挖掘概述
第15章 文本挖掘算法
第16章 SPSS Modeler文本挖掘概述
第17章 SPSS Modeler文本挖掘節點
第18章 SPSS Modeler文本挖掘實例
附錄A 配置SQL Server ODBC數據源
參考文獻

前言

數據挖掘是一個逐步演進的過程，在電子數據處理的初期，人們就試圖通過某些方法來實現自動決策支持，當時機器學習正成為人們關注的焦點，機器學習的過程就是將一些已知的並已被成功解決的問題作為範例輸入計算機，相應的軟件通過學習這些範例總結並生成相應的規則，通常這些規則具有通用性，使用它們可以快速解決某一類的實際問題。隨著神經網絡技術的形成和發展，人們將注意力轉向知識工程，知識工程不同於機器學習（向計算機輸入範例，讓它生成規則），而是直接給計算機輸入已被代碼化的規則，計算機通過使用這些規則來解決某些問題。
上個世紀80年代人們又在新的神經網絡理論的指導下，重新將注意力轉回到機器學習的方法上，並將其成果應用於處理大型商業數據庫。隨著新術語——知識發現（簡稱KDD，即Knowledge Discovery in Database）逐漸被人們所接受，並用KDD來描述整個數據挖掘的過程，包括開始的制定業務目標到終的結果分析，利用數據挖掘（Data Mining）來描述使用挖掘算法進行數據挖掘的子過程，在這一過程中，數據挖掘工具的選擇變得越來越重要。

數據挖掘是一個逐步演進的過程，在電子數據處理的初期，人們就試圖通過某些方法來實現自動決策支持，當時機器學習正成為人們關注的焦點，機器學習的過程就是將一些已知的並已被成功解決的問題作為範例輸入計算機，相應的軟件通過學習這些範例總結並生成相應的規則，通常這些規則具有通用性，使用它們可以快速解決某一類的實際問題。隨著神經網絡技術的形成和發展，人們將注意力轉向知識工程，知識工程不同於機器學習（向計算機輸入範例，讓它生成規則），而是直接給計算機輸入已被代碼化的規則，計算機通過使用這些規則來解決某些問題。

上個世紀80年代人們又在新的神經網絡理論的指導下，重新將注意力轉回到機器學習的方法上，並將其成果應用於處理大型商業數據庫。隨著新術語——知識發現（簡稱KDD，即Knowledge Discovery in Database）逐漸被人們所接受，並用KDD來描述整個數據挖掘的過程，包括開始的制定業務目標到終的結果分析，利用數據挖掘（Data Mining）來描述使用挖掘算法進行數據挖掘的子過程，在這一過程中，數據挖掘工具的選擇變得越來越重要。

IBM SPSS Modeler強大的數據挖掘功能將復雜的統計方法和機器學習技術應用到數據當中，幫助客戶揭示了隱藏在交易繫統、企業資源計劃、結構數據庫和普通文件中的模式和趨勢，讓客戶始終站在行業發展的前端，IBM公司於2009年收購了SPSS數據分析軟件公司，並將其和Clementine數據挖掘軟件進行整合，且將Clementine更名為IBM SPSS Modeler，再次推向全球市場，本書介紹的是15.0版本，也是目前的版本。

作為一個數據挖掘平臺，Modeler結合商業技術可以快速建立預測性模型，進而應用到商業活動中，幫助人們改進決策過程。同那些僅僅著重於模型的外在表現而忽略了數據挖掘在整個業務流程中應用價值的其他數據挖掘工具相比，Modeler功能強大的數據挖掘算法，使數據挖掘貫穿於業務流程的始終，在縮短投資回報周期的同時極大地提高了投資回報率。

本書的主要優勢：

目前，市場上大多數的SPSS Modeler圖書基本上還是按照較早版本的Clementine編寫，而且大多是理論性的介紹，沒有結合具體的案例進行深入分析。

理論部分：解決案例所涉及的理論知識和算法，SPSS Modeler 作為數據挖掘的工具畢竟不是智能化的，需要了解工具的內在理論和邏輯，纔能更有效地進行數據挖掘。

案例分析：使用數據挖掘理論對案例進行分析，找出解決問題的技術路線，幫助讀者從解決問題的角度進行思考。

本書面向的讀者：

本書由數據挖掘與分析研究人員編寫，書中實例都具有很高的參考價值。本書對於高校理工學科、經濟金融學科及數量分析方面的學生，以及數據挖掘和分析方面的研究人員和從業人員等，具有很強的可讀性、可操作性與可使用性，尤其適合商業銷售、經濟管理、社會研究和人文教育等行業的相關人員閱讀。

本書提供資源文件下載，下載地址：。

致謝：

本書是編者近年來使用SPSS Modeler的經驗彙總與提煉，在寫作過程中，得到了編者領導、同事、老師、同學以及朋友的幫助，借本書出版之際，向他們表示誠摯的感謝！

後還要特別感謝清華大學出版社的支持，以及各位編輯熱情細致的工作。由於作者水平有限，書中難免會出現不足和錯誤，敬請廣大讀者批評與指正。

編者

2014年9月於上海

在線試讀

8.1.2模型應用
判別分析技術曾經在許多領域得到成功的應用，例如在醫學實踐中根據各種化驗結果、疾病癥狀、體征判斷患者患的是什麼疾病；在體育選材中，根據運動員的體形、運動成績、生理指標、心理素質指標、遺傳因素判斷是否選入運動隊繼續培養；還有動物/植物分類、兒童心理測驗、地理區域的經濟差異、決策行為預測等。
在市場調研中，一般根據事先確定的因變量（例如產品的主要用戶、普通用戶和非用戶；自有房屋或租賃；電視觀眾和非電視觀眾）找出相應處理的區別特性。在判別分析中，因變量為類別數據，有多少類別就有多少類別處理組；自變量通常為可度量數據。通過判別分析，可以建立能夠限度地區分因變量類別的函數，考查自變量的組間差異是否顯著，判斷哪些自變量對組間差異貢獻，評估分類的程度，根據自變量的值將樣本歸類。
8.1.3建模步驟
判別分析的本質是要建立一個可靠的判別函數。判別函數一般為基於分類數據各變量的線性組合函數，將每一個觀測的各變量數據代入判別函數得到函數值，根據函數值的大小，按照判別準則實現對樣品的分類，而不同判別分析的差異主要在於判別函數的構建和樣本分類時判別準則的差異。
1.對已知分組屬性案例的處理
此過程為判別分析的階段，也是建立判別分析基本模型的階段，即分析和解釋各組指標特征之間的差異，並建立判別函數。
2.對未知分組屬性案例的處理
此階段為判別分析的第二階段，它是以階段的分析結果為依據對未知分組屬性的案例進行判別分組。確定一個案例屬於哪一類，可以把該觀測量的各變量值代入每個線性判別函數，哪個判別函數值大，則該案例就屬於哪一類。
8.1.4注意事項
判別分析的基本條件是：分組變量必須大於或等於2，每組案例的規模必須至少在一個以上；各判別變量的測度水平必須在間距測度等級以上，即各判別變量的數據必須為等距或等比數據；各分組的案例在各判別變量的數值上能夠體現差別。
判別分析的基本條件：分組類型在兩組以上，解釋變量必須是可測的。
每個解釋變量不能是其他解釋變量的線性組合（例如出現多重共線性情況時，判別權重會出現問題）。

8.1.2模型應用

判別分析技術曾經在許多領域得到成功的應用，例如在醫學實踐中根據各種化驗結果、疾病癥狀、體征判斷患者患的是什麼疾病；在體育選材中，根據運動員的體形、運動成績、生理指標、心理素質指標、遺傳因素判斷是否選入運動隊繼續培養；還有動物/植物分類、兒童心理測驗、地理區域的經濟差異、決策行為預測等。

在市場調研中，一般根據事先確定的因變量（例如產品的主要用戶、普通用戶和非用戶；自有房屋或租賃；電視觀眾和非電視觀眾）找出相應處理的區別特性。在判別分析中，因變量為類別數據，有多少類別就有多少類別處理組；自變量通常為可度量數據。通過判別分析，可以建立能夠限度地區分因變量類別的函數，考查自變量的組間差異是否顯著，判斷哪些自變量對組間差異貢獻，評估分類的程度，根據自變量的值將樣本歸類。

8.1.3建模步驟

判別分析的本質是要建立一個可靠的判別函數。判別函數一般為基於分類數據各變量的線性組合函數，將每一個觀測的各變量數據代入判別函數得到函數值，根據函數值的大小，按照判別準則實現對樣品的分類，而不同判別分析的差異主要在於判別函數的構建和樣本分類時判別準則的差異。

1.對已知分組屬性案例的處理

此過程為判別分析的階段，也是建立判別分析基本模型的階段，即分析和解釋各組指標特征之間的差異，並建立判別函數。

2.對未知分組屬性案例的處理

此階段為判別分析的第二階段，它是以階段的分析結果為依據對未知分組屬性的案例進行判別分組。確定一個案例屬於哪一類，可以把該觀測量的各變量值代入每個線性判別函數，哪個判別函數值大，則該案例就屬於哪一類。

8.1.4注意事項

判別分析的基本條件是：分組變量必須大於或等於2，每組案例的規模必須至少在一個以上；各判別變量的測度水平必須在間距測度等級以上，即各判別變量的數據必須為等距或等比數據；各分組的案例在各判別變量的數值上能夠體現差別。

判別分析的基本條件：分組類型在兩組以上，解釋變量必須是可測的。

每個解釋變量不能是其他解釋變量的線性組合（例如出現多重共線性情況時，判別權重會出現問題）。

各解釋變量之間正態分布（不符合時，可使用Logistic回歸替代），且各組解釋變量的協方差矩陣相等（當各組協方差矩陣有顯著差異時，判別函數不相同）。

判別分析對判別變量有三個基本假設：其一是每一個判別變量不能是其他判別變量的線性組合，否則將無法估計判別函數，或者雖然能夠求解但參數估計的標準誤很大，以致於參數估計的統計性不顯著；其二是各組案例的協方差矩陣相等，在此條件下，可以使用很簡單的公式來計算判別函數和進行顯著性檢驗；其三是各判別變量之間正態分布，即每個變量對於所有其他變量的固定值有正態分布。

8.2應用實例：電信客戶群判別分析

客戶群分析是進行客戶活動和銷售的基礎。根據客戶和經銷商的采購潛力，客戶可以被分成大型、中型和小型客戶（經銷商/區域）。根據自己公司在這個客戶（經銷商/區域）中的份額，市場份額低於10%的客戶（經銷商/區域）處於增長區，市場份額介於10%~30%之間的客戶（經銷商/區域）處於發展區，份額大約30%的客戶（經銷商/區域）處於鞏固區，因此所有的客戶和經銷商被分成了9類，對處於不同區域的客戶（經銷商/區域）應該采取不同的銷售策略。對於消費品市場，還可以在客戶分析表中填入經銷商的名字或者銷售區域來分析銷售區域或者經銷商。

根據客戶群分析，銷售團隊可以制定正確的銷售策略。

處於增長區的客戶往往很少使用自己公司的產品，這時銷售團隊的銷售重點應是對客戶的宣傳和介紹，銷售方式包括各種廣告、新聞發布會、展覽會。

對於處於發展區的客戶，銷售團隊的重點是深入了解客戶需求並建立互信的關繫，銷售方式包括拜訪、在客戶現場的技術交流、重要客戶的參觀和考察、提供測試環境和樣品等。

鞏固區的客戶已經大量使用了自己的產品，這時重要的是提高他們的滿意程度，幫助客戶解決使用過程中的難題是確保客戶滿意的步，這是一個繫統的工程，銷售團隊往往扮演協調者的角色，使用公司的資源來提高客戶的滿意程度。

在本案例中，我們剛開始進入市場的時候，客戶都處於增長區，銷售策略是通過大型展會進入中小客戶市場，由於競爭對手對中小客戶的忽視，使銷售額迅速增長起來。當銷售團隊的力量和資源成長起來的時候，纔進入大型客戶市場，這樣能夠確保很高的獲勝概率。

8.2.1研究方法

判別式分析是一項根據輸入字段值對記錄進行分類的統計技術。這種技術與線性回歸類似，但用分類目標字段代替了數值字段。假設某個電信提供商根據服務使用模式對它的客戶群進行了分段，將這些客戶分為了4個組。如果人口統計學數據可用於預測組成員資格，則可以為各個潛在客戶自定義服務。

8.2.2數據分析

1.定義數據源

本實例將使用Modeler附帶的名為telco.sav的數據文件，該文件位於SPSSModeler安裝程序的Demos目錄中，如圖8-1所示。該實例主要關注於使用人口統計數據預測使用模式，目標字段的客戶類別具有4個可能的值，分別對應4個客戶組：①基本服務；②電子服務；③增值服務；④全套服務。

圖8-1電信客戶群模型

2.數據理解

添加“類型”節點並單擊“讀取值”按鈕，確保所有測量水平設置正確。例如，具有值0和1的多數字段可視為標志，如圖8-2所示。

圖8-2數據理解

若要更改具有相似值（如0/1）的多個字段，請單擊“值”列，以便按值對字段進行排序，然後在按住Shift鍵的同時使用鼠標或箭頭鍵選擇所有要更改的字段，可以右鍵單擊選定的內容，以更改選定字段的測量級別或其他屬性。

更準確而言，性別應視為具有兩個值的集合字段，而不是標志，所以將其測量值保留為名義。將“客戶類別（custcat）”字段的“角色”設置為“目標”，將所有其他字段的“角色”設置為“輸入”，如圖8-3所示。

圖8-3角色設置

因為此實例主要關注人口統計，所以請使用“過濾”節點選取相關字段（地區、年齡、婚姻狀況、地址、收入、教育程度、行業、退休、性別、居住地和客戶類別）。其他字段可以排除在此分析之外，如圖8-4所示。

圖8-4字段過濾

另外，可以將這些字段的“角色”更改為“無”，而不要排除這些字段，或者選擇要在“建模”節點中使用的字段。

3.數據準備

首先，設置“流屬性”對話框，以便在輸出中顯示變量和值標簽。從菜單中選擇：“文件”→“流屬性”→“選項”，選中“在輸出中顯示字段和值標簽”，然後單擊“確定”按鈕，如圖8-5所示。

圖8-5數據準備

4.建立模型

在“判別式”節點中，打開“模型”選項卡，然後選擇“逐步法”，如圖8-6所示。

圖8-6建立模型

在“專家”選項卡中，將“模式”設置為專家，然後單擊“輸出”按鈕。在“高級輸出”對話框中，選擇“彙總表”、“區域圖”和“步驟彙總”，然後單擊“確定”按鈕，如圖8-7所示。

圖8-7輸出選項

在“專家”選項卡中，將“模式”設置為專家，然後單擊“步進”按鈕。在“使用F值”中“納入”和“移除”都使用默認的數值，分別是3.84和2.71，如圖8-8所示。

圖8-8輸出選項

單擊“運行”按鈕以創建模型，該模型將添加到流和位於右上角的“模型”選項卡中。若要查看其詳細信息，請雙擊流中的模型，如圖8-9所示。

圖8-9預測變量重要性

5.模型評估

打開“高級”選項卡，單擊“在外部瀏覽器中啟動”按鈕以在Web瀏覽器中查看結果，如圖8-10所示。

圖8-10判別式分析

擁有大量預測變量時，逐步法有助於自動選擇“適合的”用於模型的變量。逐步法的初模型不包括任何預測變量。在每個步驟中，會將具有超出輸入標準值（默認為3.84）的FtoEnter值的預測變量添加到模型中，如圖8-11所示。

圖8-11逐步法變量

在後一個步驟中保留在分析之外變量的FtoRemove值都大於3.84，因此不再向分析中添加其他變量，如圖8-12所示。

圖8-12逐步法變量

此表顯示了每個步驟中包括在分析中的變量的統計信息。容差是指該變量的方差中不能由方程式的其他自變量解釋的部分所占比例。容差很小的變量可以向模型提供的信息很少，並且可導致計算問題。

FtoRemove值有助於說明從當前模型中刪除某個變量（假設其他變量仍保留）時可能發生的情況。輸入變量的FtoRemove與上述步驟中的FtoEnter相同。

逐步法很方便，但也有其局限。請注意，因為逐步法僅根據統計意義選擇模型，所以它有可能選擇不具有實際意義的預測變量。如果比較熟悉數據並對有重要意義的預測變量有所預期，那麼應該利用經驗而不使用逐步法。但是，如果存在多個預測變量而不知道從何處著手，則運行逐步分析法並調整選定的模型比完全沒有模型要好。檢查模型擬合，如圖8-13所示。

圖8-13模型擬合程度

幾乎所有由模型解釋的方差都源於前兩個判別函數。三個函數可自動擬合，但由於第三個函數特征值極小，可以完全忽視此函數而不用擔心安全性，如圖8-14所示。

圖8-14模型判別函數

對於每一個函數集合，該判別式將檢驗各組所列函數的均值相等的假設。對函數3的檢驗具有的顯著性值大於0.10，因此該函數對模型而言意義甚微，如圖8-15所示。

圖8-15模型相關度

當存在多個判別式函數時，用星號來標記每個變量與某典型函數的相關度。在每個函數內部，這些標記星號（*）的變量將按相關度大小排序。

家庭成員數、婚姻狀況與第三個函數具有強相關度，但該函數是無用函數，因此這些變量是幾乎無用的預測變量，如圖8-16所示。

圖8-16模型區域圖

區域圖有助於研究組與判別式函數之間的關繫。結合結構矩陣的結果，區域圖能夠對預測變量和組之間的關繫提供圖形化的解釋。個函數顯示在水平軸上，將組4（全套服務用戶）從其他組中區分開來，因為教育程度與個函數具有很強的、明確的關聯度，這表明全套服務用戶通常具有的教育程度。第二個函數將組1和組3（基本服務和附加服務用戶）區分開來。附加服務用戶傾向於比基本服務用戶具有更長工作時間和更大的年齡。盡管區域圖表明電子服務用戶受過良好教育並且具有中等工作經驗，但無法很好地將它與其他組區分開來。

總體而言，標記有星號（*）的組的矩心靠近區域邊界時，則表明所有組間的分隔不是非常強。區域圖僅繪制了前兩個判別式函數，但由於第三個函數無關緊要，因此區域圖提供了判別式模型的全面視圖，如圖8-17所示。

圖8-17判別式函數

8.2.3研究結論

從圖8-15可知，教育程度與個函數具有強相關度，並且它是與該函數具有強相關度的變量，工作時間、年齡、家庭收入（以千計）、現住址居住時間、是否退休以及性別與第二個函數具有強相關度，而性別、是否退休與該函數的相關度比其他變量要弱許多，其他變量將該函數標記為“穩定”函數。

從圖8-17可以看出，模型的預測能力比預計的強大，但需要借助於分類結果纔能確定其強大的程度。對於給定的觀測數據，“空”模型（即不包括任何預測變量的模型）將把所有用戶分類到附加服務模型組，因此，空模型的正確率將是25.9%，模型可獲得較之空模型多34.7%（即60.6%）的用戶。

……

商品搜索

商品分类

【醫學】

【各大出版社】