了得網管理_商務智能與數據挖掘(第2版大數據技術與應用專業規劃教材)

第3章數據挖掘概述隨著計算機軟硬件技術的發展，尤其是計算機網絡的發展與普及，計算機處理和存儲的數據，正在以難以預計的速度增長；另外，隨著社會經濟的不斷發展，商業競爭日趨白熱化，人們迫切需要從數據中獲得有用的知識來幫助進行科學決策。針對“數據豐富而知識貧乏”這一窘境，數據挖掘應運而生。
數據挖掘使數據處理技術進入了一個***的階段。它不僅能對過去的數據進行查詢，並且能夠找出與過去數據之間的潛在聯繫，進行*高層次的分析，以便*好地做出理想的決策、預測未來的發展趨勢等。通過數據挖掘，有價值的知識、規則或高層次的信息就能從數據庫的相關數據集合中抽取出來，從而使大型數據庫作為一個豐富、可靠的資源為知識的提取服務。
3．1數據挖掘的起源與發展 3．1．1數據挖掘的起源為解決上述問題，來自不同學科的研究者彙集到一起，開始著手開發能夠處理不同數據類型的*有效的、可伸縮的工具。這些工作都是建立在研究者先前使用的方法學和算法之上，並在數據挖掘領域達到高潮。特別地，數據挖掘利用了來自如下一些領域的思想： ①統計學的抽樣、估計和假設檢驗； ②人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想，這些領域包括*優化、進化計算、信息論、信號處理、可視化和信息檢索。
一些其他領域也起到重要的支撐作用。特別地，需要數據庫繫統提供有效的存儲、索引和查詢處理支持。源於高性能(並行)計算的技術在處理海量數據集方面常常是重要的。分布式技術也能幫助處理海量數據，並且當數據不能集中到一起處理時*是至關重要。
圖31展示了數據挖掘與其他領域之間的聯繫。
圖31數據挖掘彙集了許多學科的知識 3．1．2數據挖掘的發展經過十幾年的研究和實踐，數據挖掘技術已經吸收了許多學科的*新研究成果，從而形成了**特色的研究分支。毋庸置疑，數據挖掘研究和應用具有很大的挑戰性。像其他新技術的發展歷程一樣，數據挖掘也必須經過概念的提出、概念的接受、廣泛研究和探索、逐步應用和大量應用等階段。從現狀看，大部分學者認為數據挖掘的研究仍然處於廣泛研究和探索階段。一方面，數據挖掘的概念已經被廣泛接受。在理論上，一批具有挑戰性和前瞻性的問題被提出，吸引越來越多的研究者；另一方面，數據挖掘的廣泛應用還有待時日，需要深入的研究積累和豐富的工程實踐。
隨著數據挖掘概念在學術界和工業界的影響越來越大，數據挖掘的研究向著*深入和*實用的技術方向發展。從事數據挖掘研究的人員主要在大學、研究機構，也有部分在企業或公司。所涉及的研究領域很多，研究集中在學習算法的研究、數據挖掘的實際應用以及有關數據挖掘理論等方面。進行的大多數基礎研究項目是由政府資助進行的，而公司的研究*注重和實際商業問題相結合。
數據挖掘的概念從20世紀80年代被提出後，其經濟價值就已經顯現出來，而且被眾多商業廠家所推崇，形成初步的市場。一份*近的Gartner報告中列舉了在今後3~5年內對工業將產生重要影響的5項關鍵技術，其中數據挖掘和人工智能***。同時，這份報告將並行計算機體繫結構研究和數據挖掘列入今後5年內公司應該投資的10個新技術領域。另外，目前的數據挖掘繫統也*不是像一些商家為了宣傳自己的商品所說的那樣神奇，仍有許多問題需要研究和探索。把目前數據挖掘的研究現狀描述為鴻溝(Chasm)階段是比較準確的。所謂Chasm階段是說數據挖掘技術在廣泛被應用之前仍有許多“鴻溝”需要跨越。例如，就目前商家推出的數據挖掘繫統而言，它們都是一些通用的輔助開發工具。這些工具隻能給那些熟悉數據挖掘技術的專家或**技術人員使用，僅對專業人員開發對應的應用起到加速或橫向解決方案(Horizontal Solution)的作用。但是，數據挖掘來自於商業應用，而商業應用又會由於應用的領域不同而存在很大差異。大多數學者贊成這樣的觀點：數據挖掘在商業上的成功不能期望通過通用的輔助開發工具，而應該是數據挖掘概念與特定領域商業邏輯相結合的縱向解決方案(Vertical Solution)。
分析目前的研究和應用現狀，數據挖掘在如下幾個方面需要重點開展工作。
1．數據挖掘技術與特定商業邏輯的平滑集成問題談到數據挖掘和知識發現技術，人們大多引用“啤酒與尿布”的例子。事實上，目前關於數據挖掘的確很難找到這樣的其他經典例子。數據挖掘和知識發現技術的廣闊應用前景，需要有效和顯著的應用實例來證明。因此包括領域知識對行業或企業知識挖掘的約束與指導、商業邏輯有機地嵌入數據挖掘過程等關鍵課題，將是數據挖掘與知識發現技術研究和應用的重要方向。
2．數據挖掘技術與特定數據存儲類型的適應問題不同的數據存儲方式會影響數據挖掘的具體實現機制、目標定位、技術有效性等。指望一種通用的應用模式結合所有的數據存儲方式發現有效知識是不現實的。因此，針對不同數據存儲類型的特點，進行針對性研究是目前流行而且也是將來一段時間所必須面對的問題。
3．大型數據的選擇與規格化問題數據挖掘技術是面向大型數據集的，而且源數據庫中的數據是動態變化的，數據存在噪聲、不確定性、信息丟失、信息冗餘、數據分布稀疏等問題，因此挖掘前的預處理工作是必需的。數據挖掘技術又是面向特定商業目標的，大量的數據需要選擇性地利用，因此針對特定數據挖掘問題進行數據選擇、針對特定挖掘方法進行數據規格化是無法回避的問題。
4．數據挖掘繫統的構架與交互式挖掘技術雖然經過多年的探索，數據挖掘繫統的基本架構和過程已經趨於明朗化，但是受應用領域、挖掘數據類型以及知識表達模式等的影響，在具體的實現機制、技術路線以及各階段或部件(如數據清洗、知識形成、模式評估等)的功能定位等方面仍需細化和深入研究。由於數據挖掘是在大量的元數據集中發現潛在的、事先並不知道的知識，因此和用戶進行交互式探索性挖掘是必然的。這種交互可能發生在數據挖掘的各個不同階段，從不同角度或不同程度進行交互。所以良好的交互式挖掘(Interaction Mining)也是數據挖掘繫統成功的前提。
5．數據挖掘語言與繫統的可視化問題對OLTP應用來說，結構化查詢語言SQL已經得到充分的發展，並成為支持數據庫應用的重要基石。但是，對於數據挖掘技術而言，由於誕生的時間較晚，加之它相比OLTP應用的量的關聯規則的有用性、興趣度等進行評判，也可用於分類、聚類等數據挖掘任務。
3．神經網絡方法神經網絡是指一類計算模型，它模擬人腦神經元結構及某些工作機制，利用大量的簡單計算單元連成網絡來實現大規模並行計算，它有並行處理、分布存儲、高度容錯、自組織等諸多優點，因此它是數據挖掘中的重要方法。近年來人們研究從訓練後的神經網絡中提取規則的方法，從而推動了神經網絡在數據挖掘分類問題中的應用。神經網絡的知識體現在網絡連接的權值上，它是一個分布式矩陣結構；神經網絡的學習體現在神經網絡權值的逐步調整上。在數據挖掘中應用*多的是前饋式網絡。它以感知器、反向傳播模型、函數型網絡為代表，可用於預測、模式識別等方面。
4．粗糙集方法粗糙集是一種刻畫具有信息不完整、不確定繫統的數學工具，能有效地分析和處理不**、不一致、不完整等各種不完備信息，並從中發現隱含的知識，揭示潛在的規律。粗糙集的核心概念是不可區分關繫以及上近似、下近似等。對於給定的一個信息表，粗糙集的方法是通過等價類的劃分尋找信息表中的核屬性和約簡集，然後從約簡後的信息表中導出分類/決策規則。對信息表進行屬性約簡，獲得和原信息表相同信息分布的子表，提高了數據挖掘的效率，並且使得獲得的知識*為簡單、易於理解。屬性約簡是數據挖掘中數據預處理階段的重要環節。
粗糙集理論具有良好的數學性質和可解釋性，但在應用於實際數據時，還需要解決復雜度高、數據中的噪聲等問題。
5．統計分析方法統計方法是從事物的外在數量上的表現去推斷該事物可能的規律性，統計分析的本質是以數據為對像，從中獲取規律，為人類認識客觀事物，並對其發展趨勢進行預測、決策和控制提供有效的依據。統計分析方法在數據挖掘中有許多應用，理論也*為成熟。常見的統計方法有回歸分析、判別分析、差異分析、聚類分析、描述統計、相關分析和主成分分析等。
6．可視化方法可視化是把數據、信息和知識轉化為可視的表示形式的過程，其內涵是將數據通過圖形化、地理化真實而形像地表現出來並且找出數據背後蘊含的信息，其本質是從抽像數據到可視結構的映射。
可視化技術是20世紀80年代後期提出的一個全新的研究領域。通過豐富的圖形表現能力，可視化技術能夠準確地表達原始數據、挖掘過程、挖掘結果，使用戶可以深入地理解問題並選擇*適當的數據挖掘算法，達到深入剖析數據的目的。其特點為：信息可視化的焦點在於信息；信息的數據量很大；信息的來源多種多樣等。可視化數據挖掘拓寬了傳統的圖表功能，使用戶對數據的剖析*清楚。
7．生物智能算法生物智能算法在優化與搜索應用中前景廣闊，用於數據挖掘中，常把任務表示成優化或搜索問題，利用生物智能算法可以找到*優解或次優解。生物智能算法主要包括以下幾個方面。
(1) 遺傳算法。遺傳算法是由John Holland於1975年提出的一種有效地解決*優化問題的方法，是一種基於生物進化理論的技術。其基本觀點是“適者生存”，用於數據挖掘中，則常把任務表示為一種搜索問題，利用遺傳算法強大的搜索能力找到*優解，是一種仿生全局優化方法。遺傳算法作用於一個由問題的多個潛在解(個體)組成的群體上，並且群體中的每個個體都由一個編碼表示，同時每個個體均需依據問題的目標函數而被賦予一個適應值。遺傳算法是多學科結合與滲透的產物，它廣泛應用在計算機科學、工程技術和社會科學等領域。
(2) 蟻群算法。蟻群算法是由意大利學者Dorigo M．等人在20世紀90年代初首先提出來的。它是一種新型仿生類進化算法，是繼模擬退火、遺傳算法、禁忌搜索等之後的又一啟發式智能優化算法。螞蟻有能力在沒有任何提示的情況下找到從巢穴到食物源的*短路徑，並且能隨環境的變化，適應性地搜索新的路徑，產生新的選擇。蟻群算法成功地應用於求解TSP、二次分配、圖著色、車輛調度、集成電路設計及通信網絡負載等問題。
(3) 粒子群優化算法。粒子群優化(PSO)算法是一種基於群體智能的隨機優化算法，源於對鳥群或魚群群體運動行為的研究。由於PSO算法概念簡單、易於實現、調整參數少，現已廣泛地應用於許多工程領域。然而，粒子群優化算法具有易於陷入局部極值點、進化後期收斂慢、精度較差的缺點，為了克服粒子群優化算法的缺點，目前出現了大量的改進粒子群優化算法。
(4) 人工魚群算法。人工魚群算法(AFSA)是李曉磊等人於2002年提出的一種基於動物自治的優化方法，是集群智能思想的一個具體應用。它的主要特點是不需要了解問題的特殊信息，隻需要對問題的解進行優劣的比較，通過各人工魚個體的覓食、聚群和追尾等局部尋優行為，*終在群體中使全局*優解突顯出來。該算法具有良好的求解全局極值的能力，收斂速度較快。
3．7數據挖掘的典型應用領域數據挖掘技術源於商業的直接需求，並在各種領域都有廣泛的使用價值。數據挖掘已在金融、零售、醫藥、通信、電子工程、航空、旅館等具有大量數據和深度分析需求、易產生大量數字信息的領域得到廣泛使用，並帶來了巨大的社會效益和經濟效益。它既可以檢驗行業內長期形成的知識模式，也能夠發現隱藏的新規律。將數據挖掘用於企業信息管理，雖然面臨著很大的挑戰和許多亟待解決的問題，但有充分的理由相信，這些問題將隨著各應用領域的信息化推進逐步得到解決，數據挖掘的應用前景十分樂觀。
1．金融領域的應用在金融方面，銀行和金融機構往往持有大量關於客戶的、各種服務的以及交易事務的數據，並且這些數據通常比較完整、可靠和高質量，這大大方便了繫統化的數據分析和數據挖掘。在銀行業中，數據挖掘被用來建模、預測，識別偽造信用卡，估計風險，進行趨勢分析、效益分析、顧客分析等。在此領域應用的數據挖掘，可以進行貸款償付預測和客戶信用政策分析以調整貸款發放政策，降低經營風險。信用卡公司可以應用數據挖掘中的關聯規則來識別欺詐。股票交易所和銀行也有這方面的需要。對目標客戶群進行分類及聚類，以識別不同的客戶群，為不同的客戶提供*好的服務，以推動市場。此外，還可以運用數據分析工具找出異常模式，以偵破洗錢和其他金融犯罪活動。智能數據挖掘利用了廣泛的高質量的機器學習算法，能夠在應付大量數據的同時保證理想的響應時間，使得市場分析、風險預測、欺詐管理、客戶關繫管理和競爭優勢分析等應用成為可能。
2．網絡金融交易應用從網絡金融角度來看，網絡金融是指通過互聯網進行的金融交易。這種交易具有速度快、交易量大、交易次數多、交易人所在地分散的特點。這種基於生產力水平的加速常常超出生產力本身的發展速度，使人類進入脆弱的虛擬經濟時代。在股市交易中，人們的興趣在於預測股市起伏，並且各種各樣的算法都曾經被使用過。有的算法在一種情況下有效或在一段時間內有效，有的算法*能捕捉轉瞬即逝的個股買/賣點或在眾多股票中選出應買賣的股票。金融時序數據是一種常見的數據結構，在這一方面，已有不少學者研究了對其進行挖掘的一般性問題或框架。對股市進行動態數據挖掘，可以隨時掌握由大量數據所反映的金融市場暗流。此外，還可以將監管搜索範圍**擴大到一般的網頁上，借助一定的文字分析技術提高準確率。
另一方面的應用是研究股市炒作的快速檢測算法和技術。互聯網的出現和使用也隻是近十年的事，而標志著金融領域重要突破的中國股市的產生和發展也正好在這十餘年。電子交易每天產生的海量數據已超出人工處理的能力，但這正使得應用計算機算法進行智能自動監控成為可能。從證監會的角度看，可以通過各種交易數據發現異常現像和相應的操作，識別出哪些是合法炒作，哪些是非法炒作。
3．零售業務應用在零售業方面，計算機使用率越來越高，大型超市大多配備了完善的計算機及數據庫繫統。零售業積累的大量銷售數據、顧客購買歷史記錄、貨物進出與服務記錄等數據中真正有價值的信息是哪些？這些信息之間有哪些關聯？回答這些問題就需要對大量的數據進行深層分析，從而獲得有利於商業運作、提高競爭力的信息。數據挖掘技術有助於識別顧客購買行為，發現顧客購買模式和趨勢，改進服務質量，取得*高的顧客保持力和滿意程度，降低零售業成本。
通常企業所掌握的客戶信息特別是以前購買行為的信息中，可能正包含著這個客戶決定他下一個購買行為的關鍵信息，甚至是決定性因素。這個時候的數據挖掘的作用就體現為它可以幫助企業尋找到那些影響顧客購買行為的信息和因素。對這些豐富數據資源的挖掘，可有助於識別顧客購買行為，發現顧客購買模式和趨勢，改進服務質量，取得*高的顧客滿意程度，提高銷量。
還有一個問題就是研究超市顧客的購買行為，這是一種典型的時間序列挖掘問題。在零售服務業中，直接給潛在的顧客寄廣告是一種常見的辦法。通過分析人們的購買模式，估計他們的收入和孩子數目，作為潛在的市場信息。在龐大的數據集中找出哪些人適合寄廣告或折扣券，哪些人會喜歡哪一類的折扣券，哪些人應給予的折扣多一些，哪些產品擺在一起會比分別放在各自的類中賣得*快*多，這都成了數據挖掘的任務。
零售業中數據挖掘的成功應用包括： ①銷售、顧客、產品、時間和地區的多維分析； ②對促銷活動有效性的分析，以此提高企業利潤； ③對顧客忠誠度的分析，以留住老顧客，吸引新顧客； ④挖掘關聯信息，以形成購買**和商品參照，以幫助顧客選擇商品，提高銷量。
4．醫療電信領域應用在醫療領域中，成堆的電子數據可能已放在那兒很多年了，比如病人、癥狀、發病時間、發病頻率以及當時的用藥種類、劑量、住院時間等。在藥物實驗中，可能有很多種不同的組合，每種若均加以實驗則成本太大，決策樹方法可以用來大大減少實驗次數，這種方法已經被許多大的制藥公司所采用。生物醫學的大量研究大都集中在DNA數據的分析上，人類大約有105個基因，一個基因通常由成百個核苷按一定序列組成，核苷按不同的次序可以組成不同的基因，幾乎不計其數。因此，數據挖掘成為DNA分析中的強大工具，如對DNA序列間的相似搜索和比較；應用關聯分析對同時出現的基因序列的識別；應用路徑分析發現在疾病不同階段的致病基因等。
電信業已經迅速從單純的提供市話和長話服務演變為綜合電信服務，如語音、傳真、尋呼、移動電話、圖形、電子郵件、互聯網接入服務等。電信市場的競爭也變得越來越激烈和***化。目前，不管是住宅電話還是移動電話，每天的使用量很大。對電話公司來講，如何充分使用這些數據為自己贏得*多的利潤就成了主要問題。利用數據挖掘來幫助理解商業行為、對電信數據多維分析、檢測非典型的使用模式以尋找潛在的盜用者、分析用戶一繫列的電信服務使用模式來改進服務、根據地域分布疏密性找出*急需建立網點的位置、確定電信模式、捕捉盜用行為、*好地利用資源和提高服務質量，是**必要的。借助數據挖掘，可以減少很多損失，保住顧客。
數據挖掘在電信業的應用包括： ①對電信數據的多維分析； ②檢測非典型的使用模式以尋找潛在的盜用者； ③分析用戶一繫列的電信服務使用模式來改進服務； ④攪拌分析等。
3．8數據挖掘的發展趨勢數據挖掘是一門綜合性學科，一個多學科交叉的研究領域。它融合了數據庫技術、人工智能、機器學習、統計學、知識工程、信息檢索、高性能計算及數據可視化等許多學科的概念、理論、方法和技術。經過20年的研究和實踐，數據挖掘已經吸收了許多學科的研究成果，成為**特色的研究分支。數據挖掘的概念已經被廣泛接受，並吸引了一大批學者投入到數據挖掘的研究領域。
經歷了20年的發展，包括統計學、人工智能等在內的許多理論和技術成果已經被成功應用到數據挖掘中。數據挖掘的理論體繫是由數據庫、人工智能、數理統計、計算機科學以及其他方面的學者在探討性的研究中創立的。這些理論本身的發展和應用為數據挖掘提供了有價值的理論和應用積累。
隨著數據挖掘在學術界和工業界的影響越來越大，數據挖掘的研究向著*深入和實用的技術方向發展。從事數據挖掘研究的人員主要在大學、研究機構，也有部分在企業或公司。所涉及的研究領域很多，研究集中在學習算法的研究、數據挖掘的實際應用以及有關數據挖掘的理論等方面。
分析目前的研究和應用現狀，數據挖掘在如下幾個方面需要重點開展工作。
(1) 數據挖掘理論與算法的研究。數據挖掘繼承和發展了相關基礎學科已有的成果，探索出許多**特色的理論體繫。但是，這*不意味著數據挖掘理論的探索已經結束，相反地，它留給了研究者豐富的理論課題。一方面，在這些大的理論框架下有許多面向實際應用目標的挖掘理論等待探索和創新；另一方面，隨著數據挖掘技術本身和相關技術的發展，新的挖掘理論的誕生是必然的，而且可能對特定的應用產生推動作用。新理論的發展必然促進新的挖掘算法的產生，這些算法可能擴展挖掘的有效性，如數據挖掘的某些階段、某些數據類型、大容量源數據集等；可能提高挖掘的精度或效率；可能融合特定的應用目標，如CRM、電子商務等。因此，對數據挖掘理論和算法的探討將是長期而艱巨的任務。
(2) 復雜數據類型的挖掘問題。許多數據集中包含著復雜的數據類型，如關繫型數據、半結構化數據、非結構化數據、復雜的數據對像、超文本數據和多媒體數據、空間和時間數據、視頻數據、聲音數據等，局域網和廣域網上連接了許多數據源並形成了巨大的、分布式的、分層的和異構的數據庫。這些復雜數據類型的數據集，對數據挖掘提出了新的挑戰。目前，數據挖掘主要處理的是數值型數據和分類數據，針對非結構化數據、時空數據、多媒體數據的數據挖掘仍是迫切需要解決的問題。
(3) 數據挖掘語言與數據挖掘的可視化。標準的數據挖掘語言或其他方面的標準化工作將有助於數據挖掘的繫統化開發，改進多個數據挖掘繫統和功能間的相互操作。可視化對於一個數據挖掘繫統來說**重要，除了要和良好的交互性技術結合外，還要在挖掘結果的可視化、挖掘過程的可視化以及可視化指導用戶挖掘等方面進行探索和研究。數據挖掘語言和可視化將促進數據挖掘在企業和社會中的應用。
(4) 數據挖掘的性能問題。數據挖掘的性能包括數據挖掘算法的有效性、可伸縮性和並行處理能力。數據挖掘算法的效率和可伸縮性是指為了有效地從數據庫中抽取有用的知識，數據挖掘算法必須是有效的和可收縮的。也就是說，一個數據挖掘算法在大型數據庫中的運行時間必須是可預計的和可接受的。許多現有的數據挖掘算法往往適合於常駐內存的、小數據集的數據挖掘，而大型數據庫中存放了TB級的數據，所有數據無法同時導入內存。所以，從數據庫的觀點來看，有效性和可伸縮性是實現數據挖掘繫統的關鍵問題。
(5) 數據挖掘繫統的架構。雖然經過多年的探索，數據挖掘繫統的基本架構和過程已經趨於明朗，但是受應用領域、挖掘數據類型以及知識表達模式等的影響，在具體的實現機制、技術路線以及各階段或部件(如數據清洗、知識形成、模式評估等)的功能定位等方面仍需細化和深入研究。目前新穎的數據挖掘框架日益受到重視，如雲模型和數據場理論、雙庫協同機制、基於多智能體的主動型數據挖掘框架等。
(6) 交互式數據挖掘技術。由於數據挖掘是在大量的元數據集中發現潛在的、事先並不知道的知識，因此和用戶交互式地進行探索性挖掘是必然的。這種交互可能發生在數據挖掘的各個不同階段，從不同角度或不同粒度進行交互。所以良好的交互式挖掘也是數據挖掘繫統成功的前提。
(7) 數據挖掘中的私有性問題。數據挖掘可能會導致對私有權的入侵，研究采用哪些措施防止暴露敏感信息是十分重要的。當從不同角度和不同抽像級上觀察數據時，數據安全性將受到嚴重威脅。這時，數據保護和數據挖掘可能會造成一些矛盾的結果。例如，數據安全性保護的目標可能與從不同角度挖掘多層知識的需求相矛盾。
(8) 數據挖掘中的不確定性問題。不確定性是客觀事物的一個固有特征，尤其在實際應用中存在大量不確定數據。不確定性數據挖掘的任務就是發現隱含在這些不確定數據中的知識，尋找並且能夠形式化地表現不確定性的規律性，至少是某種程度的規律性。如果數據挖掘模型不能準確地描述或者沒有充分考慮數據挖掘對像的不確定性，那麼由數據挖掘模型得到的結果是不可信的，甚至是錯誤的。
(9) 數據挖掘中的動態性問題。傳統的數據挖掘是從靜態的數據庫中發現知識，許多實際數據庫繫統中的數據不是穩定不變的，而是不斷遞增和變化的，這種改變可能使先前發現的模式無效，因此發現知識或模式也需要動態維護，及時*新。為了隨時獲得一個與數據相關的有效模式，需要以一定的不多的時間間隔重復同樣的數據分析過程。由於某些數據挖掘過程的高成本，產生了對增量數據挖掘算法的研究需求。開發增量式數據挖掘算法並與數據庫*新操作相結合，可以提高數據挖掘的效率，不必重新挖掘整個數據庫。因此，需要研究新的動態數據挖掘算法來應對以增量形式獲得的新數據。
數據挖掘將成為對工業生產乃至日常生活產生重要影響的技術之一。隨著數據挖掘理論與方法的進一步完善和計算機處理能力的進一步提高，數據挖掘無論在理論上還是在應用上都將得到*大的發展，數據挖掘將產生深遠的社會影響。一方面越來越多的研究人員將投入到數據挖掘的研究中；另一方面廣大的用戶也將逐漸看到它的價值。隨著眾多數據挖掘研究人員對於技術的不斷改進，軟件供應商所提供的工具的不斷完善，數據挖掘技術的應用和開發不再是專業人士的專利，而成為一項經過一定培訓就可以為人們所利用的普及的工具。同時*多的軟件隱含地把數據挖掘作為它們的功能部件，使用戶感覺不到它們的存在，這種隱含的應用將成為普通大眾執行數據挖掘的重要手段。
小結本章介紹了數據挖掘的起源及其發展、定義、數據挖掘所要解決的問題、數據挖掘的過程以及數據挖掘繫統。數據挖掘來自實際領域的需求，其理論與方法涉及多個學科知識的交叉，在生產實踐、商業活動中獲得了成功的應用，是數據智能化的積極推動因素。目前，各個領域都對數據挖掘提出了新的要求，也為數據挖掘的發展提供了強大的發展動力。
習題 1．數據挖掘的特點是什麼？怎麼定義數據挖掘？ 2．數據挖掘的過程是什麼？ 3．數據挖掘的基本功能有哪些？談談你對其的理解。
4．數據挖掘方法有哪些？談談你對其的理解。
5．上網查找數據挖掘的一些應用，並談談你對數據挖掘的大致認識。復雜性，開發相應的數據挖掘操作語言仍然是一件極富挑戰性的工作。可視化要求已經成為目前信息處理繫統的必不可少的技術，對於一個數據挖掘繫統來說，它*是重要的。可視化挖掘除了要和良好的交互式技術結合外，還必須在挖掘結果或知識模式的可視化、挖掘過程的可視化以及可視化指導用戶挖掘等方面進行探索和實踐。數據的可視化從某種程度來說起到了推動人們主動進行知識發現的作用，因為它可以使人們從對數據挖掘的神秘感變成可以直觀理解的知識和形像的過程。
6．數據挖掘理論與算法研究經過十幾年的研究，數據挖掘已經在繼承和發展相關基礎學科(如機器學習、統計學等)已有成果方面取得了可喜的進步，探索出了許多**特色的理論體繫。但是，這*不意味著挖掘理論的探索已經結束，恰恰相反，它留給了研究者豐富的理論課題。一方面，在這些大的理論框架下有許多面向實際應用目標的挖掘理論等待探索和創新；另一方面，隨著數據挖掘技術本身和相關技術的發展，新的挖掘理論的誕生是必然的，而且可能對特定的應用產生推動作用。新理論的發展必然促進新的挖掘算法的產生，這些算法可能擴展挖掘的有效性。如針對數據挖掘的某些階段、某些數據類型、大容量元數據集等*有效；可能提高挖掘的精度或效率；可能融合特定的應用目標，如CRM、電子商務等。因此，對數據挖掘理論和算法的探討將是長期而艱巨的任務。特別是，像定性定量轉換、不確定性推理等一些根本性的問題還沒有得到很好的解決，同時需要針對大容量數據的有效和高效算法。從上面的敘述可以看出，數據挖掘研究和探索的內容是極其豐富和具有挑戰性的。
3．2數據挖掘所要解決的問題前面提到，面臨新的數據集帶來的問題時，傳統的數據分析技術常常遇到實際困難。下面是一些具體的問題，它引發了人們對數據挖掘開展研究。
(1) 可伸縮。由於數據產生和收集技術的進步，數吉字節、數太字節甚至數拍字節 Gigabytes、Terabytes、Petabytes分別是109B,1012B,1015B。的數據集越來越普遍。如果數據挖掘算法要處理這些海量數據集，則算法必須是可伸縮的。許多數據挖掘算法使用特殊的搜索策略處理指數級搜索問題。為實現可伸縮可能還需要實現新的數據結構，纔能以有效的方式訪問每個記錄。例如，當要處理的數據不能放進內存時，可能需要非內存算法。使用抽樣技術或開發並行和分布算法也可以提高可伸縮程度。
(2) 高維性。目前，經常會遇到具有成百上千屬性的數據集，而不是幾十年前常見的隻具有少量屬性的數據集。在生物信息領域，微陣列技術的進步已經產生了涉及數千特征的基因表達數據。具有時間或空間分量的數據集也經常具有很高的維度。例如，考慮包含不同地區的溫度測量結果的數據集，如果在一個相當長的時間周期內反復地測量，則維度(特征數)的增長正比於測量的次數。為低維數據開發的傳統的數據分析技術通常不能很好地處理這樣的高維數據。此外，對於某些數據分析算法，隨著維度(特征數)的增加，計算復雜性迅速增加。
(3) 異種數據和復雜數據。通常，傳統的數據分析方法隻處理包含相同類型屬性的數據集，或者是連續的，或者是分類的。隨著數據挖掘在商務、科學、醫學和其他領域的作用越來越大，越來越需要能夠處理異種屬性的技術。近年來，已經出現了*復雜的數據對像。這些非傳統的數據類型的例子包括含有半結構化文本和超鏈接的Web頁面集、具有序列和三維結構的DNA數據、包含地球表面不同位置上的時間序列測量值(溫度、氣壓等)的氣像數據。為挖掘這種復雜對像而開發的技術應當考慮數據中的聯繫，如時間和空間的自相關性、圖的連通性、半結構化文本和XML文檔中元素之間的父子聯繫。
(4) 數據的所有權與分布。有些時候，需要分析的數據並非存放在一個站點，或歸屬一個機構，而是地理上分布在屬於多個機構的資源中。這就需要開發分布式數據挖掘技術。分布式數據挖掘算法面臨的主要挑戰包括： ①如何降低執行分布式計算所需的通信量； ②如何有效地統一從多個資源得到數據挖掘結果； ③如何處理數據安全性問題。
(5) 非傳統的分析。傳統的統計方法基於一種假設檢驗模式，即提出一種假設，設計實驗來收集數據，然後針對假設分析數據。但是，這一過程費時費力。當前的數據分析任務常常需要產生和評估數千種假設，因此需要自動地產生和評估假設，這促使人們開發了一些數據挖掘技術。此外，數據挖掘所分析的數據集通常不是精心設計的實驗的結果，並且它們通常代表數據的時機性樣本，而不是隨機樣本。而且，這些數據集通常涉及非傳統的數據類型和數據分布。
3．3數據挖掘的定義數據挖掘是一門涉及面很廣的交叉學科，融合了模式識別、數據庫、統計學、機器學習、粗糙集、模糊數學和神經網絡等多個領域的理論，因此可從多個視角來看待它。
從技術角度來看，數據挖掘是從大量的、不**的、有噪聲的、模糊的、隨機的實際數據中，提取隱含在其中的、人們不知道的但又是潛在有用的信息和知識的過程。這個定義有如下含義：數據源是真實的、大量的，並且可能是有噪聲的；所發現的信息是用戶感興趣的知識；發現的知識是用戶能夠理解並使用的。在數據挖掘中，原始數據可以是結構化的，如關繫數據庫中的數據；也可以是半結構化的，如文本、圖形和圖像數據；甚至可以是分布在網絡上的異構數據。挖掘出來的知識可用於查詢優化、信息管理、決策支持和過程控制等，還可用於數據自身的維護。數據挖掘把人們對數據的應用從低層次的簡單查詢，提升到從數據庫中挖掘知識，從而提供決策支持。
從商業角度來看，數據挖掘就是按企業的既定業務目標，對大量的企業數據進行探索和分析，以揭示隱藏的、未知的規律性並將其模式化，從而支持商業決策活動。數據挖掘技術隻有面向特定的商業領域纔有應用價值，是一種新的商業信息處理模式，其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和處理，從中提取出輔助商業決策的關鍵信息和知識。
從以上定義，可以得到數據挖掘具有以下特點。
(1) 數據量巨大。如何高效地存取大量數據，如何在特定應用領域中找出特定的高效率算法，以及如何選取數據子集，都成為數據挖掘工作者要重點考慮的問題。
(2) 動態性。許多領域的行業數據所包含的規律時效性很強，隨著時間和環境的變化規律也在改變。這種數據和知識的迅速變化，就要求數據挖掘能快速做出相應的反應以及時提供決策支持。
(3) 適用性。數據挖掘的規律適用於一部分數據，但不可能適用於全部數據，這是因為外部的環境不可能**相同。
(4) 繫統性。數據挖掘不是一個簡單算法，而是一個較為復雜的繫統，它需要業務理解、數據理解、數據準備、建模、評估等一繫列步驟，是一個不斷循環和不斷完善的繫統工程。
3．4數據挖掘的過程在數據挖掘中，被研究的業務對像是整個過程的基礎，它驅動了整個數據挖掘過程，也是檢驗*後結果和指引分析人員完成數據挖掘的依據和顧問。圖32中各步驟是按一定順序完成的，當然整個過程中還會存在步驟間的反饋。數據挖掘的過程並不是自動的，*大多數的工作需要人工完成。在整個數據挖掘過程中，60%的時間用在數據準備上，這說明了數據挖掘對數據的嚴格要求，而後續挖掘工作僅占總工作量的10%。
圖32數據挖掘的一般流程從大量的、不**的、有噪聲的、模糊的甚至隨機的實際應用數據中提取出隱含在其中的**有用的信息、模式(規則)和趨勢的數據挖掘過程主要包括6個步驟，各步驟的大體內容如下。
(1) 定義問題。首先明確定義將要解決的問題。數據挖掘者要熟悉所研究行業的數據和業務問題，缺乏這些，就不能夠充分發揮數據挖掘的價值，很難得到正確的結果。模型的建立取決於問題的定義，有時相似的問題，所要求的模型幾乎**不同。
清晰地定義出業務問題，認清數據挖掘的目的，是數據挖掘的重要一步。挖掘的*後結果是不可預測的，但要探索的問題應是有預見的，為了數據挖掘而數據挖掘則帶有盲目性，是不會成功的。
(2) 數據準備。有些人將數據挖掘看作是一個不可思議的過程，認為它吞進的是原始數據，吐出來的是“鑽石”。數據準備正是這個過程的核心。這一階段又可分為三個子步驟：數據集成，數據選擇，數據預處理。數據集成將多文件或多數據庫運行環境中的數據進行合並處理，解決語義模糊性，處理數據中的遺漏和清洗髒數據等。數據選擇的目的是辨別出需要分析的數據集合，縮小處理範圍，提高數據挖掘的質量，因此需要搜索所有與業務對像有關的內部和外部數據信息，並從中選擇出適用於數據挖掘應用的數據。而數據預處理則是為了克服目前數據挖掘工具的局限性，提高數據質量，同時將數據轉換成一個適用於特定挖掘算法的分析模型。建立一個真正適合挖掘算法的分析模型是數據挖掘成功的關鍵。
(3) 確定主題。數據挖掘是一個經常需要回溯的過程，因此沒有必要在數據**準備好之後纔開始進行數據挖掘。隨著時間的推移，你所使用的數據、你對它們分組的方式以及數據清洗的效果等都將改變，並有可能改進整個模型。這一步會涉及了解研究主題的局限性，選擇待完成的良好研究主題，確定待研究的合適的數據元素，以及決定如何進行數據操作等。
(4) 讀入數據並建立模型。一旦確定要輸入的數據之後，接著就是要用數據挖掘工具讀入數據並從中構造出一個模型。根據所選用的數據挖掘工具的不同，所構造出的數據模型也會有很大的差別。
(5) 挖掘操作。依照上述準備工作，利用選好的數據挖掘工具在數據中查找，這個搜索過程可以由繫統自動執行，自底向上搜索原始事實以發現它們之間的某種聯繫，也可以加入用戶交互過程，由分析人員主動發問，從上到下地找尋以驗證假設的正確性。數據挖掘的搜索過程需要反復多次，通過評價數據挖掘結果不斷調整數據挖掘的精度，以達到發現知識的目的。
(6) 結果表達和解釋。根據*終用戶的決策目標對提取出的信息進行分析，把*有價值的信息區分出來，並通過決策支持工具提交給決策者。
數據挖掘過程的分步實現，不同的階段會需要有不同專長的人員，他們大體可以分為以下三類。
(1) 業務分析人員：要求精通業務，能夠解釋業務對像，並能根據各業務對像確定出用於數據定義和挖掘算法的業務需求。
(2) 數據分析人員：要求精通數據分析技術，對統計學有較熟練的掌握，有能力把業務需求轉化為數據挖掘的各步操作，並為每步操作選擇合適的技術。
(3) 數據管理人員：要求精通數據管理技術，並能從數據庫或數據倉庫中搜集數據。
從上可見，數據挖掘是一個多種專業人員相互配合的工作過程，也是一個在資金上和技術上高投入的過程。這一過程要反復進行，在反復的過程中，不斷地趨近事物的本質，不斷地優選問題的解決方案。
20世紀90年代後期，當時的數據挖掘市場是年輕而不成熟的，但是這個市場顯示出了**式的增長。三個在這方面經驗豐富的公司Daimler Chrysler、SPSS、NCR發起並建立了一個社團，目的是建立數據挖掘方法和過程的標準。在獲得了EC(European Commission)的資助後，他們開始實現他們的目標。為了征集業界廣泛的意見，共享知識，他們創建了Special Interest Group (SIG)。SIG組織開發並提煉出CRISPDM (CrossIndustry Standard Process for Data Mining)，如圖33所示，同時在MercedesBenz和OHRA(保險領域企業)中進行了大規模數據挖掘項目的實際**。SIG還將CRISPDM和商業數據挖掘工具集成起來。 SIG組織目前在倫敦、紐約、布魯塞爾已經發展到二百多個成員。
當前CRISPDM提供了一個數據挖掘生命周期的全面評述，包括項目的相應周期、它們各自的任務和任務之間的關繫。在這個描述層中，識別出所有關繫是不可能的。所有數據挖掘任務之間關繫的存在依賴於用戶的目的、背景和興趣，*重要的還有數據。SIG組織已經發布了CRISPDM Version 1．0 Process Guide and User Manual的電子版，可以免費使用。
一個數據挖掘項目的生命周期包含6個階段。這6個階段的順序是不固定的。我們經常需要前後調整這些階段。這依賴於每個階段中特定任務的產出物是否是下一個階段必需的輸入。圖33中的箭頭指出了*重要的和依賴度高的階段關繫。
圖33中的外圈像征數據挖掘自身的循環本質——在一個解決方案發布之後一個數據挖掘的過程纔可以繼續。在這個過程中得到的知識可以觸發新的、經常是*聚焦的商業問題。後續的過程可以從前一個過程中得到益處。
(1) 業務理解。*初的階段集中在理解項目目標和從業務的角度理解需求，同時將這個知識轉化為數據挖掘問題的定義和完成目標的初步計劃。將知識轉化為定義和計劃。
(2) 數據理解。數據理解階段從初始的數據收集開始，通過一些活動的處理，以熟悉數據，識別數據的質量問題，**發現數據的內部屬性，或是探究引起興趣的子集以形成隱含信息的假設。
圖33CRISPDM的組成架構 (3) 數據準備。數據準備階段包括從未處理數據中構造*終數據集的所有活動。這些數據將是模型工具的輸入值。這個階段的任務有可能執行多次，沒有任何規定的順序。任務包括表、記錄和屬性的選擇，模型工具的轉換和數據的清洗。
(4) 建立模型。在這個階段，可以選擇和應用不同的模型技術，模型參數被調整到*佳的數值。有些技術可以解決一類相同的數據挖掘問題。有些技術在數據形成上有特殊要求，因此需要經常跳回到數據準備階段。
(5) 模型評估。到項目的這個階段，就已經從數據分析的角度建立了一個高質量顯示的模型。在開始*後部署模型之前，重要的事情是**地評估模型，檢查構造模型的步驟，確保模型可以完成業務目標。這個階段的關鍵任務是確定是否有重要業務問題沒有被充分地考慮。在這個階段結束後，必須達成一個數據挖掘結果使用的決定。
(6) 方案部署。通常，模型的創建不是項目的結束。模型的作用是從數據中找到知識，獲得知識，並以便於用戶使用的方式重新組織和展現。根據需求，這個階段可以產生簡單的報告，或實現一個比較復雜的、可重復的數據挖掘過程。在很多案例中，這個階段是由客戶而不是數據分析人員承擔部署的工作。
3．5數據挖掘繫統 3．5．1數據挖掘繫統的分類數據挖掘源於多個學科，因此數據挖掘研究產生了大量的、各種不同類型的數據挖掘繫統。這樣，就需要對數據挖掘繫統進行分類。這種分類可以幫助用戶區分數據挖掘繫統，確定*適合其需求的數據挖掘繫統。根據不同的標準，數據挖掘繫統可以進行以下分類。
1．根據數據挖掘的數據庫類型分類由於數據庫繫統本身可以根據不同的標準分類，因此，數據挖掘繫統可以進行相應的分類。根據數據模型分類，可以分為關繫的、事務的、面向對像的、數據倉庫的數據挖掘繫統；根據所處理數據的特定類型分類，可以分為空間的、時間序列的、文本的、多媒體的或Web的數據挖掘繫統。
2．根據挖掘的知識類型分類該類數據挖掘繫統依據所挖掘出的規則而分類，這些規則有分類規則、特征規則、聚類分析、關聯規則、孤立點分析、時間序列模式分析等。
3．根據挖掘方法分類根據所采用的挖掘方法的不同，分為面向數據庫的方法、機器學習方法、統計學方法、模式識別方法、可視化方法等。具體地，可以分為模糊集方法、神經網絡方法、統計方法、粗糙集方法、決策樹、生物智能方法等。
4．根據數據挖掘應用分類不同的應用需要有針對該應用的特別有效的方法，因此數據挖掘繫統還可以根據其應用領域來分類，從而出現了諸如股票市場數據挖掘繫統、DNA序列數據挖掘繫統、電信行業數據挖掘繫統、旅遊數據挖掘繫統、醫藥銷售數據挖掘繫統、保險行業數據挖掘繫統等。
3．5．2數據挖掘繫統的發展一般來講，開發數據挖掘繫統是一個由多功能部件組成的、多種類技術相互合作的繫統性研發過程。粗略地說，數據挖掘繫統的發展可分為三個階段：獨立數據挖掘軟件(1995年之前)，橫向數據挖掘工具集(1995年起)，縱向數據挖掘解決方案(1999年起)。
(1) 獨立數據挖掘軟件。獨立的數據挖掘軟件出現於數據挖掘技術發展的早期，研究人員每開發出一種新型的數據挖掘算法，就會形成一個相應的軟件原型，這些原型繫統會不斷嘗試和不斷完善。這類軟件要求用戶對具體的算法和數據挖掘技術有相當的了解，還需要負責大量的數據預處理工作。
(2) 橫向數據挖掘工具集。隨著數據挖掘和知識發現技術的不斷發展和研究的不斷深入，人們逐漸認識到隨著數據量的增加和應用領域的拓寬而湧現的一些新問題，諸如：現實領域中的問題多種多樣，單靠少數幾個數據挖掘算法難以解決；有待挖掘的數據通常不符合算法要求，需要有數據清洗、轉換等數據預處理操作配合，纔能得出有價值的模型。因此需要大量多領域、多方法、多技術的結合，由此積累了許多數據挖掘模型和算法，從而出現了一批集成化的數據挖掘工具集。從1995年開始，軟件開發商提供了“工具集”的數據挖掘軟件。由於這類工具並非面向特定的應用，而是通用的算法集合，所以稱之為橫向數據挖掘工具。典型的數據挖掘工具有SPSS Clementine、IBM Intelligent Miner、SAS Enterprise Miner、Oracle Darwin、SGI MineSet等。
(3) 縱向數據挖掘解決方案。隨著橫向數據挖掘工具的使用日益廣泛，人們發現隻有熟悉數據挖掘算法的專家纔能使用這類工具。如果對數據挖掘技術及算法不了解，就難以開發出好的應用繫統。從1999年開始，大量的數據挖掘工具研制者開始提供縱向的數據挖掘解決方案。這種方案的核心是針對特定的應用提供完整的數據挖掘解決方案，優點是挖掘目標明確、針對性強、挖掘模型選擇方便、繫統研制快捷。由於和特定的商業領域相聯繫，因此數據挖掘技術的應用成為企業信息繫統的一部分。
根據以上所述，按照數據挖掘繫統的特征和發展趨勢，可將數據挖掘繫統歸納為4代。4代數據挖掘繫統的特征、所采用的數據挖掘算法數量、集成的功能、分布計算模型的方式和數據挖掘模型等方面如下敘述。
(1) **代數據挖掘繫統。在**代數據挖掘繫統中，數據挖掘通常作為一個獨立的應用，繫統僅支持一個或少數幾個數據挖掘算法，這些算法被用來挖掘向量數據，這些數據模型在挖掘時一次性地調入內存進行處理，通常在單臺機器上運行。
(2) 第二代數據挖掘繫統。第二代數據挖掘繫統支持數據庫和數據倉庫的集成，同時它們具有高性能的接口，具有很好的可擴展性。第二代數據挖掘繫統通過支持數據挖掘模式和數據挖掘查詢語言來增加繫統的靈活性，能夠挖掘大數據集、*復雜的數據集以及高維數據。
(3) 第三代數據挖掘繫統。第三代數據挖掘繫統能夠挖掘Internet/Extranet的分布式和高度異質的數據，並且能夠有效地將其同操作繫統集成。這一代數據挖掘繫統的關鍵技術之一是對建立在異質繫統上的多個預言模型以及管理這些預言模型的元數據提供支持。
(4) 第四代數據挖掘繫統。第四代數據挖掘繫統能夠采用多個算法挖掘嵌入式繫統、移動繫統和普遍存在的計算設備所產生的各種類型的數據，使繫統的集成度*高，計算方式和數據模型*加復雜。
3．6數據挖掘的功能和方法 3．6．1數據挖掘的功能數據挖掘是一門交叉學科，融合了數據庫、人工智能、機器學習、統計學等多個領域的理論和技術。數據挖掘的主要功能有以下幾點。
1．關聯分析關聯分析的目的是找出數據集中屬性值之間的聯繫，形成關聯規則。為了發現有意義的關聯規則，需要給定兩個閾值： *小支持度和*小可信度。在這個意義上，挖掘出的關聯規則就必須滿足*小支持度和*小可信度。關聯規則是在1993年由R．Agrawal等人提出的，然後擴展到從關繫數據庫、空間數據庫和多媒體數據庫中挖掘關聯關繫，並且要求挖掘出通用的、多層次的、用戶感興趣的關聯規則。隨著應用和技術的發展，幾年來對挖掘關聯規則的技術提出了*新的要求，如在線挖掘、提高挖掘大型數據庫的計算效率、減小I/O開銷、挖掘定量型關聯規則等。
2．概念描述一個概念通常是對一個包含大量數據的數據集總體情況的描述。概念描述就是通過對與某類對像關聯數據的彙總、分析和比較，對此類對像的內涵進行描述，並概括這類對像的有關特征。這種描述是彙總的、簡潔的和**的，當然也是**有用的。概念描述分為特征性描述和區別性描述。前者描述某類對像的共同特征，後者描述不同類對像之間的區別。生成一個類的特征性描述隻涉及該類對像中所有對像的共性；生成區別性描述則涉及目標類和對比類中對像的共性。
3．數據總結數據總結的目的是對數據進行濃縮，給出數據集的緊湊描述。數據挖掘是從數據泛化的角度來研究數據總結的。數據泛化是一種把數據庫中的相關數據從低層次抽像到高層次的過程。用戶有時希望可以從高層次的視圖上瀏覽數據，因而需要對數據進行不同層次上的泛化以適應各種查詢及處理需求。目前，數據泛化的主要技術有面向屬性的歸納技術和多維數據分析方法。
4．分類分析類刻畫了一類事物，這類事物具有某種意義上的共同特征，並明顯與不同類事物相區別。分類分析就是通過分析示例數據庫中的數據，為每個類別做出準確的描述或建立分析模型或挖掘出分類規則，然後用這個分類規則對其他數據庫中的記錄進行分類。從機器學習的觀點來看，分類技術是一種有指導的學習，即每個訓練樣本的數據對像已經有類標識，通過學習可以形成與表達數據對像與類標識間對應的知識。目前已有多種分類分析模型得到應用，主要有神經網絡方法、Bayesian分類、決策樹、統計分類方法、粗糙集分類、SVM方法、覆蓋算法等。在數據挖掘中這些方法均遇到數據規模的問題，即大多數方法能有效解決小規模數據庫的數據挖掘問題，但當應用於大數據量的數據庫時，會出現性能惡化、精度下降的問題。
5．聚類分析聚類是把一組個體按照相似性歸成若干類別，它的目的是使得屬於同一類別的個體之間的差別盡可能小，而不同類別上的個體間的差別盡可能大。聚類結束後，每類中的數據由**的標志進行標識，各類數據的共同特征也被提取出來，用於對該特征進行描述。提高聚類效率、減少時間和空間開銷，以及如何在高維空間進行有效數據聚類是聚類研究中的主要問題。聚類分析的方法很多，如k平均算法、k中心點算法、基於凝聚的層次聚類和基於分裂的層次聚類等。采用不同的聚類方法，對於相同的記錄集合可能有不同的劃分結果。
分類和聚類技術不同，前者總是在特定的類標識下尋求新元素屬於哪個類，而後者則是通過對數據的分析比較生成新的類標識。
6．時間序列分析時間序列分析中的相似模式發現分為相似模式聚類和相似模式搜索兩種。相似模式聚類是將時間序列數據分隔成等長或不等長的子序列，然後用模式匹配的方法進行聚類，找出序列中所有相似的模式。相似模式搜索是指給定一個陌生子序列，在時間序列中搜索所有與給定子序列模式*接近的數據子序列。時間序列分析主要應用於天氣數據預報、金融市場數據分析、醫療診斷分析、科學工程數據以及通信信號、雷達信號數據處理等方面。
7．偏差分析偏差分析包括分類中的反常實例、例外模式、觀測結果對期望值的偏離以及量值隨時間的變化等，基本思想就是對數據庫中的偏差數據進行檢測和分析，檢測出數據庫中的一些異常記錄，它們在某些特征上與數據庫中的大部分數據有著顯著不同。通過發現異常，可以引起人們對特殊情況的格外關注。異常模式包含：出現在其他模式邊緣的奇異點；不滿足常規類的異常實例；與父類或兄弟類不同的類；觀察值與模型推測出的期望值有明顯差異的例子等。偏差分析方法主要有基於統計的方法、基於距離的方法和基於偏移的方法。孤點數據的發現可以應用在信用卡使用、金融欺詐防範、醫學數據分析等領域中。
8．建模通過數據挖掘，建造出描述一種狀態或活動的數學或物理模型。機器學習中的數據挖掘就是對一些自然現像進行建模，重新發現科學定律，如BACON繫統。基本的思路是：采用數據驅動，通過啟發式約束搜索，依賴於理論數據項，應用一些通用的發現方法，找出概念之間的內在聯繫並表示出來，從而探索出理論模型。
3．6．2數據挖掘的方法由於數據挖掘應用領域十分廣泛，因此產生了多種數據挖掘的算法和方法，如決策樹方法、模糊集方法、神經網絡方法、粗糙集方法、統計分析方法、可視化方法等。有時對於某一數據庫很有效的算法對另一數據庫有可能**無效，因此，應針對具體的挖掘目標和應用對像而設計不同的算法。目前具有代表性的方法有以下幾類。
1．決策樹方法決策樹表示形式簡單，所發現的模型也易於為用戶理解，是挖掘分類知識中*流行的方法之一。它利用信息論中的信息熵作為結點分類的標準，建立決策樹的一個結點，再根據屬性當前的值域建立結點的分支。決策樹的建立是一個遞歸過程。在知識表示方面具有直觀、易於理解等優點。*早的決策樹算法是ID3方法，它對較大的數據集處理效果較好。在ID3的基礎上，Quinlan又提出了改進的C4．5算法。
2．模糊集方法模糊集方法是利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析，是一種應用較早的處理不確定性問題的有效方法。繫統的復雜性越高，模糊性越強。模糊集理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。
在很多場合，數據挖掘任務所面臨的數據具有同樣的模糊性和不**性，因此把模糊數學理論應用於數據挖掘則順理成章。使用模糊集方法可以對已挖掘的大

商品搜索

商品分类

【醫學】

【各大出版社】