作 者: 賀鏗 主編
定 價:30
出 版 社:中國統計出版社
出版日期:2009年07月01日
裝 幀:平裝
ISBN:9787503756399
●第1章數據挖掘概論
●1.1引言
●1.2統計學家和計算機學家從不同角度看數據挖掘
●1.3數據源
●1.4數據挖掘的應用
●第2章傳統統計面對的挑戰
●2.1統計的黑匣子特性
●2.2統計從數學繼承了什麼
●2.3傳統的數據建模在應用中所遇到的問題
●2.4算法建模
●2.5回到統計的最初宗旨
●第3章常用算法建模概述
●3.1引言
●3.2關聯規則分析
●3.3 最近鄰方法
●3.4 人工神經網絡
●3.5支持向量機
●3.6 VC維數和誤差界限
●
●……
這本書所涉及的是代表統計領域發展很快的部分,也是對傳統統計提出很重大挑戰的部分,這就是在數據挖掘實踐中發展的新方法。而本書所著重說明的前沿問題是:數據挖掘方法中很普遍應用的分類和回歸中成為近年來發展熱點的組合方法。
隨著人類活動的不斷發展,各個領域產生了不斷增加的大量數據。由於許多數據的數據量很大,而且數據的結構曰趨復雜,傳統的統計方法無法滿足分析這些數據的需要,這就產生了數據挖掘的實踐,以及所產生的大量新型算法。在數據挖掘中也應用一些傳統統計的方法,但這些方法的理解和檢驗與傳統統計有所不同。更重要的是在數據挖掘中產生了許多新方法,它們從任何角度來看,都接近不同於傳統統計的方法。由於這些新方法和傳統統計的理念接近不同,在很初隻有少數統計學家感興趣,而大多為計算機領域的工作者所開發。因此,以數據分析為宗旨的統計學科損失了大量的機會、領域和人纔。很近十多年來,不斷有很好的統計學家加入到等
數據挖掘的數據源可以是大的數據(data),或者數據庫(database),或者數據倉庫(datawarehouse),或者數據集市(datamart)。當然,這些都是從外部世界收集的原始數據被存儲的地方。數據挖掘需要保證可靠和方便的數據源,這意味著有大量的涉及數據庫的工作要做。對數據進行分析之前,還必須根據需要來篩選,預處理和淨化數據。
特別設計的為了用計算機快速搜尋和提取的數據或信息的集合稱為數據庫。數據庫的構造使得在各種數據過程操作中可以很方便地存人、提取、修改和刪除數據。數據庫能夠存儲在磁盤、磁帶、光盤或其他二級存儲設備中。比如,電訊部門所有的通訊記錄、銀行所有業務的記錄都形成了不斷變化的數據庫。而數據倉庫則是一個面向目標的、整合的、隻能夠讀的數據集合,是為了管理決策而建立的。對於一個企業來說,數據倉庫把整個企業的各種不同的數據庫整合起來,易於查詢,易於對和等