內容簡介
隨著信息技術的飛速發展,數據的產生和存儲達到了空前繁榮的階段。如何從海量的數據中提取潛在的有用信息,給傳統的數據處理技術提出了嚴峻的考驗,數據挖掘方法應運而生。數據挖掘是一個多學科的交叉研究領域,不僅大學裡的學術人員在研究它,商業公司的專家和技術人員也在密切地關注它和使用它;它不僅涉及人工智能領域以及統計學的應用,而且涉及數據庫的管理和使用。從技術上來講,數據挖掘是從大量的、不完全的、有噪聲的、模糊的、*的實際應用數據中,提取隱含在其中的、人們事先不知道的,但又潛在有用的信息和知識的過程。從商業應用來講,數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模式化的處理,從中提取輔助商業決策的關鍵性數據。
本書第1章對數據挖掘進行了概述,包括數據挖掘的定義、重要性、功能、步驟和常用方法等。第2章和第3章介紹了兩種數據挖掘中常用的指導的學習算法、關聯規則和聚類分析,它們處理的數據的特點是沒有獨立的需要預測或分類的變量,而隻是試圖從數據中發現一些固有的模式。關聯規則就是要發現兩個或多個事物之間的聯繫;聚類分析就是要把數據中具有相似性質的放在一類,而不同類之間盡量做到有較大的不同。第4章和第5章介紹了兩種數據挖掘中常用的指導的學習算法、決策樹和神經網絡。它們處理的數據含有獨立的需要預測或隨著信息技術的飛速發展,數據的產生和存儲達到了空前繁榮的階段。如何從海量的數據中提取潛在的有用信息,給傳統的數據處理技術提出了嚴峻的考驗,數據挖掘方法應運而生。數據挖掘是一個多學科的交叉研究領域,不僅大學裡的學術人員在研究它,商業公司的專家和技術人員也在密切地關注它和使用它;它不僅涉及人工智能領域以及統計學的應用,而且涉及數據庫的管理和使用。從技術上來講,數據挖掘是從大量的、不完全的、有噪聲的、模糊的、*的實際應用數據中,提取隱含在其中的、人們事先不知道的,但又潛在有用的信息和知識的過程。從商業應用來講,數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模式化的處理,從中提取輔助商業決策的關鍵性數據。
本書第1章對數據挖掘進行了概述,包括數據挖掘的定義、重要性、功能、步驟和常用方法等。第2章和第3章介紹了兩種數據挖掘中常用的指導的學習算法、關聯規則和聚類分析,它們處理的數據的特點是沒有獨立的需要預測或分類的變量,而隻是試圖從數據中發現一些固有的模式。關聯規則就是要發現兩個或多個事物之間的聯繫;聚類分析就是要把數據中具有相似性質的放在一類,而不同類之間盡量做到有較大的不同。第4章和第5章介紹了兩種數據挖掘中常用的指導的學習算法、決策樹和神經網絡。它們處理的數據含有獨立的需要預測或
分類的變量,它們的目的就是尋找一些自變量的函數或算法對數據進行準確的預測或分類。決策樹方法在對數據處理的過程中,將數據按照樹狀結構分成若干分枝形成決策規則;神經網絡在一定程度上模仿了人腦神經繫統處理信息,存儲以及檢索的功能,它是一個非線性的映射繫統。第6章和第7章介紹了兩種數據挖掘中常用的傳統統計的方法,回歸分析和時間序列。回歸分析是尋找自變量和因變量之間關繫的預測模型,包括線性回歸和Logistic回歸;時間序列分析,顧名思義,是處理以時間為序的觀測數據的方法。本書的一個特點是不僅對上述方法作了理論的闡述,還結合案例分析講述了如何應用STATISTICA軟件實現上述方法對數據的分析,是一本理論和實踐相結合的理論性和應用性都很強的書。
本書第1章對數據挖掘進行了概述,包括數據挖掘的定義、重要性、功能、步驟和常用方法等。第2章和第3章介紹了兩種數據挖掘中常用的指導的學習算法、關聯規則和聚類分析,它們處理的數據的特點是沒有獨立的需要預測或分類的變量,而隻是試圖從數據中發現一些固有的模式。關聯規則就是要發現兩個或多個事物之間的聯繫;聚類分析就是要把數據中具有相似性質的放在一類,而不同類之間盡量做到有較大的不同。第4章和第5章介紹了兩種數據挖掘中常用的指導的學習算法、決策樹和神經網絡。它們處理的數據含有獨立的需要預測或隨著信息技術的飛速發展,數據的產生和存儲達到了空前繁榮的階段。如何從海量的數據中提取潛在的有用信息,給傳統的數據處理技術提出了嚴峻的考驗,數據挖掘方法應運而生。數據挖掘是一個多學科的交叉研究領域,不僅大學裡的學術人員在研究它,商業公司的專家和技術人員也在密切地關注它和使用它;它不僅涉及人工智能領域以及統計學的應用,而且涉及數據庫的管理和使用。從技術上來講,數據挖掘是從大量的、不完全的、有噪聲的、模糊的、*的實際應用數據中,提取隱含在其中的、人們事先不知道的,但又潛在有用的信息和知識的過程。從商業應用來講,數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模式化的處理,從中提取輔助商業決策的關鍵性數據。
本書第1章對數據挖掘進行了概述,包括數據挖掘的定義、重要性、功能、步驟和常用方法等。第2章和第3章介紹了兩種數據挖掘中常用的指導的學習算法、關聯規則和聚類分析,它們處理的數據的特點是沒有獨立的需要預測或分類的變量,而隻是試圖從數據中發現一些固有的模式。關聯規則就是要發現兩個或多個事物之間的聯繫;聚類分析就是要把數據中具有相似性質的放在一類,而不同類之間盡量做到有較大的不同。第4章和第5章介紹了兩種數據挖掘中常用的指導的學習算法、決策樹和神經網絡。它們處理的數據含有獨立的需要預測或
分類的變量,它們的目的就是尋找一些自變量的函數或算法對數據進行準確的預測或分類。決策樹方法在對數據處理的過程中,將數據按照樹狀結構分成若干分枝形成決策規則;神經網絡在一定程度上模仿了人腦神經繫統處理信息,存儲以及檢索的功能,它是一個非線性的映射繫統。第6章和第7章介紹了兩種數據挖掘中常用的傳統統計的方法,回歸分析和時間序列。回歸分析是尋找自變量和因變量之間關繫的預測模型,包括線性回歸和Logistic回歸;時間序列分析,顧名思義,是處理以時間為序的觀測數據的方法。本書的一個特點是不僅對上述方法作了理論的闡述,還結合案例分析講述了如何應用STATISTICA軟件實現上述方法對數據的分析,是一本理論和實踐相結合的理論性和應用性都很強的書。