店鋪:機械工業出版社官方旗艦店 出版社:機械工業出版社 ISBN:9787111696308 商品編碼:10042588370746 品牌:機械工業出版社(CMP) 頁數:304 字數:400000 審圖號:9787111696308 作者:丁兆雲
" 內容簡介 目前,數據挖掘類課程已成為我國新工科教育的數據科學思維提升課程,成為信息、電子等各類工科專業本科生與研究生的必修課。本書深入淺出地介紹了數據挖掘和數據分析的知識、常用的各類算法;繫統梳理與比較各類算法的優缺點與適用場景。本書內容結合作者多年的科研和教學經驗,大量案例來自作者的項目和科研成果,不僅適合作為大數據特色類專業的本科生和研究生教材,同時也適合機械、航空等其他工科專業的入門與自學教材,還可作為各專業本科生與研究生考試復習的參考資料。 目錄 前言 *1章緒論1 1.1數據挖掘的出現1 1.2為什麼要學習數據挖掘1 1.2.1數據爆炸但知識貧乏1 1.2.2從商業數據到商業智能的進化2 1.2.3科學發展範式2 1.3什麼是數據挖掘3 1.3.1數據挖掘的出現3 1.3.2數據挖掘的定義3 1.3.3數據的含義4 1.3.4信息的含義4 1.3.5知識的含義5 1.3.6數據、信息、知識的關繫5 1.3.7數據挖掘過程5 1.3.8數據挖掘的關聯課程6 1.4數據挖掘的內容7 1.4.1關聯規則挖掘7 1.4.2分類7 1.4.3聚類9 1.4.4回歸10 1.5本章小結10 *2章認識數據11 2.1數據的基本概念11 2.1.1數據對像11 2.1.2數據屬性12 2.1.3屬性的類型13 2.1.4屬性類型的對比14 2.1.5離散屬性與連續屬性14 2.2數據的基本統計方法15 2.2.1中心化趨勢統計量:均值、中位數和眾數15 2.2.2離散度度量16 2.2.3分布形狀度量17 2.3數據的基本可視化方法18 2.3.1箱線圖可視化18 2.3.2直方圖可視化19 2.3.3散點圖可視化19 2.4數據相似性的計算方法20 2.4.1數據相似性和相異性度量的基本概念20 2.4.2標稱屬性的鄰近性度量21 2.4.3二值屬性的鄰近性度量22 2.4.4序數屬性的鄰近性度量23 2.4.5數值屬性的鄰近性度量23 2.4.6混合類型屬性的鄰近性度量25 2.4.7餘弦相似性25 2.5本章小結26 第3章數據預處理27 3.1數據質量27 3.2數據預處理的主要任務27 3.2.1數據清理27 3.2.2數據集成28 3.2.3數據規約32 3.2.4數據規範化和數據離散化37 3.3特征構造38 3.3.1為什麼需要特征構造38 3.3.2基本特征構造法38 3.3.3時間類型數據特征構造法39 3.3.4時間序列數據特征構造法41 3.3.5離散數據特征啞編碼42 3.4本章小結43 第4章分類的基本概念與樸素貝葉斯分類器44 4.1分類的基本概念44 4.2樸素貝葉斯分類的基礎理論45 4.2.1貝葉斯示例45 4.2.2貝葉斯定理46 4.2.3極大後驗假設46 4.2.4多維屬性的聯合概率47 4.2.5獨立性假設47 4.2.6訓練集介紹47 4.3貝葉斯分類的案例48 4.3.1案例一:購買電腦預測48 4.3.2案例二:垃圾郵件分類49 4.4連續類型數據分類50 4.5本章小結50 第5章決策樹分類51 5.1決策樹51 5.2決策樹構建的兩個問題52 5.2.1如何構建決策樹52 5.2.2構造什麼樣的決策樹是合適的53 5.3決策樹算法54 5.3.1Hunt算法54 5.3.2構建決策樹的關鍵問題56 5.3.3信息增益算法57 5.3.4C4.5算法59 5.3.5CART算法61 5.4本章小結64 第6章規則和*近鄰分類器66 6.1基於規則的分類66 6.1.1基於規則的分類示例66 6.1.2規則的質量68 6.1.3規則分類器的特征68 6.1.4基於規則的分類器的建立69 6.1.5規則分類的特點76 6.2急切學習與惰性學習76 6.3*近鄰分類器77 6.3.1*近鄰算法的定義77 6.3.2K*近鄰分類算法78 6.4本章小結79 第7章回歸算法80 7.1線性回歸的案例:房價預測80 7.2線性回歸算法81 7.2.1線性回歸的提出81 7.2.2線性回歸建模81 7.2.3*小二乘法82 7.3優化求解方法83 7.3.1梯度下降83 7.3.2梯度下降法求解83 7.3.3學習率分析84 7.3.4梯度下降法收斂85 7.3.5梯度下降法的變體86 7.4邏輯回歸87 7.4.1邏輯回歸函數87 7.4.2邏輯回歸的特點87 7.4.3優勢比88 7.4.4邏輯回歸參數估計89 7.4.5邏輯回歸正則化90 7.4.6邏輯回歸數值優化91 7.4.7邏輯回歸訓練方法的優化93 7.5決策樹回歸94 7.5.1決策樹回歸的基本概念94 7.5.2決策樹分類*佳劃分點的選擇94 7.5.3決策樹回歸算法96 7.6本章小結96 第8章模型的評價97 8.1分類模型的評價指標97 8.1.1混淆矩陣97 8.1.2準確率97 8.1.3*確率與召回率98 8.1.4ROC曲線99 8.2不平衡分類102 8.2.1基於抽樣的方法103 8.2.2兩階段學習104 8.2.3代價敏感學習104 8.3過擬合與欠擬合105 8.3.1訓練誤差和泛化誤差105 8.3.2噪聲導致的過擬合107 8.3.3缺乏代表性樣本導致的過擬合107 8.3.4解決過擬合的方法一:減少泛化誤差109 8.3.5解決過擬合的方法二:使用確認集估計泛化誤差110 8.4其他模型評價指標113 8.4.1回歸模型113 8.4.2聚類模型114 8.4.3關聯規則模型115 8.5本章小結117 第9章支持向量機分類器118 9.1支持向量機的提出118 9.1.1支持向量機簡介118 9.1.2傳統分類方法的不足118 9.1.3支持向量機的總體思想119 9.1.4從Logistic回歸到SVM分析119 9.1.5支持向量機的應用120 9.2深入支持向量機121 9.2.1支持向量機算法的原理121 9.2.2支持向量機建模122 9.2.3支持向量機求解123 9.3非線性支持向量機126 9.3.1基於軟間隔的C-SVM126 9.3.2非線性SVM與核變換129 9.3.3支持向量機二分類推廣131 9.4本章小結131 *10章神經網絡分類器132 10.1人工神經網絡出現的背景 132 10.1.1發展歷程132 10.1.2端到端的學習133 10.1.3神經網絡的優點133 10.1.4時代的必然性134 10.2神經網絡基礎:感知機134 10.2.1感知機的直觀理解134 10.2.2感知機數學模型135 10.2.3感知機訓練136 10.2.4感知機的缺陷:“異或”分類問題136 10.2.5多層感知機模型137 10.2.6多層感知機解決“異或”分類問題138 10.3後向傳播神經網絡139 10.3.1後向傳播算法的原理139 10.3.2激活函數141 10.3.3後向傳播算法參數學習的推導143 10.3.4後向傳播算法參數更新案例147 10.4本章小結150 *11章集成學習151 11.1集成學習簡介151 11.1.1集成學習的定義和基本思想151 11.1.2集成學習過程151 11.1.3集成學習的優勢154 11.2集成學習算法155 11.2.1Bagging算法155 11.2.2隨機森林156 11.2.3Boosting方法157 11.2.4GBDT167 11.3Stacking方法168 11.4LightGBM方法169 11.4.1LightGBM簡介169 11.4.2GOSS169 11.4.3EFB170 11.4.4LightGBM的一些其他特性172 11.4.5LightGBM中的並行學習173 11.4.6LightGBM中主要的調節參數175 11.5本章小結176 *12章聚類算法177 12.1聚類概述177 12.1.1什麼是聚類177 12.1.2分類與聚類178 12.1.3聚類的應用178 12.1.4聚類的要求178 12.2基本的聚類方法179 12.2.1劃分方法179 12.2.2層次方法184 12.2.3基於密度的方法188 12.2.4圖論聚類方法190 12.2.5網格算法191 12.2.6模型算法192 12.3聚類評估192 12.3.1估計聚類趨勢192 12.3.2確定數據集中的簇數193 12.3.3聚類質量的度量193 12.4本章小結194 *13章關聯規則挖掘195 13.1定義195 13.1.1關聯分析的概念195 13.1.2頻繁項集196 13.1.3*大頻繁項集196 13.1.4關聯規則挖掘問題196 13.1.5關聯規則挖掘蠻力方法197 13.2Apriori算法198 13.2.1Apriori算法的過程199 13.2.2Apriori算法的項字典序與項連接200 13.2.3Apriori算法的特點200 13.2.4提高Apriori算法性能的方法201 13.3FP-Growth算法201 13.3.1構造FP樹201 13.3.2基於FP樹的頻繁項集挖掘202 13.3.3FP樹結構的優點203 13.4挖掘關聯規則203 13.4.1關聯規則生成集合203 13.4.2關聯規則生成優化方法204 13.5關聯分析評估204 13.6本章小結205 *14章計算網絡節點影響力206 14.1基本定義206 14.1.1有向圖206 14.1.2無向圖206 14.1.3鄰接矩陣207 14.2基於節點鄰近的影響力計算207 14.2.1度中心性207 14.2.2半局部中心性208 14.2.3K殼分解法208 14.3基於路徑的影響力計算209 14.3.1離心中心性209 14.3.2接近中心性209 14.3.3介數中心性209 14.4基於特征向量的影響力計算210 14.4.1特征向量中心性210 14.4.2PageRank210 14.4.3HITS算法212 14.4.4自動信息彙集算法214 14.4.5SALSA算法214 14.5基於節點移除和收縮的影響力計算215 14.5.1節點刪除的*短距離法215 14.5.2節點刪除的生成樹法215 14.5.3節點收縮法216 14.5.4殘餘接近中心性216 14.6本章小結217 *15章信息推薦算法218 15.1背景218 15.2基於內容的信息推薦219 15.3基於協同過濾的信息推薦221 15.3.1基於用戶的協同過濾推薦221 15.3.2基於內容的協同過濾推薦223 15.4混合推薦方法224 15.5信息推薦的評價指標225 15.5.1準確性指標225 15.5.2排序加權指標227 15.5.3多樣性和創新性評價指標228 15.5.4覆蓋率評價指標229 15.6本章小結230 *16章自然語言處理中常用的神經網絡模型231 16.1基於神經網絡的自然語言處理基本框架231 16.2分布式詞向量233 16.2.1CBOW模型234 16.2.2Skip-gram模型234 16.2.3Word2Vec的負采樣訓練方法235 16.3循環神經網絡236 16.4卷積神經網絡238 16.5BERT模型241 16.5.1預訓練模型242 16.5.2BERT模型的架構243 16.5.3BERT模型的輸入表征244 16.5.4BERT模型的應用244 16.6本章小結245 附錄試題精選246 試題精選一246 試題精選二250 試題精選三252 試題精選四255 試題精選五259 試題精選六260 試題精選七263 試題精選八267 試題精選九270 試題精選十276 試題精選十一281 試題精選十二287
" |