作 者:(美)邁克爾·R.布茹斯托維奇 著 姜建錦,趙緒營,張岩 譯
定 價:59
出 版 社:人民郵電出版社
出版日期:2020年04月01日
頁 數:200
裝 幀:平裝
ISBN:9787115533302
數據科學近年來迅速成為了熱門研究領域,但很少有數據科學從業人士冒險涉足Java世界。考慮到在工程與科學的交叉地帶所需的可伸縮性、穩健性以及便利性,Java其實是一門理想的語言。本書將循序漸進地引導讀者進入數據科學的工作流程,在解釋數學原理的同時給出代碼示例。書中解釋了數據科學流程每一步背後的基本數學原理,以及如何采用Java來應用這些原理。本書內容涉及數據輸入與輸出、線性代數、統計學、數據操作、學習與預測,以及Hadoop MapReduce在這個過程中所扮演的關鍵角色。● 討論獲取數據等
●前言
第1章 數據的輸入與輸出
1.1 究竟何謂數據
1.2 數據模型
1.2.1 一維數組
1.2.2 多維數組
1.2.3 數據對像
1.2.4 矩陣和向量
1.2.5 JSON
1.3 處理實際數據
1.3.1 空值
1.3.2 空格
1.3.3 解析錯誤
1.3.4 異常值
1.4 管理數據文件
1.4.1 首先理解文件內容
1.4.2 讀取文本文件
1.4.3 讀取JSON文件
1.4.4 讀取圖像文件
1.4.5 寫入文本文件
1.5 掌握數據庫操作
1.5.1 命令行客戶端
1.5.2 結構化查詢語言
1.5.3 Java數據庫連接
1.6 通過繪圖將數據可視化
1.6.1 創建簡單圖形
1.6.2 混合類型圖的繪制
1.6.3 把圖存入文件
第2章 線性代數
2.1 構造向量和矩陣
2.1.1 數組存儲
2.1.2 塊存儲
2.1.3 映射存儲
2.1.4 素
2.1.5 處理子陣
2.1.6 隨機化
2.2 向量與矩陣的運算
2.2.1 縮放
2.2.2 轉置
2.2.3 加與減
2.2.4 長度
2.2.5 距離
2.2.6 相乘
2.2.7 內積
2.2.8 外積
2.2.9 逐項積
2.2.10 復合運算
2.2.11 仿射變換
2.2.12 映射函數
2.3 矩陣分解
2.3.1 Cholesky分解
2.3.2 LU分解
2.3.3 QR分解
2.3.4 奇異值分解
2.3.5 特征分解
2.3.6 行列式
2.3.7 矩陣逆
2.4 求解線性方程組
第3章 統計學
3.1 數據的概率起源
3.1.1 概率密度
3.1.2 累積概率
3.1.3 統計矩
3.1.4 熵
3.1.5 連續分布
3.1.6 離散分布
3.2 數據集的特征
3.2.1 矩的計算
3.2.2 描述性統計
3.2.3統計
3.2.4 協方差與相關繫數
3.2.5 回歸
3.3 處理大數據集
3.3.1 累積統計
3.3.2 統計結果的歸並
3.3.3 回歸
3.4 數據庫內置函數的應用
第4章 數據操作
4.1 轉換文本數據
4.1.1 從文檔中提取標記
4.1.2 利用字典
4.1.3 文檔向量化
4.2 數值數據的縮放與歸一化
4.2.1 對列進行縮放
4.2.2 對行進行縮放
4.2.3 矩陣的縮放算子
4.3 將數據降維至主成分
4.3.1 協方差方法
4.3.2 SVD方法
4.4 創建訓練集、驗證集及測試集
4.4.1 基於索引的重新采樣
4.4.2 基於列表的重新采樣
4.4.3 小批量
4.5 標簽的編碼
4.5.1 泛型編碼器
4.5.2 一位有效編碼
第5章 學習與預測
5.1 學習算法
5.1.1 迭代學習過程
5.1.2 梯度下降優化方法
5.2 評估學習過程
5.2.1 損失函數最小化
5.2.2 方差和的最小化
5.2.3 輪廓繫數
5.2.4 對數似然性
5.2.5 分類器的準確率
5.3 無監督型學習
5.3.1 K均值聚類
5.3.2 DBSCAN
5.3.3 高斯混合
5.4 監督型學習
5.4.1 樸素貝葉斯
5.4.2 線性模型
5.4.3 深度網絡
第6章 Hadoop MapReduce
6.1 Hadoop分布式文件繫統
6.2 MapReduce體繫結構
6.3 編寫MapReduce應用
6.3.1 剖析MapReduce任務
6.3.2 Hadoop數據類型
6.3.3 映射器
6.3.4 歸約器
6.3.5 JSON字符串作為文本的簡單性
6.3.6 部署技巧
6.4 MapReduce示例
6.4.1 單詞計數
6.4.2 定制單詞計數
6.4.3 稀疏線性代數
附錄A 數據集
作者簡介
關於封面
本書基於清晰的、面向對像的Java代碼,討論了數據科學研究的一些基本原理。考慮到項目所需的可伸縮性、穩健性以及便利性,Java是一門理想的語言。本書解釋了數據科學過程每個步驟背後的基本數學原理,以及如何將這些概念應用於Java。本書內容涉及數據輸入與輸出、線性代數、統計學、數據操作、學習與預測,以及Hadoop MapReduce在這個過程中所扮演的關鍵角色。書中還提供了在應用程序中使用的代碼示例。本書適合數據科學工作者以及希望提高數據科學技能的Java軟件工程師閱讀。