作 者:魏溪含 塗銘 張修鵬 著
定 價:129
出 版 社:機械工業出版社
出版日期:2019年07月01日
頁 數:276
裝 幀:平裝
ISBN:9787111630036
(1)三位作者均來自阿裡巴巴,由達摩院的資深算法專家領銜,技術積累深厚,業務經驗豐富;(2)從技術原理、算法和工程實踐3個維度繫統展開,既適合零基礎讀者快速入門,又適合有基礎讀者理解其核心技術;(3)寫作方式上避開了艱澀的數學公式及其推導,深入淺出。
●前言第1章 機器視覺在行業中的應用11.1 機器視覺的發展背景11.1.1 人工智能11.1.2 機器視覺21.2 機器視覺的主要應用場景31.2.1 人臉識別31.2.2 視頻監控分析41.2.3 工業瑕疵檢測51.2.4 圖片識別分析61.2.5 自動駕駛/駕駛輔助71.2.6 三維圖像視覺81.2.7 醫療影像診斷81.2.8 文字識別91.2.9 圖像/視頻的生成及設計91.3 本章小結10第2章 圖像識別前置技術112.1 深度學習框架112.1.1 Theano112.1.2 Tensorflow122.1.3 MXNet132.1.4 Keras132.1.5 PyTorch142.1.6 Caffe142.2 搭建圖像識別開發環境152.2.1 Anaconda152.2.2 conda182.2.3 Pytorch的下載與安裝192.3 Numpy使用詳解202.3.1 創建數組202.3.2 創建Numpy數組222.3.3 獲取Numpy屬性242.3.4 Numpy數組索引252.3.5 切片252.3.6 Numpy中的矩陣運算262.3.7 數據類型轉換272.3.8 Numpy的統計計算方法282.3.9 Numpy中的arg運算292.3.10 FancyIndexing292.3.11 Numpy數組比較302.4 本章小結31第3章 圖像分類之KNN算法323.1 KNN的理論基礎與實現323.1.1 理論知識323.1.2 KNN的算法實現333.2 圖像分類識別預備知識353.2.1 圖像分類353.2.2 圖像預處理363.3 KNN實戰363.3.1 KNN實現MNIST數據分類363.3.2 KNN實現Cifar10數據分類413.4 模型參數調優443.5 本章小結48第4章 機器學習基礎494.1 線性回歸模型494.1.1 &nbs線性回歸504.1.2 &nbs線性回歸564.2 邏輯回歸模型574.2.1 Sigmoid函數584.2.2 梯度下降法594.2.3 學習率的分析614.2.4 邏輯回歸的損失函數634.2.5 Python實現邏輯回歸664.3 本章小結68第5章 神經網絡基礎695.1 神經網絡695.1.1  705.1.2 激活函數725.1.3 前向傳播765.2 輸出層805.2.1 Softmax805.2.2 one-hotencoding825.2.3 輸出層個數835.2.4 MNIST數據集的前向傳播835.3 批處理855.4 廣播原則875.5 損失函數885.5.1 均方誤差885.5.2 交叉熵誤差895.5.3 Mini-batch905.6 很優化915.6.1 隨機初始化915.6.2 跟隨梯度(數值微分)925.7 基於數值微分的反向傳播985.8 基於測試集的評價1015.9 本章小結104第6章 誤差反向傳播1056.1 激活函數層的實現1056.1.1 ReLU反向傳播實現1066.1.2 Sigmoid反向傳播實現1066.2 Affine層的實現1076.3 Softmaxwithloss層的實現1086.4 基於數值微分和誤差反向傳播的比較1096.5 通過反向傳播實現MNIST識別1116.6 正則化懲罰1146.7 本章小結115第7章 PyTorch實現神經網絡圖像分類1167.1 PyTorch的使用1167.1.1 Tensor1167.1.2 Variable1177.1.3 激活函數1187.1.4 損失函數1207.2 PyTorch實戰1227.2.1 PyTorch實戰之MNIST分類1227.2.2 PyTorch實戰之Cifar10分類1257.3 本章小結128第8章 卷積神經網絡1298.1 卷積神經網絡基礎1298.1.1 全連接層1298.1.2 卷積層1308.1.3 池化層1348.1.4 批規範化層1358.2 常見卷積神經網絡結構1358.2.1 AlexNet1368.2.2 VGGNet1388.2.3 GoogLeNet1408.2.4 ResNet1428.2.5 其他網絡結構1448.3 VGG16實現Cifar10分類1458.3.1 訓練1468.3.2 預測及評估1498.4 本章小結1528.5 參考文獻152第9章 目標檢測1539.1 定位+分類1539.2 目標檢測1559.2.1 R-CNN1569.2.2 Fast R-CNN1609.2.3 Faster R-CNN1629.2.4 YOLO1659.2.5 SSD1669.3 SSD實現VOC目標檢測1679.3.1 PASCAL VOC數據集1679.3.2 數據準備1709.3.3 構建模型1759.3.4 定義Loss1789.3.5 SSD訓練細節1819.3.6 訓練1869.3.7 測試1899.4 本章小結1909.5 參考文獻191第10章 分割19210.1 語義分割19310.1.1 FCN19310.1.2 UNet實現裂紋分割19610.1.3 SegNet20910.1.4 PSPNet21010.2 實例分割21110.2.1 層疊式21210.2.2 扁平式21210.3 本章小結21310.4 參考文獻214第11章 產生式模型21511.1 自編碼器21511.2 對抗生成網絡21511.3 DCGAN及實戰21711.3.1 數據集21811.3.2 網絡設置22011.3.3 構建產生網絡22111.3.4 構建判別網絡22311.3.5 定義損失函數22411.3.6 訓練過程22411.3.7 測試22711.4 其他GAN23011.5 本章小結23511.6 參考文獻235第12章 神經網絡可視化23612.1 卷積核23612.2 特征層23712.2.1 直接觀測23712.2.2 通過重構觀測23912.2.3 末端特征激活情況24312.2.4 特征層的作用24412.3 圖片風格化24512.3.1 理論介紹24512.3.2 代碼實現24712.4 本章小結25512.5 參考文獻255第13章 圖像識別算法的部署模式25713.1 圖像算法部署模式介紹25713.2 實際應用場景和部署模式的匹配26213.3 案例介紹26413.4 本章小結265
本書是一本有關人工智能圖像識別應用開發與實踐指導類的教材,主要介紹圖像處理應用項目開發的基本流程、圖像識別處理應用項目關鍵技術。本書直擊當今研究熱點,選擇有代表性的專題項目而且盡量避免復雜的數學推導,易於讀者理解,專注於實戰。詳細介紹了numpy,knn,線性回歸,邏輯回歸,神經網絡在圖像識別上的應用,並為後一部分的深度學習做好鋪墊。同時,針對每一個項目介紹項目的應用及意義,該項目的數據特征分析、識別繫統設計、圖像預處理技術、特征提取技術,以及識別方法等。書中實例程序的框架結構簡單,代碼簡潔,讀者可在數字圖像處理技術的基礎上進一步深化學習內容,提高實踐應用能力和項目開發能力。
魏溪含 塗銘 張修鵬 著
作者簡介魏溪含愛丁堡大學人工智能碩士,阿裡巴巴達摩院算法專家,在計算機視覺、大數據領域有8年以上的算法架構和研發經驗。在大數據領域,曾帶領團隊對阿裡巴巴個性化推薦繫統進行升級;計算機視覺領域,主導並攻克了光伏EL全自動瑕疵識別的世界難題,並在行為識別領域帶領團隊參賽打破世界紀錄等。塗銘阿裡巴巴數據架構師,對大數據、自然語言處理、圖像識別、Python、Java相關技術有深入的研究,積累了豐富的實踐經驗。在工業領域曾參與了燃煤優化、設備故障診斷項目,正泰光伏電池片和組件EL圖像檢測項目;在自然語言處理方面,擔任導購機器人項目的架構師,主導開發機器人的語義理解、短文本相似度匹配、上下文理解,以及通等
為什麼要寫這本書隨著深度學習技術的發展、計算能力的提升和視覺數據的增長,視覺智能計算技術在許多應用領域如拍照搜索、智能相冊、人臉閘機、城市智能交通管理、智慧醫療等都取得了令人矚目的成績。因此越來越多的人開始對機器視覺感興趣,並開始從事這個行業。就圖像識別領域來說,運行一個開源的代碼並不是什麼難事,但搞懂其中的原理確實會稍有些難度。因此本書在每章中都會用相對通俗的語言來介紹算法的背景和原理,並會在讀者“似懂非懂”時給出實戰案例。實戰案例的代碼已全部在線下運行通過,代碼並不復雜,可以很好地幫助讀者理解其中的細節,希望讀者在學習理論之後可以親自動手實踐。圖像識別的理論和實踐是相輔相成的,希望本書可以帶領讀者走進圖像識別的世界。本書從章節規劃到具體的講述方式,具有以下兩個特點:第一個特點是本書的主要目標讀者定位為高校相關專業的本科生(統計學、計算機技術)、圖像識別愛好者,以及不具備專業數學知識的人等