第1~2章介紹了OpenCV編譯、運行,深度學習模塊(Open DNN)的架構、實現原理,以及深度學習的數學基礎與如何快速上手。
第3~5章主要介紹了OpenCV的GPU加速原理,涵蓋必要的並行計算知識、Intel GPU硬件結構,以及OpenCL和Vulkan加速實現,是性能優化工作的核心。
第6章介紹了CPU的硬件知識,以及深度學習模塊的CPU加速方法,重點講解了指令集SIMD加速,討論了Halide後端加速、OpenVINO(Intel推理引擎)加速。
第7章介紹了常用的深度神經網絡可視化工具——TensorBoard(適用於TensorFlow網絡格式),Netscope(適用於Caffe網絡格式),針對Intel硬件平臺的性能調優工具VTune,以及高階程序優化的思路和方法。
第8~9章重點講解實踐細節,包括用深度學習方法處理計算機視覺的基本問題,以及一個完整的人臉活體檢測項目與主流識別項目解析。
《深度實踐OCR:基於深度學習的文字識別》
《深度學習與圖像識別:原理與實踐》
這是一部從技術原理、算法和工程實踐3個維度繫統講解圖像識別的著作,由阿裡巴巴達摩院算法專家、阿裡巴巴技術發展專家、阿裡巴巴數據架構師聯合撰寫。
在知識點的選擇上,本書廣度和深度兼顧,既能讓完全沒有基礎的讀者迅速入門,又能讓有基礎的讀者深入掌握圖像識別的核心技術;在寫作方式上,本書避開了復雜的數學公式及其推導,從問題的前因後果 、創造者的思考過程,利用簡單的數學計算來做模型分析和講解,通俗易懂。更重要的是,本書不僅僅是聚焦於技術,而是將重點放在了如何用技術解決實際的業務問題。
全書一共13章:
第1-2章主要介紹了圖像識別的應用場景、工具和工作環境的搭建;
第3-6章詳細講解了圖像分類算法、機器學習、神經網絡、誤差反向傳播等圖像識別的基礎技術及其原理;
第7章講解了如何利用PyTorch來實現神經網絡的圖像分類,專注於實操,是從基礎向高階的過渡;
第8-12章深入講解了圖像識別的核心技術及其原理,包括卷積神經網絡、目標檢測、分割、產生式模型、神經網絡可視化等主題;
第13章從工程實踐的角度講解了圖像識別算法的部署模式。
《OpenCV深度學習應用與性能優化實踐》
Intel音視頻團隊與阿裡巴巴圖像處理專家聯合撰寫,知名專家聯袂推薦,深入解析OpenCV DNN 模塊、基於GPU/CPU的加速實現、性能優化技巧與可視化工具,以及人臉活體檢測(完整案例)與主流識別項目解析。
第1~2章介紹了OpenCV編譯、運行,深度學習模塊(Open DNN)的架構、實現原理,以及深度學習的數學基礎與如何快速上手。
第3~5章主要介紹了OpenCV的GPU加速原理,涵蓋必要的並行計算知識、Intel GPU硬件結構,以及OpenCL和Vulkan加速實現,是性能優化工作的核心。
第6章介紹了CPU的硬件知識,以及深度學習模塊的CPU加速方法,重點講解了指令集SIMD加速,討論了Halide後端加速、OpenVINO(Intel推理引擎)加速。
第7章介紹了常用的深度神經網絡可視化工具——TensorBoard(適用於TensorFlow網絡格式),Netscope(適用於Caffe網絡格式),針對Intel硬件平臺的性能調優工具VTune,以及高階程序優化的思路和方法。
第8~9章重點講解實踐細節,包括用深度學習方法處理計算機視覺的基本問題,以及一個完整的人臉活體檢測項目與主流識別項目解析。
《深度實踐OCR:基於深度學習的文字識別》
這是一部融合了企業界先進工程實踐經驗和學術界前沿技術和思想的OCR著作。本書由阿裡巴巴本地生活研究院算法團隊技術專家領銜,從組件、算法、實現、工程應用等維度繫統講解基於深度學習的OCR技術的原理和落地。書中一步步剖析了算法背後的數學原理,提供大量簡潔的代碼實現,幫助讀者從零基礎開始構建OCR算法。全書共10章:第1章從宏觀角度介紹了ORC技術的發展歷程、概念和產業應用;第2章講解了OCR的圖像預處理方法;第3~4章介紹了傳統機器學習方法和深度學習的相關基礎知識;第5章講解了基於傳統方法和深度學習方法的OCR的數據生成;第6章講解了與OCR相關的一些高級深度學習方法,方便讀者理解後續的檢測和識別部分;第7章講解了文字的檢測技術,從通用的目標檢測到文字的檢測,一步步加深讀者對文字檢測問題的認識;第8章討論了文字識別的相關技術,定位到文字的位置之後,需要對文字的內容進行進一步的解析;第9章介紹了一些OCR後處理的方法;第10章介紹了一些版面分析方法。