了得網計算機/網絡_阿裡AI大牛教你深度學習計算機視覺套裝共3冊

產品特色

編輯推薦

適讀人群：1.有一定Python基礎的，並且未來想了解或者從事圖像識別方面的開發；2. 對人工智能，深度學習有興趣的讀者；3. 從事計算機視覺相關工作的讀者

本套裝包含《深度學習與圖像識別：原理與實踐》、《OpenCV深度學習應用與性能優化實踐》和《深度實踐OCR:基於深度學習的文字識別》各1本。

《深度學習與圖像識別：原理與實踐》
（1）三位作者均來自阿裡巴巴，由達摩院的資深算法專家領銜，技術積累深厚，業務經驗豐富；
（2）從技術原理、算法和工程實踐3個維度繫統展開，既適合零基礎讀者快速入門，又適合有基礎讀者理解其核心技術；
（3）寫作方式上避開了艱澀的數學公式及其推導，深入淺出。

《OpenCV深度學習應用與性能優化實踐》
1）作者陣容豪華。Intel與阿裡巴巴高級圖形圖像專家聯合撰寫；
2）範圍全面。從應用、架構、加速原理與技巧，全面覆蓋；
3）案例豐富。完整人臉活體檢測案例與主流視覺項目解析；
4）內容獨特。涵蓋Intel推理引擎加速等鮮見一手深度信息。

《深度實踐OCR:基於深度學習的文字識別》
（1）作者陣容豪華，由阿裡巴巴本地生活研究院算法團隊技術專家領銜，海康威視、趣頭條等企業的算法專家以及知名場景文本算法作者共同撰寫；
（2）行業應用和學術理論相結合，既有來自於阿裡巴巴本地生活實際應用場景的一線實踐經驗和方法，又有來自學術前沿的新理論；
（3）本書得到了阿裡巴巴本地生活、達摩院、曠視科技、字節跳動、狗尾草等知名AI企業或機構的知名AI技術專家的聯袂推薦；

適讀人群：1.有一定Python基礎的，並且未來想了解或者從事圖像識別方面的開發；2. 對人工智能，深度學習有興趣的讀者；3. 從事計算機視覺相關工作的讀者

本套裝包含《深度學習與圖像識別：原理與實踐》、《OpenCV深度學習應用與性能優化實踐》和《深度實踐OCR:基於深度學習的文字識別》各1本。

《深度學習與圖像識別：原理與實踐》

（1）三位作者均來自阿裡巴巴，由達摩院的資深算法專家領銜，技術積累深厚，業務經驗豐富；

（2）從技術原理、算法和工程實踐3個維度繫統展開，既適合零基礎讀者快速入門，又適合有基礎讀者理解其核心技術；

（3）寫作方式上避開了艱澀的數學公式及其推導，深入淺出。

《OpenCV深度學習應用與性能優化實踐》

1）作者陣容豪華。Intel與阿裡巴巴高級圖形圖像專家聯合撰寫；

2）範圍全面。從應用、架構、加速原理與技巧，全面覆蓋；

3）案例豐富。完整人臉活體檢測案例與主流視覺項目解析；

4）內容獨特。涵蓋Intel推理引擎加速等鮮見一手深度信息。

《深度實踐OCR:基於深度學習的文字識別》

（1）作者陣容豪華，由阿裡巴巴本地生活研究院算法團隊技術專家領銜，海康威視、趣頭條等企業的算法專家以及知名場景文本算法作者共同撰寫；

（2）行業應用和學術理論相結合，既有來自於阿裡巴巴本地生活實際應用場景的一線實踐經驗和方法，又有來自學術前沿的新理論；

（3）本書得到了阿裡巴巴本地生活、達摩院、曠視科技、字節跳動、狗尾草等知名AI企業或機構的知名AI技術專家的聯袂推薦；

（4）本書不僅講解了OCR的組件、方法、算法、實現，而且還介紹了學術界*前沿的文字檢測和文字識別方法。

內容簡介

《深度學習與圖像識別：原理與實踐》
第1～2章介紹了OpenCV編譯、運行，深度學習模塊（Open DNN）的架構、實現原理，以及深度學習的數學基礎與如何快速上手。
第3～5章主要介紹了OpenCV的GPU加速原理，涵蓋必要的並行計算知識、Intel GPU硬件結構，以及OpenCL和Vulkan加速實現，是性能優化工作的核心。
第6章介紹了CPU的硬件知識，以及深度學習模塊的CPU加速方法，重點講解了指令集SIMD加速，討論了Halide後端加速、OpenVINO（Intel推理引擎）加速。
第7章介紹了常用的深度神經網絡可視化工具——TensorBoard（適用於TensorFlow網絡格式），Netscope（適用於Caffe網絡格式），針對Intel硬件平臺的性能調優工具VTune，以及高階程序優化的思路和方法。
第8～9章重點講解實踐細節，包括用深度學習方法處理計算機視覺的基本問題，以及一個完整的人臉活體檢測項目與主流識別項目解析。

《深度實踐OCR:基於深度學習的文字識別》

《深度學習與圖像識別：原理與實踐》

這是一部從技術原理、算法和工程實踐3個維度繫統講解圖像識別的著作，由阿裡巴巴達摩院算法專家、阿裡巴巴技術發展專家、阿裡巴巴數據架構師聯合撰寫。

在知識點的選擇上，本書廣度和深度兼顧，既能讓完全沒有基礎的讀者迅速入門，又能讓有基礎的讀者深入掌握圖像識別的核心技術；在寫作方式上，本書避開了復雜的數學公式及其推導，從問題的前因後果、創造者的思考過程，利用簡單的數學計算來做模型分析和講解，通俗易懂。更重要的是，本書不僅僅是聚焦於技術，而是將重點放在了如何用技術解決實際的業務問題。

全書一共13章：

第1-2章主要介紹了圖像識別的應用場景、工具和工作環境的搭建；

第3-6章詳細講解了圖像分類算法、機器學習、神經網絡、誤差反向傳播等圖像識別的基礎技術及其原理；

第7章講解了如何利用PyTorch來實現神經網絡的圖像分類，專注於實操，是從基礎向高階的過渡；

第8-12章深入講解了圖像識別的核心技術及其原理，包括卷積神經網絡、目標檢測、分割、產生式模型、神經網絡可視化等主題；

第13章從工程實踐的角度講解了圖像識別算法的部署模式。

《OpenCV深度學習應用與性能優化實踐》

Intel音視頻團隊與阿裡巴巴圖像處理專家聯合撰寫，知名專家聯袂推薦，深入解析OpenCV DNN 模塊、基於GPU/CPU的加速實現、性能優化技巧與可視化工具，以及人臉活體檢測（完整案例）與主流識別項目解析。
第1～2章介紹了OpenCV編譯、運行，深度學習模塊（Open DNN）的架構、實現原理，以及深度學習的數學基礎與如何快速上手。
第3～5章主要介紹了OpenCV的GPU加速原理，涵蓋必要的並行計算知識、Intel GPU硬件結構，以及OpenCL和Vulkan加速實現，是性能優化工作的核心。
第6章介紹了CPU的硬件知識，以及深度學習模塊的CPU加速方法，重點講解了指令集SIMD加速，討論了Halide後端加速、OpenVINO（Intel推理引擎）加速。
第7章介紹了常用的深度神經網絡可視化工具——TensorBoard（適用於TensorFlow網絡格式），Netscope（適用於Caffe網絡格式），針對Intel硬件平臺的性能調優工具VTune，以及高階程序優化的思路和方法。
第8～9章重點講解實踐細節，包括用深度學習方法處理計算機視覺的基本問題，以及一個完整的人臉活體檢測項目與主流識別項目解析。

《深度實踐OCR:基於深度學習的文字識別》

這是一部融合了企業界先進工程實踐經驗和學術界前沿技術和思想的OCR著作。本書由阿裡巴巴本地生活研究院算法團隊技術專家領銜，從組件、算法、實現、工程應用等維度繫統講解基於深度學習的OCR技術的原理和落地。書中一步步剖析了算法背後的數學原理，提供大量簡潔的代碼實現，幫助讀者從零基礎開始構建OCR算法。全書共10章：第1章從宏觀角度介紹了ORC技術的發展歷程、概念和產業應用；第2章講解了OCR的圖像預處理方法；第3~4章介紹了傳統機器學習方法和深度學習的相關基礎知識；第5章講解了基於傳統方法和深度學習方法的OCR的數據生成；第6章講解了與OCR相關的一些高級深度學習方法，方便讀者理解後續的檢測和識別部分；第7章講解了文字的檢測技術，從通用的目標檢測到文字的檢測，一步步加深讀者對文字檢測問題的認識；第8章討論了文字識別的相關技術，定位到文字的位置之後，需要對文字的內容進行進一步的解析；第9章介紹了一些OCR後處理的方法；第10章介紹了一些版面分析方法。

作者簡介

《深度學習與圖像識別：原理與實踐》
魏溪含
愛丁堡大學人工智能碩士，阿裡巴巴達摩院算法專家，在計算機視覺、大數據領域有8年以上的算法架構和研發經驗。
在大數據領域，曾帶領團隊對阿裡巴巴個性化推薦繫統進行升級；計算機視覺領域，主導並攻克了光伏EL全自動瑕疵識別的世界難題，並在行為識別領域帶領團隊參賽打破世界紀錄等。

塗銘

《深度學習與圖像識別：原理與實踐》

魏溪含

愛丁堡大學人工智能碩士，阿裡巴巴達摩院算法專家，在計算機視覺、大數據領域有8年以上的算法架構和研發經驗。

在大數據領域，曾帶領團隊對阿裡巴巴個性化推薦繫統進行升級；計算機視覺領域，主導並攻克了光伏EL全自動瑕疵識別的世界難題，並在行為識別領域帶領團隊參賽打破世界紀錄等。

塗銘

阿裡巴巴數據架構師，對大數據、自然語言處理、圖像識別、Python、Java相關技術有深入的研究，積累了豐富的實踐經驗。在工業領域曾參與了燃煤優化、設備故障診斷項目，正泰光伏電池片和組件EL圖像檢測項目；在自然語言處理方面，擔任導購機器人項目的架構師，主導開發機器人的語義理解、短文本相似度匹配、上下文理解，以及通過自然語言檢索產品庫，在項目中構建了NoSQL 文本檢索等大數據架構，也同時負責問答對的整理和商品屬性的提取，帶領NLP團隊構建語義解析層。

張修鵬

畢業於中南大學，阿裡巴巴技術發展專家，長期從事雲計算、大數據、人工智能與物聯網技術的商業化應用，在阿裡巴巴首次將圖像識別技術引入工業，並推動圖像識別產品化、平臺化，擅於整合前沿技術解決產業問題，主導多個大數據和AI為核心的數字化轉型項目成功實施，對技術和商業結合有著深刻的理解。

《OpenCV深度學習應用與性能優化實踐》

吳至文

Intel亞太研發有限公司資深圖形圖像工程師，擁有多年算法開發優化經驗，技術領域涵蓋顯示繫統、視覺處理、深度學習框架加速，尤其擅長基於OpenCL和Vulkan的算法設計及優化，是OpenCV DNN模塊Vulkan後端的作者、OpenCL後端主要貢獻者之一。近期關注深度學習視覺算法開發及其高效部署。

郭葉軍

Intel資深圖形圖像工程師。多年圖形芯片驅動開發經驗，主要包括OpenGL驅動和OpenCL驅動。目前關注視頻分析中的深度學習，是FFmpeg深度學習模塊的代碼維護者。

宗煒

Intel資深圖形圖像工程師，長期從事計算機視覺算法與應用、數字圖像處理、Camera成像算法開發，在CPU/GPU/ISP異構計算算法設計與優化上經驗頗豐，是圖像處理與計算機視覺算法開源項目libXCam的維護者和主要貢獻者。近期關注低延時、超高分辨率VR視頻直播方案的開發和部署。

阿裡巴巴高級技術專家，原Intel亞太研發有限公司資深圖形圖像工程師。涉及領域包括顯示繫統、圖形圖像處理、深度學習框架加速。是OpenCV DNN模塊OpenCL後端主要貢獻者之一。

趙娟

Intel高級研發經理，鑽研圖形圖像、視頻編解碼和視頻處理十幾年，帶領團隊深耕視頻編解碼和處理軟硬件加速、深度學習算法分析與設計，致力於讓開源軟件在圖形圖像視頻市場落地，並組織團隊把多年的“干貨”整理成書，與視頻行業的朋友們一起探討與成長。

《深度實踐OCR:基於深度學習的文字識別》

劉樹春

阿裡巴巴本地生活研究院算法專家，前復旦七牛雲聯合實驗室OCR算法負責人，在OCR相關技術的落地和實現方面有深入的研究和豐富的實踐經驗，在菜單識別、車牌檢測識別、卡證識別、商業廣告文字檢測和識別、票據類識別等應用場景中積累了豐富的經驗。曾經組隊參加COCO競賽、ICDAR刷榜等活動，並發表多篇頂會論文。

賀盼

佛羅裡達大學在讀博士，擔任 CVPR、ICCV、ECCV等10多家國際頂會審稿人或程序委員，在場景文本領域發表過多篇國際頂會論文 (DTRN、CTPN、SSTD等)。曾經在中科院先進技術研究院、港中文、曠視美國研究院等做過相關研究工作，對場景文本有深刻的認識，並且對場景文本學術前沿有很強的感知力。

馬建奇

著名的RRPN算法的作者，發表過多篇國際頂會論文，曾經在曠視研究院做過檢測相關的工作，在上海高等研究院做過文字檢測相關的工作，曾經組隊參加過ICDAR 17 MLT比賽，獲得前三名。曾獲Facebook研究實習機會。目前即將開始修讀博士學位，正在做文字識別相關的工作，對於OCR的問題有獨到的見解。

王佳軍

阿裡巴巴本地生活研究院高級算法專家，負責本地生活研究院圖像算法團隊的管理、研發等工作，曾經在滴滴研究院做相關算法的研究。業餘時間擔任深度學習框架MXNet的技術專家，對實際算法的落地優化等有非常深入的耕耘，具有很強的OCR相關項目的落地能力。

謝雨飛

趣頭條算法工程師，曾在七牛雲做OCR、NLP相關算法的研究工作，發表過多篇國際頂會論文。

陳明曦

紐約大學碩士研究生，曾在七牛雲從事OCR相關工作，發表相關論文數篇。

媒體評論

本書繫統介紹了OCR的各類方法，既包括圖像預處理、數據生成與增強、文字檢測與識別等基礎內容，又有與神經網絡和目標檢測相結合的進階內容。作者團隊在學術研究和產業應用方面的經驗都非常豐富。
隨著深度學習的廣泛應用，OCR技術歷久彌新，*近幾年取得了脫胎換骨的進展。阿裡巴巴本地生活提供了各種線上線下融合的場景，催生了如菜單識別、小票識別、招牌識別、包裝文字識別等富有生活味道的需求，對 OCR 技術提出了新的挑戰。本書將OCR 的前沿理論與行業應用深度結合，能幫助讀者更好地理解和掌握新的OCR 技術。
文字識別改變內容的表達和交互方式，是各行業信息化和數字化的基礎，在多媒體內容理解、人工輔助駕駛、無障礙信息交流等方向都發揮著不可或缺的作用。本書講解了文字識別技術的理論和方法，兼顧入門讀者和進階讀者的需求。同時，書中分享了大量應用案例和實戰經驗，能幫助讀者實現AI場景落地。
相較於圖像信息，文字信息更加直接、易用。識別圖像中的文字，是很多AI應用的非常關鍵的一步。本書不僅包括文字識別相關的理論和算法，還包括很多技術落地方面的實踐和應用，幫助圖像算法工程師少走彎路，快速學習。

本書繫統介紹了OCR的各類方法，既包括圖像預處理、數據生成與增強、文字檢測與識別等基礎內容，又有與神經網絡和目標檢測相結合的進階內容。作者團隊在學術研究和產業應用方面的經驗都非常豐富。

——田值 FCOS/CTPN模型作者

隨著深度學習的廣泛應用，OCR技術歷久彌新，*近幾年取得了脫胎換骨的進展。阿裡巴巴本地生活提供了各種線上線下融合的場景，催生了如菜單識別、小票識別、招牌識別、包裝文字識別等富有生活味道的需求，對 OCR 技術提出了新的挑戰。本書將OCR 的前沿理論與行業應用深度結合，能幫助讀者更好地理解和掌握新的OCR 技術。

——李佩阿裡巴巴本地生活研究院高級總監

作為繫統性講解OCR的專業書籍，本書彙集了阿裡本地生活研究院技術團隊對深度學習領域OCR的理論研究和實踐經驗，可讀性和實操性俱佳，是相關專業學生和從業者不可多得的一本工具書。

——魏秀參曠視南京研究院院長

文字識別改變內容的表達和交互方式，是各行業信息化和數字化的基礎，在多媒體內容理解、人工輔助駕駛、無障礙信息交流等方向都發揮著不可或缺的作用。本書講解了文字識別技術的理論和方法，兼顧入門讀者和進階讀者的需求。同時，書中分享了大量應用案例和實戰經驗，能幫助讀者實現AI場景落地。

——王永攀阿裡達摩院讀光OCR負責人

相較於圖像信息，文字信息更加直接、易用。識別圖像中的文字，是很多AI應用的非常關鍵的一步。本書不僅包括文字識別相關的理論和算法，還包括很多技術落地方面的實踐和應用，幫助圖像算法工程師少走彎路，快速學習。

——邵傑字節跳動AI實驗室資深研究員

圖像識別是計算機視覺領域非常重要的研究方向，傳統的機器學習方法主要關注圖像內容的挖掘，如果能夠識別出圖像中的文字，對於圖像的理解和後續的應用都有非常大的幫助。本書不僅講解了機器學習和深度學習的基礎知識，闡述了文字識別的相關理論和算法，更重要的是，還給出了技術實踐和應用，可以幫助圖像算法工程師快速學習和落地文字識別繫統。

——邵浩狗尾草人工智能研究院院長

本書的作者們長期從事圖形圖像和視頻編解碼處理的算法研究、軟件的功能實現及性能加速，各自在OpenCV項目裡都有重要貢獻，直至成為一些模塊的維護者。本書從OpenCV入門，結合行業熱點，花更多筆墨於機器學習相關實現、平臺相關的性能優化，更貼近實戰，為學生、工程技術人員提供了實用價值。

—— 傅文慶，Intel公司繫統軟件產品事業部研發總監

本書講解了各種計算架構下深度學習的計算優化和加速，列舉了一些精準實用的項目樣例，內容不僅涵蓋全面詳盡的算法原理，還解釋分析相關源代碼和實踐結果。本書對深度學習的新發展趨勢和主要研究方向進行了全面而綜合的介紹，從不同的用戶場景出發，對算法做了深度的分析和詳細的解釋，能夠滿足初學者對於各種計算機視覺應用的需求。

—— 鄒復好，華中科技大學計算機學院教授

本書由Intel中國團隊的成員編寫，他們優化了OpenCV DNN模塊在GPU上的性能。本書包含一些深度的*手信息，這些信息在其他地方很難找到。其中包括一些很少討論的話題，如OpenCL、Vulkan、OpenCV DNN和Halide後端。

—— Vadim Pisarevsky，OpenCV團隊主管

本書深入解析了OpenCV DNN模塊，詳述了深度學習引擎的性能優化策略，介紹了在GPU和CPU上進行計算加速的方法，並通過幾個案例展示如何在OpenCV中使用深度學習，*後則帶著大家完整實現一個人臉活體檢測、識別的大項目。書中提供的案例，緊跟技術前沿，貼近實際應用場景，相信對從事工程項目開發的讀者也非常有參考價值。

—— 周強（CV君），“我愛計算機視覺”公眾號負責人

商品搜索

商品分类

【醫學】

【各大出版社】