2022年我們經歷了新型冠狀病毒感染的反復無常、國際形勢的瞬息萬變,也感受了鼕季奧運會的中國式浪漫,希望一切都朝著好的方向發展,一起向未來。回首整個書稿撰寫歷程,有對章節內容安排的困惑、對案例選擇的迷茫; 也有團隊協作的喜悅、內容逐步明晰的踏實。
計算機視覺(Computer Vision,CV)主要研究如何用機器來代替人類的眼睛和大腦實現對真實世界的“觀察”和“理解”。在深度學習網絡模型不斷發展的同時,互聯網上的圖像數據規模有了爆發性的增長,圖形(Graphic Processing Unit,GPU)性能也飛速提升,三者合力為人類帶來了一場席卷全球的計算機視覺深度學習熱潮。在學術界,人臉識別、目標檢測等相關任務的算法得到了很好的理論優化; 在產業界,由深度學習驅動的計算機視覺已經廣泛應用於智慧城市建設、醫療健康、電商與實體零售、無人駕駛等各類場景,逐步成為計算機視覺行業的支撐力量。
本書將計算機視覺及深度學習的理論基礎與代碼實踐相結合,可以作為計算機視覺相關任務實踐教程,也可以作為科研工作者的參考圖書。本書內容涵蓋各類計算機視覺任務的深度學習模型、案例實踐基本流程和步驟。通過本書,讀者可以掌握計算機視覺處理的基本概念、評價指標,熟悉視覺處理任務的具體實現過程。
全書共分為12章,分為理論篇與實戰篇兩部分。
部分為理論篇(第1~4章),首先梳理了計算機視覺技術的發展歷程、主要任務、行業應用繫統和常用處理工具; 其次詳細介紹了目前比較流行的深度學習開發框架,重點介紹了飛槳(PaddlePaddle)開發平臺的構成與入門基礎; 然後介紹了深度學習中需要掌握的基礎知識與網絡模型架構; 後通過簡單的模型搭建案例,讓讀者能夠輕松地入門飛槳平臺。
第二部分為實戰篇(第5~12章),每章分別對應計算機視覺領域中不同的經典任務,並且結合各個視覺任務的任務要求與技術發展,對其中經典的深度學習算法模型進行介紹。然後,詳解了在飛槳開發框架下各算法模型的實現過程,讓讀者能夠快速地從基礎入門到熟練掌握。各章節的內容都采用理論與實踐相結合的方式,在模型介紹的基礎上,結合具體案例提供了相應的實現代碼,在百度飛槳AI Studio上進行部署和運行,鏈接詳見配套課件。讀者在閱讀本書的同時,可以進行代碼實戰,加深對計算機視覺任務的深度學習理論及模型的理解。
在國家“新一代人工智能發展規劃”的重大戰略指導下,計算機視覺技術迎來了前所未有的機遇與發展。本書編寫的初衷是推動計算機視覺技術的教育,以及為深度學習平臺自主性、國產化貢獻一份力量。
本書由來自北京航空航天大學和百度公司的幾位多年從事計算機視覺科研和教學的工作者共同編寫完成,書中的內容和結構安排經過了我們團隊多輪討論和審定,實戰案例及相關代碼來源於百度飛槳社區和作者相關的科研實踐。
參與本書編寫的有張磊、李宏、王瑜、王麒雄、李森、姜鴻翔、魏曉東、胡宇韜、吳承曦、於陽、洪友勰、張可昕、於子淇、武東錕、楚天肜、肖雄。
本書在編寫過程中,參考了國內外大量圖書和論文,在此對本書所引用論文和圖書的作者深表感謝。同時,感謝飛槳社區的luplup、月影知星辰、nanting03、自尊心3、ZMpursue、PaddleVideo、GTZhang以及Gitee平臺的dongshuilong,感謝你們為飛槳框架下的代碼做出的貢獻; 感謝飛槳團隊程軍、呂健、吳蕾對書中實戰案例與相關代碼的審核和編寫建議; 感謝百度公司馬婧對本書撰寫過程中所有事務的處理。
後,感謝北京航空航天大學宇航學院的劉博老師、深圳市塞外科技有限公司的黃明先生,感謝你們百忙中對本書撰寫的指導和建議,雖然書稿還存在不足之處,但你們讓它變得更好!
作者2022年9月