特征工程是數據科學和機器學習流水線上的重要一環,包括識別、清洗、構建和發掘數據的特征,為進一步解釋數據並進行預測性分析做準備。
本書囊括了特征工程的全流程,從數據檢查到可視化,再到轉換和進一步處理等,並給出了大量數學工具,幫助讀者掌握如何將數據處理、轉換成適當的形式,以便送入計算機和機器學習流水線中進行處理。後半部分的特征工程實踐用Python作為示例語言,循序漸進,通俗易懂。
- 識別和利用不同類型的特征
- 清洗數據中的特征,提升預測能力
- 為何、如何進行特征選擇和模型誤差分析
- 利用領域知識構建新特征
- 基於數學知識交付特征
- 使用機器學習算法構建特征
- 掌握特征工程與特征優化
- 在現實應用中利用特征工程