[ 收藏 ] [ 繁体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

     经部  史类  子部  集部  古籍管理  古籍工具书  四库全书  古籍善本影音本  中国藏书
  •  文化

     文化评述  文化随笔  文化理论  传统文化  世界各国文化  文化史  地域文化  神秘文化  文化研究  民俗文化  文化产业  民族文化  书的起源/书店  非物质文化遗产  文化事业  文化交流  比较文化学
  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

     执业资格考试用书  室内设计/装潢装修  标准/规范  建筑科学  建筑外观设计  建筑施工与监理  城乡规划/市政工程  园林景观/环境艺术  工程经济与管理  建筑史与建筑文化  建筑教材/教辅  英文原版书-建筑
  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

     园艺  植物保护  畜牧/狩猎/蚕/蜂  林业  动物医学  农作物  农学(农艺学)  水产/渔业  农业工程  农业基础科学  农林音像
  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

  •  保健/养生

  •  体育/运动

  •  手工/DIY

  •  休闲/爱好

  •  英文原版书

  •  港台图书

  •  研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学

  •  音乐
     音乐理论

     声乐  通俗音乐  音乐欣赏  钢琴  二胡  小提琴
  • 數據科學工程實踐:用戶行為分析與建模、A/B實驗、SQLFlow
    該商品所屬分類:計算機/網絡 -> 程序設計
    【市場價】
    982-1424
    【優惠價】
    614-890
    【作者】 謝梁繆瑩瑩高梓堯王子玲 
    【所屬類別】 圖書  計算機/網絡  程序設計  其他 
    【出版社】機械工業出版社 
    【ISBN】9787111682547
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    開本:16開
    紙張:膠版紙
    包裝:平裝-膠訂

    是否套裝:否
    國際標準書號ISBN:9787111682547
    叢書名:數據科學與工程技術叢書

    作者:謝梁,繆瑩瑩,高梓堯,王子玲
    出版社:機械工業出版社
    出版時間:2021年06月 


        
        
    "

    產品特色

    編輯推薦

    1)豪華作者陣容:作者全部是自騰訊、滴滴、快手等一線互聯網企業的數據科學家、數據分析師和算法工程師,經驗極為豐富。


    2)三維度深融合:將數據科學的3個維度——商業理解、量化模型、數據技術全面打通,涵蓋數據科學的應用場景、理論支撐和技術底座。


    3)應用場景面廣:本書所有數據科學應用場景均來自商業環境,強調實用、可操作性強。


    4)方法論與案例:圍繞3大主題給出了大量方法論和實踐,方法論與案例的背景、代碼、解讀等模塊深度融合。

     
    內容簡介
    這是一本將數據科學三要素——商業理解、量化模型、數據技術全面打通的實戰性著作,是來自騰訊、滴滴、快手等一線互聯網企業的數據科學家、數據分析師和算法工程師的經驗總結,得到了SQLFlow創始人以及騰訊、網易、快手、貝殼找房、谷歌等企業的專家一致好評和推薦。

    全書三個部分,內容相對獨立,既能幫助初學者建立知識體繫,又能幫助從業者解決商業中的實際問題,還能幫助有經驗的專家快速掌握數據科學的技術和發展動向。內容圍繞非實驗環境下的觀測數據的分析、實驗的設計和分析、自助式數據科學平臺3大主題展開,涉及統計學、經濟學、機器學習、實驗科學等多個領域,包含大量常用的數據科學方法、簡潔的代碼實現和經典的實戰案例。

    部分(第 1~6 章) 觀測數據的分析技術

    這是一本將數據科學三要素——商業理解、量化模型、數據技術全面打通的實戰性著作,是來自騰訊、滴滴、快手等一線互聯網企業的數據科學家、數據分析師和算法工程師的經驗總結,得到了SQLFlow創始人以及騰訊、網易、快手、貝殼找房、谷歌等企業的專家一致好評和推薦。


     


    全書三個部分,內容相對獨立,既能幫助初學者建立知識體繫,又能幫助從業者解決商業中的實際問題,還能幫助有經驗的專家快速掌握數據科學的技術和發展動向。內容圍繞非實驗環境下的觀測數據的分析、實驗的設計和分析、自助式數據科學平臺3大主題展開,涉及統計學、經濟學、機器學習、實驗科學等多個領域,包含大量常用的數據科學方法、簡潔的代碼實現和經典的實戰案例。


     


    部分(第 16 章) 觀測數據的分析技術


    講解了非實驗環境下不同觀測數據分析場景所對應的分析框架、原理及實際操作,包括消費者選擇偏好分析、消費者在時間維度上的行為分析、基於機器學習的用戶生命周期價值預測、基於可解釋模型技術的商業場景挖掘、基於矩陣分解技術的用戶行為規律發現與挖掘,以及在不能進行實驗分析時如何更科學地進行全量評估等內容。


     


    第二部分(第79章)實驗設計和分析技術


    從 A/B 實驗的基本原理出發,深入淺出地介紹了各種商業場景下進行實驗設計需要參考的原則和運用的方法,尤其是在有樣本量約束條件下提升實驗效能的方法及商業場景限制導致的非傳統實驗設計。


     


    第三部分(第10~12章) 自助式數據科學平臺SQLFlow


    針對性的講解了開源的工程化的自助式數據科學平臺SQLFlow,並通過繫統配置、黑盒模型的解讀器應用、聚類分析場景等案例幫助讀者快速了解這一面向未來的數據科學技術。

    作者簡介
    謝梁經濟學博士,騰訊QQ瀏覽器副總經理、QQ瀏覽器數據負責人。CCF數據科學專委會創始委員,入選財經數據科學50人,清華大學商學院及香港大學商學院商業分析碩士項目指導嘉賓。曾任滴滴傑出數據科學家、美國微軟雲存儲核心工程部首席數據科學家。

    繆瑩瑩浙江大學碩士,曾任滴滴首席數據科學家,CCF數據科學專委會委員。擁有十餘項國家發明專利及國際發明專利,具有豐富的數據倉庫建設、數據挖掘建模、實驗科學與戰略分析的經驗。帶領團隊用數據的方式驅動從0到1的初創形態的業務和成熟形態業務的增長,善於發現業務機會和風險,給業務帶來巨大價值。

    高梓堯快手數據分析總監,長期在美國硅谷和中國多家互聯網科技公司從事用戶分析、實驗設計等相關工作。曾帶領滴滴數據科學團隊與螞蟻金服聯合開源共建一站式機器學習工具SQLFlow。擁有多項國家發明專利。清華大學商學院及哥倫比亞大學商學院商業分析碩士項目指導嘉賓、泛華統計協會演講嘉賓。

    謝梁經濟學博士,騰訊QQ瀏覽器副總經理、QQ瀏覽器數據負責人。CCF數據科學專委會創始委員,入選財經數據科學50人,清華大學商學院及香港大學商學院商業分析碩士項目指導嘉賓。曾任滴滴傑出數據科學家、美國微軟雲存儲核心工程部首席數據科學家。


     


    繆瑩瑩浙江大學碩士,曾任滴滴首席數據科學家,CCF數據科學專委會委員。擁有十餘項國家發明專利及國際發明專利,具有豐富的數據倉庫建設、數據挖掘建模、實驗科學與戰略分析的經驗。帶領團隊用數據的方式驅動從0到1的初創形態的業務和成熟形態業務的增長,善於發現業務機會和風險,給業務帶來巨大價值。


     


    高梓堯快手數據分析總監,長期在美國硅谷和中國多家互聯網科技公司從事用戶分析、實驗設計等相關工作。曾帶領滴滴數據科學團隊與螞蟻金服聯合開源共建一站式機器學習工具SQLFlow。擁有多項國家發明專利。清華大學商學院及哥倫比亞大學商學院商業分析碩士項目指導嘉賓、泛華統計協會演講嘉賓。


     


    王子玲上海交通大學計算數學碩士,曾任滴滴高級數據科學家、高級模型專家、高級風控專家。先後任職於日企MTI、人人網、滴滴出行、愛奇藝等知名互聯網企業,在網約車出行、互聯網金融、在線音樂、短視頻、網遊等領域積累了豐富的大數據分析、策略、挖掘、建模、研究、應用經驗。負責過兩段公司級重點項目從0到1增長的整體數據驅動體繫設計及落地。申請平臺智能定價及優化算法繫統等十餘項國家發明專利及國際發明專利。


     


    周銀河現任騰訊數據科學家,曾任滴滴數據科學家,清華大學商學院及哥倫比亞大學商學院商業分析碩士項目指導嘉賓。擁有豐富的數據分析、統計建模及實驗設計經驗。


     


    丁芬曾任滴滴數據科學家,曾就職於美團、滴滴等國內知名互聯網公司,工作經歷涉及市場咨詢、信貸風控、網約車交易及信息流等領域。


     


    蘇濤物理學博士,美國生物物理學會會員。曾任中國科學院研究助理,研究量子計算和主動流體。後任喬治華盛頓大學計算物理研究員,從事細胞模擬、生物領域機器學習、高性能計算等方向的研究。2017年進入互聯網行業,先後在Elex 和滴滴進行數學模型、算法和數據科學方向的研究,熟悉復雜網絡、流形幾何嵌入、時頻分析以及相關的機器學習和優化方法。


     


    王禹曾任滴滴高級數據分析師,主要負責滴滴分單引擎和調度引擎的實驗設計、評估、數據分析以及成交率等核心指標的預測、異常診斷歸因等工作。現任某短視頻科技企業算法工程師,主要負責LBS定位、POI挖掘等相關場景的策略算法開發。


     


    吳君涵曾任滴滴資深數據分析師,擅長用戶增長分析和體驗量化建模。具有豐富的大數據挖掘建模、產出數據驅動洞察並通過洞察影響決策的實戰經驗。


     


    楊驍捷 曾任滴滴高級數據分析師,擅長雙邊平臺的供需匹配效率分析,在出行、電商等不同業務場景中靈活運用因果推斷,評估業務收益。現任快手資深數據分析師。


     


    劉衝曾任滴滴高級數據分析師,主要負責流量運營的實驗設計、評估、數據分析以及優化司機行為和提高司機收入等相關分析,現任快手數據分析師。


     


    王玉璽中國人民大學商學院博士,美國密歇根大學訪問學者,曾任滴滴數據科學部研究員,主要研究方向為定價策略優化、消費者行為分析等。參與多項國家自然科學基金及社會科學基金研究項目,在Expert System、Information Systems Research、《管理評論》等期刊發表多篇論文。


     


    劉未名曾任滴滴數據科學家,擁有金融、互聯網等領域的數據分析經驗,擅長利用實驗、量化模型解決業務問題,多次參與公司級重點項目的數據分析,幫助公司搭建數據驅動工業化體繫,擁有國內、國際多項發明專利。


     


    楊凱迪現任快手數據分析部數據科學家。長期就職於國內頭部互聯網企業,對於出行定價補貼以及短視頻行業用戶畫像挖掘、策略分析等有豐富經驗。工作期間累計發表三篇國家發明專利論文。


     


    李依諾騰訊數據科學家,本碩先後畢業於美國印第安納大學數學專業和美國喬治華盛頓大學生物統計學專業。在在線視頻、網約車、網絡遊戲領域積累了豐富的數據科學實戰經驗,從0 到1 參與過騰訊、滴滴的實驗工業化進程。


     


    陳祥資深算法工程師,碩士畢業於愛丁堡大學計算機科學專業。先後從事異常檢測、強化學習、自然語言處理、領域知識圖譜建設及應用等相關工作。曾就職於愛奇藝、滴滴。SQLFlow 貢獻者之一。現從事用戶畫像、廣告繫統和推薦相關工作。


     


    朱文靜曾任滴滴高級數據分析師,主要從事基於業務數據進行的分析、建模、挖掘等工作。SQLFlow項目重要成員之一,SQLFlow開源社區貢獻者,參與貢獻了多個SQLFlow模型,其中包括可解釋黑盒模型、深度學習聚類模型、時間序列模型等。


     


     

    目錄
    第1章:如何分析用戶的選擇 1
    1.1選擇行為的經濟學理論 1
    1.1.1 選擇無處不在 1
    1.1.2 選擇行為的經濟學理論 2
    1.2 用戶選擇行為計量分析框架:DCM 4
    1.2.1 從經濟模型到計量模型 4
    1.2.2 常用的DCM模型及應用場景 8
    1.3 DCM模型的Python實踐 11
    1.3.1?軟件包? ?數據格式 11
    1.3.2 使用Logistics Regression分析自駕選擇問題 15
    1.3.3 使用 Multinomial Logit Model 分析完整交通方式選擇問題 21
    1.3.4 使用 Nested Logit Model 分析完整交通方式選擇問題 25
    1.4 本章小節 27
    第二章:隨時間可變的行為分析 27

    第1章:如何分析用戶的選擇 1
    1.1選擇行為的經濟學理論 1
    1.1.1 選擇無處不在 1
    1.1.2 選擇行為的經濟學理論 2
    1.2 用戶選擇行為計量分析框架:DCM 4
    1.2.1 從經濟模型到計量模型 4
    1.2.2 常用的DCM模型及應用場景 8
    1.3 DCM模型的Python實踐 11
    1.3.1?軟件包?&?數據格式 11
    1.3.2 使用Logistics Regression分析自駕選擇問題 15
    1.3.3 使用 Multinomial Logit Model 分析完整交通方式選擇問題 21
    1.3.4 使用 Nested Logit Model 分析完整交通方式選擇問題 25
    1.4 本章小節 27
    第二章:隨時間可變的行為分析 27
    2.1 從“如何給二手車定價”案例說起 27
    2.1.1 二手車定價背景 27
    2.1.2 為什麼不選擇一般回歸模型? 28
    2.1.3 為什麼選擇生存分析? 29
    2.2 生存分析的理論框架 29
    2.2.2 生存函數及風險函數刻畫 34
    2.2.3 生存函數回歸及生存概率的預測 36
    2.3 生存分析在二手車定價案例中的應用實踐 38
    2.3.1 軟件包&數據格式&數據入讀 40
    2.3.2 生存分析基礎操作:二手車銷售生存曲線繪制及差異對比 42
    第三章 洞察消費者長期價值:基於神經網絡的LTV建模 44
    3.1 LTV的概念和商業應用 44
    3.1.1 LTV——用戶終生(長期)價值 45
    3.1.2 用戶生命周期和用戶終生價值 45
    3.1.3 LTV的特點 46
    3.1.4 LTV分析能幫助我們回答的問題 46
    3.1.5 LTV的計算方法 47
    3.2 神經網絡的基本原理 49
    3.2.1 神經網絡的歷史 49
    3.2.2 本章所涉及的神經網絡結構 50
    3.3 基於Keras的LTV模型實踐 56
    3.3.1 Keras介紹 56
    3.3.2 數據的加載和預處理 56
    3.3.3 輸入數據的準備 59
    3.3.4 模型搭建和訓練 65
    3.3.5 模型分析 68
    3.4 本章總結 68
    第4章 使用體繫化分析方法進行場景挖掘 69
    4.1. 選擇經驗化分析還是體繫化分析 69
    4.1.1經驗化分析的局限性 69
    4.1.2體繫化方法的手段和優勢 70
    4.2. 體繫化分析常用工具 71
    4.2.1黑盒模型與白盒模型 71
    4.2.2可解釋模型——決策樹 71
    4.2.3全局代理模型 76
    4.2.4場景挖掘模型分析方法框架 77
    4.3. 場景挖掘分析實踐 78
    4.3.1數據背景及數據處理 78
    4.3.2經驗化分析 80
    4.3.3場景挖掘模型的Python實現與模型解讀 80
    4.4. 本章小結 86
    第5章 行為規律的發現與挖掘 86
    概述 86
    5.1對包含有順序關繫數據的規律分析 87
    5.1.1有序數據及SVD方法概述 87
    5.1.2SVD原理及推導 88
    5.1.3SVD聚類建模Python實戰 93
    5.2對無序稀疏數據的規律分析 98
    5.2.1稀疏數據及NMF方法概述 98
    5.2.2NMF原理及推導 99
    5.2.3NMF聚類建模Python實戰 100
    第6章 對觀測到的事件進行因果推斷 104
    6.1 使用全量評估分析已發生的事件 104
    6.1.1 為什麼要進行全量評估 104
    6.1.2 全量評估應用 105
    6.2 全量評估主要方法 105
    6.2.1 回歸分析 105
    6.2.2 DID方法 114
    6.2.3 合成控制 116
    6.2.4 Causal Impact 119
    6.3 全量評估方法的應用 123
    6.3.1 關於物流單量的全量評估應用(回歸模型) 123
    6.3.2 恐怖主義對經濟影響評估(DID) 128
    6.3.3 恐怖主義對經濟影響評估(合成控制) 130
    6.3.4 天氣情況的評估(Causal Impact) 133
    6.4 本章小結 147
    第7章 如何比較兩個策略的效果 147
    7.1如何纔能正確推斷因果關繫? 147
    7.1.1 什麼是相關性謬誤 147
    7.1.2 潛在結果和因果效果 148
    7.2運用A/B實驗進行兩策略比較 149
    7.2.1 什麼是A/B實驗 149
    7.2.2 為什麼應用A/B實驗 150
    7.2.3 A/B實驗的基本原理 150
    7.3 A/B實驗應用步驟(實驗方法具體實施步驟) 151
    7.3.1 明確實驗要素 151
    7.3.2 實驗設計 153
    7.3.3實驗過程監控 155
    7.4 A/B實驗案例介紹 156
    7.4.1 實驗場景介紹 156
    7.4.3實驗效果評估 158
    7.5 本章小結 159
    第8章 如何提高實驗效能 160
    8.1 控制實驗指標方差的必要性和手段 160
    8.2 用隨機區組設計控制實驗指標方差 161
    8.2.1 利用隨機區組實驗實驗設計降低方差 161
    8.2.2 隨機區組實驗的特征選擇 162
    8.3 隨機區組實驗應用步驟 163
    8.3.1 明確實驗目標及背景: 163
    8.3.2 實驗設計: 163
    8.3.3 實驗過程監控: 163
    8.3.4 實驗評估中用到的方差分析的基本原理: 163
    8.4 隨機區組實驗案例介紹 168
    8.4.1 背景介紹: 168
    8.4.2 基本設計: 169
    8.4.3 隨機區組實驗相關的設計: 169
    8.4.4 效果評估 170
    8.5 隨機區組實驗常見問題 172
    8.5.1 方差分析的使用前提是什麼 172
    8.5.2 隨機區組的個數是越多越好嗎? 172
    8.5.3 隨機區組實驗的回歸方程的$R^2$是越高越好嗎,是否證明策略有效果? 173
    8.6 本章小節 173
    第9章 特殊場景下的實驗設計和分析方法 173
    9.1 分流的實驗對像間有干擾怎麼辦 174
    9.2 如果實驗不能簡單分流怎麼辦(Switchback實驗設計和評估方法) 181
    9.3 如果實驗不能簡單分流且時間效率要求高怎麼辦?(交叉實驗設計) 186
    9.4 如果不能分流的實驗且策略不能輪轉怎麼辦? 199
    9.5 本章總結 205
    10.1 SQLFlow簡介 206
    10.1.1 什麼是SQLFlow 206
    10.1.2 SQLFlow的定位和目標 207
    10.1.3 SQLFlow工作原理 209
    10.2 SQLFLow 運行環境的設置 210
    SQLFlow in Docker 210
    環境配置 215
    交互 224
    Jupyter Notebook 225
    REPL 225
    10.3 將分析模型固化到 SQLFlow 中的流程 226
    10.4 總結 232
    11.1.1 模型可解釋的重要性和必要性 233
    模型解釋的重要性 233
    模型解釋的必要性 233
    11.1.2 常見的可解釋性模型 234
    (1)線性回歸 235
    (2)邏輯回歸 238
    (3) 決策樹 242
    (4)KNN 243
    (5)樸素貝葉斯分類器 245
    (6)模型比較 246
    11.2 黑盒模型的解釋性 247
    11.2.1 如何對黑盒模型進行解釋 247
    11.2.2 代理模型 248
    11.2.3 Shapley 250
    11.2.4 基於SQLFLow的黑盒模型解釋的案例 251
    11.3 本章小結 255
    第12章 基於LSTM-autoencoder的無監督聚類模型 255
    12.1 聚類的廣泛應用 256
    12.1.1 什麼是聚類或模式識別 256
    12.2 聚類模型的應用案例 257
    12.2.1 k-means clustering -- 司機服務站點選址規劃 257
    12.2.2 Hierarchical Clustering -- 超市采購商分組 260
    12.3 SQLFlow中基於深度學習的聚類模型 265
    12.3.1 基於深度學習的聚類模型原理 265
    12.3.2 Case study - 如何使用SQLFlow對城市道路交通狀況進行分層 272
    12.4 本章小結 275

    前言
    為什麼要寫這本書
    2011年,《哈佛商業評論》將數據科學稱作“21世紀吸引人的行業”,隨後,數據科學這個概念開始從互聯網漫延到各行各業。但是人們對這個概念的內涵和外延並無統一的認知,同時,數據科學也不像軟件工程、市場營銷等方向有較為明確的教育體繫作為支撐,開設“數據科學”學科和課程的學校都是2011年之後纔開始探索的,並且大多沒有一個適用於工業應用的課程體繫。從業人員普遍反映需要一個繫統的框架來搭建自己的技術棧和知識體繫,從而提升專業化的能力。因此,市場上迫切需要一本覆蓋面廣、應用性強、深入淺出的數據科學手冊。
    本書的作者是國內數據科學一線的從業者,創作目的主要有以下三個。
    1)提供一個以商業場景為導向的實用量化方法論。數據科學是為商業服務的,重要的能力是收斂開放的商業問題,並有針對性地選擇適當的量化框架進行後驗數據分析。這是一個相輔相成的過程,收斂的過程既依賴對業務的深刻理解,又需要充分理解各種分析框架的假設和抽像原理。

    為什麼要寫這本書


    2011年,《哈佛商業評論》將數據科學稱作“21世紀吸引人的行業”,隨後,數據科學這個概念開始從互聯網漫延到各行各業。但是人們對這個概念的內涵和外延並無統一的認知,同時,數據科學也不像軟件工程、市場營銷等方向有較為明確的教育體繫作為支撐,開設“數據科學”學科和課程的學校都是2011年之後纔開始探索的,並且大多沒有一個適用於工業應用的課程體繫。從業人員普遍反映需要一個繫統的框架來搭建自己的技術棧和知識體繫,從而提升專業化的能力。因此,市場上迫切需要一本覆蓋面廣、應用性強、深入淺出的數據科學手冊。


    本書的作者是國內數據科學一線的從業者,創作目的主要有以下三個。


    1)提供一個以商業場景為導向的實用量化方法論。數據科學是為商業服務的,重要的能力是收斂開放的商業問題,並有針對性地選擇適當的量化框架進行後驗數據分析。這是一個相輔相成的過程,收斂的過程既依賴對業務的深刻理解,又需要充分理解各種分析框架的假設和抽像原理。


    2)提供一個入門的臺階,供讀者按圖索驥、深入研究。數據科學領域知識面廣,又有一定的深度,需要長期的學習和經驗的積累。一本書很難涵蓋數據科學的所有知識點,但是本書可以點明關鍵節點,起到引導作用,幫助讀者進行後續的進階學習。


    3)展示數據科學所需的專業能力和門檻,為讀者在求職過程中找準定位、為人事部門進行職能設計提供範例。現在數據科學領域的就業和招聘十分熱門,但是能說清數據科學專家到底需要什麼樣的技能、需要達到什麼樣的程度,以及這個行業有什麼典型成功案例的人卻非常少。


    讀者對像


    本書適合以下讀者:


    初入職場的數據分析師,用於升級個人專業分析技能;


    從業多年的數據科學管理者,用於梳理、整合知識體繫,提升團隊能力;


    數據科學、商業分析等專業的師生,用於延展閱讀;


    數據科學行業的人力專家和獵頭,用於標定潛在候選人能力。


    本書特色


    相比於市面上其他數據科學相關圖書,本書有以下特色。


    1)將技術與商業場景緊密結合,強調開放性商業問題在量化分析上的收斂。市場上不乏純技術類的數據科學圖書和各種機器學習建模、統計計算的圖書,但是這些書都跳過了對開放式商業問題的思考,直接針對已經非常明確的建模本身進行介紹。本書則將重心放在案例分析的全流程上,既講解量化模型的理論,又解釋商業到數理模型的映射過程,還強調了對模型結果的解讀和應用,實用性非常強。


    2)這是國內本繫統介紹統計實驗在多種復雜商業場景下具體應用的書。統計實驗相關的圖書通常分為三類:類側重理論研究,對於已經工作的讀者來說實踐意義不大,且學習難度高;第二類是將生物醫學領域的理論和案例相結合,這類書的應用場景和背景與互聯網行業相差較大,不容易做到舉一反三;第三類是少部分互聯網領域統計實驗的書,這類書多是外文,知識較新,閱讀門檻較高,通常針對互聯網廣告和搜索領域,在不理解理論背景的情況下也難以遷移到其他場景。


    3)本書應用場景覆蓋面廣,強調實用,可操作性強,將方法論與配套案例的背景、代碼、解讀等模塊結合在一起,讓讀者學習後即可運用在實踐中。


    如何閱讀本書


    這是一本將數據科學三要素—商業理解、量化模型、數據技術全面打通的實戰性著作,是來自騰訊、滴滴、快手等一線互聯網企業的數據科學家、數據分析師和算法工程師的經驗總結,得到了SQLFlow創始人以及騰訊、網易、快手、貝殼找房、谷歌等企業的專家一致好評和推薦。


    全書三個部分,內容相對獨立,既能幫助初學者建立知識體繫,又能幫助從業者解決商業中的實際問題,還能幫助有經驗的專家快速掌握數據科學的技術和發展動向。內容圍繞非實驗環境下的觀測數據的分析、實驗的設計和分析、自助式數據科學平臺3大主題展開,涉及統計學、經濟學、機器學習、實驗科學等多個領域,包含大量常用的數據科學方法、簡潔的代碼實現和經典的實戰案例。


    部分(第1~6章)觀測數據的分析技術


    講解了非實驗環境下不同觀測數據分析場景所對應的分析框架、原理及實際操作,包括消費者選擇偏好分析、消費者在時間維度上的行為分析、基於機器學習的用戶生命周期價值預測、基於可解釋模型技術的商業場景挖掘、基於矩陣分解技術的用戶行為規律發現與挖掘,以及在不能進行實驗分析時如何更科學地進行全量評估等內容。


    第二部分(第7~9章)實驗設計和分析技術


    從A/B實驗的基本原理出發,深入淺出地介紹了各種商業場景下進行實驗設計需要參考的原則和運用的方法,尤其是在有樣本量約束條件下提升實驗效能的方法及商業場景限制導致的非傳統實驗設計。


    第三部分(第10~12章) 自助式數據科學平臺SQLFlow


    針對性地講解了開源的工程化的自助式數據科學平臺SQLFlow,並通過繫統配置、黑盒模型的解讀器應用、聚類分析場景等案例幫助讀者快速了解這一面向未來的數據科學技術。


    勘誤和支持


    除封面署名外,參與本書編寫工作的還有:周銀河、丁芬、蘇濤、王禹、吳君涵、楊驍捷、劉衝、王玉璽、劉未名、楊凱迪、李依諾、陳祥、朱文靜。由於作者的水平有限,編寫時間倉促,書中難免會出現一些錯誤或者不準確的地方,懇請讀者批評指正。為此,我們特意創建了一個GitHub倉庫(https://github.com/xieliaing/Data_Science_Industrial_Practice)。讀者可以將發現的代碼Bug、文字問題以及疑惑,在Issue中提出,我們會將修改後的內容及解答通過Pull Request合並進主干。書中的全部源文件除可以從華章網站下載外,還可以從這個GitHub倉庫下載,期待能夠得到你們的真摯反饋。


    致謝


    首先要感謝C. F. Jeff Wu、Williaw S. Cleveland、LinkedIn的DJ Patil及Facebook的Jeff Hammerbacher等先驅,他們成功地開創了數據科學這一個行業,影響和激勵了無數人投身其中。


    感謝快手科技副總裁、數據分析部負責人宋世君把數據科學的理念引入國內,實現了從0到1的跨越。感謝我原來統計科學團隊的同事們,他們是國內數據科學的開拓者,通過實踐讓數據科學的理念在國內萌芽發展、完善進步並得到認可。


    感謝發起並維護SQLFlow開源社區的王益博士、劉勇峰老師及其開發團隊。


    感謝機械工業出版社華章公司的楊福川老師和韓蕊老師,在這一年多的時間裡始終支持我們寫作,保障了本書順利完成。


    謹以此書獻給我親愛的家人以及眾多熱愛並投身數據科學的朋友們!


     


    謝梁


    2021年2月8日


     

    媒體評論
    如果石油曾是工業革命的關鍵生產要素,那麼數據洞悉能力就是互聯網時代的核心生產力。本書作者具備很強的專業能力,本書是他們在國內一線互聯網公司的實踐經驗總結,從商業場景出發介紹了有關的理論、方法和應用,為數據分析師和數據科學家提供了極具實踐價值的參考資料。
    ——郄小虎 騰訊公司副總裁

    數據的爆炸式增長對企業如何科學地、正確地使用數據去驅動業務增長提出了極高的要求。本書總結了大量作者團隊在用戶行為模式的量化分析與機器學習建模方面的實戰經驗,能幫助讀者快速建立繫統的分析框架,提高利用數據分析工具進行業務分析的能力,非常適合互聯網數據分析和對商業分析感興趣的從業者。
    ——葉傑平 貝殼找房技術副總裁/首席科學家

    如果石油曾是工業革命的關鍵生產要素,那麼數據洞悉能力就是互聯網時代的核心生產力。本書作者具備很強的專業能力,本書是他們在國內一線互聯網公司的實踐經驗總結,從商業場景出發介紹了有關的理論、方法和應用,為數據分析師和數據科學家提供了極具實踐價值的參考資料。


    ——郄小虎 騰訊公司副總裁


     


    數據的爆炸式增長對企業如何科學地、正確地使用數據去驅動業務增長提出了極高的要求。本書總結了大量作者團隊在用戶行為模式的量化分析與機器學習建模方面的實戰經驗,能幫助讀者快速建立繫統的分析框架,提高利用數據分析工具進行業務分析的能力,非常適合互聯網數據分析和對商業分析感興趣的從業者。


    ——葉傑平 貝殼找房技術副總裁/首席科學家


     


    本書從數據科學的定義、價值、工具等角度清晰地回答了數據科學是什麼、能做什麼以及怎麼做的問題。它在許多重要的議題上,比如觀測類數據的分析、實驗的方案設計與實驗分析等方面都提供了詳盡的介紹,是一本教科書級別的著作。在實戰上,本書介紹的工具、技術與方法論,都是圍繞具體的商業命題展開的,能幫助讀者更加深刻地理解自己工作的內容和價值,帶來技能和認知的雙重提升。我強烈建議從事數據行業的同學深讀這本書。


    ——陳炬 網易數據委員會負責人/網易嚴選數據及風控部門負責人


     


    數據科學近年來在國內逐漸興起,並從互聯網快速滲透到各行各業,在數字化轉型大潮中起著越來越重要的作用,而關於數據科學的定義和技術認知並不清晰,結合商業場景的數據科學工程實踐類圖書更是少之又少。本書恰好彌補了這一空白,既結合商業理解對量化模型、實驗設計進行了深入淺出的闡述,又有各種數據技術的實操代碼實現,還有面向未來的自助式數據科學平臺實踐,非常適合數據相關從業者閱讀參考。


    ——巴川 競技世界首席數據科學家/中國計算機學會技術前線數據科學SIG主席


     


    21世紀是數據為王的時代。本書作者結合一線實戰經驗,深入淺出地介紹了數據科學的核心知識點,並從出行、定價等領域的實例出發,對用戶行為分析和機器學習建模進行了大量的實戰討論,推薦從業人員閱讀。


    ——Mingxing Tan 谷歌大腦研究員









     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部