美團機器學習實踐電子書 [已下載] – jashliao部落格

美團機器學習實踐電子書 [已下載]

目錄:

第　一部分通用流程
第　1章问题建模　2
1.1　评估指标　3
1.1.1　分类指标　4
1.1.2　回归指标　7
1.1.3　排序指标　9
1.2　样本选择　10
1.2.1　数据去噪　11
1.2.2　采样　12
1.2.3　原型选择和训练集选择　13
1.3　交叉验证　14
1.3.1　留出法　14
1.3.2　K折交叉验证　15
1.3.3　自助法　16
参考文献　17
第　2章特征工程　18
2.1　特征提取　18
2.1.1　探索性数据分析　19
2.1.2　数值特征　20
2.1.3　类别特征　22
2.1.4　时间特征　24
2.1.5　空间特征　25
2.1.6　文本特征　25
2.2　特征选择　27
2.2.1　过滤方法　28
2.2.2　封装方法　31
2.2.3　嵌入方法　31
2.2.4　小结　32
2.2.5　工具介绍　33
参考文献　33
第3章　常用模型　35
3.1　逻辑回归　35
3.1.1　逻辑回归原理　35
3.1.2　逻辑回归应用　38
3.2　场感知因子分解机　39
3.2.1　因子分解机原理　39
3.2.2　场感知因子分解机原理　40
3.2.3　场感知因子分解机的应用　41
3.3　梯度提升树　42
3.3.1　梯度提升树原理　42
3.3.2　梯度提升树的应用　44
参考文献　44
第4章　模型融合　45
4.1　理论分析　46
4.1.1　融合收益　46
4.1.2　模型误差分歧分解　46
4.1.3　模型多样性度量　48
4.1.4　多样性增强　49
4.2　融合方法　50
4.2.1　平均法　50
4.2.2　投票法　52
4.2.3　Bagging　54
4.2.4　Stacking　55
4.2.5　小结　56
参考文献　57
第二部分　数据挖掘
第5章　用户画像　60
5.1　什么是用户画像　60
5.2　用户画像数据挖掘　63
5.2.1　画像数据挖掘整体架构　63
5.2.2　用户标识　65
5.2.3　特征数据　67
5.2.4　样本数据　68
5.2.5　标签建模　69
5.3　用户画像应用　83
5.3.1　用户画像实时查询系统　83
5.3.2　人群画像分析系统　87
5.3.3　其他系统　90
5.3.4　线上应用效果　91
5.4　小结　91
参考文献　91
第6章　POI实体链接　92
6.1　问题的背景与难点　92
6.2　国内酒店POI实体链接解决方案　94
6.2.1　酒店POI实体链接　94
6.2.2　数据清洗　96
6.2.3　特征生成　97
6.2.4　模型选择与效果评估　100
6.2.5　索引粒度的配置　101
6.3　其他场景的策略调整　101
6.4　小结　103
第7章　评论挖掘　104
7.1　评论挖掘的背景　104
7.1.1　评论挖掘的粒度　105
7.1.2　评论挖掘的维度　105
7.1.3　评论挖掘的整合思考　106
7.2　评论标签提取　106
7.2.1　数据的获取及预处理　107
7.2.2　无监督的标签提取方法　109
7.2.3　基于深度学习的标签提取方法　111
7.3　标签情感分析　113
7.3.1　评论标签情感分析的特殊性　113
7.3.2　基于深度学习的情感分析方法　115
7.3.3　评论标签情感分析的后续优化与思考　118
7.4　评论挖掘的未来应用及实践　119
7.5　小结　119
参考文献　119
第三部分　搜索和推荐
第8章　O2O场景下的查询理解与用户引导　122
8.1　现代搜索引擎原理　123
8.2　精确理解查询　124
8.2.1　用户查询意图的定义与识别　125
8.2.2　查询实体识别与结构化　129
8.2.3　召回策略的变迁　130
8.2.4　查询改写　131
8.2.5　词权重与相关性计算　134
8.2.6　类目相关性与人工标注　135
8.2.7　查询理解小结　136
8.3　引导用户完成搜索　137
8.3.1　用户引导的产品定义与衡量标准　137
8.3.2　搜索前的引导——查询词推荐　140
8.3.3　搜索中的引导——查询补全　143
8.3.4　搜索后的引导——相关搜索　145
8.3.5　效率提升与效果提升　145
8.3.6　用户引导小结　149
8.4　小结　149
参考文献　150
第9章　O2O场景下排序的特点　152
9.1　系统概述　154
9.2　在线排序服务　154
9.3　多层正交A/B测试　155
9.4　特征获取　155
9.5　离线调研系统　156
9.6　特征工程　156
9.7　排序模型　157
9.8　场景化排序　160
9.9　小结　165
第　10章推荐在O2O场景的应用　166
10.1　典型的O2O推荐场景　166
10.2　O2O推荐场景特点　167
10.2.1　O2O场景的地理位置因素　168
10.2.2　O2O场景的用户历史行为　168
10.2.3　O2O场景的实时推荐　169
10.3　美团推荐实践——推荐框架　169
10.4　美团推荐实践——推荐召回　170
10.4.1　基于协同过滤的召回　171
10.4.2　基于位置的召回　171
10.4.3　基于搜索查询的召回　172
10.4.4　基于图的召回　172
10.4.5　基于实时用户行为的召回　172
10.4.6　替补策略　172
10.5　美团推荐实践——推荐排序　173
10.5.1　排序特征　173
10.5.2　排序样本　174
10.5.3　排序模型　175
10.6　推荐评价指标　176
参考文献　176
第四部分　计算广告
第　11章 O2O场景下的广告营销　178
11.1　O2O场景下的广告业务特点　178
11.2　商户、用户和平台三者利益平衡　180
11.2.1　商户效果感知　180
11.2.2　用户体验　181
11.2.3　平台收益　182
11.3　O2O广告机制设计　183
11.3.1　广告位设定　183
11.3.2　广告召回机制　183
11.3.3　广告排序机制　184
11.4　O2O推送广告　187
11.5　O2O广告系统工具　190
11.5.1　面向开发人员的系统工具　190
11.5.2　面向广告主和运营人员的工具　192
11.6　小结　194
参考文献　194
第　12章用户偏好和损失建模　196
12.1　如何定义用户偏好　196
12.1.1　什么是用户偏好　196
12.1.2　如何衡量用户偏好　196
12.1.3　对不同POI 的偏好　197
12.1.4　用户对 POI 偏好的衡量　197
12.2　广告价值与偏好损失的兑换　198
12.2.1　优化目标　199
12.2.2　模型建模　199
12.3　Pairwise 模型学习　201
12.3.1　GBRank　202
12.3.2　RankNet　204
参考文献　205
第五部分　深度学习
第　13章深度学习概述　208
13.1　深度学习技术发展历程　209
13.2　深度学习基础结构　211
13.3　深度学习研究热点　216
13.3.1　基于深度学习的生成式模型　216
13.3.2　深度强化学习　218
参考文献　219
第　14章深度学习在文本领域的应用　220
14.1　基于深度学习的文本匹配　221
14.2　基于深度学习的排序模型　231
14.2.1　排序模型简介　231
14.2.2　深度学习排序模型的演进　232
14.2.3　美团的深度学习排序模型尝试　235
14.3　小结　237
参考文献　237
第　15章深度学习在计算机视觉中的应用　238
15.1　基于深度学习的OCR　238
15.1.1　OCR技术发展历程　239
15.1.2　基于深度学习的文字检测　244
15.1.3　基于序列学习的文字识别　248
15.1.4　小结　251
15.2　基于深度学习的图像智能审核　251
15.2.1　基于深度学习的水印检测　252
15.2.2　明星脸识别　254
15.2.3　色情图片检测　257
15.2.4　场景分类　257
15.3　基于深度学习的图像质量排序　259
15.3.1　图像美学质量评价　260
15.3.2　面向点击预测的图像质量评价　260
15.4　小结　263
参考文献　264
第六部分　算法工程
第　16章大规模机器学习　268
16.1　并行计算编程技术　268
16.1.1　向量化　269
16.1.2　多核并行OpenMP　270
16.1.3　GPU编程　272
16.1.4　多机并行MPI　273
16.1.5　并行编程技术小结　276
16.2　并行计算模型　276
16.2.1　BSP　277
16.2.2　SSP　279
16.2.3　ASP　280
16.2.4　参数服务器　281
16.3　并行计算案例　284
16.3.1　XGBoost并行库Rabit　284
16.3.2　MXNet并行库PS-Lite　286
16.4　美团并行计算机器学习平台　287
参考文献　289
第　17章特征工程和实验平台　290
17.1　特征平台　290
17.1.1　特征生产　290
17.1.2　特征上线　293
17.1.3　在线特征监控　301
17.2　实验管理平台　302
17.2.1　实验平台概述　302
17.2.2　美团实验平台——Gemini　304

……人工智能技术正以一种超快的速度深刻地改变着我们的生活，引导了第四次工业革命。美团作为国内O2O领域领先的服务平台，结合自身的业务场景和数据，积极进行了人工智能领域的应用探索。在美团的搜索、推荐、计算广告、风控、图像处理等领域，相关的人工智能技术得到广泛的应用。本书包括通用流程、数据挖掘、搜索和推荐、计算广告、深度学习以及算法工程6大部分内容，全面介绍了美团在多个重要方面对机器学习的应用。

本书非常适合有一定机器学习基础的工程技术人员和在校大学生学习和阅读。通过本书，有经验的算法工程师可以了解美团在这方面的做法，在校大学生可以学习机器学习算法如何在具体的业务场景中落地。
……美团算法团队由数百名优秀算法工程师组成，负责构建美团这个生活服务互联网大平台的“大脑”，涵盖搜索、推荐、广告、风控、机器学习、计算机视觉、语音、自然语言处理、智能调度、机器人和无人配送等多个技术方向，在帮助美团数亿活跃用户改善用户体验的同时，也帮助餐饮、酒店、婚庆、丽人、亲子等200多个行业的数百万商户提升运营效率。我们致力于通过算法和人工智能技术，帮大家吃得更好，活得更好。

第　一部分通用流程
第　1章問題建模　2
1.1　評估指標　3
1.1.1　分類指標　4
1.1.2　回歸指標　7
1.1.3　排序指標　9
1.2　樣本選擇　10
1.2.1　數據去噪　11
1.2.2　採樣　12
1.2.3　原型選擇和訓練集選擇　13
1.3　交叉驗證　14
1.3.1　留出法　14
1.3.2　K折交叉驗證　15
1.3.3　自助法　16
參考文獻　17
第　2章特徵工程　18
2.1　特徵提取　18
2.1.1　探索性資料分析　19
2.1.2　數值特徵　20
2.1.3　類別特徵　22
2.1.4　時間特徵　24
2.1.5　空間特徵　25
2.1.6　文本特徵　25
2.2　特徵選擇　27
2.2.1　過濾方法　28
2.2.2　封裝方法　31
2.2.3　嵌入方法　31
2.2.4　小結　32
2.2.5　工具介紹　33
參考文獻　33
第3章　常用模型　35
3.1　邏輯回歸　35
3.1.1　邏輯回歸原理　35
3.1.2　邏輯回歸應用　38
3.2　場感知因數分解機　39
3.2.1　因數分解機原理　39
3.2.2　場感知因數分解機原理　40
3.2.3　場感知因數分解機的應用　41
3.3　梯度提升樹　42
3.3.1　梯度提升樹原理　42
3.3.2　梯度提升樹的應用　44
參考文獻　44
第4章　模型融合　45
4.1　理論分析　46
4.1.1　融合收益　46
4.1.2　模型誤差分歧分解　46
4.1.3　模型多樣性度量　48
4.1.4　多樣性增強　49
4.2　融合方法　50
4.2.1　平均法　50
4.2.2　投票法　52
4.2.3　Bagging　54
4.2.4　Stacking　55
4.2.5　小結　56
參考文獻　57
第二部分　資料採擷
第5章　用戶畫像　60
5.1　什麼是用戶畫像　60
5.2　用戶畫像資料採擷　63
5.2.1　畫像資料採擷整體架構　63
5.2.2　使用者標識　65
5.2.3　特徵資料　67
5.2.4　樣本資料　68
5.2.5　標籤建模　69
5.3　用戶畫像應用　83
5.3.1　使用者畫像即時查詢系統　83
5.3.2　人群畫像分析系統　87
5.3.3　其他系統　90
5.3.4　線上應用效果　91
5.4　小結　91
參考文獻　91
第6章　POI實體連結　92
6.1　問題的背景與難點　92
6.2　國內酒店POI實體連結解決方案　94
6.2.1　酒店POI實體連結　94
6.2.2　數據清洗　96
6.2.3　特徵生成　97
6.2.4　模型選擇與效果評估　100
6.2.5　索引細微性的配置　101
6.3　其他場景的策略調整　101
6.4　小結　103
第7章　評論挖掘　104
7.1　評論挖掘的背景　104
7.1.1　評論挖掘的細微性　105
7.1.2　評論挖掘的維度　105
7.1.3　評論挖掘的整合思考　106
7.2　評論標籤提取　106
7.2.1　資料的獲取及預處理　107
7.2.2　無監督的標籤提取方法　109
7.2.3　基於深度學習的標籤提取方法　111
7.3　標籤情感分析　113
7.3.1　評論標籤情感分析的特殊性　113
7.3.2　基於深度學習的情感分析方法　115
7.3.3　評論標籤情感分析的後續優化與思考　118
7.4　評論挖掘的未來應用及實踐　119
7.5　小結　119
參考文獻　119
第三部分　搜索和推薦
第8章　O2O場景下的查詢理解與用戶引導　122
8.1　現代搜尋引擎原理　123
8.2　精確理解查詢　124
8.2.1　用戶查詢意圖的定義與識別　125
8.2.2　查詢實體識別與結構化　129
8.2.3　召回策略的變遷　130
8.2.4　查詢改寫　131
8.2.5　詞權重與相關性計算　134
8.2.6　類目相關性與人工標注　135
8.2.7　查詢理解小結　136
8.3　引導用戶完成搜索　137
8.3.1　使用者引導的產品定義與衡量標準　137
8.3.2　搜索前的引導——查詢詞推薦　140
8.3.3　搜索中的引導——查詢補全　143
8.3.4　搜索後的引導——相關搜索　145
8.3.5　效率提升與效果提升　145
8.3.6　用戶引導小結　149
8.4　小結　149
參考文獻　150
第9章　O2O場景下排序的特點　152
9.1　系統概述　154
9.2　線上排序服務　154
9.3　多層正交A/B測試　155
9.4　特徵獲取　155
9.5　離線調研系統　156
9.6　特徵工程　156
9.7　排序模型　157
9.8　場景化排序　160
9.9　小結　165
第　10章推薦在O2O場景的應用　166
10.1　典型的O2O推薦場景　166
10.2　O2O推薦場景特點　167
10.2.1　O2O場景的地理位置因素　168
10.2.2　O2O場景的用戶歷史行為　168
10.2.3　O2O場景的即時推薦　169
10.3　美團推薦實踐——推薦框架　169
10.4　美團推薦實踐——推薦召回　170
10.4.1　基於協同過濾的召回　171
10.4.2　基於位置的召回　171
10.4.3　基於搜索查詢的召回　172
10.4.4　基於圖的召回　172
10.4.5　基於即時用戶行為的召回　172
10.4.6　替補策略　172
10.5　美團推薦實踐——推薦排序　173
10.5.1　排序特徵　173
10.5.2　排序樣本　174
10.5.3　排序模型　175
10.6　推薦評價指標　176
參考文獻　176
第四部分　計算廣告
第　11章 O2O場景下的廣告行銷　178
11.1　O2O場景下的廣告業務特點　178
11.2　商戶、用戶和平臺三者利益平衡　180
11.2.1　商戶效果感知　180
11.2.2　用戶體驗　181
11.2.3　平臺收益　182
11.3　O2O廣告機制設計　183
11.3.1　廣告位設定　183
11.3.2　廣告召回機制　183
11.3.3　廣告排序機制　184
11.4　O2O推送廣告　187
11.5　O2O廣告系統工具　190
11.5.1　面向開發人員的系統工具　190
11.5.2　面向廣告主和運營人員的工具　192
11.6　小結　194
參考文獻　194
第　12章用戶偏好和損失建模　196
12.1　如何定義用戶偏好　196
12.1.1　什麼是用戶偏好　196
12.1.2　如何衡量用戶偏好　196
12.1.3　對不同POI 的偏好　197
12.1.4　用戶對 POI 偏好的衡量　197
12.2　廣告價值與偏好損失的兌換　198
12.2.1　優化目標　199
12.2.2　模型建模　199
12.3　Pairwise 模型學習　201
12.3.1　GBRank　202
12.3.2　RankNet　204
參考文獻　205
第五部分　深度學習
第　13章深度學習概述　208
13.1　深度學習技術發展歷程　209
13.2　深度學習基礎結構　211
13.3　深度學習研究熱點　216
13.3.1　基於深度學習的生成式模型　216
13.3.2　深度強化學習　218
參考文獻　219
第　14章深度學習在文本領域的應用　220
14.1　基於深度學習的文本匹配　221
14.2　基於深度學習的排序模型　231
14.2.1　排序模型簡介　231
14.2.2　深度學習排序模型的演進　232
14.2.3　美團的深度學習排序模型嘗試　235
14.3　小結　237
參考文獻　237
第　15章深度學習在電腦視覺中的應用　238
15.1　基於深度學習的OCR　238
15.1.1　OCR技術發展歷程　239
15.1.2　基於深度學習的文字檢測　244
15.1.3　基於序列學習的文字識別　248
15.1.4　小結　251
15.2　基於深度學習的圖像智慧審核　251
15.2.1　基於深度學習的浮水印檢測　252
15.2.2　明星臉識別　254
15.2.3　色情圖片檢測　257
15.2.4　場景分類　257
15.3　基於深度學習的圖像品質排序　259
15.3.1　圖像美學品質評價　260
15.3.2　面向點擊預測的圖像品質評價　260
15.4　小結　263
參考文獻　264
第六部分　演算法工程
第　16章大規模機器學習　268
16.1　平行計算程式設計技術　268
16.1.1　向量化　269
16.1.2　多核並行OpenMP　270
16.1.3　GPU程式設計　272
16.1.4　多機並行MPI　273
16.1.5　並行程式設計技術小結　276
16.2　平行計算模型　276
16.2.1　BSP　277
16.2.2　SSP　279
16.2.3　ASP　280
16.2.4　參數伺服器　281
16.3　平行計算案例　284
16.3.1　XGBoost並行庫Rabit　284
16.3.2　MXNet並行庫PS-Lite　286
16.4　美團平行電腦器學習平臺　287
參考文獻　289
第　17章特徵工程和實驗平臺　290
17.1　特徵平臺　290
17.1.1　特徵生產　290
17.1.2　特徵上線　293
17.1.3　線上特徵監控　301
17.2　實驗管理平臺　302
17.2.1　實驗平臺概述　302
17.2.2　美團實驗平臺——Gemini　304

…… 人工智慧技術正以一種超快的速度深刻地改變著我們的生活，引導了第四次工業革命。美團作為國內O2O領域領先的服務平臺，結合自身的業務場景和資料，積極進行了人工智慧領域的應用探索。在美團的搜索、推薦、計算廣告、風控、影像處理等領域，相關的人工智慧技術得到廣泛的應用。本書包括通用流程、資料採擷、搜索和推薦、計算廣告、深度學習以及演算法工程6大部分內容，全面介紹了美團在多個重要方面對機器學習的應用。

本書非常適合有一定機器學習基礎的工程技術人員和在校大學生學習和閱讀。通過本書，有經驗的演算法工程師可以瞭解美團在這方面的做法，在校大學生可以學習機器學習演算法如何在具體的業務場景中落地。
…… 美團演算法團隊由數百名優秀演算法工程師組成，負責構建美團這個生活服務互聯網大平臺的“大腦”，涵蓋搜索、推薦、廣告、風控、機器學習、電腦視覺、語音、自然語言處理、智慧調度、機器人和無人配送等多個技術方向，在幫助美團數億活躍用戶改善用戶體驗的同時，也幫助餐飲、酒店、婚慶、麗人、親子等200多個行業的數百萬商戶提升運營效率。我們致力於通過演算法和人工智慧技術，幫大家吃得更好，活得更好。

美團機器學習實踐 電子書 [已下載] – jashliao部落格

美團機器學習實踐電子書 [已下載] – jashliao部落格