互联网大厂算实战 网络技术 赵传霖 新华正版
快手公司算专家10余年的实战经验结 全面涵盖一线互联网公司当前采用的主流算,凸显可用、实用 提供从算基本,到技术框架再到核心源码的解决方案
¥
48.65
5.4折
¥
89.8
全新
库存44件
作者赵传霖
出版社人民邮电出版社
ISBN9787115628688
出版时间2024-01
版次1
装帧平装
开本16开
页数316页
字数435千字
定价89.8元
货号xhwx_1203162108
上书时间2024-01-06
商品详情
- 品相描述:全新
-
正版特价新书
- 商品描述
-
主编:
1.作者赵传霖博士具有深厚的学术背景和丰富的实践经验,是知识台上的答主,并在互联网算领域有着10余年的从业经验。他的经验和专业知识将为读者提供宝贵的指导和见解。2.内容涵盖了系统的基础知识和前沿技术。不仅介绍了系统的基础知识、特征工程等核心概念,还涵盖了系统的各个组成模块所使用的算技术,帮助读者全面了解系统的各个方面。3.介绍算的基本和框架,还提供了解决实际问题的实用指南。读者将学到如何应对多任务、多场景、新用户冷启动等常见难题,并了解如何评估模型效果和定位问题。4.无论是在职人员还是,都可以通过阅读本书来深入了解互联网大厂的前沿算和技术,提升自己的专业能力和竞争力。
目录:
章 系统简介1
1.1 系统的意义2
1.2 系统是如何运行的3
1.3 系统架构5
1.3.1 功能架构5
1.3.2 数据架构8
1.4 推广搜的区别与联系10
1.4.1 三驾马车的相同点10
1.4.2 与搜索11
1.4.3 推搜与广告12
1.5 小结12
第 2章 系统中的特征工程14
2.1 批判“特征工程过时”的错误论调15
2.2 特征提取16
2.2.1 物料画像16
2.2.2 用户画像18
2.2.3 交特征21
2.2.4 偏差特征22
2.3 数值特征的处理25
2.3.1 处理缺失值25
2.3.2 标准化25
2.3.3 数据滑与消偏26
2.3.4 分桶离散化27
2.4 类别特征的处理28
2.4.1 类别特征更受欢迎28
2.4.2 类别特征享受vip服务29
2.4.3 映30
2.4.4 特征哈希31
2.5 小结32
第3章 系统中的embed33
3.1 无中生有:算中的embed33
3.1.1 传统算:博闻强识33
3.1.2 算的刚需:扩展35
3.1.3 深度学的核心思想:无中生有的embed36
3.1.4 embed的实现细节37
3.2 共享embed还是独占embed42
3.2.1 共享embed42
3.2.2 独占embed43
3.3 parameter server:算的训练加速器46
3.3.1 传统分布式计算的不足46
3.3.2 基于的分布式训练范式47
3.3.3 中的并行策略49
3.3.4 基于-lite实现分布式算51
3.3.5 更优选的57
3.4 小结60
第4章 精排61
4.1 算的5个维度61
4.2 交结构62
4.2.1 ftrl:传统时代的记忆大师62
4.2.2 fm:半只脚迈入dnn的门槛69
4.2.3 wide & deep:兼顾记忆与扩展71
4.2.4 deepfm:融合二阶交74
4.2.5 d:不再执着于dnn76
4.2.6 autoint:变形金刚做交79
4.3 用户行为序列建模86
4.3.1 行为序列信息的构成86
4.3.2 简单pooling86
4.3.3 用户建模要“千物千面”87
4.3.4 建模序列内的依赖关系89
4.3.5 多多益善:建模长序列91
4.4 小结96
第5章 召回97
5.1 传统召回算97
5.1.1 基于物料属的倒排索引98
5.1.2 基于统计的协同过滤算99
5.1.3 矩阵分解算99
5.1.4 如何合并多路召回100
5.2 向量化召回统一建模框架101
5.2.1 如何定义正样本102
5.2.2 重点关注负样本103
5.2.3 解耦生成embed105
5.2.4 如何定义优化目标106
5.3 借助word2vec111
5.3.1 简单的item2vec112
5.3.2 airbnb召回算116
5.3.3 阿里巴巴的eges召回118
5.4 “瑞士军刀”fm的召回功能120
5.4.1 打压热门物料121
5.4.2 增广embed122
5.5 大厂主力:双塔模型124
5.5.1 不同场景下的正样本124
5.5.2 简化负采样124
5.5.3 双塔结构特点126
5.5.4 sampled softmax loss的127
5.5.5 双塔模型实现举例129
5.6 邻里互助:g召回131
5.6.1 g基础131
5.6.2 pinsage:大规模图卷积的经典案例134
5.6.3 异构图上的g142
5.7 小结143
第6章 粗排与重排145
6.1 粗排146
6.1.1 模型:双塔仍然是主力146
6.1.2 目标:拜精排为师154
6.1.3 数据:纠正曝光偏差158
6.1.4 模型:轻量级全连接159
6.2 重排161
6.2.1 基于启发式规则162
6.2.2 基于行列式点过程165
6.2.3 基于上下文感知的排序学174
6.3 小结180
第7章 多任务与多场景181
7.1 多任务181
7.1.1 多任务建模的误区182
7.1.2 并发建模182
7.1.3 串行建模193
7.1.4 多个损失的融合202
7.1.5 多个打分的融合206
7.2 多场景209
7.2.1 特征位置210
7.2.2 模型结构211
7.2.3 模型参数215
7.3 小结217
第8章 冷启动219
8.1 bandit算219
8.1.1 多臂老虎机问题220
8.1.2 eilon greedy221
8.1.3 ucb222
8.1.4 概率匹配223
8.1.5 bayesian bandit223
8.1.6 上下文bandit225
8.2 元学228
8.2.1 什么是元学228
8.2.2 什么是maml230
8.2.3 maml针对场景的改造233
8.2.4 meta-embed236
8.3 对比学242
8.3.1 对比学简介242
8.3.2 对比学在系统中的作用与使用方式244
8.3.3 辨析对比学与向量化召回246
8.3.4 纠偏长尾物料的实践247
8.3.5 纠偏小众用户的实践249
8.4 其他算251
8.4.1 迁移学251
8.4.2 预测物料消费指标252
8.4.3 以群体代替个体253
8.4.4 借鉴多场景254
8.5 小结255
第9章 评估与调试256
9.1 离线评估256
9.1.1 评估排序算257
9.1.2 评估召回算261
9.1.3 人工评测266
9.1.4 持续评估267
9.2 在线评估:a/b实验267
9.2.1 线上:流量划分268
9.2.2 线下:统计分析273
9.3 打开模型的黑盒276
9.3.1 外部观察276
9.3.2 剖析277
9.4 线下涨了,线上没效果280
9.4.1 特征穿越280
9.4.2 老汤模型282
9.4.3 冰山:系统的内在缺陷284
9.4.4 链路一致问题285
9.5 小结286
0章 算工程师的自我修养287
10.1 工作287
10.1.1 重视代码的规范287
10.1.2 重视离线评测288
10.1.3 重视使用工具289
10.2 学290
10.2.1 坚持问题导向290
10.2.2 重在举一反三291
10.2.3 敢于怀疑292
10.2.4 落实代码细节293
10.3 面试293
10.3.1 社招294
10.3.2 校招296
10.4 小结297
内容简介:
互联网大厂算实战介绍了互联网大厂当前采用的一些前沿算,并梳理了这些算背后的思想脉络与技术框架。互联网大厂算实战计10章,内容涵盖了系统的基础知识、系统中的特征工程、系统中的embed、系统的各组成模块(包括召回、粗排、精排与重排)所使用的算技术、算实践中经常会遇到的难题以及应对之道(其中涉及多任务、多场景、新用户冷启动、新物料冷启动、评估模型效果、定位并解决问题等),后还用一章的篇幅介绍了算工程师在工作、学、面试时应该采取的做。互联网大厂算实战既适合系统、计算广告、个化搜索领域的从业人员阅读,也适合希望从事互联网算工作的在校阅读。
作者简介:
赵传霖,博士,于清华大学电气工程专业,知乎“机器学”话题答主,目前在北京快手科技有限公司担任算专家,拥有10余年的互联网算从业经验,主要研究方向为系统、计算广告、个化搜索。分别以知识台的“石塔西”账号和“石塔西的说书馆”自媒体号发表了多篇以算为主题的原创文章,深受广大读者的,并曾经4次获得知乎创作排行榜“知势榜?影响力榜”(科技互联网领域)名。
— 没有更多了 —
以下为对购买帮助不大的评价