正版全新 可开发票
¥ 96.75 7.5折 ¥ 129 全新
库存9件
作者[美]Steven S.Skiena
出版社机械工业出版社
ISBN9787111703471
出版时间2021-08
装帧平装
开本16开
定价129元
货号11590018
上书时间2024-09-27
史蒂文·S.斯基纳(Steven S.Skiena),博士,石溪大学的杰出教授,研究方向是数据科学、自然语言处理和算法。由于对本科教学工作有杰出贡献,他曾获得IEEE计算机科学与工程本科教学奖。他还撰写了6本书,包括知名的The Algorithm Design Manual、Programming Challenges: The Programming Contest Training Marelal。
译者序<br/>前言<br/>第1章 什么是数据科学1<br/>1.1 计算机科学、数据科学和真正的科学1<br/>1.2 从数据中提出有趣的问题3<br/>1.2.1 棒球百科全书3<br/>1.2.2 互联网电影数据库6<br/>1.2.3 Google Ngrams7<br/>1.2.4 纽约出租车记录9<br/>1.3 数据的属性11<br/>1.3.1 结构化与非结构化数据11<br/>1.3.2 定量数据与类别数据11<br/>1.3.3 大数据与小数据12<br/>1.4 分类与回归12<br/>1.5 关于数据科学的电视节目:The Quant Shop13<br/>1.6 关于实战故事15<br/>1.7 实战故事:回答正确的问题16<br/>1.8 章节注释17<br/>1.9 练习17<br/>第2章 数学基础20<br/>2.1 概率20<br/>2.1.1 概率与统计21<br/>2.1.2 复合事件与独立事件22<br/>2.1.3 条件概率23<br/>2.1.4 概率分布23<br/>2.2 描述性统计25<br/>2.2.1 中心性度量25<br/>2.2.2 变异性度量26<br/>2.2.3 解释方差27<br/>2.2.4 描述分布29<br/>2.3 相关性分析29<br/>2.3.1 相关系数:皮尔逊和斯皮尔曼秩30<br/>2.3.2 相关的强弱与显著性31<br/>2.3.3 相关性并不意味着因果关系33<br/>2.3.4 用自相关检测周期性34<br/>2.4 对数35<br/>2.4.1 对数与乘法概率35<br/>2.4.2 对数和比率35<br/>2.4.3 对数与正规化偏态分布36<br/>2.5 实战故事:契合设计师基因37<br/>2.6 章节注释39<br/>2.7 练习39<br/>第3章 数据整理42<br/>3.1 数据科学语言42<br/>3.1.1 notebook环境的重要性44<br/>3.1.2 标准数据格式45<br/>3.2 数据收集47<br/>3.2.1 搜索47<br/>3.2.2 爬取49<br/>3.2.3 网络日志50<br/>3.3 数据清洗50<br/>3.3.1 错误与伪影51<br/>3.3.2 数据兼容性52<br/>3.3.3 处理缺失值56<br/>3.3.4 离群值检测57<br/>3.4 实战故事:打败市场58<br/>3.5 众包59<br/>3.5.1 一便士的实验59<br/>3.5.2 什么时候有群体智慧60<br/>3.5.3 聚合机制61<br/>3.5.4 众包服务62<br/>3.5.5 游戏化65<br/>3.6 章节注释66<br/>3.7 练习66<br/>第4章 得分和排名69<br/>4.1 体重指数70<br/>4.2 开发评分系统72<br/>4.2.1 黄金标准和代理72<br/>4.2.2 排名与得分72<br/>4.2.3 识别良好的评分函数74<br/>4.3 Z得分和归一化75<br/>4.4 不错排名技术76<br/>4.4.1 Elo排名76<br/>4.4.2 合并排名78<br/>4.4.3 基于有向图的排名80<br/>4.4.4 PageRank80<br/>4.5 实战故事:Clyde的复仇81<br/>4.6 阿罗不可能性定理83<br/>4.7 实战故事:谁更大84<br/>4.8 章节注释87<br/>4.9 练习87<br/>第5章 统计分析89<br/>5.1 统计分布90<br/>5.1.1 二项分布90<br/>5.1.2 正态分布91<br/>5.1.3 正态分布的含义93<br/>5.1.4 泊松分布93<br/>5.1.5 幂律分布95<br/>5.2 从分布中采样97<br/>5.3 统计显著性99<br/>5.3.1 显著性的意义100<br/>5.3.2 t检验:比较总体均值101<br/>5.3.3 Kolmogorov-Smirnov检验102<br/>5.3.4 Bonferroni校正104<br/>5.3.5 错误发现率104<br/>5.4 实战故事:发现青春之泉105<br/>5.5 置换检验与p值106<br/>5.5.1 产生随机排列108<br/>5.5.2 迪马吉奥的连胜纪录109<br/>5.6 贝叶斯定理110<br/>5.7 章节注释111<br/>5.8 练习111<br/>第6章 数据可视化114<br/>6.1 探索性数据分析115<br/>6.1.1 面对新的数据集115<br/>6.1.2 汇总统计量和Anscombe四重线117<br/>6.1.3 可视化工具119<br/>6.2 发展可视化美学119<br/>6.2.1 优选化数据墨水比率120<br/>6.2.2 最小化谎言因子121<br/>6.2.3 优选限度地减少图表垃圾122<br/>6.2.4 恰当的缩放和标注123<br/>6.2.5 有效使用颜色和阴影124<br/>6.2.6 重复的力量125<br/>6.3 图表类型125<br/>6.3.1 表格数据127<br/>6.3.2 点状图和折线图128<br/>6.3.3 散点图131<br/>6.3.4 条形图和饼图133<br/>6.3.5 直方图135<br/>6.3.6 数据地图137<br/>6.4 出色的可视化139<br/>6.4.1 Marey的火车时刻表139<br/>6.4.2 斯诺的霍乱地图140<br/>6.4.3 纽约气象年141<br/>6.5 读图141<br/>6.5.1 模糊分布141<br/>6.5.2 过度解释方差142<br/>6.6 交互式可视化143<br/>6.7 实战故事:TextMap144<br/>6.8 章节注释146<br/>6.9 练习146<br/>第7章 数学模型149<br/>7.1 建模哲学149<br/>7.1.1 奥卡姆剃刀原理149<br/>7.1.2 权衡偏差与方差150<br/>7.1.3 Nate Silver会怎么做150<br/>7.2 模型分类152<br/>7.2.1 线性模型与非线性模型152<br/>7.2.2 黑盒与描述性模型152<br/>7.2.3 原理与数据驱动模型153<br/>7.2.4 随机模型与确定性模型154<br/>7.2.5 平面模型与分层模型155<br/>7.3 基准模型155<br/>7.3.1 分类的基准模型155<br/>7.3.2 价值预测的基准模型156<br/>7.4 评估模型157<br/>7.4.1 评估分类器158<br/>7.4.2 受试者工作特征曲线161<br/>7.4.3 评估多类系统162<br/>7.4.4 评估价值预测模型164<br/>7.5 评估环境165<br/>7.5.1 数据卫生评估167<br/>7.5.2 放大小型评估集167<br/>7.6 实战故事:100%准确169<br/>7.7 模拟模型170<br/>7.8 实战故事:经过计算的赌注170<br/>7.9 章节注释173<br/>7.10 练习173<br/>第8章 线性代数176<br/>8.1 线性代数的作用176<br/>8.1.1 解释线性代数公式177<br/>8.1.2 几何和向量178<br/>8.2 矩阵运算可视化179<br/>8.2.1 矩阵加法179<br/>8.2.2 矩阵乘法180<br/>8.2.3 矩阵乘法的应用181<br/>8.2.4 单位矩阵与求逆184<br/>8.2.5 矩阵求逆与线性系统185<br/>8.2.6 矩阵的秩186<br/>8.3 因式分解矩阵187<br/>8.3.1 为什么是因子特征矩阵187<br/>8.3.2 LU分解与行列式188<br/>8.4 特征值和特征向量189<br/>8.4.1 特征值的性质189<br/>8.4.2 计算特征值189<br/>8.5 特征值分解190<br/>8.5.1 奇异值分解191<br/>8.5.2 主成分分析193<br/>8.6 实战故事:人的因素193<br/>8.7 章节注释195<br/>8.8 练习195<br/>第9章 线性回归和logistic回归197<br/>9.1 线性回归197<br/>9.1.1 线性回归与对偶198<br/>9.1.2 线性回归误差199<br/>9.1.3 寻找很优拟合199<br/>9.2 更好的回归模型200<br/>9.2.1 删除离群值200<br/>9.2.2 拟合非线性函数201<br/>9.2.3 特征和目标缩放202<br/>9.2.4 处理高度相关的特征204<br/>9.3 实战故事:出租车司机204<br/>9.4 参数拟合回归205<br/>9.4.1 凸参数空间206<br/>9.4.2 梯度下降法207<br/>9.4.3 什么是正确的学习速率208<br/>9.4.4 随机梯度下降法210<br/>9.5 通过正则化简化模型210<br/>9.5.1 岭回归211<br/>9.5.2 LASSO回归211<br/>9.5.3 拟合与复杂性的权衡212<br/>9.6 分类与logistic回归212<br/>9.6.1 分类回归213<br/>9.6.2 决策边界214<br/>9.6.3 logistic回归214<br/>9.7 logistic分类中的几个问题216<br/>9.7.1 均衡训练分类216<br/>9.7.2 多类分类218<br/>9.7.3 分层分类219<br/>9.7.4 分拆函数与多项式回归220<br/>9.8 章节注释220<br/>9.9 练习220<br/>第10章 距离和网络方法222<br/>10.1 测量距离222<br/>10.1.1 距离度量222<br/>10.1.2 距离度量223<br/>10.1.3 在更高维度上工作224<br/>10.1.4 维度平均225<br/>10.1.5 点与向量226<br/>10.1.6 概率分布之间的距离226<br/>10.2 最近邻分类227<br/>10.2.1 寻找好的类比228<br/>10.2.2 k最近邻法229<br/>10.2.3 发现最近邻230<br/>10.2.4 局部敏感哈希231<br/>10.3 图、网络和距离232<br/>10.3.1 加权图与诱导网络233<br/>10.3.2 对图的讨论234<br/>10.3.3 图论236<br/>10.4 PageRank236<br/>10.5 聚类239<br/>10.5.1 k均值聚类241<br/>10.5.2 凝聚聚类244<br/>10.5.3 比较聚类248<br/>10.5.4 相似度图和基于切割的聚类248<br/>10.6 实战故事:集群轰炸250<br/>10.7 章节注释251<br/>10.8 练习251<br/>第11章 机器学习254<br/>11.1 朴素贝叶斯256<br/>11.1.1 公式256<br/>11.1.2 处理零计数(折扣)257<br/>11.2 决策树分类258<br/>11.2.1 构建决策树260<br/>11.2.2 实现异或261<br/>11.2.3 决策树集合261<br/>11.3 Boosting和集成学习262<br/>11.3.1 用分类器投票262<br/>11.3.2 Boosting算法263<br/>11.4 支持向量机265<br/>11.4.1 线性支持向量机266<br/>11.4.2 非线性支持向量机267<br/>11.4.3 核函数268<br/>11.5 监督程度268<br/>11.5.1 监督学习269<br/>11.5.2 无监督学习269<br/>11.5.3 半监督学习270<br/>11.5.4 特征工程271<br/>11.6 深度学习272<br/>11.6.1 网络和深度273<br/>11.6.2 反向传播275<br/>11.6.3 文字和图形的嵌入276<br/>11.7 实战故事:名字游戏277<br/>11.8 章节注释279<br/>11.9 练习280<br/>第12章 大数据:实现规模282<br/>12.1 大数据是什么282<br/>12.1.1 作为坏数据的大数据283<br/
— 没有更多了 —
以下为对购买帮助不大的评价