• 大数据分析:理论、方法及应用
  • 大数据分析:理论、方法及应用
21年品牌 40万+商家 超1.5亿件商品

大数据分析:理论、方法及应用

全新正版 极速发货

96.1 7.4折 129 全新

库存2件

浙江嘉兴
认证卖家担保交易快速发货售后保障

作者(德)史蒂文·S.斯基纳

出版社机械工业出版社

ISBN9787111703471

出版时间2022-04

装帧平装

开本16开

定价129元

货号31440303

上书时间2024-11-16

學源图书专营店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
    史蒂文·S.斯基纳(Steven S.Skiena),博士,石溪大学的杰出教授,研究方向是数据科学、自然语言处理和算法。由于对本科教学工作有杰出贡献,他曾获得IEEE计算机科学与工程本科教学奖。他还撰写了6本书,包括知名的The Algorithm Design Manual、Programming Challenges: The Programming Contest Training Marelal。

目录
译者序<br/>前言<br/>第1章 什么是数据科学1<br/>1.1 计算机科学、数据科学和真正的科学1<br/>1.2 从数据中提出有趣的问题3<br/>1.2.1 棒球百科全书3<br/>1.2.2 互联网电影数据库6<br/>1.2.3 Google Ngrams7<br/>1.2.4 纽约出租车记录9<br/>1.3 数据的属性11<br/>1.3.1 结构化与非结构化数据11<br/>1.3.2 定量数据与类别数据11<br/>1.3.3 大数据与小数据12<br/>1.4 分类与回归12<br/>1.5 关于数据科学的电视节目:The Quant Shop13<br/>1.6 关于实战故事15<br/>1.7 实战故事:回答正确的问题16<br/>1.8 章节注释17<br/>1.9 练习17<br/>第2章 数学基础20<br/>2.1 概率20<br/>2.1.1 概率与统计21<br/>2.1.2 复合事件与独立事件22<br/>2.1.3 条件概率23<br/>2.1.4 概率分布23<br/>2.2 描述性统计25<br/>2.2.1 中心性度量25<br/>2.2.2 变异性度量26<br/>2.2.3 解释方差27<br/>2.2.4 描述分布29<br/>2.3 相关性分析29<br/>2.3.1 相关系数:皮尔逊和斯皮尔曼秩30<br/>2.3.2 相关的强弱与显著性31<br/>2.3.3 相关性并不意味着因果关系33<br/>2.3.4 用自相关检测周期性34<br/>2.4 对数35<br/>2.4.1 对数与乘法概率35<br/>2.4.2 对数和比率35<br/>2.4.3 对数与正规化偏态分布36<br/>2.5 实战故事:契合设计师基因37<br/>2.6 章节注释39<br/>2.7 练习39<br/>第3章 数据整理42<br/>3.1 数据科学语言42<br/>3.1.1 notebook环境的重要性44<br/>3.1.2 标准数据格式45<br/>3.2 数据收集47<br/>3.2.1 搜索47<br/>3.2.2 爬取49<br/>3.2.3 网络日志50<br/>3.3 数据清洗50<br/>3.3.1 错误与伪影51<br/>3.3.2 数据兼容性52<br/>3.3.3 处理缺失值56<br/>3.3.4 离群值检测57<br/>3.4 实战故事:打败市场58<br/>3.5 众包59<br/>3.5.1 一便士的实验59<br/>3.5.2 什么时候有群体智慧60<br/>3.5.3 聚合机制61<br/>3.5.4 众包服务62<br/>3.5.5 游戏化65<br/>3.6 章节注释66<br/>3.7 练习66<br/>第4章 得分和排名69<br/>4.1 体重指数70<br/>4.2 开发评分系统72<br/>4.2.1 黄金标准和代理72<br/>4.2.2 排名与得分72<br/>4.2.3 识别良好的评分函数74<br/>4.3 Z得分和归一化75<br/>4.4 高级排名技术76<br/>4.4.1 Elo排名76<br/>4.4.2 合并排名78<br/>4.4.3 基于有向图的排名80<br/>4.4.4 PageRank80<br/>4.5 实战故事:Clyde的复仇81<br/>4.6 阿罗不可能性定理83<br/>4.7 实战故事:谁更大84<br/>4.8 章节注释87<br/>4.9 练习87<br/>第5章 统计分析89<br/>5.1 统计分布90<br/>5.1.1 二项分布90<br/>5.1.2 正态分布91<br/>5.1.3 正态分布的含义93<br/>5.1.4 泊松分布93<br/>5.1.5 幂律分布95<br/>5.2 从分布中采样97<br/>5.3 统计显著性99<br/>5.3.1 显著性的意义100<br/>5.3.2 t检验:比较总体均值101<br/>5.3.3 Kolmogorov-Smirnov检验102<br/>5.3.4 Bonferroni校正104<br/>5.3.5 错误发现率104<br/>5.4 实战故事:发现青春之泉105<br/>5.5 置换检验与p值106<br/>5.5.1 产生随机排列108<br/>5.5.2 迪马吉奥的连胜纪录109<br/>5.6 贝叶斯定理110<br/>5.7 章节注释111<br/>5.8 练习111<br/>第6章 数据可视化114<br/>6.1 探索性数据分析115<br/>6.1.1 面对新的数据集115<br/>6.1.2 汇总统计量和Anscombe四重线117<br/>6.1.3 可视化工具119<br/>6.2 发展可视化美学119<br/>6.2.1 最大化数据墨水比率120<br/>6.2.2 最小化谎言因子121<br/>6.2.3 最大限度地减少图表垃圾122<br/>6.2.4 恰当的缩放和标注123<br/>6.2.5 有效使用颜色和阴影124<br/>6.2.6 重复的力量125<br/>6.3 图表类型125<br/>6.3.1 表格数据127<br/>6.3.2 点状图和折线图128<br/>6.3.3 散点图131<br/>6.3.4 条形图和饼图133<br/>6.3.5 直方图135<br/>6.3.6 数据地图137<br/>6.4 出色的可视化139<br/>6.4.1 Marey的火车时刻表139<br/>6.4.2 斯诺的霍乱地图140<br/>6.4.3 纽约气象年141<br/>6.5 读图141<br/>6.5.1 模糊分布141<br/>6.5.2 过度解释方差142<br/>6.6 交互式可视化143<br/>6.7 实战故事:TextMap144<br/>6.8 章节注释146<br/>6.9 练习146<br/>第7章 数学模型149<br/>7.1 建模哲学149<br/>7.1.1 奥卡姆剃刀原理149<br/>7.1.2 权衡偏差与方差150<br/>7.1.3 Nate Silver会怎么做150<br/>7.2 模型分类152<br/>7.2.1 线性模型与非线性模型152<br/>7.2.2 黑盒与描述性模型152<br/>7.2.3 第一原理与数据驱动模型153<br/>7.2.4 随机模型与确定性模型154<br/>7.2.5 平面模型与分层模型155<br/>7.3 基准模型155<br/>7.3.1 分类的基准模型155<br/>7.3.2 价值预测的基准模型156<br/>7.4 评估模型157<br/>7.4.1 评估分类器158<br/>7.4.2 受试者工作特征曲线161<br/>7.4.3 评估多类系统162<br/>7.4.4 评估价值预测模型164<br/>7.5 评估环境165<br/>7.5.1 数据卫生评估167<br/>7.5.2 放大小型评估集167<br/>7.6 实战故事:100%准确169<br/>7.7 模拟模型170<br/>7.8 实战故事:经过计算的赌注170<br/>7.9 章节注释173<br/>7.10 练习173<br/>第8章 线性代数176<br/>8.1 线性代数的作用176<br/>8.1.1 解释线性代数公式177<br/>8.1.2 几何和向量178<br/>8.2 矩阵运算可视化179<br/>8.2.1 矩阵加法179<br/>8.2.2 矩阵乘法180<br/>8.2.3 矩阵乘法的应用181<br/>8.2.4 单位矩阵与求逆184<br/>8.2.5 矩阵求逆与线性系统185<br/>8.2.6 矩阵的秩186<br/>8.3 因式分解矩阵187<br/>8.3.1 为什么是因子特征矩阵187<br/>8.3.2 LU分解与行列式188<br/>8.4 特征值和特征向量189<br/>8.4.1 特征值的性质189<br/>8.4.2 计算特征值189<br/>8.5 特征值分解190<br/>8.5.1 奇异值分解191<br/>8.5.2 主成分分析193<br/>8.6 实战故事:人的因素193<br/>8.7 章节注释195<br/>8.8 练习195<br/>第9章 线性回归和logistic回归197<br/>9.1 线性回归197<br/>9.1.1 线性回归与对偶198<br/>9.1.2 线性回归误差199<br/>9.1.3 寻找最优拟合199<br/>9.2 更好的回归模型200<br/>9.2.1 删除离群值200<br/>9.2.2 拟合非线性函数201<br/>9.2.3 特征和目标缩放202<br/>9.2.4 处理高度相关的特征204<br/>9.3 实战故事:出租车司机204<br/>9.4 参数拟合回归205<br/>9.4.1 凸参数空间206<br/>9.4.2 梯度下降法207<br/>9.4.3 什么是正确的学习速率208<br/>9.4.4 随机梯度下降法210<br/>9.5 通过正则化简化模型210<br/>9.5.1 岭回归211<br/>9.5.2 LASSO回归211<br/>9.5.3 拟合与复杂性的权衡212<br/>9.6 分类与logistic回归212<br/>9.6.1 分类回归213<br/>9.6.2 决策边界214<br/>9.6.3 logistic回归214<br/>9.7 logistic分类中的几个问题216<br/>9.7.1 均衡训练分类216<br/>9.7.2 多类分类218<br/>9.7.3 分层分类219<br/>9.7.4 分拆函数与多项式回归220<br/>9.8 章节注释220<br/>9.9 练习220<br/>第10章 距离和网络方法222<br/>10.1 测量距离222<br/>10.1.1 距离度量222<br/>10.1.2 距离度量223<br/>10.1.3 在更高维度上工作224<br/>10.1.4 维度平均225<br/>10.1.5 点与向量226<br/>10.1.6 概率分布之间的距离226<br/>10.2 最近邻分类227<br/>10.2.1 寻找好的类比228<br/>10.2.2 k最近邻法229<br/>10.2.3 发现最近邻230<br/>10.2.4 局部敏感哈希231<br/>10.3 图、网络和距离232<br/>10.3.1 加权图与诱导网络233<br/>10.3.2 对图的讨论234<br/>10.3.3 图论236<br/>10.4 PageRank236<br/>10.5 聚类239<br/>10.5.1 k均值聚类241<br/>10.5.2 凝聚聚类244<br/>10.5.3 比较聚类248<br/>10.5.4 相似度图和基于切割的聚类248<br/>10.6 实战故事:集群轰炸250<br/>10.7 章节注释251<br/>10.8 练习251<br/>第11章 机器学习254<br/>11.1 朴素贝叶斯256<br/>11.1.1 公式256<br/>11.1.2 处理零计数(折扣)257<br/>11.2 决策树分类258<br/>11.2.1 构建决策树260<br/>11.2.2 实现异或261<br/>11.2.3 决策树集合261<br/>11.3 Boosting和集成学习262<br/>11.3.1 用分类器投票262<br/>11.3.2 Boosting算法263<br/>11.4 支持向量机265<br/>11.4.1 线性支持向量机266<br/>11.4.2 非线性支持向量机267<br/>11.4.3 核函数268<br/>11.5 监督程度268<br/>11.5.1 监督学习269<br/>11.5.2 无监督学习269<br/>11.5.3 半监督学习270<br/>11.5.4 特征工程271<br/>11.6 深度学习272<br/>11.6.1 网络和深度273<br/>11.6.2 反向传播275<br/>11.6.3 文字和图形的嵌入276<br/>11.7 实战故事:名字游戏277<br/>11.8 章节注释279<br/>11.9 练习280<br/>第12章 大数据:实现规模282<br/>12.1 大数据是什么282<br/>12.1.1 作为坏数据的大数据283<br/>12.1.2 3个V284<br/>12.2 实战故事:基础设施问题285<br/>12.3 大数据算法286<br/>12.3.1 大O分析286<br/>12.3.2 哈希287<br/>12.3.3 利用存储层次结构289<br/>12.3.4 流式和单通道算法290<br/>12.4 过滤和抽样291<br/>12.4.1 确定性抽样算法291<br/>12.4.2 随机抽样和流抽样292<br/>12.5 并行293<br/>12.5.1 一、二、多293<br/>12.5.2 数据并行294<br/>12.5.3 网格搜索295<br/>12.5.4 云计算服务295<br/>12.6 MapReduce296<br/>12.6.1 MapReduce编程296<br/>12.6.2 MapReduce的工作原理298<br/>12.7 社会和伦理影响299<br/>12.8 章节注释301<br/>12.9 习题301<br/>第13章 结尾303<br/>13.1 找份工作303<br/>13.2 到研究生院去304<br/>13.3 专业咨询服务304<br/>参考文献305<br/>索引311

内容摘要
本书由算法领域的知名专家StevenSkiena教授撰写,重点介绍了收集、分析和解释数据所需的技能和原理。作者由浅入深地介绍了数据科学的概念、所需的数学基础、数据的整理清洗方法、数据分析方法(统计分析、可视化、数学模型、线性逻辑回归、机器学习算法等)以及学习大数据分析的意义。作者结合应用领域的大量数据分析案例,以解释大数据分析所需技能与原理,帮助者快速理解和掌握大数据分析的理论与方法,也将这些技能的实际应用方式展现得淋漓尽致,具有很强的可操作性。

主编推荐
本书对迅速兴起的数据科学跨学科领域提供必要的介绍,重点介绍构建用于收集、分析和解释数据的系统所需的关键技能,以及成为很好数据科学家的基本原则。“正确地做简单的事情”,帮助读者发展数学直觉,用最少的数学推导说明关键概念。本书使用计算机科学家最自然的方法突出统计推理的核心价值,不依赖任何特定的编程语言或数据分析工具套件,而是侧重于对重要设计原则的深入讨论。

本书特色:

·包含“实战故事”,为数据科学如何应用于现实世界提供参考。
  ·强调“错误的开始”,揭示某些方法失败的微妙原因。
  ·提供“课后拓展”,强调每一章中需要特别注意的一些概念。
  ·包括“练习”,为读者自学提供广泛的习题和项目。 
  ·“Kaggle挑战”让读者挑战现实世界中的问题。
本书对迅速兴起的数据科学跨学科领域提供必要的介绍,重点介绍构建用于收集、分析和解释数据的系统所需的关键技能,以及成为很好数据科学家的基本原则。“正确地做简单的事情”,帮助读者发展数学直觉,用最少的数学推导说明关键概念。本书使用计算机科学家最自然的方法突出统计推理的核心价值,不依赖任何特定的编程语言或数据分析工具套件,而是侧重于对重要设计原则的深入讨论。

本书特色:

·包含“实战故事”,为数据科学如何应用于现实世界提供参考。
  ·强调“错误的开始”,揭示某些方法失败的微妙原因。
  ·提供“课后拓展”,强调每一章中需要特别注意的一些概念。
  ·包括“练习”,为读者自学提供广泛的习题和项目。 
  ·“Kaggle挑战”让读者挑战现实世界中的问题。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP