消息首页搜索举报

大数据分析:理论、方法及应用

正版全新可开发票

96.75 7.5折 129 全新

库存9件

北京朝阳

认证卖家担保交易快速发货售后保障

作者[美]Steven S.Skiena

出版社机械工业出版社

ISBN9787111703471

出版时间2021-08

装帧平装

开本16开

定价129元

货号11590018

上书时间2024-09-27

宏铭图书店

十二年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 19小时
好评率暂无

最新上架

河南黄河防汛工作实务 ¥108.61

湖言 ¥19.15

花佣月令(精)/中国历代花经丛书 ¥32.22

创新之路 ¥13.16

第三类秘密 ¥13.08

菜穗子 ¥10.88

定位中国：认清我们的时代和时代中的我们（你真的了解这个国家吗？今日之中国，处在时空坐标系的哪个位置？发展的方向和运行的逻辑又是什 ¥13.50

芭比亲子故事（新版）：小公主冒险故事 ¥10.01

Storm实时数据处理 ¥14.24

商品详情

品相描述：全新

商品描述

作者简介

史蒂文·S.斯基纳(Steven S．Skiena)，博士，石溪大学的杰出教授，研究方向是数据科学、自然语言处理和算法。由于对本科教学工作有杰出贡献，他曾获得IEEE计算机科学与工程本科教学奖。他还撰写了6本书，包括知名的The Algorithm Design Manual、Programming Challenges: The Programming Contest Training Marelal。

译者序 前言 第1章什么是数据科学1 1.1 计算机科学、数据科学和真正的科学1 1.2 从数据中提出有趣的问题3 1.2.1 棒球百科全书3 1.2.2 互联网电影数据库6 1.2.3 Google Ngrams7 1.2.4 纽约出租车记录9 1.3 数据的属性11 1.3.1 结构化与非结构化数据11 1.3.2 定量数据与类别数据11 1.3.3 大数据与小数据12 1.4 分类与回归12 1.5 关于数据科学的电视节目：The Quant Shop13 1.6 关于实战故事15 1.7 实战故事：回答正确的问题16 1.8 章节注释17 1.9 练习17 第2章数学基础20 2.1 概率20 2.1.1 概率与统计21 2.1.2 复合事件与独立事件22 2.1.3 条件概率23 2.1.4 概率分布23 2.2 描述性统计25 2.2.1 中心性度量25 2.2.2 变异性度量26 2.2.3 解释方差27 2.2.4 描述分布29 2.3 相关性分析29 2.3.1 相关系数：皮尔逊和斯皮尔曼秩30 2.3.2 相关的强弱与显著性31 2.3.3 相关性并不意味着因果关系33 2.3.4 用自相关检测周期性34 2.4 对数35 2.4.1 对数与乘法概率35 2.4.2 对数和比率35 2.4.3 对数与正规化偏态分布36 2.5 实战故事：契合设计师基因37 2.6 章节注释39 2.7 练习39 第3章数据整理42 3.1 数据科学语言42 3.1.1 notebook环境的重要性44 3.1.2 标准数据格式45 3.2 数据收集47 3.2.1 搜索47 3.2.2 爬取49 3.2.3 网络日志50 3.3 数据清洗50 3.3.1 错误与伪影51 3.3.2 数据兼容性52 3.3.3 处理缺失值56 3.3.4 离群值检测57 3.4 实战故事：打败市场58 3.5 众包59 3.5.1 一便士的实验59 3.5.2 什么时候有群体智慧60 3.5.3 聚合机制61 3.5.4 众包服务62 3.5.5 游戏化65 3.6 章节注释66 3.7 练习66 第4章得分和排名69 4.1 体重指数70 4.2 开发评分系统72 4.2.1 黄金标准和代理72 4.2.2 排名与得分72 4.2.3 识别良好的评分函数74 4.3 Z得分和归一化75 4.4 不错排名技术76 4.4.1 Elo排名76 4.4.2 合并排名78 4.4.3 基于有向图的排名80 4.4.4 PageRank80 4.5 实战故事：Clyde的复仇81 4.6 阿罗不可能性定理83 4.7 实战故事：谁更大84 4.8 章节注释87 4.9 练习87 第5章统计分析89 5.1 统计分布90 5.1.1 二项分布90 5.1.2 正态分布91 5.1.3 正态分布的含义93 5.1.4 泊松分布93 5.1.5 幂律分布95 5.2 从分布中采样97 5.3 统计显著性99 5.3.1 显著性的意义100 5.3.2 t检验：比较总体均值101 5.3.3 Kolmogorov-Smirnov检验102 5.3.4 Bonferroni校正104 5.3.5 错误发现率104 5.4 实战故事：发现青春之泉105 5.5 置换检验与p值106 5.5.1 产生随机排列108 5.5.2 迪马吉奥的连胜纪录109 5.6 贝叶斯定理110 5.7 章节注释111 5.8 练习111 第6章数据可视化114 6.1 探索性数据分析115 6.1.1 面对新的数据集115 6.1.2 汇总统计量和Anscombe四重线117 6.1.3 可视化工具119 6.2 发展可视化美学119 6.2.1 优选化数据墨水比率120 6.2.2 最小化谎言因子121 6.2.3 优选限度地减少图表垃圾122 6.2.4 恰当的缩放和标注123 6.2.5 有效使用颜色和阴影124 6.2.6 重复的力量125 6.3 图表类型125 6.3.1 表格数据127 6.3.2 点状图和折线图128 6.3.3 散点图131 6.3.4 条形图和饼图133 6.3.5 直方图135 6.3.6 数据地图137 6.4 出色的可视化139 6.4.1 Marey的火车时刻表139 6.4.2 斯诺的霍乱地图140 6.4.3 纽约气象年141 6.5 读图141 6.5.1 模糊分布141 6.5.2 过度解释方差142 6.6 交互式可视化143 6.7 实战故事：TextMap144 6.8 章节注释146 6.9 练习146 第7章数学模型149 7.1 建模哲学149 7.1.1 奥卡姆剃刀原理149 7.1.2 权衡偏差与方差150 7.1.3 Nate Silver会怎么做150 7.2 模型分类152 7.2.1 线性模型与非线性模型152 7.2.2 黑盒与描述性模型152 7.2.3 原理与数据驱动模型153 7.2.4 随机模型与确定性模型154 7.2.5 平面模型与分层模型155 7.3 基准模型155 7.3.1 分类的基准模型155 7.3.2 价值预测的基准模型156 7.4 评估模型157 7.4.1 评估分类器158 7.4.2 受试者工作特征曲线161 7.4.3 评估多类系统162 7.4.4 评估价值预测模型164 7.5 评估环境165 7.5.1 数据卫生评估167 7.5.2 放大小型评估集167 7.6 实战故事：100%准确169 7.7 模拟模型170 7.8 实战故事：经过计算的赌注170 7.9 章节注释173 7.10 练习173 第8章线性代数176 8.1 线性代数的作用176 8.1.1 解释线性代数公式177 8.1.2 几何和向量178 8.2 矩阵运算可视化179 8.2.1 矩阵加法179 8.2.2 矩阵乘法180 8.2.3 矩阵乘法的应用181 8.2.4 单位矩阵与求逆184 8.2.5 矩阵求逆与线性系统185 8.2.6 矩阵的秩186 8.3 因式分解矩阵187 8.3.1 为什么是因子特征矩阵187 8.3.2 LU分解与行列式188 8.4 特征值和特征向量189 8.4.1 特征值的性质189 8.4.2 计算特征值189 8.5 特征值分解190 8.5.1 奇异值分解191 8.5.2 主成分分析193 8.6 实战故事：人的因素193 8.7 章节注释195 8.8 练习195 第9章线性回归和logistic回归197 9.1 线性回归197 9.1.1 线性回归与对偶198 9.1.2 线性回归误差199 9.1.3 寻找很优拟合199 9.2 更好的回归模型200 9.2.1 删除离群值200 9.2.2 拟合非线性函数201 9.2.3 特征和目标缩放202 9.2.4 处理高度相关的特征204 9.3 实战故事：出租车司机204 9.4 参数拟合回归205 9.4.1 凸参数空间206 9.4.2 梯度下降法207 9.4.3 什么是正确的学习速率208 9.4.4 随机梯度下降法210 9.5 通过正则化简化模型210 9.5.1 岭回归211 9.5.2 LASSO回归211 9.5.3 拟合与复杂性的权衡212 9.6 分类与logistic回归212 9.6.1 分类回归213 9.6.2 决策边界214 9.6.3 logistic回归214 9.7 logistic分类中的几个问题216 9.7.1 均衡训练分类216 9.7.2 多类分类218 9.7.3 分层分类219 9.7.4 分拆函数与多项式回归220 9.8 章节注释220 9.9 练习220 第10章距离和网络方法222 10.1 测量距离222 10.1.1 距离度量222 10.1.2 距离度量223 10.1.3 在更高维度上工作224 10.1.4 维度平均225 10.1.5 点与向量226 10.1.6 概率分布之间的距离226 10.2 最近邻分类227 10.2.1 寻找好的类比228 10.2.2 k最近邻法229 10.2.3 发现最近邻230 10.2.4 局部敏感哈希231 10.3 图、网络和距离232 10.3.1 加权图与诱导网络233 10.3.2 对图的讨论234 10.3.3 图论236 10.4 PageRank236 10.5 聚类239 10.5.1 k均值聚类241 10.5.2 凝聚聚类244 10.5.3 比较聚类248 10.5.4 相似度图和基于切割的聚类248 10.6 实战故事：集群轰炸250 10.7 章节注释251 10.8 练习251 第11章机器学习254 11.1 朴素贝叶斯256 11.1.1 公式256 11.1.2 处理零计数（折扣）257 11.2 决策树分类258 11.2.1 构建决策树260 11.2.2 实现异或261 11.2.3 决策树集合261 11.3 Boosting和集成学习262 11.3.1 用分类器投票262 11.3.2 Boosting算法263 11.4 支持向量机265 11.4.1 线性支持向量机266 11.4.2 非线性支持向量机267 11.4.3 核函数268 11.5 监督程度268 11.5.1 监督学习269 11.5.2 无监督学习269 11.5.3 半监督学习270 11.5.4 特征工程271 11.6 深度学习272 11.6.1 网络和深度273 11.6.2 反向传播275 11.6.3 文字和图形的嵌入276 11.7 实战故事：名字游戏277 11.8 章节注释279 11.9 练习280 第12章大数据：实现规模282 12.1 大数据是什么282 12.1.1 作为坏数据的大数据283<br/

— 没有更多了 —

大数据分析:理论、方法及应用

宏铭图书店

商品详情

相关推荐