• Python数据科学手册
  • Python数据科学手册
21年品牌 40万+商家 超1.5亿件商品

Python数据科学手册

全新正版 极速发货

48.16 4.4折 109 全新

库存68件

广东广州
认证卖家担保交易快速发货售后保障

作者(美)杰克·万托布拉斯(Jake VanderPlas) 著;陶俊杰,陈小莉 译 著

出版社人民邮电出版社

ISBN9787115475893

出版时间2018-02

装帧平装

开本16开

定价109元

货号1201651888

上书时间2024-11-22

大智慧小美丽

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
Jake VanderPlas是Python科学栈的深度用户和开发人员,目前是华盛顿大学eScience学院物理科学研究院院长,研究方向为天文学。同时,他还为很多领域的科学家提供建议和咨询。

目录
译者序xiii
前言xv
第1章IPython:超越Python1
1.1shell还是Notebook1
1.1.1启动IPythonshell2
1.1.2启动JupyterNotebook2
1.2IPython的帮助和文档3
1.2.1用符号获取文档3
1.2.2通过符号获取源代码4
1.2.3用Tab补全的方式探索模块5
1.3IPythonshell中的快捷键7
1.3.1导航快捷键7
1.3.2文本输入快捷键7
1.3.3命令历史快捷键8
1.3.4其他快捷键9
1.4IPython魔法命令9
1.4.1粘贴代码块:%paste和%cpaste9
1.4.2执行外部代码:%run10
1.4.3计算代码运行时间:%timeit11
1.4.4魔法函数的帮助:、%magic和%lsmagic11
1.5输入和输出历史12
1.5.1IPython的输入和输出对象12
1.5.2下划线快捷键和以前的输出13
1.5.3禁止输出13
1.5.4相关的魔法命令13
1.6IPython和shell命令14
1.6.1shell快速入门14
1.6.2IPython中的shell命令15
1.6.3在shell中传入或传出值15
1.7与shell相关的魔法命令16
1.8错误和调试17
1.8.1控制异常:%xmode17
1.8.2调试:当阅读轨迹追溯不足以解决问题时19
1.9代码的分析和计时21
1.9.1代码段计时:%timeit和%time22
1.9.2分析整个脚本:%prun23
1.9.3用%lprun进行逐行分析24
1.9.4用%memit和%mprun进行内存分析25
1.10IPython参考资料26
1.10.1网络资源26
1.10.2相关图书27
第2章NumPy入门28
2.1理解Python中的数据类型29
2.1.1Python整型不仅仅是一个整型30
2.1.2Python列表不仅仅是一个列表31
2.1.3Python中的固定类型数组32
2.1.4从Python列表创建数组32
2.1.5从头创建数组33
2.1.6NumPy标准数据类型34
2.2NumPy数组基础35
2.2.1NumPy数组的属性36
2.2.2数组索引:获取单个元素37
2.2.3数组切片:获取子数组38
2.2.4数组的变形41
2.2.5数组拼接和分裂42
2.3NumPy数组的计算:通用函数44
2.3.1缓慢的循环44
2.3.2通用函数介绍45
2.3.3探索NumPy的通用函数46
2.3.4通用函数特性49
2.3.5通用函数:更多的信息51
2.4聚合:*小值、*大值和其他值51
2.4.1数组值求和51
2.4.2*小值和*大值52
2.4.3示例:美国总统的身高是多少54
2.5数组的计算:广播55
2.5.1广播的介绍55
2.5.2广播的规则57
2.5.3广播的实际应用60
2.6比较、掩码和布尔逻辑61
2.6.1示例:统计下雨天数61
2.6.2和通用函数类似的比较操作62
2.6.3操作布尔数组64
2.6.4将布尔数组作为掩码66
2.7花哨的索引69
2.7.1探索花哨的索引69
2.7.2组合索引70
2.7.3示例:选择随机点71
2.7.4用花哨的索引修改值72
2.7.5示例:数据区间划分73
2.8数组的排序75
2.8.1NumPy中的快速排序:np.sort和np.argsort76
2.8.2部分排序:分隔77
2.8.3示例:K个*近邻78
2.9结构化数据:NumPy的结构化数组81
2.9.1生成结构化数组83
2.9.2更高级的复合类型84
2.9.3记录数组:结构化数组的扭转84
2.9.4关于Pandas85
第3章Pandas数据处理86
3.1安装并使用Pandas86
3.2Pandas对象简介87
3.2.1Pandas的Series对象87
3.2.2Pandas的DataFrame对象90
3.2.3Pandas的Index对象93
3.3数据取值与选择95
3.3.1Series数据选择方法95
3.3.2DataFrame数据选择方法98
3.4Pandas数值运算方法102
3.4.1通用函数:保留索引102
3.4.2通用函数:索引对齐103
3.4.3通用函数:DataFrame与Series的运算105
3.5处理缺失值106
3.5.1选择处理缺失值的方法106
3.5.2Pandas的缺失值107
3.5.3处理缺失值110
3.6层级索引113
3.6.1多级索引Series113
3.6.2多级索引的创建方法116
3.6.3多级索引的取值与切片119
3.6.4多级索引行列转换121
3.6.5多级索引的数据累计方法124
3.7合并数据集:Concat与Append操作125
3.7.1知识回顾:NumPy数组的合并126
3.7.2通过pd.concat实现简易合并126
3.8合并数据集:合并与连接129
3.8.1关系代数129
3.8.2数据连接的类型130
3.8.3设置数据合并的键132
3.8.4设置数据连接的集合操作规则134
3.8.5重复列名:suffixes参数135
3.8.6案例:美国各州的统计数据136
3.9累计与分组140
3.9.1行星数据140
3.9.2Pandas的简单累计功能141
3.9.3GroupBy:分割、应用和组合142
3.10数据透视表150
3.10.1演示数据透视表150
3.10.2手工制作数据透视表151
3.10.3数据透视表语法151
3.10.4案例:美国人的生日153
3.11向量化字符串操作157
3.11.1Pandas字符串操作简介157
3.11.2Pandas字符串方法列表159
3.11.3案例:食谱数据库163
3.12处理时间序列166
3.12.1Python的日期与时间工具166
3.12.2Pandas时间序列:用时间作索引169
3.12.3Pandas时间序列数据结构170
3.12.4时间频率与偏移量172
3.12.5重新取样、迁移和窗口173
3.12.6更多学习资料178
3.12.7案例:美国西雅图自行车统计数据的可视化179
3.13高性能Pandas:eval()与query()184
3.13.1query()与eval()的设计动机:复合代数式184
3.13.2用pandas.eval()实现高性能运算185
3.13.3用DataFrame.eval()实现列间运算187
3.13.4DataFrame.query()方法188
3.13.5性能决定使用时机189
3.14参考资料189
第4章Matplotlib数据可视化191
4.1Matplotlib常用技巧192
4.1.1导入Matplotlib192
4.1.2设置绘图样式192
4.1.3用不用show()?如何显示图形192
4.1.4将图形保存为文件194
4.2两种画图接口195
4.2.1MATLAB风格接口195
4.2.2面向对象接口196
4.3简易线形图197
4.3.1调整图形:线条的颜色与风格199
4.3.2调整图形:坐标轴上下限200
4.3.3设置图形标签203
4.4简易散点图204
4.4.1用plt.plot画散点图205
4.4.2用plt.scatter画散点图206
4.4.3plot与scatter:效率对比208
4.5可视化异常处理208
4.5.1基本误差线209
4.5.2连续误差210
4.6密度图与等高线图211
4.7频次直方图、数据区间划分和分布密度215
4.8配置图例219
4.8.1选择图例显示的元素221
4.8.2在图例中显示不同尺寸的点222
4.8.3同时显示多个图例223
4.9配置颜色条224
4.9.1配置颜色条224
4.9.2案例:手写数字228
4.10多子图230
4.10.1plt.axes:手动创建子图230
4.10.2plt.subplot:简易网格子图231
4.10.3plt.subplots:用一行代码创建网格233
4.10.4plt.GridSpec:实现更复杂的排列方式234
4.11文字与注释235
4.11.1案例:节假日对美国出生率的影响236
4.11.2坐标变换与文字位置237
4.11.3箭头与注释239
4.12自定义坐标轴刻度241
4.12.1主要刻度与次要刻度242
4.12.2隐藏刻度与标签243
4.12.3增减刻度数量244
4.12.4花哨的刻度格式245
4.12.5格式生成器与定位器小结247
4.13Matplotlib自定义:配置文件与样式表248
4.13.1手动配置图形248
4.13.2修改默认配置:rcParams249
4.13.3样式表251
4.14用Matplotlib画三维图255
4.14.1三维数据点与线256
4.14.2三维等高线图256
4.14.3线框图和曲面图258
4.14.4曲面三角剖分259
4.15用Basemap可视化地理数据261
4.15.1地图投影263
4.15.2画一个地图背景267
4.15.3在地图上画数据269
4.15.4案例:美国加州城市数据270
4.15.5案例:地表温度数据271
4.16用Seaborn做数据可视化273
4.16.1Seaborn与Matplotlib274
4.16.2Seaborn图形介绍275
4.16.3案例:探索马拉松比赛成绩数据283
4.17参考资料290
4.17.1Matplotlib资源290
4.17.2其他Python画图程序库290
第5章机器学习291
5.1什么是机器学习291
5.1.1机器学习的分类292
5.1.2机器学习应用的定性示例292
5.1.3小结299
5.2Scikit-Learn简介300
5.2.1Scikit-Learn的数据表示300
5.2.2Scikit-Learn的评估器API302
5.2.3应用:手写数字探索309
5.2.4小结313
5.3超参数与模型验证313
5.3.1什么是模型验证314
5.3.2选择模型317
5.3.3学习曲线322
5.3.4验证实践:网格搜索326
5.3.5小结327
5.4特征工程327
5.4.1分类特征327
5.4.2文本特征329
5.4.3图像特征330
5.4.4衍生特征330
5.4.5缺失值填充332
5.4.6特征管道332
5.5专题:朴素贝叶斯分类333
5.5.1贝叶斯分类333
5.5.2高斯朴素贝叶斯334
5.5.3多项式朴素贝叶斯336
5.5.4朴素贝叶斯的应用场景339
5.6专题:线性回归340
5.6.1简单线性回归340
5.6.2基函数回归342
5.6.3正则化346
5.6.4案例:预测自行车流量349
5.7专题:支持向量机353
5.7.1支持向量机的由来354
5.7.2支持向量机:边界*大化355
5.7.3案例:人脸识别363
5.7.4支持向量机总结366
5.8专题:决策树与随机森林367
5.8.1随机森林的诱因:决策树367
5.8.2评估器集成算法:随机森林371
5.8.3随机森林回归373
5.8.4案例:用随机森林识别手写数字374
5.8.5随机森林总结376
5.9专题:主成分分析376
5.9.1主成分分析简介377
5.9.2用PCA作噪音过滤383
5.9.3案例:特征脸385
5.9.4主成分分析总结387
5.10专题:流形学习388
5.10.1流形学习:“HELLO”388
5.10.2多维标度法(MDS)389
5.10.3将MDS用于流形学习391
5.10.4非线性嵌入:当MDS失败时393
5.10.5非线性流形:局部线性嵌入395
5.10.6关于流形方法的一些思考396
5.10.7示例:用Isomap处理人脸数据397
5.10.8示例:手写数字的可视化结构400
5.11专题:k-means聚类402
5.11.1k-means简介403
5.11.2k-means算法:期望*大化404
5.11.3案例409
5.12专题:高斯混合模型415
5.12.1高斯混合模型(GMM)为什么会出现:k-means算法
的缺陷415
5.12.2一般化E-M:高斯混合模型417
5.12.3将GMM用作密度估计421
5.12.4示例:用GMM生成新的数据425
5.13专题:核密度估计427
5.13.1KDE的由来:直方图428
5.13.2核密度估计的实际应用431
5.13.3示例:球形空间的KDE433
5.13.4示例:不是很朴素的贝叶斯436
5.14应用:人脸识别管道439
5.14.1HOG特征440
5.14.2HOG实战:简单人脸识别器441
5.14.3注意事项与改进方案445
5.15机器学习参考资料446
5.15.1Python中的机器学习446
5.15.2通用机器学习资源447
关于作者448
关于封面448

内容摘要
《Python数据科学手册》是对以数据深度需求为中心的科学、研究以及针对计算和统计方法的参考书。本书共五章,每章介绍一到两个Python数据科学中的重点工具包。首先从IPython和Jupyter开始,它们提供了数据科学家需要的计算环境;第 2章讲解能提供ndarray对象的NumPy,它可以用Python高效地存储和操作大型数组;第3章主要涉及提供DataFrame对象的Pandas,它可以用Python高效地存储和操作带标签的 列式数据;第4章的主角是Matplotlib,它为Python提供了许多数据可视化功能;第5章以Scikit-Learn为主,这个程序库为重要的机器学习算法提供了高效整洁的Python版实现。《Python数据科学手册》适合有编程背景,并打算将开源Python工具用作分析、操作、可视化以及学习数据的数据科学研究人员。

主编推荐
Python语言拥有大量可用于存储、操作和洞察数据的程序库,已然成为深受数据科学研究人员推崇的工具。本书以IPython、NumPy、Pandas、Matplotlib和Scikit-Learn这5个能完成数据科学大部分工作的基础工具为主,从实战角度出发,讲授如何清洗和可视化数据、如何用数据建立各种统计学或机器学习模型等常见数据科学任务,旨在让各领域与数据处理相关的工作人员具备发现问题、解决问题的能力。
·IPython和Jupyter:为使用Python提供计算环境
·NumPy:用ndarray实现高维数组的高效存储与操作
·Pandas:用DataFrame实现带标签 列式数据的高效存储与操作
·Matplotlib:实现各种数据可视化
·Scikit-Learn:用高效整洁的Python实现重要的机器学习算法

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP