• Python数据分析与大数据处理从入门到精通 普通图书/计算机与互联网 朱春旭 北京大学出版社 9787301307656
21年品牌 40万+商家 超1.5亿件商品

Python数据分析与大数据处理从入门到精通 普通图书/计算机与互联网 朱春旭 北京大学出版社 9787301307656

新华书店全新正版书籍图书 保证_可开发票_极速发货支持7天无理由

58.5 6.6折 89 全新

库存2件

浙江嘉兴
认证卖家担保交易快速发货售后保障

作者朱春旭

出版社北京大学出版社

ISBN9787301307656

出版时间2018-01

装帧平装

开本16开

定价89元

货号30728237

上书时间2023-06-20

學源图书专营店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
目录
第1篇 Python程序设计
 第1章 Python入门3
1.1 Python概述4
1.2 搭建Python开发环境6
1.3 Python开发工具介绍11
1.4 Python软件包的管理13
1.5 实训:编写“Hello World”15
本章小结16
第2章 Python基础17
2.1 变量18
2.2 标识符24
2.3 代码组织26
2.4 输入与输出28
2.5 运算符与优先级30
2.6 新手问答30
2.7 实训:设计一个简易计算器31
本章小结31
第3章 数据类型与流程控制32
3.1 数字类型33
3.2 字符串类型37
3.3 集合类型40
3.4 流程控制语句45
3.5 新手问答47
3.6 实训:设计算法,输出乘法表49
本章小结50
第4章 函数、模块、包51
4.1 自定义函数52
4.2 函数参数55
4.3 函数式编程58
4.4 模块与包63
4.5 新手问答65
4.6 实训:设计算法,对列表进行排序67
本章小结68
第5章 面向对象的程序设计69
5.1 面向对象70
5.2 自定义类71
5.3 属性73
5.4 方法79
5.5 类的继承83
5.6 可调用对象86
5.7 不可变对象87
5.8 新手问答88
5.9 实训:设计算法,构造一棵二叉树90
本章小结92
第6章 高级主题93
6.1 生成器94
6.2 迭代器96
6.3 异步处理97
6.4 错误、调试103
6.5 新手问答108
6.6 实训:使用多进程技术统计数据并汇总109
本章小结110
第2篇 数据采集与数据清洗
第7章 网络数据采集113
7.1 HTTP请求概述114
7.2 XPath网页解析114
7.3 Scrapy数据采集入门119
7.4 Scrapy应对反爬虫程序126
7.5 CrawlSpider类131
7.6 分布式爬虫132
7.7 新手问答136
7.8 实训:构建百度云音乐爬虫136
本章小结139
第8章 数据清洗140
8.1 数据清洗的意义141
8.2 数据清洗的内容141
8.3 数据格式与存储类型142
8.4 数据清洗的步骤145
8.5 数据清洗的工具147
8.6 新手问答151
8.7 实训:清洗百度云音乐数据并储存到CSV 151
本章小结152
第3篇 数据分析与可视化
第9章 NumPy数值计算155
9.1 NumPy基础156
9.2 形状操作164
9.3 副本、浅拷贝和深拷贝166
9.4 高级索引168
9.5 排序统计171
9.6 新手问答173
9.7 实训:销售额统计 174
本章小结175
第10章 Matplotlib可视化176
10.1 图形的基本要素177
10.2 绘图基础177
10.3 设置样式186
10.4 图形样例189
10.5 新手问答198
10.6 实训:营业数据可视化199
本章小结201
第11章 Pandas统计分析202
11.1 Pandas数据结构203
11.2 基础功能210
11.3 统计分析217
11.4 时间数据229
11.5 数据整理231
11.6 高级功能234
11.7 读写MySQL数据库236
11.8 新手问答237
11.9 实训:成绩分析237
本章小结239
第12章 Seaborn可视化240
12.1 Seaborn概述241
12.2 可视化数据关系242
12.3 根据数据分类绘图246
12.4 单变量与双变量251
12.5 线性关系256
12.6 新手问答258
12.7 实训:成绩分析可视化258
本章小结260
第4篇 大数据存储与快速分析篇
第13章 Hadoop数据存储与基本操作263
13.1 Hadoop概述264
13.2 Hadoop数据存储与任务调度原理268
13.3 Hadoop基础环境搭建273
13.4 Hadoop部署模式294
13.5 Hadoop常用操作命令298
13.6 新手问答300
13.7 实训:动手搭建Hadoop集群环境301
本章小结309
第14章 Spark入门310
14.1 Spark概述311
14.2 Spark核心原理312
14.3 Spark基础环境搭建315
14.4 Spark运行模式317
14.5 新手问答321
14.6 实训:动手搭建Spark集群322
本章小结323
第15章 Spark RDD编程324
15.1 RDD设计原理325
15.2 RDD编程328
15.3 键值对RDD335
15.4 文件读写340
15.5 编程进阶342
15.6 新手问答347
15.7 实训:统计海鲜销售情况348
本章小结350
第16章 Spark SQL编程351
16.1 Spark SQL概述352
16.2 创建DataFrame对象360
16.3 DataFrame常用API364
16.4 保存DataFrame370
16.5 新手问答372
16.6 实训:统计手机销售情况373
本章小结375
第17章 Spark流式计算编程376
17.1 流计算简介377
17.2 Discretized Stream379
17.3 Structured Streaming385
17.4 新手问答397
17.5 实训:实时统计贷款金额397
本章小结398
第5篇 项目实战篇
第18章 分析电商网站销售数据401
18.1 目标分析402
18.2 数据采集405
18.3 数据分析411
本章小结416
第19章 分析旅游网站数据417
19.1 目标分析418
19.2 数据采集420
19.3 数据分析425
本章小结429
第20章 分析在售二手房数据430
20.1 目标分析431
20.2 数据采集434
20.3 数据分析440
本章小结446
附录:Python常见面试题精选447
主要参考文献450

内容摘要
  《Python数据分析与大数据处理从入门到精通》主要讲解数据分析与大数据处理所需的技术、基础设施、核心概念、实施流程。从编程语言准备、数据采集与清洗、数据分析与可视化,到大型数据的分布式存储与分布式计算,贯穿了整个大数据项目开发流程。本书轻理论、重实践,目的是让读者快速上手。1篇首先介绍了Python的基本语法、面向对象开发、模块化设计等,掌握Python的编程方式。然后介绍了多线程、多进程及其相互间的通信,让读者对分布式程序有个基本的认识。第2篇介绍了网络数据采集、数据清洗、数据存储等技术。第3篇介绍了Python常用的数据分析工具,扩展了更多的数据清洗、插值方法,为最终的数据可视化奠定基础。第4篇是大数据分析的重点。首先介绍了Hadoop的框架原理、调度原理,MapReduce原理与编程模型、环境搭建,接着介绍了Spark框架原理、环境搭建方式,以及如何与Hive等第三方工具进行交互,还介绍了最新的结构化流式处理技术。第5篇通过三个项目实例,综合介绍了如何分析网页、如何搭建分布式爬虫、如何应对常见的反爬虫、如何设计数据模型、如何设计架构模型、如何在实践中综合运用前四篇涉及的技术。本书既适合非计算机专业的编程“小白”,也适合刚毕业或即将毕业走向工作岗位的广大毕业生,以及已经有编程经验,但想转行做大数据分析的专业人士。同时,还可以作为广大职业院校、电脑培训班的教学参考用书。

精彩内容
Python的创始人是GuidovanRossum。1991年,第一个用C语言开发的Python编译器诞生。
1996年,Python发行了第一个公开版本1.4。由于其简单、易用、可以移植等特点,Python得到了飞速发展。在编写本书时,最新主要版本已经是3.7版本。
Python版本发布进程如下。
1996年至2000年,发布的Python版本是1.4-1.6。
2000年至2008年,发布的Python版本是2.0-2.7。
2008年至2018年,发布的Python版本是3.0-3.7。
请注意,2008年后,Python开始同时维护2.X和3.X两个版本。这是因为当时很多系统都不能正常升级到3.0版本,于是后来开发了2.7版本作为过渡。
Python从诞生起就具有类、函数、异常处理、表、字典等核心数据类型,同时支持用“模块”来扩展功能。在Python的发展进程中,开发者不断加入lambda、map、 filter和reduce等高阶函数,极大地丰富了Python的API。同时引入了垃圾回收器等高级功能,简化了程序员对内存的手动管理流程。
当前的版本中,Python已经具备了以下重要的语言特性。
(1)有多种基本数据类型可供选择:数字(浮点数、复数和无限长整数)、字符串(ASCII和Unicode)、列表和字典。
(2)支持使用类和多继承的面向对象编程。
(3)代码可以分为模块和包。
(4)支持引发和捕获异常,从而实现更清晰的错误处理。
(5)数据类型是强类型和动态类型。混合不兼容的类型(如尝试添加字符串和数字)会导致异常,从而能够更快地捕获错误。
(6)包含高级编程功能,如生成器和列表推导。
(7)其自动内存管理功能使用户不必在代码中手动分配和释放内存。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP