• Python数据清洗
21年品牌 40万+商家 超1.5亿件商品

Python数据清洗

全新正版 极速发货

76.18 6.4折 119 全新

库存5件

广东广州
认证卖家担保交易快速发货售后保障

作者(美)迈克尔·沃克尔

出版社清华大学出版社

ISBN9787302609360

出版时间2022-07

装帧平装

开本32开

定价119元

货号1202704020

上书时间2024-06-01

曲奇书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
目录
第1章将表格数据导入Pandas中1

1.1技术要求1

1.2导入CSV文件2

1.2.1准备工作2

1.2.2实战操作3

1.2.3原理解释5

1.2.4扩展知识6

1.2.5参考资料7

1.3导入Excel文件7

1.3.1准备工作8

1.3.2实战操作8

1.3.3原理解释13

1.3.4扩展知识13

1.3.5参考资料14

1.4从SQL数据库中导入数据14

1.4.1准备工作15

1.4.2实战操作15

1.4.3原理解释19

1.4.4扩展知识21

1.4.5参考资料21

1.5导入SPSS、Stata和SAS数据21

1.5.1准备工作22

1.5.2实战操作22

1.5.3原理解释28

1.5.4扩展知识29

1.5.5参考资料30

1.6导入R数据30

1.6.1准备工作30

1.6.2实战操作31

1.6.3原理解释33

1.6.4扩展知识34

1.6.5参考资料34

1.7保留表格数据35

1.7.1准备工作36

1.7.2实战操作36

1.7.3原理解释39

1.7.4扩展知识39

第2章将HTML和JSON导入Pandas中41

2.1技术要求41

2.2导入简单的JSON数据41

2.2.1准备工作42

2.2.2实战操作42

2.2.3原理解释47

2.2.4扩展知识48

2.3通过API导入更复杂的JSON数据48

2.3.1准备工作49

2.3.2实战操作50

2.3.3原理解释52

2.3.4扩展知识53

2.3.5参考资料53

2.4从网页中导入数据53

2.4.1准备工作54

2.4.2实战操作55

2.4.3原理解释58

2.4.4扩展知识59

2.5持久保存JSON数据59

2.5.1准备工作60

2.5.2实战操作60

2.5.3原理解释62

2.5.4扩展知识63

第3章衡量数据好坏65

3.1技术要求66

3.2初步了解数据66

3.2.1准备工作66

3.2.2实战操作67

3.2.3原理解释70

3.2.4扩展知识71

3.2.5参考资料71

3.3选择和组织列71

3.3.1准备工作72

3.3.2实战操作72

3.3.3原理解释77

3.3.4扩展知识77

3.3.5参考资料78

3.4选择行79

3.4.1准备工作79

3.4.2实战操作79

3.4.3原理解释86

3.4.4扩展知识87

3.4.5参考资料87

3.5生成分类变量的频率87

3.5.1准备工作88

3.5.2实战操作88

3.5.3原理解释91

3.5.4扩展知识92

3.6生成连续变量的摘要统计信息92

3.6.1准备工作92

3.6.2实战操作93

3.6.3原理解释95

3.6.4参考资料96

第4章识别缺失值和离群值97

4.1技术要求97

4.2寻找缺失值97

4.2.1准备工作98

4.2.2实战操作98

4.2.3原理解释101

4.2.4参考资料101

4.3用一个变量识别离群值102

4.3.1准备工作102

4.3.2实战操作102

4.3.3原理解释109

4.3.4扩展知识109

4.3.5参考资料110

4.4识别双变量关系中的离群值和意外值110

4.4.1准备工作111

4.4.2实战操作112

4.4.3原理解释118

4.4.4扩展知识119

4.4.5参考资料119

4.5检查变量关系中的逻辑不一致情况119

4.5.1准备工作119

4.5.2实战操作120

4.5.3原理解释126

4.5.4参考资料126

4.6使用线性回归来确定具有重大影响的数据点126

4.6.1准备工作127

4.6.2实战操作127

4.6.3原理解释129

4.6.4扩展知识130

4.7使用k最近邻算法找到离群值130

4.7.1准备工作130

4.7.2实战操作131

4.7.3原理解释133

4.7.4扩展知识133

4.7.5参考资料134

4.8使用隔离森林算法查找异常134

4.8.1准备工作134

4.8.2实战操作134

4.8.3原理解释137

4.8.4扩展知识138

4.8.5参考资料138

第5章使用可视化方法识别意外值139

5.1技术要求139

5.2使用直方图检查连续变量的分布140

5.2.1准备工作140

5.2.2实战操作141

5.2.3原理解释146

5.2.4扩展知识147

5.3使用箱形图识别连续变量的离群值147

5.3.1准备工作148

5.3.2实战操作148

5.3.3原理解释153

5.3.4扩展知识153

5.3.5参考资料153

5.4使用分组的箱形图发现特定组中的意外值154

5.4.1准备工作154

5.4.2实战操作154

5.4.3原理解释159

5.4.4扩展知识159

5.4.5参考资料160

5.5使用小提琴图检查分布形状和离群值160

5.5.1准备工作160

5.5.2实战操作161

5.5.3原理解释165

5.5.4扩展知识166

5.5.5参考资料166

5.6使用散点图查看双变量关系166

5.6.1准备工作167

5.6.2实战操作167

5.6.3原理解释172

5.6.4扩展知识173

5.6.5参考资料173

5.7使用折线图检查连续变量的趋势173

5.7.1准备工作173

5.7.2实战操作173

5.7.3原理解释178

5.7.4扩展知识179

5.7.5参考资料179

5.8根据相关性矩阵生成热图179

5.8.1准备工作180

5.8.2实战操作180

5.8.3原理解释182

5.8.4扩展知识183

5.8.5参考资料183

第6章使用Series操作清洗和探索数据185

6.1技术要求186

6.2从PandasSeries中获取值186

6.2.1准备工作186

6.2.2实战操作187

6.2.3原理解释190

6.3显示PandasSeries的摘要统计信息190

6.3.1准备工作191

6.3.2实战操作191

6.3.3原理解释193

6.3.4扩展知识195

6.3.5参考资料195

6.4更改Series值195

6.4.1准备工作195

6.4.2实战操作195

6.4.3原理解释198

6.4.4扩展知识199

6.4.5参考资料199

6.5有条件地更改Series值199

6.5.1准备工作199

6.5.2实战操作200

6.5.3原理解释203

6.5.4扩展知识205

6.5.5参考资料206

6.6评估和清洗字符串Series数据206

6.6.1准备工作206

6.6.2实战操作206

6.6.3原理解释210

6.6.4扩展知识211

6.7处理日期211

6.7.1准备工作211

6.7.2实战操作212

6.7.3原理解释216

6.7.4参考资料217

6.8识别和清洗缺失的数据217

6.8.1准备工作217

6.8.2实战操作217

6.8.3原理解释221

6.8.4扩展知识221

6.8.5参考资料221

6.9使用k最近邻算法填充缺失值222

6.9.1准备工作222

6.9.2实战操作222

6.9.3原理解释223

6.9.4扩展知识224

6.9.5参考资料224

第7章聚合时修复混乱数据225

7.1技术要求226

7.2使用itertuples遍历数据226

7.2.1准备工作226

7.2.2实战操作227

7.2.3原理解释229

7.2.4扩展知识230

7.3使用NumPy数组按组计算汇总231

7.3.1准备工作231

7.3.2实战操作231

7.3.3原理解释233

7.3.4扩展知识234

7.3.5参考资料234

7.4使用groupby组织数据234

7.4.1准备工作234

7.4.2实战操作234

7.4.3原理解释237

7.4.4扩展知识237

7.5通过groupby使用更复杂的聚合函数237

7.5.1准备工作238

7.5.2实战操作238

7.5.3原理解释242

7.5.4扩展知识243

7.5.5参考资料244

7.6结合groupby使用用户定义的函数244

7.6.1准备工作244

7.6.2实战操作244

7.6.3原理解释247

7.6.4扩展知识247

7.6.5参考资料248

7.7使用groupby更改DataFrame的分析单位248

7.7.1准备工作249

7.7.2实战操作249

7.7.3原理解释250

第8章组合DataFrame251

8.1技术要求252

8.2垂直组合DataFrame252

8.2.1准备工作252

8.2.2实战操作253

8.2.3原理解释256

8.2.4参考资料256

8.3进行一对一合并256

8.3.1准备工作258

8.3.2实战操作258

8.3.3原理解释262

8.3.4扩展知识263

8.4按多列进行一对一合并263

8.4.1准备工作263

8.4.2实战操作263

8.4.3原理解释266

8.4.4扩展知识266

8.5进行一对多合并266

8.5.1准备工作267

8.5.2实战操作267

8.5.3原理解释271

8.5.4扩展知识271

8.5.5参考资料271

8.6进行多对多合并271

8.6.1准备工作272

8.6.2实战操作272

8.6.3原理解释276

8.6.4扩展知识277

8.7开发合并例程277

8.7.1准备工作277

8.7.2实战操作278

8.7.3原理解释279

8.7.4参考资料280

第9章规整和重塑数据281

9.1技术要求282

9.2删除重复的行282

9.2.1准备工作282

9.2.2实战操作283

9.2.3原理解释285

9.2.4扩展知识286

9.2.5参考资料286

9.3修复多对多关系286

9.3.1准备工作287

9.3.2实战操作287

9.3.3原理解释291

9.3.4扩展知识292

9.3.5参考资料292

9.4使用stack和melt将数据由宽变长292

9.4.1准备工作293

9.4.2实战操作293

9.4.3原理解释297

9.5使用wide_to_long处理多列297

9.5.1准备工作297

9.5.2实战操作297

9.5.3原理解释299

9.5.4扩展知识299

9.6使用unstack和pivot将数据由长变宽300

9.6.1准备工作300

9.6.2实战操作300

9.6.3原理解释302

第10章用户定义的函数和类303

10.1技术要求303

10.2用于查看数据的函数303

10.2.1准备工作304

10.2.2实战操作304

10.2.3原理解释307

10.2.4扩展知识308

10.3用于显示摘要统计信息和频率的函数308

10.3.1准备工作308

10.3.2实战操作309

10.3.3原理解释313

10.3.4扩展知识313

10.3.5参考资料313

10.4识别离群值和意外值的函数314

10.4.1准备工作314

10.4.2实战操作315

10.4.3原理解释319

10.4.4扩展知识319

10.4.5参考资料319

10.5聚合或合并数据的函数319

10.5.1准备工作320

10.5.2实战操作320

10.5.3原理解释325

10.5.4扩展知识325

10.5.5参考资料326

10.6包含更新Series值逻辑的类326

10.6.1准备工作326

10.6.2实战操作326

10.6.3原理解释330

10.6.4扩展知识331

10.6.5参考资料331

10.7处理非表格数据结构的类331

10.7.1准备工作332

10.7.2实战操作333

10.7.3原理解释336

10.7.4扩展知识336

内容摘要
本书详细阐述了与Python数据清洗相关的基本解决方案,主要包括将表格数据导入Pandas中、将HTML和JSON导入Pandas中、衡量数据好坏、识别缺失值和离群值、使用可视化方法识别意外值、使用Series操作清洗和探索数据、聚合时修复混乱数据、组合DataFrame、规整和重塑数据、用户定义的函数和类等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP