消息首页搜索举报

保正版！Python文本分析9787519864446中国电力出版社(美)延斯·阿尔布雷希特,(美)西达尔特·拉马钱德兰,(美)克里斯蒂安·温克勒

1.7天无理由退换货，2.当日16点前订单基本当日发出，最迟隔天，3.天津仓、成都仓、无锡仓、北京仓、广东仓、泰安仓、杭州仓、武汉仓就近发货。4.韵达、中国邮政、圆通、中通随机安排！无法指定快递敬请谅解！5.开票联系客服.

38.27 3.0折 128 全新

库存5件

天津河东

认证卖家担保交易快速发货售后保障

作者(美)延斯·阿尔布雷希特,(美)西达尔特·拉马钱德兰,(美)克里斯蒂安·温克勒

出版社中国电力出版社

ISBN9787519864446

出版时间2022-08

装帧平装

开本16开

定价128元

货号1202722087

上书时间2023-10-12

博文明智书店

四年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 21小时
好评率暂无

最新上架

保正版！100人间天堂畅游通9787553769325江苏凤凰科学技术出版社路芸霞主编;壹号图编辑部编著 ¥22.56

保正版！宇宙新图景9787115464903人民邮电出版社【印】普里亚姆瓦达?那塔拉印（Priyamvada Natarajan） ¥22.22

保正版！军事家的成长故事9787551019972文心出版社齐心 ¥6.52

保正版！中华创世神话中小学生读本9787567582996华东师范大学出版社《中华创世神话-电视书场》节目组 ¥17.03

保正版！心理学基础学习指导与习题集(第2版/本科心理配套)9787117277365人民卫生出版社杨世昌、吕航 ¥8.23

保正版！金融犯罪刑法学原理9787208144996上海人民出版社刘宪权著 ¥36.90

保正版！丝路向西敦煌向东9787226054338甘肃人民出版社读者丛书编辑组 ¥6.78

保正版！100名寺古刹畅游通9787553751122江苏科学技术出版社李良才主编;壹号图编辑部编著 ¥22.56

保正版！会计模拟实习教程9787514172904经济科学出版社叶斌主编 ¥26.93

商品详情

品相描述：全新

商品描述: 目录
前言1

第1章洞悉文本数据11

1.1本章内容概要11

1.2探索性数据分析12

1.3数据集简介13

1.4案例：使用Pandas获取数据概要14

1.4.1计算列的汇总统计结果15

1.4.2检查缺少的数据16

1.4.3绘制值的分布图17

1.4.4比较各个类别的分布18

1.4.5可视化一段时间内的变化19

1.5案例：构建简单的文本预处理流水线21

1.5.1使用正则表达式分词21

1.5.2删除停用词22

1.5.3通过一行代码处理流水线24

1.6词频分析案例26

1.6.1案例：使用Counter统计单词个数26

1.6.2案例：创建词频图29

1.6.3案例：创建词云30

1.6.4案例：TF-IDF排名32

1.7案例：查找上下文关键字35

1.8案例：n元语法分析37

1.9案例：比较不同时间段和类别的词频40

1.9.1创建词频时间表40

1.9.2创建词频热图42

1.10小结44

第2章利用API提取文本45

2.1本章内容概要45

2.2应用程序编程接口45

2.3案例：使用requests模块通过API提取数据47

2.3.1分页52

2.3.2速率53

2.4案例：使用Tweepy提取推特数据57

2.4.1获取凭证58

2.4.2安装与配置Tweepy59

2.4.3通过SearchAPI提取数据60

2.4.4从用户的时间线中提取数据64

2.4.5通过流API提取数据66

2.5小结69

第3章网页抓取与数据提取71

3.1本章内容概要71

3.2抓取网页与提取数据72

3.3路透社新闻存档简介73

3.4URL生成75

3.5案例：下载和解读robots.txt76

3.6案例：从sitemap.xml中寻找URL77

3.7案例：通过RSS查找URL79

3.8下载数据81

3.9案例：使用Python下载HTML页面82

3.10案例：利用wget下载HTML页面83

3.11提取半结构化数据84

3.12案例：通过正则表达式提取数据85

3.13案例：使用HTML解析器提取数据86

3.14案例：爬虫94

3.14.1案例介绍94

3.14.2错误处理与生产级质量的软件97

3.15基于密度的文本提取98

3.15.1利用Readability读取路透社的内容98

3.15.2总结基于密度的文本提取100

3.16一体化解决方案100

3.17案例：使用Scrapy抓取路透社的存档101

3.18爬虫面临的难题103

3.19总结和建议104

第4章准备统计和机器学习的文本数据105

4.1本章内容概要105

4.2数据预处理流水线106

4.3数据集介绍：RedditSelf-Posts107

4.3.1将数据加载到Pandas107

4.3.2案例：标准化属性名称107

4.3.3保存和加载数据框109

4.4清理文本数据110

4.4.1案例：使用正则表达式识别噪声111

4.4.2案例：使用正则表达式剔除噪声113

4.4.3案例：使用textacy规范化字符115

4.4.4案例：使用textacy根据模式遮挡数据116

4.5分词118

4.5.1案例：使用正则表达式分词118

4.5.2NLTK分词120

4.5.3分词建议120

4.6spaCy的语言处理121

4.6.1实例化流水线122

4.6.2处理文本123

……

内容摘要
本书的主要内容有：提取API与网页的数据。统计分析和机器学习的文本数据预处理。机器学习分类、主题建模与摘要。解释AI模型与分类的结果。利用单词嵌入，探索及可视化语义相似性。分析产品评论中的客户情感。根据命名实体及其关系创建知识图。

— 没有更多了 —