消息首页搜索举报

Python文本分析

全新正版极速发货

50.11 3.9折 128 全新

库存2件

广东广州

认证卖家担保交易快速发货售后保障

作者(美)延斯·阿尔布雷希特,(美)西达尔特·拉马钱德兰,(美)克里斯蒂安·温克勒

出版社中国电力出版社

ISBN9787519864446

出版时间2022-08

装帧平装

开本16开

定价128元

货号1202722087

上书时间2024-05-27

徐小智的书店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 17小时
好评率暂无

最新上架

磐安猕猴桃全产业链质量安全风险管控手册 ¥12.16

小狗疑心大宇宙阴谋篡夺它的位置文轩定制版 ¥20.92

口袋神探漫画前沿科学篇夏令营谜局 ¥11.17

梅奥拯救乳房全书乳腺癌抗癌权威指南 ¥41.04

品牌识别战略规划与创意赋能 ¥54.37

虚实之间巴蜀传统美术 ¥60.35

学写拼音 ¥1.30

New小学英语同步阅读三年级上册 ¥10.71

教育教学理论创新与发展研究 ¥30.29

商品详情

品相描述：全新

商品描述: 目录
前言1

第1章洞悉文本数据11

1.1本章内容概要11

1.2探索性数据分析12

1.3数据集简介13

1.4案例：使用Pandas获取数据概要14

1.4.1计算列的汇总统计结果15

1.4.2检查缺少的数据16

1.4.3绘制值的分布图17

1.4.4比较各个类别的分布18

1.4.5可视化一段时间内的变化19

1.5案例：构建简单的文本预处理流水线21

1.5.1使用正则表达式分词21

1.5.2删除停用词22

1.5.3通过一行代码处理流水线24

1.6词频分析案例26

1.6.1案例：使用Counter统计单词个数26

1.6.2案例：创建词频图29

1.6.3案例：创建词云30

1.6.4案例：TF-IDF排名32

1.7案例：查找上下文关键字35

1.8案例：n元语法分析37

1.9案例：比较不同时间段和类别的词频40

1.9.1创建词频时间表40

1.9.2创建词频热图42

1.10小结44

第2章利用API提取文本45

2.1本章内容概要45

2.2应用程序编程接口45

2.3案例：使用requests模块通过API提取数据47

2.3.1分页52

2.3.2速率53

2.4案例：使用Tweepy提取推特数据57

2.4.1获取凭证58

2.4.2安装与配置Tweepy59

2.4.3通过SearchAPI提取数据60

2.4.4从用户的时间线中提取数据64

2.4.5通过流API提取数据66

2.5小结69

第3章网页抓取与数据提取71

3.1本章内容概要71

3.2抓取网页与提取数据72

3.3路透社新闻存档简介73

3.4URL生成75

3.5案例：下载和解读robots.txt76

3.6案例：从sitemap.xml中寻找URL77

3.7案例：通过RSS查找URL79

3.8下载数据81

3.9案例：使用Python下载HTML页面82

3.10案例：利用wget下载HTML页面83

3.11提取半结构化数据84

3.12案例：通过正则表达式提取数据85

3.13案例：使用HTML解析器提取数据86

3.14案例：爬虫94

3.14.1案例介绍94

3.14.2错误处理与生产级质量的软件97

3.15基于密度的文本提取98

3.15.1利用Readability读取路透社的内容98

3.15.2总结基于密度的文本提取100

3.16一体化解决方案100

3.17案例：使用Scrapy抓取路透社的存档101

3.18爬虫面临的难题103

3.19总结和建议104

第4章准备统计和机器学习的文本数据105

4.1本章内容概要105

4.2数据预处理流水线106

4.3数据集介绍：RedditSelf-Posts107

4.3.1将数据加载到Pandas107

4.3.2案例：标准化属性名称107

4.3.3保存和加载数据框109

4.4清理文本数据110

4.4.1案例：使用正则表达式识别噪声111

4.4.2案例：使用正则表达式剔除噪声113

4.4.3案例：使用textacy规范化字符115

4.4.4案例：使用textacy根据模式遮挡数据116

4.5分词118

4.5.1案例：使用正则表达式分词118

4.5.2NLTK分词120

4.5.3分词建议120

4.6spaCy的语言处理121

4.6.1实例化流水线122

4.6.2处理文本123

……

内容摘要
本书的主要内容有：提取API与网页的数据。统计分析和机器学习的文本数据预处理。机器学习分类、主题建模与摘要。解释AI模型与分类的结果。利用单词嵌入，探索及可视化语义相似性。分析产品评论中的客户情感。根据命名实体及其关系创建知识图。

— 没有更多了 —