• Python文本分析
21年品牌 40万+商家 超1.5亿件商品

Python文本分析

全新正版 极速发货

39.15 3.1折 128 全新

库存5件

广东广州
认证卖家担保交易快速发货售后保障

作者(美)延斯·阿尔布雷希特,(美)西达尔特·拉马钱德兰,(美)克里斯蒂安·温克勒

出版社中国电力出版社

ISBN9787519864446

出版时间2022-08

装帧平装

开本16开

定价128元

货号1202722087

上书时间2024-09-04

大智慧小美丽

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
目录
前言1

第1章洞悉文本数据11

1.1本章内容概要11

1.2探索性数据分析12

1.3数据集简介13

1.4案例:使用Pandas获取数据概要14

1.4.1计算列的汇总统计结果15

1.4.2检查缺少的数据16

1.4.3绘制值的分布图17

1.4.4比较各个类别的分布18

1.4.5可视化一段时间内的变化19

1.5案例:构建简单的文本预处理流水线21

1.5.1使用正则表达式分词21

1.5.2删除停用词22

1.5.3通过一行代码处理流水线24

1.6词频分析案例26

1.6.1案例:使用Counter统计单词个数26

1.6.2案例:创建词频图29

1.6.3案例:创建词云30

1.6.4案例:TF-IDF排名32

1.7案例:查找上下文关键字35

1.8案例:n元语法分析37

1.9案例:比较不同时间段和类别的词频40

1.9.1创建词频时间表40

1.9.2创建词频热图42

1.10小结44

第2章利用API提取文本45

2.1本章内容概要45

2.2应用程序编程接口45

2.3案例:使用requests模块通过API提取数据47

2.3.1分页52

2.3.2速率53

2.4案例:使用Tweepy提取推特数据57

2.4.1获取凭证58

2.4.2安装与配置Tweepy59

2.4.3通过SearchAPI提取数据60

2.4.4从用户的时间线中提取数据64

2.4.5通过流API提取数据66

2.5小结69

第3章网页抓取与数据提取71

3.1本章内容概要71

3.2抓取网页与提取数据72

3.3路透社新闻存档简介73

3.4URL生成75

3.5案例:下载和解读robots.txt76

3.6案例:从sitemap.xml中寻找URL77

3.7案例:通过RSS查找URL79

3.8下载数据81

3.9案例:使用Python下载HTML页面82

3.10案例:利用wget下载HTML页面83

3.11提取半结构化数据84

3.12案例:通过正则表达式提取数据85

3.13案例:使用HTML解析器提取数据86

3.14案例:爬虫94

3.14.1案例介绍94

3.14.2错误处理与生产级质量的软件97

3.15基于密度的文本提取98

3.15.1利用Readability读取路透社的内容98

3.15.2总结基于密度的文本提取100

3.16一体化解决方案100

3.17案例:使用Scrapy抓取路透社的存档101

3.18爬虫面临的难题103

3.19总结和建议104

第4章准备统计和机器学习的文本数据105

4.1本章内容概要105

4.2数据预处理流水线106

4.3数据集介绍:RedditSelf-Posts107

4.3.1将数据加载到Pandas107

4.3.2案例:标准化属性名称107

4.3.3保存和加载数据框109

4.4清理文本数据110

4.4.1案例:使用正则表达式识别噪声111

4.4.2案例:使用正则表达式剔除噪声113

4.4.3案例:使用textacy规范化字符115

4.4.4案例:使用textacy根据模式遮挡数据116

4.5分词118

4.5.1案例:使用正则表达式分词118

4.5.2NLTK分词120

4.5.3分词建议120

4.6spaCy的语言处理121

4.6.1实例化流水线122

4.6.2处理文本123

……

内容摘要
本书的主要内容有:提取API与网页的数据。统计分析和机器学习的文本数据预处理。机器学习分类、主题建模与摘要。解释AI模型与分类的结果。利用单词嵌入,探索及可视化语义相似性。分析产品评论中的客户情感。根据命名实体及其关系创建知识图。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP