保正版!Python文本分析9787519864446中国电力出版社(美)延斯·阿尔布雷希特,(美)西达尔特·拉马钱德兰,(美)克里斯蒂安·温克勒
1.7天无理由退换货,2.当日16点前订单基本当日发出,最迟隔天,3.天津仓、成都仓、无锡仓、北京仓、广东仓、泰安仓、杭州仓、武汉仓就近发货。4.韵达、中国邮政、圆通、中通随机安排!无法指定快递敬请谅解!5.开票联系客服.
¥
38.27
3.0折
¥
128
全新
库存5件
作者(美)延斯·阿尔布雷希特,(美)西达尔特·拉马钱德兰,(美)克里斯蒂安·温克勒
出版社中国电力出版社
ISBN9787519864446
出版时间2022-08
装帧平装
开本16开
定价128元
货号1202722087
上书时间2023-10-12
商品详情
- 品相描述:全新
- 商品描述
-
目录
前言1
第1章洞悉文本数据11
1.1本章内容概要11
1.2探索性数据分析12
1.3数据集简介13
1.4案例:使用Pandas获取数据概要14
1.4.1计算列的汇总统计结果15
1.4.2检查缺少的数据16
1.4.3绘制值的分布图17
1.4.4比较各个类别的分布18
1.4.5可视化一段时间内的变化19
1.5案例:构建简单的文本预处理流水线21
1.5.1使用正则表达式分词21
1.5.2删除停用词22
1.5.3通过一行代码处理流水线24
1.6词频分析案例26
1.6.1案例:使用Counter统计单词个数26
1.6.2案例:创建词频图29
1.6.3案例:创建词云30
1.6.4案例:TF-IDF排名32
1.7案例:查找上下文关键字35
1.8案例:n元语法分析37
1.9案例:比较不同时间段和类别的词频40
1.9.1创建词频时间表40
1.9.2创建词频热图42
1.10小结44
第2章利用API提取文本45
2.1本章内容概要45
2.2应用程序编程接口45
2.3案例:使用requests模块通过API提取数据47
2.3.1分页52
2.3.2速率53
2.4案例:使用Tweepy提取推特数据57
2.4.1获取凭证58
2.4.2安装与配置Tweepy59
2.4.3通过SearchAPI提取数据60
2.4.4从用户的时间线中提取数据64
2.4.5通过流API提取数据66
2.5小结69
第3章网页抓取与数据提取71
3.1本章内容概要71
3.2抓取网页与提取数据72
3.3路透社新闻存档简介73
3.4URL生成75
3.5案例:下载和解读robots.txt76
3.6案例:从sitemap.xml中寻找URL77
3.7案例:通过RSS查找URL79
3.8下载数据81
3.9案例:使用Python下载HTML页面82
3.10案例:利用wget下载HTML页面83
3.11提取半结构化数据84
3.12案例:通过正则表达式提取数据85
3.13案例:使用HTML解析器提取数据86
3.14案例:爬虫94
3.14.1案例介绍94
3.14.2错误处理与生产级质量的软件97
3.15基于密度的文本提取98
3.15.1利用Readability读取路透社的内容98
3.15.2总结基于密度的文本提取100
3.16一体化解决方案100
3.17案例:使用Scrapy抓取路透社的存档101
3.18爬虫面临的难题103
3.19总结和建议104
第4章准备统计和机器学习的文本数据105
4.1本章内容概要105
4.2数据预处理流水线106
4.3数据集介绍:RedditSelf-Posts107
4.3.1将数据加载到Pandas107
4.3.2案例:标准化属性名称107
4.3.3保存和加载数据框109
4.4清理文本数据110
4.4.1案例:使用正则表达式识别噪声111
4.4.2案例:使用正则表达式剔除噪声113
4.4.3案例:使用textacy规范化字符115
4.4.4案例:使用textacy根据模式遮挡数据116
4.5分词118
4.5.1案例:使用正则表达式分词118
4.5.2NLTK分词120
4.5.3分词建议120
4.6spaCy的语言处理121
4.6.1实例化流水线122
4.6.2处理文本123
……
内容摘要
本书的主要内容有:提取API与网页的数据。统计分析和机器学习的文本数据预处理。机器学习分类、主题建模与摘要。解释AI模型与分类的结果。利用单词嵌入,探索及可视化语义相似性。分析产品评论中的客户情感。根据命名实体及其关系创建知识图。
— 没有更多了 —
以下为对购买帮助不大的评价