消息首页搜索举报

文本挖掘技术及其应用

3.8 1.2折 32 八五品

仅1件

四川成都

认证卖家担保交易快速发货售后保障

作者谢邦昌、朱建平、李毅著

出版社厦门大学出版社

出版时间2016-03

版次1

装帧平装

货号25-2

上书时间2024-10-23

双流区霸王龙书店

七年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 10小时
好评率暂无

最新上架

举箸醉杯思吾蜀:巴蜀饮食文化纵横 (平装) ¥12.50

四川民俗文化论（有洞） ¥8.00

诗文丛话 ¥21.00

老字号 ¥12.80

黑白花意5：笔尖下的花姿百态 ¥6.00

合成树脂乳液 ¥24.00

夜妖娆 ¥7.00

龙族Ⅰ：火之晨曦 ¥30.00

民法请求权论 ¥50.00

商品详情

品相描述：八五品

图书标准信息

作者谢邦昌、朱建平、李毅著
出版社厦门大学出版社
出版时间 2016-03
版次 1
ISBN 9787561559710
定价 32.00元
装帧平装
开本 16开
纸张胶版纸
页数 160页
字数 280千字
正文语种简体中文

【内容简介】: ??《文本挖掘技术及其应用》??包括四个部分。第一部分包括两章，介绍常用文本挖掘技术，总结基本流程。第二部分共五章，在R软件上详细介绍了文本挖掘，包括R软件的简介与安装，文本挖掘所需的基本R包，Facebook、微博、Twitter、网页等爬虫技术、数据预处理如断词、字词处理、语料库建立等，资料分析如关联分析、集群分析、主成份分析和聚类分析。第三部分共两章，在MSSQLSever上介绍如何实现文本挖掘，第一章是数据预处理技术，包括怎么导入文本数据、建立字词与词向量、建立训练集和测试集，第二章在MSSQLSever上实现常用的文本数据挖掘方法，并进行图表分析。第四部分为顾问公司和新闻网合作的案例。
【作者简介】: 李毅，男，韩国岭南大学理学博士.现为山西财经大学统计学院副教授，硕士生导师。研究方向为数据挖掘和生物统计，主持国家自然基金、国家统计局重点课题等5项。发表学术论文20余篇，其中被SCI收录10余篇。
朱建平，男，南开大学理学博士，现任厦门大学管理学院教授、博士生导师、厦门大学数据挖掘研究中心主任，浙江工商大学现代商贸流通体系建设协同创新中心首席专家。担任中国统计学会副会长、高等学校统计学类专业教学指导委员会秘书长。主要研究方向为数理统计、数据挖掘。
谢邦昌，男，台湾大学生物统计博士，现任台湾台北医学大学管理学院副院长、大数据研究中心主任，“中华市场研究协会”理事长，“中华资料采矿协会”荣誉理事长，厦门大学讲座教授。主要研究方向为大数据分析、数据挖掘。
【目录】: 第一部分文本挖掘技术

第一章技术介绍

1.1 整合文本挖掘与数据挖掘 7

1.2 基础技术 10

第二章资料分析

2.1 挖掘流程 20

2.1.1 数据分析 21

2.1.2 基础挖掘 26

第二部分文本挖掘以软件R为例

第一章绪论

1.1 什么是Big Data 31

1.2 数据挖掘 32

1.3 文字挖掘 33

1.4 R软件 34

1.4.1 R简介 34

1.4.2 R的特色 34

1.4.3 R的基本安装 35

1.4.4 包安装 35

第二章基本工具

2.1 基本工具 37

2.1.1 安装rJava包 37

2.1.2 安装Rwordseg包 37

2.1.3 安装tm包 38

2.1.4 安装tmcn包 38

2.1.5 安装wordcloud、ggplot2、graphics包 38

2.1.6 安装Rfacebook、Rweibo、Rtwitter包 38

2.2 社群开放平台权限申请 39

2.2.1 如何获得Facebook权限 39

2.2.2 如何获得Weibo权限 46

第三章文字挖掘之爬虫

3.1 R Facebook 50

3.1.1 使用者发文 50

3.1.2 粉丝者发文 51

3.1.3所需R包（Rfacebook、fbOAuth、getPage、getPost） 54

3.2 R Weibo 58

3.2.1 主题 58

3.2.2 时间区间 59

3.2.3 所需R包（XML、Rweibo、web.search.content） 61

3.3 R Twitter 64

3.3.1 关键词 64

3.3.2 所需R包（devtools、rjson、bit64、httr、twitteR、sink） 66

3.4 网页爬虫 70

3.4.1 爬一般网页文字 70

3.4.2 爬PTT网页文字 74

3.4.3 所需R包（XML、RCurl） 76

3.5 SpideR 79

3.5.1 所需R包 79

3.5.2 有关爬虫时的注意事项 79

3.5.3 抓取网页数据的标准作业程序 80

3.5.4 R IDE的Encoding 80

3.5.5 读取档案或网页的Encoding 81

3.5.6 R IDE 开发SpideR 面对Encoding 的解决方案 82

第四章数据预处理

4.1 编码处理 83

4.2 代表性语料库、词库简介 85

4.3 断词方法 90

4.4 字词处理 93

4.5 语料库建立 95

4.6 正则表达式(Regular Expressions) 98

第五章资料分析

5.1 频率 99

5.2 DTM(TDM) matrix 100

5.3 关联分析 103

5.4 集群分析 104

5.5 主成份分析 109

5.6 词云聚类分析 114

第三部分文本挖掘 MS SQL Sever

第一章数据预处理

1.1 汇入文档 NGArticles 120

1.2 建立NGArticles的辞库 130

1.2.1 建立字词 (Dictionary) 130

1.2.2 建立词向量 145

1.2.3 建立Train Sample和Test Sample 154

第二章资料分析

2.1 串联Train Sample、Test Sample和TermVectors 160

2.2 建构datamining模型（判定树、类神经网络、罗吉斯回归） 164

2.3 图表分析 173

2.3.1 各模型之精确度图表分析 173

2.3.2 判定树图表分析 175

2.3.3 类神经网络图表分析 176

第四部分 TextMining在实务上的应用

1.1 创造商机 205

1.2 结语 213