Elasticsearch集成Hadoop最佳实践

30.34 5.5折 55 全新

库存2件

山东泰安

认证卖家担保交易快速发货售后保障

作者尔玛·舒克拉作者；贾传青译者

出版社清华大学出版社

出版时间2017-06

版次1

装帧平装

货号R2库 10-21

上书时间2024-10-23

齐鲁淘宝书店

十四年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 24小时
好评率暂无

最新上架

版权限制与例外制度建构研究——以信息获取和文化创新为视角 ¥50.33

中国社会组织品牌化研究:结构维度与效能机理 ¥50.33

控股股东股权质押的经济后果研究 ¥50.33

渐开线少齿差内啮合齿轮副的特性曲线研究——短齿、插齿刀计算系统 ¥50.33

能量生命与健康之道 ¥50.33

国外农产品质量安全追溯概论 ¥50.33

财务管理：基于实践的方法（第8版）/21世纪经济管理优秀教材译丛 ¥50.33

模式识别与人工智能（基于MATLAB） ¥50.33

CorelDRAW X8案例设计从入门到精通 ¥50.33

商品详情

品相描述：全新

图书标准信息

作者尔玛·舒克拉作者；贾传青译者
出版社清华大学出版社
出版时间 2017-06
版次 1
ISBN 9787302469674
定价 55.00元
装帧平装
开本其他
页数 186页
正文语种简体中文
原版书名 Elasticsearch for Hadoop

【内容简介】: ElasticSearch是一个开源的分布式搜索引擎，具有高可靠性，支持非常多的企业级搜索用例。Elasticsearch Hadoop作为一个完美的工具，用来连接 Elasticsearch 和 Hadoop 的生态系统。通过Kibana技术，Elasticsearch Hadoop很容易从Hadoop 生态系统中获得大数据分析的结果。
本书全面介绍Elasticsearch Hadoop技术用于大数据分析以及数据可视化的方法。内容共分7章，包括Hadoop、Elasticsearch、 Marvel和 Kibana 安装；通过编写 MapReduce 作业，把Hadoop数据导入 Elasticsearch；全面分析 Elasticsearch本质，如全文本搜索分析、查询、筛选器和聚合；使用 Kibana创建各种可视化和交互式仪表板，并使用Storm和 Elasticsearch分类现实世界的流数据以及相关的其他主题。
本书适合从事大数据分析人员、大数据应用开发的人员参考，也适合高等院校及培训机构相关专业的师生教学参考。
【作者简介】: 作者：贾传青

贾传青，数据架构师，Oracle OCM，DB2迁移之星，TechTarget特约作家，从数据库向大数据转型的先行者，酷爱摄影。曾服务于中国联通、中国电信、建设银行、PICC等，目前供职于一家大数据解决方案提供商，致力于大数据技术的应用与实践。著有《开源大数据分析引擎Impala实战》一书。
【目录】: 第1章环境部署1
1.1安装部署Hadoop集群1
Java安装和配置2
用户添加和配置2
SSH认证配置3
Hadoop下载4
环境变量配置4
Hadoop配置5
配置core—site.xml6
配置hdfs—site.xml6
配置yarn—site.xml6
配置mapred—site.xml7
格式化HDFS7
启动Hadoop进程8
1.2安装Elasticsearch及相关插件8
下载Elasticsearch9
配置Elasticsearch9
安装Head插件11
安装Marvel插件11
启动Elasticsearch12
1.3运行WordCount示例13
下载编译示例程序13
将示例文件上传到HDFS13
运行第一个作业14
1.4使用Head和Marvel浏览数据16
使用Head浏览数据16
初识Marvel18
使用Sense浏览数据19
小结21
第2章初识ES—Hadoop22
2.1理解WordCount程序23
理解Mapper23
理解Reducer24
理解Driver25
使用旧的API——org.apache.hadoop.mapred28
2.2实际案例——网络数据监控28
获取并理解数据28
明确问题29
解决方案30
解决方案1——预聚合结果30
解决方案2——直接查询聚合结果32
2.3开发MapReduce作业33
编写Mapper类34
编写Driver37
编译作业38
上传数据到HDFS41
运行作业41
查看TOPN结果42
2.4将数据从Elasticsearch写回HDFS44
了解Twitter数据集44
导入Elasticsearch45
创建MapReduce作业46
编写Tweets2HdfsMapper46
运行示例50
确认输出50
小结52
第3章深入理解Elasticsearch53
3.1理解搜索53
观念转换54
索引54
类型55
文档55
字段55
3.2与Elasticsearch交互56
Elasticsearch的CRUD56
创建文档56
获取文档57
更新文档58
删除文档58
创建索引58
映射59
数据类型60
创建映射61
索引模板62
3.3控制索引过程63
什么是反转索引63
输入数据分析64
停止词64
大小写65
词根65
同义词65
分析器65
3.4Elastic查询67
编写查询语句68
URI查询68
match_all查询68
term查询68
boolean查询70
match查询71
range查询72
wildcard查询73
过滤器73
3.5聚合查询75
执行聚合查询76
terms聚合76
histogram聚合78
range聚合78
geodistance聚合79
嵌套聚合81
自测题82
小结82
第4章利用Kibana进行大数据可视化83
4.1安装部署83
Kibana安装84
准备数据84
自测题85
启动Kibana86
4.2数据发现87
4.3数据可视化90
饼图91
堆积柱状图94
使用堆积柱状图完成日期直方图96
面积图97
饼图组图98
环形图98
瓦片地图99
自测题100
4.4动态图表101
小结104
第5章实时分析105
5.1了解Twitter趋势分析器105
实现目标106
ApacheStorm安装107
5.2将流式数据接入Storm107
编写Stormspout108
编写Stormbolt110
创建Stormtopology112
编译运行Storm作业113
5.3趋势分析114
significantterm聚合114
使用Kibana分析趋势116
5.4使用Percolator对推文分类117
Percolator118
Percolator优化120
推文分类121
小结124
第6章ES—Hadoop配置125
6.1分布式环境中的Elasticsearch125
集群和节点126
节点类型126
节点发现128
数据分布129
分片129
副本129
分片分配130
6.2ES—Hadoop架构132
动态并行132
写入Elasticsearch133
从Elasticsearch中读取134
失败捕获134
数据本地化135
6.3生产环境配置135
硬件135
内存135
CPU135
磁盘136
网络136
集群安装137
集群拓扑结构137
设置名称138
设置路径138
设置内存139
脑裂问题140
设置恢复参数141
预设配置142
数据导入142
全文检索144
快速聚合144
生产环境部署检查列表145
6.4集群管理146
监控集群健康146
备份和恢复149
数据备份149
数据恢复150
小结151
第7章与Hadoop生态系统集成152
7.1与Pig集成152
Pig安装154
向Elasticsearch中导入数据155
从JSON源写数据157
类型转换157
从Elasticsearch中读取数据158
7.2与Hive集成158
安装ApacheHive158
向Elasticsearch中导入数据159
从JSON源写数据161
类型转换161
从Elasticsearch中读取数据162
7.3与Cascading集成163
向Elasticsearch中导入数据163
编写一个Cascading作业163
运行作业164
从Elasticsearch中读取数据165
编写一个reader作业165
使用Lingual165
7.4与Spark集成167
安装Spark168
向Elasticsearch中导入数据168
使用SparkSQL向Elasticsearch中导入数据169
从Elasticsearch中读取数据170
使用SparkSQL从Elasticsearch中读取数据170
7.5与YARN集成171
小结172
附录配置174
基本配置174
es.resource174
es.resource.read174
es.resource.write175
es.nodes175
es.port175
读写配置175
es.query175
es.input.json176
es.write.operation177
es.update.script177
es.update.script.lang177
es.update.script.params177
es.update.script.params.json178
es.batch.size.bytes178
es.batch.size.entries178
es.batch.write.refresh178
es.batch.write.retry.count178
es.batch.write.retry.wait179
es.ser.reader.value.class179
es.ser.writer.value.class179
es.update.retry.on.conflict179
映射配置179
es.mapping.id179
es.mapping.parent180
es.mapping.version180
es.mapping.version.type180
es.mapping.routing180
es.mapping.ttl180
es.mapping.timestamp181
es.mapping.date.rich181
es.mapping.include181
es.mapping.exclude181
索引配置181
es.index.auto.create181
es.index.read.missing.as.empty182
es.field.read.empty.as.null182
es.field.read.validate.presence182
网络配置182
es.nodes.discovery182
es.nodes.client.only183
es.http.timeout183
es.http.retries183
es.scroll.keepalive183
es.scroll.size183
es.action.heart.beat.lead183
认证配置184
es.net.http.auth.user184
es.net.http.auth.pass184SSL配置184
es.net.ssl184
es.net.ssl.keystore.location184
es.net.ssl.keystore.pass184
es.net.ssl.keystore.type184
es.net.ssl.truststore.location184
es.net.ssl.truststore.pass185
es.net.ssl.cert.allow.self.signed185
es.net.ssl.protocol185
es.scroll.size185
代理配置185
es.net.proxy.http.host185
es.net.proxy.http.port185
es.net.proxy.http.user185
es.net.proxy.http.pass186
es.net.proxy.http.use.system.props186
es.net.proxy.socks.host186
es.net.proxy.socks.port186
es.net.proxy.socks.user186
es.net.proxy.socks.pass186
es.net.proxy.socks.use.system.props186

点击展开点击收起

— 没有更多了 —