• 基于R语言的自动数据收集
21年品牌 40万+商家 超1.5亿件商品

基于R语言的自动数据收集

20 2.0折 99 九品

仅1件

天津宝坻
认证卖家担保交易快速发货售后保障

作者[德]西蒙·蒙策尔特 著;吴今朝 译

出版社机械工业出版社

出版时间2016-03

版次1

装帧平装

货号969488175841935362

上书时间2024-09-18

转转超品的书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九品
图书标准信息
  • 作者 [德]西蒙·蒙策尔特 著;吴今朝 译
  • 出版社 机械工业出版社
  • 出版时间 2016-03
  • 版次 1
  • ISBN 9787111527503
  • 定价 99.00元
  • 装帧 平装
  • 开本 16开
  • 纸张 胶版纸
  • 页数 366页
  • 字数 455千字
  • 正文语种 简体中文
  • 丛书 数据科学与工程技术丛书
【内容简介】

本书由资深社会科学家撰写,从社会科学研究角度系统且深入阐释利用R语言进行自动化数据抓取和分析的工具、方法、原则和*佳实践。作者深入剖析自动化数据抓取和分析各个层面的问题,从网络和数据技术到网络抓取和文本挖掘的实用工具箱,重点阐释利用R语言进行自动化数据抓取和分析,能为社会科学研究者与开发人员设计、开发、维护和优化自动化数据抓取和分析提供有效指导。
本书共17章,第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识,内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱,其中第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。

【作者简介】
作者:(德国)西蒙·蒙策尔特(Simon Munzert) (德国)克里斯蒂安·鲁巴(Christian Rubba) (德国)彼得·迈博纳(Peter Meipner) (德国)多米尼克·尼胡斯(Dominic Nyhuis) 译者:吴今朝
【目录】
译者序
前  言
第1章概述 
1.1案例研究:濒危世界遗产地 
1.2有关网络数据质量的一些讨论 
1.3传播、提取和保存网络数据的技术
1.3.1在网络上传播内容的技术 
1.3.2从Web文档中提取信息的
技术 
1.3.3  数据保存的技术 
1.4本书的结构 
第一部分网络和数据技术入门
第2章HTML
2.1浏览器显示及源代码 
2.2语法规则 
2.2.1标签、元素和属性 
2.2.2树形结构 
2.2.3注释 
2.2.4保留字符和特殊字符 
2.2.5文档类型定义 
2.2.6  空格和换行 
2.3标签和属性 
2.3.1  锚标签

 
2.3.6  标题标签、


等 
2.3.7  通过

      列举内容 
      2.3.8组织型标签

       
      2.3.9 标签及其同伴 
      2.3.10  外部脚本标签

点击展开 点击收起

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP