作者简介: 瑞安·米切尔,位于波士顿的HedgeServ的不错软件工程师,负责开发公司的API和数据分析工具。她毕业于欧林工程学院,拥有哈佛大学扩展学院(Harvard Urliversity Exterlsion School)软件工程硕士学位以及数据科学证书。在加入HedgeServ之前,她曾就职于Abine,负责使用Python开发网络数据采集工具和自动化工具。她经常从事零售、金融和制药行业的网络数据采集项目的咨询工作,还曾经在东北大学和欧林工程学院担任课程顾问和兼职教员。 内容简介: 如果编程是魔法,那么网络数据采集肯定就是某种巫术。编写一个简单的自动化程序,你就可以查询Web服务器,请求数据,解析数据以提取所需的信息。这本实用书籍的扩充版不但介绍了网络数据采集,更是从现代网络中抓取几乎各类数据的综合指南。《Python网络数据采集(第2版·影印版·英文版)》部分侧重于网络数据采集机制:使用Python向Web服务器请求信息,对服务器响应信息做基本的处理,自动与站点展开交互。第二部分探讨了各种更具体的工具和应用程序,以应对你可能遇到的任何网络数据采集场景。 目录: Preface Part Ⅰ.Building Scrapers 1.Your First Web Scraper Connecting An Introduction to BeautifulSoup Installing BeautifulSoup Running BeautifulSoup Connecting Reliably and Handling Exceptions 2.Advanced HTML Parsing You Don't Always Need a Hammer Another Serving of BeautifulSoup findo and findallo with BeautifulSoup Other BeautifulSoup Objects Navigating Trees Regular Expressions Regular Expressions and BeautifulSoup Accessing Attributes Lambda Expressions 3.Writing Web Crawlers Traversing a Single Domain Crawling an Entire Site Collecting Data Across an Entire Site Crawling Across the Internet 4.Web Crawling Models Planning and Defining Objects...
以下为对购买帮助不大的评价