消息首页搜索举报

Python快乐编程——网络爬虫

批量上传，套装书可能不全，下单前咨询在线客服！正版书！！！

36.2 7.3折 49.8 全新

库存9件

四川成都

认证卖家担保交易快速发货售后保障

作者千锋教育高教产品研发部

出版社清华大学出版社

ISBN9787302529125

出版时间2019-09

装帧平装

开本其他

定价49.8元

货号27943496

上书时间2024-10-22

百叶图书

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 23小时
好评率暂无

最新上架

当整理师来敲门——亲子整理40例 ¥37.44

信息安全工程师考前冲刺100题（考点大数据分析+思维导图+黄金经验） ¥25.37

船山全书(全十六册) ¥1145.61

托妮·莫里森：孩子的愤怒 ¥8.57

曾国藩诗文集 ¥30.31

小学生心理日记解析—六年级 ¥1.99

小话痨马里克：我给爸爸当保镖 ¥12.84

开始在越南自助旅行 ¥18.87

九色鹿 ¥8.62

商品详情

品相描述：全新

商品描述

前言

在瞬息万变的IT时代，一群怀揣梦想的人创办了千锋教育，投身到IT培训行业。七年来，一批批有志青年加入千锋教育，为了梦想笃定前行。千锋教育秉承用良心做教育的理念,为培养“IT精英”而付出一切努力,为什么会有这样的梦想,我们先来听一听用人企业和求职者的心声:

“现在符合企业需求的IT技术人才非常紧缺，对这方面的优秀人才我们会像珍宝一样对待,可为什么至今没有合格的人才出现呢？”

“面试的时候,用人企业问能做什么,这个项目如何来实现,需要多长的时间,我们当时都蒙了回答不上来。”

“这已经是面试过的第十家公司了，如果再不行的话，是不是要考虑转行了，难道大学里的四年都白学了？”

“这已经是参加面试的N个求职者了，为什么都是计算机专业，当问到项目如何实现，怎么连思路都没有呢？”

这些心声并不是个别现象，而是社会反映出的一种普遍现象。高校的IT教育与企业的真实需求存在脱节，如果高校的相关课程仍然不进行更新的话，毕业生将面临难以就业的困境，很多用人单位表示，高校毕业生表象上知识丰富，但绝大多数在实际工作中用之甚少，甚至完全用不上高校学习阶段所学知识。针对上述存在的问题，国务院也作出了关于加快发展现代职业教育的决定。很庆幸，千锋所做的事情就是配合高校达成产学合作。

千锋教育致力于打造IT职业教育全产业链人才服务平台，全国数十家分校，数百名讲师团坚持以教学为本的方针，全国采用面对面教学，传授企业实用技能，教学大纲实时紧跟企业需求，拥有全国一体化就业体系。千锋的价值观是“做真实的自己，用良心做教育”。

针对高校教师的服务：

(1) 千锋教育基于近七年的教育培训经验，精心设计了包含“教材授课资源考试系统测试题辅助案例”的教学资源包，节约教师的备课时间，缓解教师的教学压力，显著提高教学质量。

(2) 本书配套代码视频，索取网址： http://www.codingke.com/。

(3) 本书配备了千锋教育优秀讲师录制的教学视频，按本书知识结构体系部署到了教学辅助平台（扣丁学堂）上，可以作为教学资源使用，也可以作为备课参考。

高校教师如需索要配套教学资源，请关注（扣丁学堂）师资服务平台，扫描下方二维码关注微信公众平台索取。

扣丁学堂

针对高校学生的服务：

(1) 学IT有疑问,就找千问千知，它是一个有问必答的IT社区，平台上的专业答疑辅导老师承诺工作时间3小时内答复您学习IT中遇到的专业问题。读者也可以通过扫描下方的二维码，关注千问千知微信公众平台，浏览其他学习者在学习中分享的问题和收获。

(2) 学习太枯燥，想了解其他学校的伙伴都是怎样学习的？你可以加入扣丁俱乐部。“扣丁俱乐部”是千锋教育联合各大校园发起的公益计划，专门面向对IT有兴趣的大学生提供免费的学习资源和问答服务，已有超过30多万名学习者获益。

就业难，难就业，千锋教育让就业不再难！

千问千知

关于本教材

本书既可作为高等院校本、专科计算机相关专业学习Python爬虫技术的教材，也可作为计算机Python爬虫的培训教材，其中包含了千锋教育Python爬虫课程的精彩内容，是一本适合广大计算机编程爱好者的优秀读物。

千锋学科

HTML5前端开发、Java EE分布式开发、Python全栈人工智能、全链路UI/UE设计、智能物联网嵌入式、360网络安全学院、大数据人工智能培训、全栈软件测试、PHP全栈服务器集群、云计算信息安全、Unity游戏开发、区块链。

千锋校区

北京｜大连｜广州｜成都｜杭州｜长沙｜哈尔滨｜南京｜上海｜深圳｜武汉｜郑州｜西安｜青岛｜重庆｜太原

抢红包

本书配套源代码、习题答案的获取方法：添加小千QQ号或微信号2133320438。

注意！小千会随时发放“助学金红包”。

致谢

本教材由千锋教育高教产品研发团队组织编写，大家在这近一年里翻阅了大量Python爬虫图书，并从中找出它们的不足，通过反复修改终完成了这本著作。另外，多名院校老师也参与了教材的部分编写与指导工作，除此之外，千锋教育500多名学员也参与到了教材的试读工作中，他们站在初学者的角度对教材提供了许多宝贵的修改意见，在此一并表示衷心的感谢。

意见反馈

在本书的编写过程中，虽然力求完美，但难免有一些不足之处，欢迎各界专家和读者朋友们提出宝贵意见，联系方式： huyaowen@1000phone.com。

千锋教育高教产品研发部

2019年6月于北京

导语摘要

随着网络技术的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战，网络爬虫应运而生。本书介绍了如何利用Python 3.x来开发网络爬虫，并通过爬虫原理讲解以及Web前端基础知识引领读者入门，结合企业实战，让读者快速学会编写Python网络爬虫。本书适用于中等水平的Python开发人员、高等院校及培训学校的老师和学生。通过本书的学习可以轻松领会Python在网络爬虫、数据挖掘领域的精髓，可胜任Python网络爬虫工程师的工作以及完成各种网络爬虫项目的代码编写。

作者简介

胡耀文，清华大学出版社技术编审委员会委员，2009年参与国庆60周年官兵电子纪念册项目，CSDN著名技术专家，博客浏览量超过1460350次，2012年7月出版Windows CE 7开发实战详解，2013年5月出版Windows8开发权威指南，2014年--2016年连续三年获得微软全球MVP有价值专家。尹成，毕业于清华大学，微软全球价值专家，资深软件架构师，CSDN著名技术专家，微软-清华大学联合实验室技术顾问，清华大学移动互联网技术协会顾问，清华大学Oracle-java创始人，清华大学Google技术俱乐部创始人，清华大学Linux技术俱乐部创始人。精通java,C/C ，对于移动3G，语音技术，javaEE,信息安全,大数据高并发都有丰富的开发经验。2010年著书《Visual C 2010开发权威指南》，版权作为大陆的骄傲输出台湾香港新加坡，代表大陆C 超越并引领台湾[4-5] 。2013年著

第1章Python网络爬虫入门

1.1所需技能与Python版本

1.1.1所需技术能力

1.1.2选择Python的原因

1.1.3选择Python 3.x的原因

1.2初识网络爬虫

1.2.1网络爬虫的概念

1.2.2网络爬虫的应用

1.2.3Robots协议

1.3搜索引擎核心

1.4快速爬取网页示例

1.5本章小结

1.6习题

第2章爬虫基础知识

2.1Cookie的使用

2.1.1Cookie的概念

2.1.2使用Cookiejar处理Cookie

2.2正则表达式

2.2.1正则表达式的概念

2.2.2正则表达式详解

2.3标记语言

2.4XPath

2.5JSON

2.6BeautifulSoup

2.6.1安装BeautifulSoup

2.6.2BeautifulSoup的使用

2.7本章小结

2.8习题

第3章urllib与requests

3.1urllib库

3.1.1urllib库的概念

3.1.2urllib库的使用

3.2设置HTTP请求方法

3.2.1GET请求实战

3.2.2设置代理服务

3.3异常处理

3.3.1URLError异常处理

3.3.2HTTPError异常处理

3.4requests库

3.4.1安装requests库

3.4.2发送请求

3.4.3响应接收

3.4.4会话对象

3.5本章小结

3.6习题

第4章网络爬虫实例

4.1图片爬虫实例

4.2链接爬虫实例

4.3文字爬虫实例

4.4微信文章爬虫

4.5多线程爬虫及实例

4.6本章小结

4.7习题

第5章数据处理

5.1存储HTML正文内容

5.1.1存储为JSON格式

5.1.2存储为CSV格式

5.2存储媒体文件

5.3Email提醒

5.4pymysql模块

5.5本章小结

5.6习题

第6章数据库存储

6.1SQLite

6.1.1SQLite介绍

6.1.2安装SQLite

6.1.3Python与SQLite

6.1.4创建SQLite表

6.1.5添加SQLite表记录

6.1.6查询SQLite表记录

6.1.7更新SQLite表记录

6.1.8删除SQLite表记录

6.2MongoDB

6.2.1MongoDB简介

6.2.2MongoDB适用场景

6.2.3MongoDB的安装

6.2.4MongoDB基础

6.2.5在Python中操作MongoDB

6.3Redis

6.3.1Redis简介

6.3.2Redis适用场景

6.3.3Redis的安装

6.3.4Redis数据类型与操作

6.3.5在Python中操作Redis

6.4本章小结

6.5习题

第7章抓取动态网页内容

7.1JavaScript简介

7.1.1JS语言特性

7.1.2JS简单示例

7.1.3JavaScript库

7.1.4Ajax简介

7.2爬取动态网页的工具

7.2.1Selenium库

7.2.2PhantomJS浏览器

7.2.3Firefox的headless模式

7.2.4Selenium的选择器

7.2.5Selenium等待方式

7.2.6客户端重定向

7.3爬取动态网页实例

7.4本章小结

7.5习题

第8章浏览器伪装与定向爬取

8.1浏览器伪装介绍

8.1.1抓包工具Fiddler

8.1.2浏览器伪装过程分析

8.1.3浏览器伪装技术实战

8.2定向爬虫

8.2.1定向爬虫分析

8.2.2定向爬虫实战

8.3本章小结

8.4习题

第9章初探Scrapy爬虫框架

9.1了解爬虫框架

9.1.1初识Scrapy框架

9.1.2初识Crawley框架

9.1.3初识Portia框架

9.1.4初识Newspaper框架

9.2Scrapy介绍

9.2.1安装Scrapy

9.2.2Scrapy程序管理

9.2.3Scrapy项目的目录结构

9.3常用命令

9.3.1Scrapy全局命令

9.3.2Scrapy项目命令

9.3.3Scrapy的Item对象

9.4编写Spider程序

9.4.1初识Spider

9.4.2Spider文件参数传递

9.5Spider反爬虫机制

9.6本章小结

9.7习题

第10章深入Scrapy爬虫框架

10.1Scrapy核心架构

10.2Scrapy组件详解

10.3Scrapy数据处理

10.3.1Scrapy数据输出

10.3.2Scrapy数据存储

10.4Scrapy自动化爬取

10.4.1创建项目并编写items.py

10.4.2编写pipelines.py

10.4.3修改settings.py

10.4.4编写爬虫文件

10.4.5执行自动化爬虫

10.5CrawlSpider

10.5.1创建CrawlSpider

10.5.2LinkExtractor

10.5.3CrawlSpider部分源代码分析

10.5.4实例Crawl

— 没有更多了 —