Web安全之机器学习入门

①一般下午5点前订单，当日发货，开发票联系客服②教材,学习,考试类书默认有笔记（或做过）③其他类书一般无笔记，提前与客服沟通好再下单，否则本店不承担责任）④部分图书籍采用标准图片，可能存在不同印次不同封面，内容一致⑤出版时间过长的书都可能有自然发黄现象。

59.25 7.5折 79 八品

仅1件

天津宝坻

认证卖家担保交易快速发货售后保障

作者刘焱

出版社机械工业出版社

ISBN9787111576426

出版时间2017-08

装帧平装

开本16开

定价79元

货号1553545113383846912

上书时间2024-11-14

休闲图书吧

三年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 14小时
好评率暂无

最新上架

傅雷谈艺录及其他 ¥39.36

妈妈的毛衣 ¥27.06

任性的凯琴姑娘——特罗洛普中短篇小说选(特罗洛普文集) ¥32.44

新使命大格局：桂林世界级旅游城市建设研究 ¥49.58

玩转3D打印(奇妙的古代发明全彩印刷) ¥42.00

创意玩花纹 ¥24.37

系统科学概览(精)/中国书籍学术之光文库 ¥45.39

汽车检测与诊断技术(中国汽车人才培养工程教材) ¥33.75

这才是孩子爱看的漫画数学（全6册） ¥29.80

商品详情

品相描述：八品

商品描述

前言

序　　一 Preface

兜哥是网络安全行业的老兵，早在成为自媒体人之前，他所带领的团队在Web入侵检测、WebShell识别等技术上就是百度安全防御的重要组成部分。他是一位十分难得的拥有敏感产品神经的技术人，在百度这些年，不仅将许多新产品、新技术引入百度，丰富百度防御能力，更通过自己的努力将百度在威胁检测等方面的经验不断传播出去。他通过自己的智能安全三部曲将他在人工智能方向的探索向业界做了系统性分享，在安全技术亟待突破的今天，有着很深的借鉴意义。本书是他的第一部著作，重点介绍如何在安全场景下进行机器学习。

回顾网络安全行业这十年来的发展，从防火墙、下一代防火墙、入侵检测到威胁情报，安全厂商一次次将新的概念引入，将新的技术包装，但安全威胁的现状却一天天恶化着，当我们看到越来越多的安全入侵事件发生，其波及范围也已经不仅仅是互联网业务，更有大量的国民基础设施深陷泥潭，我们不禁要问，是黑客越来越强大，还是我们的技术不够先进？我们被眼花缭乱的技术所困，却忽略了安全的本质——对抗。今天炙手可热的人工智能是否也会是一枚“银弹”？

诚然，人工智能在自然语言处理、图像识别、棋类对抗领域的成绩有目共睹，而安全能否成为下一个人工智能的突破口？现在看来，一切正方兴未艾，在有监督学习方向，能否大幅简化安全工程师的工作量，让准实时对抗成为可能；在无监督学习方向，能否突破安全对抗的猫鼠游戏，让安全由被动变为主动。等待我们的将是一场令人激动的技术探索。

冯景辉，安全宝联合创始人，百度商业安全总监　　

马杰，安全宝创始人，百度安全总经理　　

Preface 序　　二

兜哥在通过数据分析进行安全检测的技术方面已经积累了很长时间，从最初我们合作建立国内最大TB级别日志分析系统开始，在这几年中，他一直在不断尝试使用更合适的技术来解决问题，这次欣喜地看到了他又有新的突破。

拿到样章当看到“通向智能安全的旅程”这一章时，着实被深深地吸引住了，在新技术中尝试使用机器学习的能力，借助AI，能让系统变得更加聪明更好用，从而更好地解决问题。Gartner在2015年就提出过“自适应安全架构来应对高级定向攻击”的概念，其中实现这套架构很重要的一个阶段就是让系统具备对攻击的预测能力，“预测”是一种更接近人的思考方法，通过机器学习及人工智能的技术迭代，这将有可能实现。

安全数据分析已经从搭建大数据分析系统过渡到使用机器学习的过程中了，通过机器学习算法对安全事件的分析在一段时间内也许并不能突出优势，就像我们面对一个天才少年一样，因为阅历原因暂时他不能超越你，但他一定会用非常短的时间就能追上并且更好地帮助你。

阅读过程中常常感叹于兜哥的细心和他对此系列书的撰写决心，兜哥是一位不折不扣的技术实践者，全书使用了超过15种机器学习的算法，收集整理了大量或知名、或在真实环境下出现过的案例，并一一详细给出了使用机器学习算法进行分析的方法。书中还包含了丰富的数据集以及大量的实例，能帮助入门的同学降低学习成本，快速进入技术实践中。阅读的过程中，我常常在假想，如果回到几年前看到这本书，现在我们搭建的分析系统又将是另一番景象。

本书的写作风格是实战型的，围绕常见的安全问题，通过代码导读的方式，把每个问题与机器学习算法相关联，循序渐进，揭开了机器学习的神秘面纱。对于立志从事信息安全技术的同学来说，这种实战型的案例更直观，更能激发学习兴趣，推动机器学习在安全分析上的应用。

云朋，百度无人车首席安全架构师　　

序　　三 Preface

跟兜哥相识迄今一年有余，当时我还在一个跨境电商公司当码农头子，互金、电商也都还是资本圈炙手可热的概念，我们这个小而美的电商公司不能免俗，三天一小促，五天一大促地在玩着冲刺GMV（日总交易金额）的游戏。玩命狂奔业绩的同时，我早早地就跟当时还身为独立安全公司的“安全宝”交了抗DDoS费，保证每次业务起起落落的时候，不会受到某一小撮别有用心的敌对势力的干扰。“安全宝”的服务接入不到半年就爆出新闻，百度全资收购了“安全宝”，推出了面向企业的百度安全服务体系。一直跟我对接的“安全宝”的销售朋友摇身一变，成为三巨头之一的金领员工。朋友高升遇喜自然要多多分享，于是某日就电话约了 “百度资深安全工程师和销售团队”来我们这里做一个交流。产品介绍、业界八卦聊了半个多小时以后，一直安坐对方一角，眼睛闪着灵光的胖子始终没说话。我接受不了屋里仅有两个胖子，一个是我一直在聊；另一个胖子却如此沉默。于是我就开口问：“你们客户端的那个核心xx功能，就是这个角落里不说话的大黑客写的吧？”

“没有，没有，我们的xx功能不是那样的。”这哥们终于开口说了第一句话。

“不可能啊，因为xx、xx、xx。”我又吧啦吧啦说了一通。

“嘿嘿，其实是xx、xx。”他抬抬头，翻起眼睛看着我，一种内行跟内行言简意赅过招的感觉跃然而出。

“额，来，先留个微信吧。”我站起来，把手机递了过去。10秒钟后，“中国相声界的小学生通过扫一扫添加你为好友”的消息弹了出来。“你太逗了。”我忍不住看着对方评论了一句，心想：这么有趣的码农朋友交定了。散会后，几个人站在办公室楼下，相声界的小学生朋友特别真诚地感谢了一下我提供如此好的机会，让他们有机会从中国互联网的物理核心交换地区后厂村来到事业线、大白腿比例明显高一个数量级的CBD地区。我则不失时机地指点了对方一下，应该步行走一段什么样的路线去地铁站，能更顺利地回到核心交换地区。这就是我跟兜哥的第一次见面。

接下来的一段时间，相声界的小学生朋友变成了我微信朋友圈中昵称更换频率最高的人，在目睹了“青青河边草” “小小铜豌豆”等花式变更之后，我知道蹭小学生朋友一顿大餐的机会成熟了，于是很愉快地约了一顿丰盛的晚饭。一向不胜酒力又闷骚的码农们碰到三观相近的同类，总是特别容易敞开心扉，觥筹交错间，关于奋斗、关于公司、关于互联网，当然，还有关于男男女女，让一次普通而平淡的饭局变得特别有记忆特质。尽管我的记忆力很难达到生活自理的标准，不过时至今日，还是经常想起与相声界的小学生朋友把酒言欢的许多细节，觉得有趣而温暖。

后来我们目睹了百度公司毅然启航进入人工智能的时代。其实对于搜索巨人百度公司，人工智能领域内常见的如最大熵、隐马尔科夫、卷积神经网络等数学模型，从第一天起就如血液一般，渗透进入分词、排序、分类、聚类等搜索业务的大部分领域，经过了十来年的高歌猛进，这些晦涩难懂的数学公式日益扩大了其应用范围，在安全领域也得到了越发深入的应用。

聪明、努力、专注是兜哥写作一本书的智力储备和保证。这个被摩尔定律不停推动、变革的时代，一本技术书籍本身的价值和生命周期总是有限的。然而，随着年纪渐长，我们越来越体会到，自己的时间消费中最有价值的部分，永远是与有趣的灵魂和思想共处的片段。人类天性讨厌无趣，毕生的使命都是在寻找与有趣共振的机会。一本精心写作的书籍中，饱含了作者倾注的时光和智慧，这些无形的精神宝藏是让我们手不释卷的核心吸引力。品一杯茶，我们的欢喜来自于能品到茶叶所经历的春夏秋冬和风霜雨雪；读一本书，我们的满足来自于通过书本连接到有趣的灵魂。有趣的人总会相遇，希望在读完本书后，你也能感受到书中纷繁枯燥的数学逻辑背后与你共振的有趣灵魂。

——罗翼，中国互联网资深码农，曾任去哪网高级总监，某著名跨境电商CTO　　

前　　言Preface

近几年，人工智能无疑成为人们口中的热点话题，先是谷歌的AlphaGo，后有百度的度秘、无人车，微软必应搜索推出的小冰。这一系列人工智能产品的推陈出新，令人眼花缭乱，一时间给人的感觉是人工智能遍地开花。无论人们接受还是不接受，人工智能都在迅速渗透各行各业。网络安全相比之下是一个传统行业，基于规则以及黑白名单的检测技术已经发展到了一定的瓶颈，而利益驱动的黑产团伙，其技术的发展已经远远超乎我们的想象。如何借助人工智能的力量，提升安全行业的整体检测与防护能力，成为各大安全厂商研究的课题。在国内安全行业， BAT以及大量新兴的创业公司先后进入企业安全领域，他们凭借着自身数据搜集、处理、积累以及人工智能方面的优势，正在逐渐改变着整个安全行业。安全产品的形态也从硬件盒子逐步走向混合模式以及云端SaaS服务，安全技术从重防御逐步走向数据分析以及智能驱动。传统安全厂商也凭借其强大的安全人才储备，迅速推进人工智能在安全产品的落地。

我在网络安全这个行业搬了好几年砖，前五年做大型互联网公司的企业安全建设，从准入系统到WAF、SIEM、IPS等，基本都开发或者使用过，最近三年一直负责云安全产品，从抗D、WAF产品到、SIEM、入侵检测等，使用的技术从规则、黑白名单、模型、沙箱再到机器学习，从单机的OSSIM到Hadoop、Storm、Spark、ELK，也算目睹了安全技术或者更准确地说是数据分析处理技术的迅猛发展。我深深感到，使用人工智能技术改变这个行业不是我们的选择，而是必经之路。我在真正意义上接触机器学习是2014年年底，当时带领了一个很小的团队尝试使用机器学习算法解决安全问题，磕磕绊绊一直走到现在，变成几十人的一个产品团队。

本书是我机器学习三部曲的第一部，主要以机器学习常见算法为主线，以生活中的例子和具体安全场景介绍机器学习常见算法，定位为机器学习入门书籍，便于大家可以快速上手。全部代码都能在普通PC上运行。第二部将重点介绍深度学习，并以具体的十个案例介绍机器学习的应用，主要面向具有一定机器学习基础或致力于使用机器学习解决工作中问题的读者，全书的重点集中在问题的解决而不是算法的介绍。由于深度学习通常计算量已经超过了PC的能力，部分代码需要在服务器甚至GPU上运行，不过这不影响大家的阅读与学习。第三部将重点介绍强化学习和对抗网络，并以若干虚构安全产品或者项目介绍如何让机器真正具备AlphaGo级别的智能。

本书的第1章概括介绍了机器学习的发展以及互联网目前的安全形势。第2章介绍了如何打造自己的机器学习工具箱。第3章概括介绍机器学习的基本概念。第4章介绍Web安全的基础知识。第5章到第13章介绍浅层机器学习算法，包括常见的K近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机、K-Means、FP-growth、Apriori、隐式马尔可夫、有向图。第14章到第17章介绍神经网络以及深度学习中常用的递归神经网络和卷积神经网络。每章都会以生活中的例子开头，让读者有一个感性的认识，然后简短介绍基础知识，最后以安全领域的2~3个例子讲解如何使用该算法解决问题。全书定位是能让更多的安全爱好者以及信息安全从业者了解机器学习，动手使用简单的机器学习算法解决实际问题。在写作中尽量避免生硬的说教，能用文字描述的尽量不用冷冰冰的公式，能用图和代码说明的尽量不用多余的文字。正如霍金所言“多写1个公式，少一半读者”，希望反之亦然。

机器学习应用于安全领域遇到的最大问题就是缺乏大量的黑样本，即所谓的攻击样本，尤其相对于大量的正常业务访问，攻击行为尤其是成功的攻击行为是非常少的，这就给机器学习带来了很大挑战。本书很少对不同算法进行横向比较，也是因为确实在不同场景下不同算法表现差别很大，很难说深度学习就一定比朴素贝叶斯好，也很难说支持向量机就比不过卷积神经网络，拿某个具体场景进行横向比较意义不大，毕竟选择算法不像购买SUV，可以拿几十个参数评头论足，最后还是需要大家结合实际问题去选择。

这里我要感谢我的家人对我的支持，本来工作就很忙，没有太多时间处理家务，写书以后更是花费了我大量的休息时间，我的妻子无条件承担起了全部家务，尤其是照料孩子等繁杂事务。我很感谢我的女儿，写书这段时间几乎没有时间陪她玩，她也很懂事地自己玩，我想用这本书作为她的生日礼物送给她。我还要感谢吴怡编辑对我的支持和鼓励，让我可以坚持把这本书写完。最后还要感谢各位业内好友尤其是我boss对我的支持，排名不分先后：马杰@百度安全、冯景辉@百度安全、林晓东@百度基础架构、黄颖@百度IT、李振宇@百度AI、Lenx@百度安全、黄正@百度安全、程岩@百度云、郝轶@百度云、云鹏@百度无人车、赵林林@微步在线、张宇平@数盟、谢忱@Freebuf、李新@Freebuf、李琦@清华、徐恪@清华、王宇@蚂蚁金服、王珉然@蚂蚁金服、王龙@蚂蚁金服、周涛@启明星辰、姚志武@借贷宝、刘静@安天、刘袁君@医渡云、廖威@易宝支付、尹毅@sobug、宋文宽@联想、团长@宜人贷、齐鲁@搜狐安全、吴圣@58安全、康宇@新浪安全、幻泉@i春秋、雅驰@i春秋、王庆双@i春秋、张亚同@i春秋、王禾@微软、李臻@paloalto、西瓜@四叶草、郑伟@四叶草、朱利军@四叶草、土夫子@XSRC、英雄马@乐视云、sbilly@360、侯曼@360、高磊@滴滴、高磊@爱加密、高渐离@华为、刘洪善@华为云、宋柏林@一亩田、张昊@一亩田、张开@安恒、李硕@智联、阿杜@优信拍、李斌@房多多、李程@搜狗、Tony@京东安全、简单@京东安全、姚聪@face+、李鸣雷@金山云，最后我还要感谢我的亲密战友陈燕、康亮亮、蔡奇、哲超、新宇、子奇、月升、王磊、碳基体、刘璇、钱华钩、刘超、王胄、吴梅、冯侦探、冯永校。

本书面向信息安全从业人员、高等院校计算机相关专业学生以及信息安全爱好者，机器学习爱好者，对于想了解人工智能的CTO、运维总监、架构师同样也是一本不错的科普书籍。当读者在工作学习中遇到问题时可以想起本书中提到的一两种算法，那么我觉得就达到效果了，如果可以让读者像使用printf一样使用SVM、朴素贝叶斯等算法，那么这本书就相当成功了。

我平时在FreeBuf专栏以及i春秋分享企业安全建设以及人工智能相关经验与最新话题，同时也运营我的微信公众号“兜哥带你学安全”，欢迎大家关注并在线交流。

本书使用的代码和数据均在GitHub上发布，地址为：https://github.com/duoergun0729/1book，代码层面任何疑问可以在GitHub上直接反馈。

作者简介

　　刘焱百度安全Web防护产品线负责人，负责百度安全的Web安全产品，包括防DDoS、Web应用防火墙、Web威胁感知、服务器安全以及安全数据分析等，具有近十年云安全及企业安全从业经历，全程参与了百度企业安全建设。研究兴趣包括机器学习、Web安全、僵尸网络、威胁情报等。他是FreeBuf专栏作家、i春秋知名讲师，多次在OWASP 、电子学会年会等发表演讲，参与编写了《大数据安全标准白皮书》。他还建立了微信公众号：“兜哥带你学安全”，发布了大量信息安全技术知识。

对本书的赞誉

序一

序二

序三

前言

第1章　通向智能安全的旅程 1

1.1　人工智能、机器学习与深度学习 1

1.2　人工智能的发展 2

1.3　国内外网络安全形势 3

1.4　人工智能在安全领域的应用 5

1.5　算法和数据的辩证关系 9

1.6　本章小结 9

参考资源 10

第2章　打造机器学习工具箱 11

2.1　Python在机器学习领域的优势 11

2.1.1　NumPy 11

2.1.2　SciPy 15

2.1.3　NLTK 16

2.1.4　Scikit-Learn 17

2.2　TensorFlow简介与环境搭建 18

2.3　本章小结 19

参考资源 20

第3章　机器学习概述 21

3.1　机器学习基本概念 21

3.2　数据集 22

3.2.1　KDD 99数据 22

3.2.2　HTTP DATASET CSIC 2010 26

3.2.3　SEA数据集 26

3.2.4　ADFA-LD数据集 27

3.2.5　Alexa域名数据 29

3.2.6　Scikit-Learn数据集 29

3.2.7　MNIST数据集 30

3.2.8　Movie Review Data 31

3.2.9　SpamBase数据集 32

3.2.10　Enron数据集 33

3.3　特征提取 35

3.3.1　数字型特征提取 35

3.3.2　文本型特征提取 36

3.3.3　数据读取 37

3.4　效果验证 38

3.5　本章小结 40

参考资源 40

第4章　Web安全基础 41

4.1　XSS攻击概述 41

4.1.1　XSS的分类 43

4.1.2　XSS特殊攻击方式 48

4.1.3　XSS平台简介 50

4.1.4　近年典型XSS攻击事件分析 51

4.2　SQL注入概述 53

4.2.1　常见SQL注入攻击 54

4.2.2　常见SQL注入攻击载荷 55

4.2.3　SQL常见工具 56

4.2.4　近年典型SQL注入事件分析 60

4.3　WebShell概述 63

4.3.1　WebShell功能 64

4.3.2　常见WebShell 64

4.4　僵尸网络概述 67

4.4.1　僵尸网络的危害 68

4.4.2　近年典型僵尸网络攻击事件分析 69

4.5　本章小结 72

参考资源 72

第5章　K近邻算法 74

5.1　K近邻算法概述 74

5.2　示例：hello world！K近邻 75

5.3　示例：使用K近邻算法检测异常操作（一） 76

5.4　示例：使用K近邻算法检测异常操作（二） 80

5.5　示例：使用K近邻算法检测Rootkit 81

5.6　示例：使用K近邻算法检测WebShell 83

5.7　本章小结 85

参考资源 86

第6章　决策树与随机森林算法 87

6.1　决策树算法概述 87

6.2　示例：hello world！决策树 88

6.3　示例：使用决策树算法检测POP3暴力破解 89

6.4　示例：使用决策树算法检测FTP暴力破解 91

6.5　随机森林算法概述 93

6.6　示例：hello world！随机森林 93

6.7　示例：使用随机森林算法检测FTP暴力破解 95

6.8　本章小结 96

参考资源 96

第7章　朴素贝叶斯算法 97

7.1　朴素贝叶斯算法概述 97

7.2　示例：hello world！朴素贝叶斯 98

7.3　示例：检测异常操作 99

7.4　示例：检测WebShell（一） 100

7.5　示例：检测WebShell（二） 102

7.6　示例：检测DGA域名 103

7.7　示例：检测针对Apache的DDoS攻击 104

7.8　示例：识别验证码 107

7.9　本章小结 108

参考资源 108

第8章　逻辑回归算法 109

8.1　逻辑回归算法概述 109

8.2　示例：hello world！逻辑回归 110

8.3　示例：使用逻辑回归算法检测Java溢出攻击 111

8.4　示例：识别验证码 113

8.5　本章小结 114

参考资源 114

第9章　支持向量机算法 115

9.1　支持向量机算法概述 115

9.2　示例：hello world！支持向量机 118

9.3　示例：使用支持向量机算法识别XSS 120

9.4　示例：使用支持向量机算法区分僵尸网络DGA家族 124

9.4.1　数据搜集和数据清洗 124

9.4.2　特征化 125

9.4.3　模型验证 129

9.5　本章小结 130

参考资源 130

第10章　K-Means与DBSCAN算法 131

10.1　K-Means算法概述 131

10.2　示例：hello world！K-Means 132

10.3　示例：使用K-Means算法检测DGA域名 133

10.4　DBSCAN算法概述 135

10.5　示例：hello world！DBSCAN 135

10.6　本章小结 137

参考资源 137

第11章　Apriori与FP-growth算法 138

11.1　Apriori算法概述 138

11.2　示例：hello world！Apriori 140

11.3　示例：使用Apriori算法挖掘XSS相关参数 141

11.4　FP-growth算法概述 143

11.5　示例：hello world！FP-growth 144

11.6　示例：使用FP-growth算法挖掘疑似僵尸主机 145

11.7　本章小结 146

参考资源 146

第12章　隐式马尔可夫算法 147

12.1　隐式马尔可夫算法概述 147

12.2　hello world! 隐式马尔可夫 148

12.3　示例：使用隐式马尔可夫算法识别XSS攻击（一） 150

12.4　示例：使用隐式马尔可夫算法识别XSS攻击（二） 153

12.5　示例：使用隐式马尔可夫算法识别DGA域名 159

12.6　本章小结 162

参考资源 162

第13章　图算法与知识图谱 163

— 没有更多了 —