正版保障 假一赔十 可开发票
¥ 55.16 5.6折 ¥ 99 全新
库存3件
作者刘政 等
出版社电子工业出版社
ISBN9787121408137
出版时间2021-04
装帧平装
开本其他
定价99元
货号29233468
上书时间2024-11-01
2012 年大数据的概念在社会上刚刚开始传播,这时,北京大学信息科学技术学院的张铭教授问我是否可以在北京大学开设一门数据分析课程。经过我们积极的准备,“统计分析与商务智能”课程于当年的秋季在北京大学开课了。
统计学的数学基础是创建在17 世纪布莱兹·帕斯卡和皮埃尔·德·费马发展的概率论之上的。运筹学在第二次世界大战时得到了广泛应用和发展,被用于战时资源的调配和人员调动。计量经济学起源于20 世纪50 年代的美国。这些学科的核心是数据分析,而数据分析真正在现代生活中获得广泛应用则开始于和计算机技术的结合。现代计算机技术极大地提高了数据处理速度和解决复杂问题的能力,人们由此发明了许多过去无法用人工计算的数学模型。1966 年,美国农业部委托南方8 所大学开发统计分析软件,用于分析农业数据,由此,开启了统计软件时代。然而数据分析一直是高高在上的领域,非专业人员很少涉猎其中,因此名气不大。20 世纪80 年代出现了个人计算机,软件开发变得热门;20世纪90 年代互联网开始兴起,数据库在企业中被广泛使用,办公实现了自动化;21 世纪CRM 和ERP 开始流行,同时互联网应用也得到了爆炸式的增长,尤其是电子商务、社交媒体和移动互联网的出现。这些技术进步、业务发展带来了一个同样的结果,那就是数据量开始急剧地增加,并散布于世界的各个角落。人们现在的一切行为几乎都会留下数据痕迹,如使用手机、在超市买东西、日常各种消费、出行(道路监控、出入关记录)等。全世界的数据累积已经超过了 40ZB 的量级。大数据时代就是数据分析时代,如果没有数据分析,大数据就是占据大量存储资源的废物。
数据记录了很多事情的发生过程和状态。而一件事情的发生会受很多因素的影响,这些因素的内在联系是什么,如何影响事情的发展,都可以用数据记录下来。人们希望通过对数据的分析,找到事情发生的来龙去脉,以便预测将来的发展。为此,人们找到了很多方法研究数据,如统计学、计量经济学、时间序列分析、运筹学、概率论等数学方法,以及可视化技术、各种辅助的计算机技术和算法。数据分析不仅在各行各业得到了应用,还可以作为一种主要方法进行科学研究。数据分析也能开辟新的应用,建立新的行业。
大数据和计算机技术、互联网一样,具有普适性和通用性,各行各业都需要,不仅传统行业需要,而且是新兴行业的依托。大数据技术的出现使得物联网、云计算、人工智能得以变成现实。所以,大数据是计算机时代、互联网时代后,能够真正撑得起一个时代的技术。
如今,大数据分析已经成为各领域追逐价值的重要手段,数据分析能力也成为各行各业的核心竞争力,而数据分析相关岗位的人才却呈现严重短缺的状况。对数据科学及数据分析人才短缺的预测五花八门,有预测100 多万的,也有预测1400 万的。这个差异来自增量数据和实际需求。增量数据就是用户需要增加的数据分析人员的数量,而实际需求除了包括增量数据,还包括对现有信息技术人员进行数据分析能力培养的人员数量。大数据时代到来了,社会上出现了各种相关的行业协会,各高等院校也纷纷建立了数据科学研究院,并开设了一系列的数据分析相关课程,其中统计分析相关的课程是核心,也是基础。在这个过程中,高等院校普遍遇到的难点就是课程内容的设置和相应教师的短缺。首先,不能走过去的老路:只讲统计,不讲分析;只有理论,没有实践;只有手工的简单计算,没有现代统计分析工具的支持。其次,要与当代的数据分析技术相结合,带给学生的分析方法和技术。后,要学完就会用,就能解决实际问题。
2017 年春季,我们接受清华大学数据科学研究院韩亦舜执行副院长的委托,在清华大学开设了“数据分析与优化建模”课程,报名的学生大多是各专业的研究生,甚至有清华大学美术学院的学生。经过8 年12 个学期在北大、清华两所高校的教学,通过反复打磨和不断提炼,我们定制编写了《数据分析实用教程》一书。我们希望这本书能够成为各高等院校教学的范本,各领域数据分析师的应用参考书,以及广大数据分析爱好者的自学用书。对读者来说,拥有一本详细阐述了数据分析的理论和实践方法,并深入阐述了数据分析技术,指导其用数据分析工具进行数据分析实战的图书,成为一种渴求,而本书正是这样一本书,相信它会给读者带来实实在在的收获。
目前国内市面上关于数据分析的图书众多且繁杂,个显著的特点是“散”,很多相关书籍只针对部分统计分析内容做了深入详细的探讨;第二个显著的特点是实用性不强,广大读者在研读完成后并不能迈出分析应用的步,他们至少要研读几本书才可以,而这要花费大量的阅读时间。
本书具有如下特点。
(1)抓住了大数据分析热点。大数据分析是大数据时代的技能,已经成为各领域的核心竞争力。人才短缺是各企业的痛点。一本好的教材是使学生快速成才的关键。
(2)内容全面,兼顾广度和深度。本书根据实战要求,将统计学、多元统计学和SAS编程技术这三门课程有机地结合起来,概念、思想脉络讲解清楚,让学生能够真正地理解这门课程。
(3)实战性强。本书针对不同的实战案例进行分析和总结,有SAS 程序运行的结果,使之具有较强的可操作性,便于读者理解和研习。学生学完以后,有能力完成一个实战性的大课题,并参加答辩。
(4)适合自学。本书的编写和组织概念清晰,简单易懂,思路明晰,理论直达要点核心,示例更贴近实用性。
(5)适合作为教材。有相应的课件、练习数据集和作业搭配,节省教师大量的时间去组织内容和写讲稿。大学开设本课程,可以获得SAS 免费的软件支持。
本书主要适用于:
(1)各行业数据分析师的应用参考书。
(2)大专院校在校学生的教材。
(3)希望开设数据分析课程高校教师的讲义。
(4)希望进入数据分析领域人员的参考书。
(5)行业高管熟悉分析业务的参考书。
本书共14 章,第1 章介绍了统计学的基本概念,并详细介绍了描述性统计中的正态分布、概率与二项分布、两大极限定理,以及数据类型与图示。第2 章和第3 章全面讲述了推断性统计的相关理论知识,并用大量实例帮助理解理论点,内容包括点估计、区间估计、假设检验、参数检验等。第4 章介绍了方差分析的基本概念,以及单因素、双因素和多因素方差分析。第5 章主要介绍了相关分析、回归分析、简单线性回归、多元线性回归、可变换为线性回归的曲线回归。第6 章涉及交叉表分析、Logistic 回归、多元Logistic回归、有交互效应的多元Logistic 回归等内容。第7 章讲述了主成分分析的基本思想、数学模型与几何解释、主成分的推导与性质、主成分分析的步骤、主成分分析的例子,因子分析和因子分析SAS 实例。第8 章集中介绍了聚类分析的理论基础、层次聚类、K 均值聚类及确定聚类数等内容。第9 章介绍了判别分析基础、距离判别法、贝叶斯判别法、Fisher 判别法的理论和实例。第10 章介绍了什么是时间序列及其分解方法,并详细阐述了时间序列的描述性分析、预测程序、平稳序列的预测、趋势序列的预测、季节性序列的预测、复合序列的分解预测,以及周期性分析等内容。第11~13 章是SAS 编程基础,内容主要涉及编程基础知识、如何使用SAS 读取数据(文本文件、Excel 文件等)、处理数据(条件处理、自定义格式、SAS 函数等)、分析数据(报告输出)及背后的运行机制。除此之外,还着重介绍了SAS 宏的概念和应用原理、宏变量和宏定义及应用语法。第14 章介绍了使用SAS 编程进行数据分析的重要分析工具SAS Enterprise Guide 产品的功能展示和上机练习指导。
本课程通常需要15 到16 次课,每次3 小时。第1 次课会讲第1 章,讲解统计学的基本概念;第2 次课讲第11 章,介绍SAS 编程基础;第3 次课讲第14 章,是上机课,学会SAS 软件配置和使用SAS Enterprise Guide,为后续的课程打好基础;第4 次和第5 次课分别讲第12 章和第13 章。接下来,从第2 章开始,按照顺序讲。本书提供了14 章内容,而第15 次课通常是大课题的答辩环节。教师在课程完成前3 周,给出几个课题供大家选择,3 到4 名学生组成一组,选择一个课题进行实际操作。答辩主要考查学生对数据描述、数据处理、数据分析、结果展示和综合报告等几项主要技能的掌握。我们每学期会安排一些讲座,如“数据的可视化分析技术”“大数据”“机器学习”“企业数据分析与建模”等。
对于有意使用本书的各类学校,我们将提供免费的SAS 软件(仅限于高等院校)、各章作业的数据集和作业题(教师也可以自己出作业题)、PPT 格式的讲稿。
本书的完成来自整个创作团队的辛勤耕作。大家利用自己的休息时间,反复查阅资料,构思内容,完成配图,才使得这本书得以和各位读者见面。我在这里衷心地感谢大家的付出和各位家庭的支持。感谢那些以各种方式为本书的完成提供了帮助的同事和朋友。
SAS 公司在过去的几十年里,为行业贡献了各种里程碑式的产品,以及各种相应的图书和教学培训资料。在这里我们要感谢SAS 开发出来的优秀产品,感谢公司提供的工作学习环境和各种资料,以及对本书出版和员工参与中国高等人才教育的鼓励。
后,要特别感谢成都道然科技有限责任公司团队。感谢他们理解、支持我们的教学理念和学习方法,毅然接受了我们特定格式的出版请求,并为本书的出版付出了大量的努力;同时感谢他们的指导和帮助,以及提出的各种宝贵建议。
刘 政
2020 年10 月于北京
本书共 14 章,内容涵盖:统计学的基本概念、推断性统计的相关理论和实例、方差分析、相关分析与回归分析、Logistic 回归、主成分分析与因子分析、聚类分析、判别分析、时间序列分析、SAS 编程基础、宏的概念和应用原理及上机练习指导。本书内容全面,汇集了统计学、多元统计学和 SAS 编程技术的核心内容。本书针对不同的实战案例进行分析和总结,并展示了程序运行的结果,使之具有较强的可操作性,便于读者理解和研习。本书可作为各行业数据分析师的应用参考书、开设数据分析课程的高校中的教师讲义,以及希望进入数据分析领域的人员的自学读物。
刘政博士 SAS中国研发中心总经理,负责此全球研发中心的整体运作;19年的外资企业经营和项目管理经验,丰富的信息技术和数据科学教育经验;中国软件行业协会理事,中国计算机学会大数据专家委员,清华大学大数据硕士项目教育指导委员会主任,中科院深圳先进技术研究院硕士研究生导师,北京大学、清华大学、中国科学技术大学讲席教授。
巫银良 SAS 中国研发中心技术总监,主要负责SAS 可视化分析(VA)、可视化数据挖掘与机器学习(VDMML)、商业智能和移动应用等产品线的研发管理。拥有近20年的计算机行业研发和管理经验,在企业应用和商业数据分析领域有着深厚的技术功底,著有《SAS技术内幕:从程序员到数据科学家》(2018)一书。北京大学《统计分析与商务智能》课程主讲。
左春琦 SAS中国研发中心自然语言处理软件开发工程师。北京大学、清华大学数据分析课程助理讲师。SAS中国数据分析大赛出题委员会委员。
李岚 SAS中国研发中心测试经理。十余年软件研发测试经验,涉及商业智能、数据分析、可视化展现、机器学习等各领域。北京大学《统计分析与商务智能》课程SAS编程讲师。
马晓丽 SAS 中国研发中心项目经理。十余年软件开发和项目管理经验,熟悉SAS风险管理解决方案以及SAS编程。清华大学《数据分析与优化建模》课程SAS编程讲师。参与SAS Little Book中文版翻译。
第1 章 描述性统计 . 1
1.1 统计学的发展历史 1
1.2 统计学的基础知识 4
1.3 连续型随机变量的概率分布 18
1.4 概率与二项分布 26
1.5 两大极限定理 33
1.6 数据类型与图示 38
第2 章 推断性统计:参数估计 45
2.1 推断性统计概述 45
2.2 点估计 46
2.3 区间估计 54
第3 章 推断性统计:假设检验 69
3.1 假设检验 69
3.2 参数检验 76
3.3 置信区间检验和P 值检验 91
3.4 非参数检验 94
3.5 非参数检验——符号检验法 95
3.6 非参数检验——秩和检验 98
第4 章 方差分析 108
4.1 方差分析的提出 108
4.2 单因素方差分析 111
4.3 双因素方差分析的概念及其基本假定 123
4.4 多因素方差分析 132
第5 章 相关分析与回归分析 140
5.1 相关分析 140
5.2 回归分析 150
5.3 简单线性回归 150
5.4 多元线性回归 159
5.5 可变换为线性回归的曲线回归 174
第6 章 Logistic 回归 175
6.1 交叉表分析 175
6.2 一元Logistic 回归 184
6.3 多元Logistic 回归 192
6.4 有交互效应的多元Logistic 回归 196
第7 章 主成分分析与因子分析 202
7.1 主成分分析的概念与原理 202
7.2 主成分分析SAS 实例 209
7.3 因子分析 219
7.4 因子分析SAS 实例 227
第8 章 聚类分析 234
8.1 聚类与分类的区别 234
8.2 案例:消费者分类问题 234
8.3 聚类分析概述 235
8.4 层次聚类 240
8.5 K 均值聚类 246
8.6 确定聚类数 256
第9 章 判别分析 266
9.1 判别分析基础 266
9.2 距离判别法 269
9.3 贝叶斯判别法 279
9.4 Fisher 判别法 301
第10 章 时间序列分析 310
10.1 时间序列基础 310
10.2 描述性分析与预测方法 315
10.3 平稳序列的预测 327
10.4 趋势序列的预测 335
10.5 复合序列的预测 351
第11 章 SAS 编程基础 375
11.1 SAS 基础 375
11.2 使用SAS 分析数据 387
11.3 SAS 处理数据集原理 413
第12 章 SAS 编程进阶 423
12.1 读取原始数据(文本)文件 423
12.2 访问Excel 工作表 436
12.3 创建自定义格式 438
12.4 使用SAS 函数 440
12.5 有条件处理 451
12.6 PROC SQL 简介 453
第13 章 SAS 宏编程 458
13.1 SAS 宏简介 458
13.2 熟悉SAS 宏变量 459
13.3 如何编译宏语言 469
13.4 宏程序简介 474
13.5 在数据操作中使用宏(案例研究) 479
13.6 间接引用宏变量 494
第14 章 SAS Enterprise Guide 操作应用 497
14.1 SAS Enterprise Guide 简介 497
14.2 SAS Enterprise Guide 上机练习 498
本书共 14 章,内容涵盖:统计学的基本概念、推断性统计的相关理论和实例、方差分析、相关分析与回归分析、Logistic 回归、主成分分析与因子分析、聚类分析、判别分析、时间序列分析、SAS 编程基础、宏的概念和应用原理及上机练习指导。本书内容全面,汇集了统计学、多元统计学和 SAS 编程技术的核心内容。本书针对不同的实战案例进行分析和总结,并展示了程序运行的结果,使之具有较强的可操作性,便于读者理解和研习。本书可作为各行业数据分析师的应用参考书、开设数据分析课程的高校中的教师讲义,以及希望进入数据分析领域的人员的自学读物。
刘政博士 SAS中国研发中心总经理,负责此全球研发中心的整体运作;19年的外资企业经营和项目管理经验,丰富的信息技术和数据科学教育经验;中国软件行业协会理事,中国计算机学会大数据专家委员,清华大学大数据硕士项目教育指导委员会主任,中科院深圳先进技术研究院硕士研究生导师,北京大学、清华大学、中国科学技术大学讲席教授。
巫银良 SAS 中国研发中心技术总监,主要负责SAS 可视化分析(VA)、可视化数据挖掘与机器学习(VDMML)、商业智能和移动应用等产品线的研发管理。拥有近20年的计算机行业研发和管理经验,在企业应用和商业数据分析领域有着深厚的技术功底,著有《SAS技术内幕:从程序员到数据科学家》(2018)一书。北京大学《统计分析与商务智能》课程主讲。
左春琦 SAS中国研发中心自然语言处理软件开发工程师。北京大学、清华大学数据分析课程助理讲师。SAS中国数据分析大赛出题委员会委员。
李岚 SAS中国研发中心测试经理。十余年软件研发测试经验,涉及商业智能、数据分析、可视化展现、机器学习等各领域。北京大学《统计分析与商务智能》课程SAS编程讲师。
马晓丽 SAS 中国研发中心项目经理。十余年软件开发和项目管理经验,熟悉SAS风险管理解决方案以及SAS编程。清华大学《数据分析与优化建模》课程SAS编程讲师。参与SAS Little Book中文版翻译。
推荐者序一
在刚刚进入21 世纪的第二个十年,我们有一位研究生毕业以后加入了SAS 中国研发中心文本分析团队,由此,建立起了北京大学和SAS 之间的合作。我们经常会组织一些学术交流。SAS 总部领导到了北京以后,也会邀请我一同交流与沟通。那时候,社会上刚刚兴起大数据热,我们交流的题目都很热门,与以往其他企业的交流完全不一样。
经过一段时间的交流,我们之间有了很多的了解,我也在考虑为北京大学引入一门数据分析课程,把SAS 过去几十年的经验分享给同学们。2012 年上半年,我跟SAS 中国研发中心总经理刘政博士商量由他们在北京大学开设一门数据分析课程。刘政博士是SAS 中国研发中心总经理,负责SAS 全球三大研发中心之一的整体运作。刘政博士于2002 年回国,一直致力于提高中国高校在信息技术方面的教育水平。从 2003 年起,刘政博士参与了中国科学技术大学在北京的软件工程硕士项目的教学工作;在2012 年,他又积极推动开启了SAS 软件在中国高校的免费项目。当时,SAS 还没有为中国的大学提供免费的软件。
刘政博士开始跟美国总部进行沟通,经过几个月的不懈努力,SAS *个中国大学校园项目落户北京大学。
2012 年秋季学期,由SAS 中国研发中心总经理刘政博士带领的团队正式在北京大学信息科学技术学院开设研究生和本科生合上的公选课程“统计分析与商务智能”。这是SAS 公司首次与中国高校联合开设课程。该课程由一线高级工程师介绍前沿的大数据分析技术,受到了来自信息学院、数学学院、元培学院、光华管理学院、工学院等选课学生的广泛好评。2020 年已经是这门课程开设的第九个年头。随着大数据和人工智能的发展,会有越来越多的学生选修这门课程。
大数据是计算机应用和互联网发展带来的时代产物。它的出现让一切都有迹可循,有源可溯。我们每天都在生产和使用数据,而且我们一直都生活在一个大数据时代里,只是我们浑然不觉。由于技术的局限性,人们在很长一段时间里没有办法使用这些集容量大、种类多、增长速度快等特征于一身的全量数据。随着技术的发展与创新,大数据分析正在成为各行各业的技能,以及企业管理和决策的重要依据。因此,大数据分析在生产活动中扮演着越来越重要的角色,很多新兴行业,譬如物联网、人工智能、金融科技、生命科学等都是建立在这一基础之上的。电商等互联网企业在拥有了海量的用户数据之后,开始着手开展各类数据分析工作,以支撑自身的电子商务、定向广告和影视娱乐等业务。面对快速增长的个人贷业务及不断变化的个贷市场环境和政策,某银行基于大数据分析突破了传统审批流程和风险控制过程中的业务发展“瓶颈”,在市场竞争中迅速准确地制定相关的贷款政策,量化控制风险率、批准率。零售企业通过大数据建立用户画像,并监控营销活动的实时数据,确定*营销方案,实现精准营销。制造行业通过收集流水线上各种仪器的参数数据,找到更优的工艺参数,从而降低生产成本,提高生产效率。这些具有大数据分析战略和能力的企业终将在市场上占据主动。
大数据分析战略着眼于对数据进行专业化处理,其重点应在“分析”二字,而不仅仅是获取海量数据。当前有关大数据的信息繁多,谈的问题都不太系统,谈技术的多,谈分析的少。如何进行有效的数据处理、分析,找出数据内部蕴含的模式和规律才是大数据分析的根本。而数据分析能力的强弱将直接影响一个企业对数据的使用情况,也能反映其在市场上的竞争力。猎聘2019 年大数据人才就业趋势报告显示:中国大数据人才缺口高达150 万人,其中需要具备行业背景知识的大数据分析行业,如金融领域的数据分析行业,尚未完全开启的人工智能、物联网、智慧城市等新兴行业,未来将有大量的人才需求。海量信息的搜索、实时通信工具的信息传递、引发亿级流量的电商购物、亿万游戏玩家的数据信息处理、互联网金融的风险控制等,都需要大量的数据分析人才。所以数据分析人才正在成为这个时代的宠儿。
大数据分析不仅涉及计算机软件开发领域的专业技能,还涉及数学和统计相关学科的理论知识。在时代需求的背景下,北京大学信息科学技术学院与SAS 中国研发中心自2012 年起展开合作,成功开设了运用SAS 进行数据处理、数据分析的课程,为北京大学各专业的学生提供了学习并实践数据分析的机会。SAS 公司专门为该课程提供了免费使用的商业软件。该课程很好地结合了数据分析的理论知识、实用案例分析、软件使用和程序编写,给学生创造了一个深入浅出的学习
— 没有更多了 —
以下为对购买帮助不大的评价