统计学习理论与方法:R语言版:using R9787302530886
正版图书,可开发票,请放心购买。
¥
38.93
4.9折
¥
79
全新
库存10件
作者左飞
出版社清华大学出版社
ISBN9787302530886
出版时间2019-06
装帧平装
开本其他
定价79元
货号9799830
上书时间2024-11-23
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
左飞,技术作家、译者。毕业于西北工业大学,后加入中国移动通信集团。著作涉及图像处理、编程语言和移动通信等多个领域,并翻译出版了计算机领域的经典之作《编码》,以及Jolt震撼大奖获奖作品《代码阅读》和《代码质量》等多部图书。其著作《代码揭秘》繁体版在中国台湾地区地区发行。曾荣获“很受读者喜爱的IT图书作译者奖”,并被授予“电子工业出版社创立30周年很好作译者”荣称。他同时拥有多年电信行业从业经验。在数据分析、信息安全和图像处理领域也有较深研究,在靠前会议与核**术期刊上发布论文多篇,并申请国家发明一项,多部相关著作再版多次、广受好评。他曾于中山大学获得经济学硕士学位,研究方向是金融发展理论和中国城市化进程。期间参与国家社科基金项目一项,并获“中华发展经济学年会”之邀作平行论坛学术报告。现在的研究兴趣主要集中在图像处理、机器学习、数据分析技术和空间数据库算法等领域。
目录
第1章 概率论基础 1.1基本概念 1.2随机变量数字特征 1.2.1期望 1.2.2方差 1.2.3矩与矩母函数 1.2.4协方差与协方差矩阵 1.3基本概率分布模型 1.3.1离散概率分布 1.3.2连续概率分布 1.3.3在R中使用内嵌分布 1.4概率论中的重要定理 1.4.1大数定理 1.4.2中央极限定理 1.5经验分布函数 第2章 统计推断 2.1参数估计 2.1.1参数估计的基本原理 2.1.2单总体参数区间估计 2.1.3双总体均值差的估计 2.1.4双总体比例差的估计 2.2假设检验 2.2.1基本概念 2.2.2两类错误 2.2.3均值检验 2.3极大似然估计 2.3.1极大似然法的基本原理 2.3.2求极大似然估计的方法 2.3.3极大似然估计应用举例 第3章 采样方法 3.1蒙特卡洛法求定积分 3.1.1无意识统计学家法则 3.1.2投点法 3.1.3期望法 3.2蒙特卡洛采样 3.2.1逆采样 3.2.2博克斯穆勒变换 3.2.3拒绝采样与自适应拒绝采样 3.3矩阵的极限与马尔科夫链 3.4查普曼柯尔莫哥洛夫等式 3.5马尔科夫链蒙特卡洛 3.5.1重要性采样 3.5.2马尔科夫链蒙特卡洛的基本概念 3.5.3MetropolisHastings算法 3.5.4Gibbs采样 第4章 非参数检验方法 4.1列联分析 4.1.1类别数据与列联表 4.1.2皮尔逊(Pearson)的卡方检验 4.1.3列联分析应用条件 4.1.4费希尔(Fisher)的确切检验 4.2符号检验 4.3威尔科克森符号秩检验 4.4威尔科克森的秩和检验 4.5克鲁斯卡尔沃利斯检验 第5章 一元线性回归 5.1回归分析的性质 5.2回归的基本概念 5.2.1总体的回归函数 5.2.2随机干扰的意义 5.2.3样本的回归函数 5.3回归模型的估计 5.3.1普通*小二乘法原理 5.3.2一元线性回归的应用 5.3.3经典模型的基本假定 5.3.4总体方差的无偏估计 5.3.5估计参数的概率分布 5.4正态条件下的模型检验 5.4.1拟合优度的检验 5.4.2整体性假定检验 5.4.3单个参数的检验 5.5一元线性回归模型预测 5.5.1点预测 5.5.2区间预测 第6章 多元线性回归 6.1多元线性回归模型 6.2多元回归模型估计 6.2.1*小二乘估计量 6.2.2多元回归的实例 6.2.3总体参数估计量 6.3从线性代数角度理解*小二乘 6.3.1*小二乘问题的通解 6.3.2*小二乘问题的计算 6.4多元回归模型检验 6.4.1线性回归的显著性 6.4.2回归系数的显著性 6.5多元线性回归模型预测 6.6格兰杰因果关系检验 第7章 线性回归进阶 7.1更多回归模型函数形式 7.1.1双对数模型以及生产函数 7.1.2倒数模型与菲利普斯曲线 7.1.3多项式回归模型及其分析 7.2回归模型的评估与选择 7.2.1嵌套模型选择 7.2.2赤池信息准则 7.2.3逐步回归方法 7.3现代回归方法的新进展 7.3.1多重共线性 7.3.2岭回归 7.3.3从岭回归到LASSO 7.3.4正则化 第8章 方差分析方法 8.1方差分析的基本概念 8.2单因素方差分析方法 8.2.1基本原理 8.2.2分析步骤 8.2.3强度测量 8.3双因素方差分析方法 8.3.1无交互作用的分析 8.3.2有交互作用的分析 8.4多重比较 8.4.1多重t检验 8.4.2Dunnett检验 8.4.3Tukey的HSD检验 8.4.4NewmanKeuls检验 8.5方差齐性的检验方法 8.5.1Bartlett检验法 8.5.2Levene检验法 第9章 逻辑回归与*熵模型 9.1逻辑回归 9.2牛顿法解Logistic回归 9.3多元逻辑回归 9.4*熵模型 9.4.1*熵原理 9.4.2约束条件 9.4.3模型推导 9.4.4极大似然估计 第10章 聚类分析 10.1聚类的概念 10.2K均值算法 10.2.1距离度量 10.2.2算法描述 10.2.3数据分析实例 10.2.4图像处理应用举例 10.3*期望算法 10.3.1算法原理 10.3.2收敛探讨 10.4高斯混合模型 10.4.1模型推导 10.4.2应用实例 10.5密度聚类与DBSCAN算法 第11章 支持向量机 11.1线性可分的支持向量机 11.1.1函数距离与几何距离 11.1.2*间隔分类器 11.1.3拉格朗日乘数法 11.1.4对偶问题的求解 11.2松弛因子与软间隔模型 11.3非线性支持向量机方法 11.3.1从更高维度上分类 11.3.2非线性核函数方法 11.3.3机器学习中的核方法 11.3.4默瑟定理 11.4对数据进行分类的实践 11.4.1基本建模函数 11.4.2分析建模结果 第12章 贝叶斯推断 12.1贝叶斯公式与边缘分布 12.2贝叶斯推断中的重要概念 12.2.1先验概率与后验概率 12.2.2共轭分布 12.3朴素贝叶斯分类器 12.4贝叶斯网络 12.4.1基本结构单元 12.4.2模型推理 12.5贝叶斯推断的应用举例 第13章 降维与流形学习 13.1主成分分析(PCA) 13.2奇异值分解(SVD) 13.2.1一个基本的认识 13.2.2为什么可以做SVD 13.2.3SVD与PCA的关系 13.2.4应用举例与矩阵的伪逆 13.3多维标度法(MDS) 第14章 决策树 14.1决策树基础 14.1.1Hunt算法 14.1.2基尼测度与划分 14.1.3信息熵与信息增益 14.1.4分类误差 14.2决策树进阶 14.2.1ID3算法 14.2.2C4.5算法 14.3分类回归树 14.4决策树剪枝 14.4.1没有免费午餐原理 14.4.2剪枝方法 14.5分类器的评估 第15章 人工神经网络 15.1从感知机开始 15.1.1感知机模型 15.1.2感知机学习 15.1.3多层感知机 15.2基本神经网络 15.2.1神经网络结构 15.2.2符号标记说明 15.2.3后向传播算法 15.3神经网络实践 15.3.1核心函数介绍 15.3.2应用分析实践 附录A必不可少的数学基础 A.1泰勒公式 A.2海塞矩阵 A.3凸函数与詹森不等式 A.3.1凸函数的概念 A.3.2詹森不等式及其证明 A.3.3詹森不等式的应用 A.4泛函与抽象空间 A.4.1线性空间 A.4.2距离空间 A.4.3赋范空间 A.4.4巴拿赫空间 A.4.5内积空间 A.4.6希尔伯特空间 A.5从泛函到变分法 A.5.1理解泛函的概念 A.5.2关于变分的概念 A.5.3变分法的基本方程 A.5.4哈密尔顿原理 A.5.5等式约束下的变分 参考文献
内容摘要
本书从统计学观点出发,以数理统计为基础,全面系统地介绍了统计机器学习的主要方法。内容涉及回归(线性回归、多项式回归、非线性回归、岭回归,以及LASSO等)、分类(感知机、逻辑回归、朴素贝叶斯、决策树、支持向量机、人工神经网络等)、聚类(K均值、EM算法、密度聚类等)、蒙特卡洛采样(拒绝采样、自适应拒绝采样、重要性采样、吉布斯采样和马尔科夫链蒙特卡洛等)、降维与流形学习(SVD、PCA和MDS等),以及概率图模型基础等话题。此外,为方便读者自学,本书还扼要地介绍了机器学习中所推荐的数学知识(包括概率论与数理统计、凸优化及泛函分析基础等)。本书是统计机器学习及相关课程的教学参考书,适用于高等院校人工智能、机器学习或数据挖掘等相关专业的师生研习之用,也可供从事计算机应用,特别是数据科学相关专业的研发人员参考。
主编推荐
从统计学观点出发,以数理统计为基础,全面系统地介绍了机器学习的主要方法。 根据全新设计的学习路线图编写,注重夯实理论基础,更便于深化对知识点的理解,建立系统性的全局观。 对机器学习所涉及的数学基础进行了完整的解释和必要的铺垫,更便于读者对深化相关知识的理解。
精彩内容
在大量数据背后很可能隐藏了某些有用的信息或知识,而数据挖掘就是通过一定方法探寻这些信息或知识的过程。此外,数据挖掘同时受到很多学科和领域的影响,大体上看,数据挖掘可以被视为数据库、机器学习和统计学三者的交叉。简单来说,对数据挖掘而言,数据库提供了数据管理技术,而机器学习和统计学则提供了数据分析技术。 从名字中就不难看出,机器学习*初的研究动机是为了让计算机具有人类一样的学习能力以便实现人工智能。显然,没有学习能力的系统很难被认为是智能的。而这个所谓的学习,就是指基于一定的“经验”而构筑起属于自己的“知识”过程。 小蝌蚪找妈妈的故事很好地说明了这一过程。小蝌蚪没有见过自己的妈妈,它们向鸭子请教。鸭子告诉它们: “你们的妈妈有两只大眼睛。”看到金鱼有两只大眼睛,它们便把金鱼误认为是自己的妈妈。于是金鱼告诉它们: “你们妈妈的肚皮是白色的。”小蝌蚪看见螃蟹是白肚皮,又把螃蟹误认为是妈妈。螃蟹便告诉它们: “你们的妈妈有四条腿。”小蝌蚪看见一只乌龟摆动着四条腿在水里游,就把乌龟误认为是自己的妈妈。于是乌龟又说: “你们的妈妈披着绿衣裳,走起路来一蹦一跳。”在这个学习过程中,小蝌蚪的“经验”包括鸭子、金鱼、螃蟹和乌龟的话,以及“长得像上述四种动物的都不是妈妈”这样一条隐含的结论。*终,它们学到的“知识”就是“两只大眼睛、白肚皮、绿衣裳、四条腿,一蹦一跳的就是妈妈”。当然,故事的结局,小蝌蚪们就是靠着学到的这些知识成功地找到了妈妈。 反观机器学习,由于“经验”在计算机中主要是以“数据”的形式存在的,所以机器学习需要设法对数据进行分析,然后以此为基础构建一个“模型”,这个模型就是机器*终学到的“知识”。可见,小蝌蚪学习的过程是从“经验”学到“知识”的过程。相应地,机器学习的过程则是从“数据”学到“模型”的过程。正是因为机器学习能够从数据中学到“模型”,而数据挖掘的目的恰恰是找出数据背后的“信息或知识”,两者不谋而合,所以机器学习才逐渐成为数据挖掘*为重要的智能技术供应者而备受重视。 正如前面所说的,机器学习和统计学为数据挖掘提供了数据分析技术。而另一方面,统计学也是机器学习得以建立的一个重要基础。换句话说,统计学本身就是一种数据分析技术的同时,它也为以机器学习为主要手段的智能数据分析提供了理论基础。可见,统计学、机器学习和数据挖掘之间是紧密联系的。 统计学大师乔治·博克斯有一句广为人们提及的名言: “所有的模型都是错的,但其中一些是有用的。”无论是基于统计的方法,还是基于机器学习的方法,*终的模型都是对现实世界的抽象,而非毫无偏差的精准描述。相关理论只有与具体分析实例相结合才有意义。而在这个所谓的结合过程中,你既不能期待一种模型(或者算法)能够解决所有的(尽管是相同类型的)问题,也不能面对一组数据时,就能(准确地)预先知道哪种模型(或者算法)才是*适用的。或许你该记住另外一句话: “No clear reason to prefer one over another. Choice is task dependent(没有明确的原因表明一种方法胜于另外一种方法,选择通常是依赖于具体任务的)”。这也就突出了数据挖掘领域中实践的重要性,或者说由实践而来的经验的重要性。 以上所描述的观点正是激发本书写作初衷的核心理念。鉴于此,本书从统计学观点入手,并以统计分析理论为基础,进而对现代机器学习方法进行系统性的介绍。循序渐进,又兼收并蓄地将机器学习与统计分析中较为核心的理论与方法呈现给各位读者朋友。具体来说,本书主要涉及(但不限于)的内容有: 概率与数理统计基础,其中统计分析方法涉及参数估计、假设检验、极大似然法、非参数检验(含列联分析、符号检验、符号秩检验、秩和检验等)、方差分析方法等。 回归方法,包括线性回归、多元回归、多项式回归、非线性回归(含倒数模型、对数模型等)、岭回归,以及LASSO等。 监督学习与分类方法,包括感知机、逻辑回归(含*熵模型)、朴素贝叶斯、决策树(含ID3、C4.5、CART)、支持向量机、人工神经网络等。 无监督学习与聚类方法,包括K均值算法、EM算法(含高斯混合模型)、密度聚类中的DBSCAN算法等。 蒙特卡洛采样方法,包括逆采样、拒绝采样、自适应拒绝采样、重要性采样、吉布斯采样和马尔科夫链蒙特卡洛等。 概率图模型基础,主要以贝叶斯网络为例进行介绍。 降维与流形学习,包括奇异值分解、主成分分析和多维标度法等。 附录部分还简述了机器学习中所必备的其他数学基础,包括拉格朗日乘数法、詹森不等式与凸优化、多元函数*化、泛函空间理论(在解释核方法时会用到)等内容。 在叙述方式上,本书也注意从具体问题或实例入手,力求阐明问题提出的原委,从而由浅入深地阐明思路,并给出详细的数学推导过程,让读者知其然,更知其所以然。 此外,鉴于本书是以统计方法为切入点讲解机器学习理论的,在涉及数值计算、算法演示和数据分析应用时,我们选用R作为描述语言。R是当前在统计学领域占据统治地位的一种解释型语言。它语法简洁、容易上手,即使非专业人士也能轻松掌握。事实上,R语言在世界范围内的众多使用者绝大多数都来自于数学、统计学、应用经济学,以及生物信息学等其他非计算机领域。此外,R还是一种免费的、开源的数据分析集成环境。它拥有丰富而完善的软件包资源,甚至很多*的算法都可以在R中找到对应的实现。更重要的是,由于R对很多算法提供了完善的封装,再加之其简单易用的特点,本书并不要求读者已经具备R编程方面的背景。即使从未使用过R语言的人依然可以阅读本书。 读者亦可以访问笔者在CSDN上的技术博客(白马负金羁),本博客主要关注机器学习、数据挖掘、深度学习及数据科学等话题,其中提供的很多技术文章可以作为本书的补充材料,供广大读者在自学时参考。读者在阅读本书时遇到的问题以及对本书的意见或建议,可以在本博客上通过留言的方式同笔者进行交流。 自知论道须思量,几度无眠一文章。由于时间和能力有限,书中纰漏在所难免,真诚地希望各位读者和专家不吝批评、斧正。 左飞2020年4月
— 没有更多了 —
以下为对购买帮助不大的评价