正版现货新书 数据分析通识 9787115544452 途索
全新正版现货,以书名为准,放心购买,购书咨询18931383650朱老师
¥
50.5
6.3折
¥
79.9
全新
库存33件
作者途索
出版社人民邮电出版社
ISBN9787115544452
出版时间2019-02
装帧平装
开本16开
定价79.9元
货号11641381
上书时间2024-12-16
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
途索,就职于大型互联网公司,数据分析专家,从事多年数据科学相关的工作。在消费级领域(C端)与企业级领域(B端)从事过数十个大数据与算法方面的工程与项目,曾多次得到公司的嘉奖和业内的肯定。
目录
第0章 技术与业务
0.1 一个场景
0.2 什么是业务
0.3 技术与业务的分工
0.4 数据分析工作者的定位
第1章 数据处理的抽象流程与数据系统的有机组成
1.1 数据与大数据
1.2 数据驱动的系统
1.3 数据处理的一般环节
1.4 数据的服务对象
1.5 与数据业务相关的技术分工
第2章 数据获取
2.1 获取数据需要的成本
2.2 获取数据的主要方式
2.2.1 设备采集
2.2.2 业务记录与调查
2.2.3 日志与埋点
2.2.4 爬虫抓取
2.2.5 合作、服务与购买
2.2.6 数据仓库
2.3 采样数据的陷阱
2.4 本章涉及的技术实现方案
2.4.1 爬虫抓取(Python版)
2.4.2 前端埋点SDK
2.4.3 日志采集
2.4.4 数据仓库
第3章 探索性数据分析与目的性数据分析
3.1 探索性数据分析
3.2 一份数据集
3.3 数据字段分类
3.4 遍历每个字段
3.4.1 了解离散属性
3.4.2 了解连续属性
3.4.3 分布与分箱
3.4.4 异常值与数据清洗
3.5 数据分析的本质
3.5.1 寻找用来比较的实体
3.5.2 拿什么进行比较
3.5.3 怎样进行比较
3.6 目的性数据分析
3.6.1 目的性数据分析的一般方法
3.6.2 目的性数据分析的意义
3.7 本章涉及的技术实现方案
3.7.1 数据分析软件
3.7.2 SQL
3.7.3 Python
3.7.4 大数据分析解决方案
第4章 展示信息的推荐方式——可视化
4.1 数据可视化
4.2 常见的图表类型与应用场景
4.2.1 趋势型
4.2.2 比较型
4.2.3 比例型
4.2.4 分布型
4.2.5 区间型
4.2.6 关联型
4.2.7 地理型
4.3 数据可视化与数据分析
4.3.1 数据可视化与假设检验、分布拟合
4.3.2 数据可视化与多维分析、钻取分析、交叉分析
4.3.3 数据可视化与秩次分析
4.3.4 数据可视化与相关分析、回归分析
4.3.5 数据可视化与分组归类
4.3.6 数据可视化与目的性数据分析
4.4 可视化数据交互
4.4.1 交互式可视化的流程
4.4.2 常见的数据可视化交互组件
4.5 可视化设计
4.5.1 可视化设计的美学原则
4.5.2 可视化设计的高效原则
4.5.3 可视化交互的一些准则
4.6 可视化工程
4.6.1 确定主题
4.6.2 提炼数据
4.6.3 选择合适的图表
4.6.4 可视化设计
4.7 本章涉及的技术实现方案
4.7.1 Python
4.7.2 开源可视化API
4.7.3 商业化
第5章 特征工程
5.1 变量、字段、属性、维度和特征
5.2 特征工程的内涵
5.3 特征获取
5.3.1 获取用于提取特征的数据
5.3.2 特征的可用性评估
5.3.3 从特征获取的角度清洗数据
5.4 特征处理与提取
5.4.1 数据清洗
5.4.2 特征选择
5.4.3 特征变换
5.4.4 特征抽取
5.4.5 特征衍生
5.5 特征监控
5.5.1 监控已有特征
5.5.2 寻找新的特征
5.6 一个例子
5.6.1 有哪些数据
5.6.2 提取业务特征
5.6.3 特征处理
5.6.4 二次特征衍生
5.6.5 二次特征处理
5.6.6 建模与迭代
5.7 头脑风暴
5.8 本章涉及的技术实现方案
5.8.1 Python
5.8.2 大数据平台的特征工程模块
5.8.3 组件化的特征工程
第6章 模型
6.1 模型的概念
6.2 业务模型、数据模型、函数模型
6.2.1 业务模型
6.2.2 数据模型
6.2.3 函数模型
6.2.4 其他“模型”与上述3种模型的关系
6.3 机器学习与统计建模的联系与区别
6.4 函数模型与业务
6.4.1 数据、特征工程与函数模型
6.4.2 监督学习、无监督学习、半监督学习与归纳偏置
6.4.3 交叉验证与过拟合
6.5 常见的函数模型
6.5.1 数据的刻画方式
6.5.2 分类与回归
6.5.3 聚类
6.5.4 关联
6.5.5 半监督学习
6.6 调参
6.6.1 调参调的是超参数
6.6.2 经验调参
6.6.3 简单模型
6.7 什么样的模型是好模型
6.7.1 模型选择
6.7.2 可解释性
6.7.3 奥卡姆剃刀原理
6.8 迁移学习与强化学习
6.8.1 迁移学习
6.8.2 强化学习
6.9 本章涉及的技术实现方案
6.9.1 Python
6.9.2 大数据
第7章 结果评价
7.1 分类模型的结果评价
7.1.1 正样本与负样本
7.1.2 混淆矩阵及其衍生指标
7.1.3 ROC 与 AUC
7.1.4 提升图
7.1.5 KS曲线
7.1.6 过采样与欠采样
7.2 回归模型的结果评价
7.2.1 基于保证数值的结果评价
7.2.2 基于比例数值的结果评价
7.2.3 决定系数与校正决定系数
7.3 聚类模型的结果评价
7.3.1 方差
7.3.2 轮廓系数
7.3.3 兰
内容摘要
02什么是业务
什么是业务?业务就是公司、团体、组织或个人的一个个事务,也可以视作一个个任务。如上文的场景所示,业务可以很宽泛,可以被拆解成一个个子业务,一个子业务也可以再被拆解成一个个“子子业务”,直到每一个业务没有必要再被拆分,可以被直接执行或以最低的成本实现。业务反映的是真实世界中集体或个人要做的事情,因而业务问题是极其复杂和多元的,要考虑哪些因素、不需要考虑哪些因素是有很大的不确定性的。因此,在每进行一次业务拆解,把一个宏观业务拆解为一个个子业务的过程中,信息失真和含义曲解是在所难免的。正是这样,如何“高保真”地在被拆解的子业务中保留业务真正的精神,正是考验“宏观业务拆解工作者”与“微观业务领会工作者”能力的关键。
技术呢?技术是生产与制作产品的系统知识或实现手段,针对本书内容尤其需要强调的是,数学、统计学、算法等理论知识也属于技术范畴。技术是业务最终落地的重要途径。不管
是什么样的业务,不管这个业务被拆解了几次,被拆成了什么样子,要是不能最终实现或完成。
那就必然是个会消耗资源且没有产出的失败业务。业务可以由人力完成,也可以由技术完成由于技术在生产力方面体现的巨大优势,可以由技术完成的事情,一般很少有公司或者组织愿意用人力去解决。因而,一个公司或组织的强大技术能力,可以有效支持业务的多样性和生产的高效率;公司或组织的技术能力大小,也基本反映了该公司或组织的业务范围大小。现在有不少的大公司比较注重技术输出,让很多中小企业使用他们的技术,正是为了达到用大公司的技术给中小企业的业务“赋能”,以此提升社会总体业务实现能力的目的(当然,也有赚钱的目的)。
业务终要靠技术得以落地实现,同时,业务也会推动技术的发展:最强大的石油勘探技术一定产生于石油勘探行业,最强大的数据开发技术与数据挖掘技术也一定诞生于数据体量巨大、数据业务丰富的公司……业务与技术,事实上是相互成就的关系:缺少了技术的业务就是“空中楼阁”,缺少了业务目标的技术就会没有方向与发展动力。很多技术人员非常重视“技术之美”,对一些破坏了这种“技术之美”的需求有很大抵触,这么做其实是不好的。技术的职责就是实现业务需求,因为技术本身的缺陷或能力而无法实现业务需求实属无奈,但若过分讲究所谓的“技术之美”“技术模式”,而牺牲业务需求,这就本末倒置了。
0.3技术与业务的分工
分工可以提升效率。
对于技术与业务这样的划分,就自然会有相应的人员分工,来完成对应的工作。技术问题就交由工程师这个群体完成,这个是毋庸置疑的。业务分工实在是太多了,宏观业务由各个董事与CXO主导,中观业务由中层与基层干部领导,再往下分,各种业务分工就数不胜数了……其中,有一类业务分工比较特殊,与其他业务型分工的上下游均为另一个业务型分工不同,这类业务分工会直面技术。这类分工的职务最初常由一个部门的领导担任,领导今天说做一个×××软件,实现YYY功能,技术人员便研发该软件并实现该功能。要是没有领会到领导的意思,做得让领导不满意了,领导就会提出一些相对比较具体的修改意见,技术人员就重新修改,直到领导满意为止。而如今,很多公司会设置一个专门的职位来负责这个工作,
产品经理是业务落地为技术形态的过程中的“业务方代言人”。产品经理的职责会被笼统
这个职位就是产品经理。
归为“负责产品从调研、定义这样的产品初级阶段,到产品项目管理这样的产品落地阶段,再到产品推广、效果反馈这样的产品运营阶段等产品全周期管理”。从与数据、技术相关的职责来看,产品经理的相关工作主要有两部分:一部分是在不同的产品阶段,通过数据分析的方式选择产品方案、确定产品效果;另一部分就是把要落地的业务,转化成一个个技术上的需求,并参与这些需求从“诞生”到实现的全过程。
主编推荐
1.来自阿里巴巴公司的一线数据分析工程师力作,人人看得懂用得上的数据分析书; 2.理论联系实际:书中大量的实例来自一线大厂,佐证数据分析和数据建模的理论和方法,对职场数据相关从业者很有帮助; 3.内容丰富:从数据开始,到数据的处理过程和可视化,到业务的数据分析、数据建模,再到数据与人工智能应用的结合等; 4.通俗易懂:通过大量的实例,把数据建模与数据分析讲解得通俗易懂,帮助大家快速成为数据分析实战高手。 主要内容包括:数据处理的抽象流程与数据系统的有机组成、数据获取、探索性数据分析与目的性数据分析、数据可视化、特征工程、模型(业务模型、数据模型、函数模型)、结果评价、数据应用等内容。
精彩内容
本书务实的数据分析科学技术、精彩的实际业务案例,很好地满足了从业者的实际需求;本书是作者结合近几年的工作经验,将在实际业务场景中的案例进行脱敏抽象,置于本书的每章之中,从而形成的一本把数据分析科学技术应用于实际业务的数据分析类图书。主要内容包括数据处理的抽象流程、数据系统的有机组成、数据获取、探索性数据分析、目的性数据分析、数据可视化、特征工程、模型、结果评价、数据应用等。 本书介绍了数据分析科学的许多方面,不但适合业务分析人员和数据分析与建模从业者学习,还可作为大专院校相关专业师生的学习用书,以及相关培训学校的教材。
媒体评论
作者目前任职于国内大型互联网公司,具有丰富的数据获取、处理和分析经验,他将自己的经验总结成书,所以,这是一本很好适合读者了解大数据、掌握数据分析的图书。书中有大量的实例佐证数据分析和数据建模的理论和方法,理论联系实际,而非空谈,对职场数据相关从业者很有帮助,强烈推荐大家学习。 阿里巴巴前资深算法专家 李瑞方 数据分析的本质是从业务出发解决实际的业务问题,本书从数据开始,到数据的处理过程和可视化,到业务的数据分析、数据建模,再到数据与人工智能应用的结合等,通过大量的实例,把数据建模与数据分析讲解得通俗易懂,助大家快速成为数据分析实战高手,强烈推荐本书。 开课吧合伙人 汪鸿俊 随着5G的普及,智能硬件设备的增加,数据仍将以几何倍数产生。正如马老师所预言的那样,未来某一天产生的数据将会比现在一年产生的数据量还要大。在数据已成为水电煤的今天,投身数据相关工作或许是最有”钱“途的职业之一。但数据真正的价值不以数量多寡而论,而在于通过对数据的加工处理分析,最终将海量的数据变成辅助决策和驱动业务的依据。数据分析师群体就是企业内点”数“成金的操盘手,左手提数右手报表、写的了SQL做的了PPT,是业务老大最器重的智囊团。那想成为一名数据分析师需要具备哪些技能?数据分析师日常的实际工作内容有哪些?数据分析师的职业前景如何?贾健超老师的这本新书将为你一一揭晓。 贾建超老师具有多年数据从业经验,这本书是以他视角结合自身经历写就的,不仅涵盖数据分析师的技能点,还结合生动活泼的业务案例让你深刻理解数据分析师的日常。 DataFun创始人 王大川
— 没有更多了 —
以下为对购买帮助不大的评价