消息首页搜索举报

数据架构(数据科学家的第一本书原书第2版)/数据科学与工程技术丛书

全新正版极速发货

40.08 4.5折 89 全新

库存2件

广东广州

认证卖家担保交易快速发货售后保障

作者(美)W.H.因蒙,(美)丹尼尔·林斯泰特,(美)玛丽·莱文斯

出版社机械工业出版社

ISBN9787111679608

出版时间2021-05

装帧其他

开本16开

定价89元

货号31146887

上书时间2024-05-23

谢岳书店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 17小时
好评率暂无

最新上架

鸿蒙OS智能设备开发基础(计算机科学与技术微课版面向新工科专业建设计算机系列教材) ¥33.77

“双碳”目标下绿色技术市场推广问题与策略 ¥34.96

儿童咬合诱导 ¥193.14

MBA学位论文写作指南 ¥22.24

人工智能应用于肿瘤放射治疗的理论与实践 ¥45.04

舒克贝塔传(8微缩人类)/皮皮鲁总动员经典童话系列 ¥6.35

舒克贝塔传(3双子星球时空之旅)/皮皮鲁总动员经典童话系列 ¥6.35

暖通空调工程常见问题解析 ¥33.88

部编本语文教材教学设计八年级下 ¥22.20

商品详情

品相描述：全新

商品描述: 作者简介
丹尼尔·林斯泰特（Daniel Linstedt），“Data Vault之父”。他是Empowered Holdings公司的创始人及CEO，致力于为世界各地的商业和政府组织提供Data Vault、大数据、非结构化信息管理、敏捷方法等方面的咨询和服务。

目录
献词 译者序 第1章　数据架构与数据类型1 1.1　数据架构简介1 1.1.1　细分数据1 1.1.2　重复性和非重复性非结构化数据2 1.1.3　数据的“分水岭”2 1.1.4　文本数据和非文本数据3 1.1.5　各种形式的数据3 1.1.6　商业价值4 1.2　数据基础设施4 1.2.1　重复性数据的两种类型4 1.2.2　重复性结构化数据5 1.2.3　重复性大数据6 1.2.4　两种基础设施6 1.2.5　基础设施的优化7 1.2.6　比较两种基础设施8 1.3　分水岭8 1.3.1　企业数据的分类8 1.3.2　什么是分水岭9 1.3.3　重复性非结构化数据9 1.3.4　非重复性非结构化数据10 1.3.5　不同的环境12 1.4　企业数据统计图13 1.5　企业数据分析16 1.6　数据的生命周期：理解时间线上的数据19 1.7　数据简史23 1.7.1　纸带和打孔卡23 1.7.2　磁带23 1.7.3　磁盘存储器24 1.7.4　数据库管理系统24 1.7.5　耦合处理器24 1.7.6　在线事务处理24 1.7.7　数据仓库25 1.7.8　并行数据管理25 1.7.9　数据保险箱25 1.7.10　大数据25 1.7.11　分水岭26 第2章　终端状态架构——“世界地图”27 2.1　架构组件27 2.2　终端状态架构中不同类型的数据28 2.3　通过模型塑造数据29 2.4　数据仓库在哪里30 2.5　不同类型的问题在终端状态架构中得到不同的回答31 2.6　数据湖中的数据31 2.7　终端状态架构中的元数据32 2.8　网络化元数据32 2.9　演变的经验33 2.10　数据湖架构34 第3章　终端状态架构中的转换35 3.1　冗余数据35 3.2　转换35 3.3　定制数据36 3.4　转换文本37 3.5　转换应用数据37 3.6　将数据转换为定制状态38 3.7　将数据转换为批量存储38 3.8　自动生成数据的转换39 3.9　转换批量数据39 3.10　转换和冗余40 第4章　大数据41 4.1　大数据简史41 4.1.1　类比—占领制高点41 4.1.2　占领制高点42 4.1.3　IBM 360的标准化42 4.1.4　在线事务处理42 4.1.5　Teradata和MPP处理43 4.1.6　Hadoop和大数据43 4.1.7　IBM和Hadoop43 4.1.8　坚守制高点43 4.2　何谓大数据43 4.2.1　另一种定义44 4.2.2　大体量44 4.2.3　廉价存储44 4.2.4　罗马人口普查方法44 4.2.5　非结构化数据45 4.2.6　大数据中的数据46 4.2.7　重复性数据的语境46 4.2.8　非重复性数据47 4.2.9　非重复性数据的语境47 4.3　并行处理49 4.4　非结构化数据53 4.4.1　无处不在的文本信息53 4.4.2　基于结构化数据的决策53 4.4.3　商业价值建议54 4.4.4　重复性和非重复性非结构化信息54 4.4.5　易于分析55 4.4.6　语境化56 4.4.7　一些语境化方法56 4.4.8　Map Reduce57 4.4.9　手工分析58 4.5　将重复性非结构化数据语境化58 4.5.1　解析重复性非结构化数据59 4.5.2　重铸输出数据59 4.6　文本消歧59 4.6.1　从叙述性数据库到分析性数据库60 4.6.2　文本消歧的输入60 4.6.3　映射61 4.6.4　输入/输出61 4.6.5　文档分解和命名值处理62 4.6.6　文档预处理63 4.6.7　电子邮件63 4.6.8　电子表格64 4.6.9　报告反编译器64 4.7　分类法65 4.7.1　数据模型和分类法66 4.7.2　分类法的适用性67 4.7.3　什么是分类法67 4.7.4　多种语言的分类法68 4.7.5　商业分类法还是私人分类法68 4.7.6　分类法和文本消歧的动态过程68 4.7.7　分类法和文本消歧的分离技术68 4.7.8　分类法的不同类型69 4.7.9　分类法—随着时间的推移进行维护70 第5章　孤岛式应用环境71 5.1　孤岛式应用的挑战71 5.2　构建孤岛式应用73 5.3　孤岛式应用是什么样的74 5.4　当前值数据74 5.5　最低限度的历史数据75 5.6　高可用性76 5.7　孤岛式应用之间的重叠76 5.8　冻结业务需求77 5.9　拆除孤岛式应用77 第6章　数据保险箱78 6.1　数据保险箱2.0简介78 6.1.1　数据保险箱的起源和背景78 6.1.2　什么是数据保险箱2.0建模80 6.1.3　如何定义数据保险箱2.0方法论81 6.1.4　为什么需要数据保险箱2.0架构81 6.1.5　数据保险箱2.0的实施范围81 6.1.6　数据保险箱2.0的商业利益81 6.1.7　数据保险箱1.0简介82 6.2　数据保险箱建模简介83 6.2.1　数据保险箱模型的概念83 6.2.2　数据保险箱模型的定义83 6.2.3　数据保险箱模型的组成部分83 6.2.4　业务键为何如此重要84 6.2.5　数据保险箱和数据仓库的关系85 6.2.6　如何转换到数据保险箱建模85 6.2.7　为什么要对暂存区的数据进行限制86 6.2.8　数据保险箱模型的基本规则86 6.2.9　为什么需要很多链接结构87 6.2.10　数据保险箱2.0的主键选项87 6.3　数据保险箱架构简介93 6.3.1　什么是数据保险箱2.0架构93 6.3.2　如何将NoSQL融入架构93 6.3.3　数据保险箱2.0架构的目标94 6.3.4　数据保险箱2.0模型的目标94 6.3.5　硬业务规则和软业务规则95 6.3.6　如何将管理型自助BI融入架构95 6.4　数据保险箱方法论简介96 6.4.1　数据保险箱2.0方法论概述96 6.4.2　CMMI对方法论的贡献96 6.4.3　如果CMMI这么好，为什么还要关心敏捷性98 6.4.4　如果有CMMI和敏捷就足够了，为什么要加入PMP和SDLC98 6.4.5　六西格玛对方法论的贡献99 6.4.6　TQM与方法论的关系100 6.5　数据保险箱实施简介101 6.5.1　实施概述101 6.5.2　模式的重要性101 6.5.3　为什么重新设计会因大数据而发生102 6.5.4　为什么需要虚拟数据集市103 6.5.5　什么是管理型自助BI103 第7章　运营数据105 7.1　运营环境简史105 7.1.1　计算机的商业用途105 7.1.2　首个应用105 7.1.3　爱德华·尤登和结构化革命106 7.1.4　系统开发生命周期106 7.1.5　磁盘技术107 7.1.6　关系数据库管理系统107 7.1.7　响应时间和可用性107 7.1.8　今天的企业计算108 7.2　标准工作单元109 7.2.1　响应时间的要素109 7.2.2　沙漏类比109 7.2.3　赛车场类比110 7.2.4　你的车辆与前面的车辆速度一样快111 7.2.5　标准工作单元的要求111 7.2.6　服务水平协议　111 7.3　结构化环境的数据建模111 7.3.1　路线图的目的111 7.3.2　只为颗粒数据建模112 7.3.3　实体关系图112 7.3.4　数据项集113 7.3.5　物理数据库设计113 7.3.6　数据模型不同层次的关联性114 7.3.7　连接示例115 7.3.8　通用数据模型115 7.3.9　运营数据模型和数据仓库数据模型115 第8章　数据架构116 8.1　数据架构简史116 8.2　大数据和系统接口123 8.2.1　大数据和系统接口概述123 8.2.2　重复性原始大数据和系统接口123 8.2.3　基于异常的数据124 8.2.4　非重复性原始大数据和系统接口125 8.2.5　进入现有系统环境125 8.2.6　语境丰富的大数据环境126 8.2.7　联合分析结构化数据和非结构化数据127 8.3　数据仓库和操作环境接口127 8.3.1　运营环境和数据仓库接口127 8.3.2　经典ETL接口128 8.3.3　ODS和ETL接口128 8.3.4　暂存区129 8.3.5　变动数据捕获129 8.3.6　内嵌转换130 8.3.7　ELT处理130 8.4　数据架构：高层视角131 8.4.1　高层视角131 8.4.2　冗余132 8.4.3　记录系统132 8.4.4　问题的不同类型133 8.4.5　不同的社区134 第9章　重复性分析135 9.1　重复性分析的基础知识135 9.1.1　不同的分析类型135 9.1.2　寻找模式136 9.1.3　启发式处理137 9.1.4　冻结数据137 9.1.5　沙箱138 9.1.6　“正常”概况139 9.1.7　提炼和过滤139 9.1.8　数据子集140 9.1.9　样本的偏差141 9.1.10　过滤数据141 9.1.11　重复性数据及其语境142 9.1.12　将重复记录链接起来143 9.1.13　日志磁带记录143 9.1.14　分析数据点144 9.1.15　离群值144 9.1.16　随时间推移的数据145 9.2　分析重复性数据146 9.2.1　日志数据147 9.2.2　数据的主动索引和被动索引148 9.2.3　汇总数据和详细数据149 9.2.4　大数据中的元数据150 9.2.5　链接数据151 9.3　重复性分析的进阶知识151 9.3.1　内部数据和外部数据151 9.3.2　通用标识符152 9.3.3　安全性153 9.3.4　过滤和提炼154 9.3.5　归档结果155 9.3.6　衡量指标156 第10章　非重复性数据157 10.1　非重复性数据的基础知识157 10.1.1　内嵌式语境化159 10.1.2　分类法和本体论处理160 10.1.3　自定义变量160 10.1.4　同形异义词消解161 10.1.5　缩略词消解162 10.1.6　否定分析163 10.1.7　数值标记163 10.1.8　日期标记164 10.1.9　日期标准化164 10.1.10　列表处理164 10.1.11　关联词处理165 10.1.12　停用词处理165 10.1.13　词干提取165 10.1.14　文档元数据166 10.1.15　文档分类166 10.1.16　邻近度分析167 10.1.17　文本ETL中的函数序列化167 10.1.18　内部引用完整性167 10.1.19　预处理和后处理168 10.2　映射169 10.3　分析非重复性数据170 10.3.1　呼叫中心信息171 10.3.2　病历177 第11章　运营分析：响应时间181 11.1　事务响应时间182 第12章　运营分析186 12.1　看待数据的不同视角189 12.2　数据集市189 12.3　运营数据存储190 第13章　个人分析193 第14章　终端状态架构中的数据模型196 14.1　不同的数据模型196 14.2　功能分解和数据流图197 14.3　企业数据模型198 14.4　星形连接和维度数据模型200 14.5　分类法和本体论201 14.6　数据的选择性细分203 14.7　主动数据模型和被动数据模型204 第15章　记录系统206 15.1　终端用户的认知周期206 15.2　记录系统简介207 15.3　终端状态架构中的记录系统207 15.4　老化在记录系统中的作用208 15.5　简单示例208 15.6　记录系统中的数据流209 15.7　记录系统以外的其他数据209 15.8　记录系统中的数据是否更新209 15.9　记录系统中的详细数据和汇总数据210 15.10　审计数据和记录系统211 15.11　文本和记录系统211 第16章　商业价值和终端状态架构213 16.1　终端状态架构的演变213 16.2　何谓商业价值214 16.3　战术性商业价值和战略性商业价值214 16.4　数据量和商业价值的关系215 16.5　“百万分之一”综合征215 16.6　商业价值发生在哪里216 16.7　随时间推移的数据相关性216 16.8　在哪里做出战术决策217 第17章　管理文本数据218 17.1　文本的挑战218 17.2　语境的挑战220 17.3　文本ETL的处理组件222 17.4　二次分析222 17.5　可视化223 17.6　基于数据和结构化数据的文本合并223 第18章　数据可视化简介224 18.1　数据可视化概览224 18.2　目的和背景225 18.3　可视化—一门科学和一门艺术225 18.4　可视化框架226 18.5　步骤1：定义226 18.6　步骤2：数据227&a

— 没有更多了 —