• 数据架构(数据科学家的第一本书原书第2版)/数据科学与工程技术丛书
21年品牌 40万+商家 超1.5亿件商品

数据架构(数据科学家的第一本书原书第2版)/数据科学与工程技术丛书

全新正版 极速发货

40.08 4.5折 89 全新

库存2件

广东广州
认证卖家担保交易快速发货售后保障

作者(美)W.H.因蒙,(美)丹尼尔·林斯泰特,(美)玛丽·莱文斯

出版社机械工业出版社

ISBN9787111679608

出版时间2021-05

装帧其他

开本16开

定价89元

货号31146887

上书时间2024-05-23

谢岳书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
    丹尼尔·林斯泰特(Daniel Linstedt),“Data Vault之父”。他是Empowered Holdings公司的创始人及CEO,致力于为世界各地的商业和政府组织提供Data Vault、大数据、非结构化信息管理、敏捷方法等方面的咨询和服务。

目录
献词<br/>译者序<br/>第1章 数据架构与数据类型1<br/>1.1 数据架构简介1<br/>1.1.1 细分数据1<br/>1.1.2 重复性和非重复性非结构化数据2<br/>1.1.3 数据的“分水岭”2<br/>1.1.4 文本数据和非文本数据3<br/>1.1.5 各种形式的数据3<br/>1.1.6 商业价值4<br/>1.2 数据基础设施4<br/>1.2.1 重复性数据的两种类型4<br/>1.2.2 重复性结构化数据5<br/>1.2.3 重复性大数据6<br/>1.2.4 两种基础设施6<br/>1.2.5 基础设施的优化7<br/>1.2.6 比较两种基础设施8<br/>1.3 分水岭8<br/>1.3.1 企业数据的分类8<br/>1.3.2 什么是分水岭9<br/>1.3.3 重复性非结构化数据9<br/>1.3.4 非重复性非结构化数据10<br/>1.3.5 不同的环境12<br/>1.4 企业数据统计图13<br/>1.5 企业数据分析16<br/>1.6 数据的生命周期:理解时间线上的数据19<br/>1.7 数据简史23<br/>1.7.1 纸带和打孔卡23<br/>1.7.2 磁带23<br/>1.7.3 磁盘存储器24<br/>1.7.4 数据库管理系统24<br/>1.7.5 耦合处理器24<br/>1.7.6 在线事务处理24<br/>1.7.7 数据仓库25<br/>1.7.8 并行数据管理25<br/>1.7.9 数据保险箱25<br/>1.7.10 大数据25<br/>1.7.11 分水岭26<br/>第2章 终端状态架构——“世界地图”27<br/>2.1 架构组件27<br/>2.2 终端状态架构中不同类型的数据28<br/>2.3 通过模型塑造数据29<br/>2.4 数据仓库在哪里30<br/>2.5 不同类型的问题在终端状态架构中得到不同的回答31<br/>2.6 数据湖中的数据31<br/>2.7 终端状态架构中的元数据32<br/>2.8 网络化元数据32<br/>2.9 演变的经验33<br/>2.10 数据湖架构34<br/>第3章 终端状态架构中的转换35<br/>3.1 冗余数据35<br/>3.2 转换35<br/>3.3 定制数据36<br/>3.4 转换文本37<br/>3.5 转换应用数据37<br/>3.6 将数据转换为定制状态38<br/>3.7 将数据转换为批量存储38<br/>3.8 自动生成数据的转换39<br/>3.9 转换批量数据39<br/>3.10 转换和冗余40<br/>第4章 大数据41<br/>4.1 大数据简史41<br/>4.1.1 类比—占领制高点41<br/>4.1.2 占领制高点42<br/>4.1.3 IBM 360的标准化42<br/>4.1.4 在线事务处理42<br/>4.1.5 Teradata和MPP处理43<br/>4.1.6 Hadoop和大数据43<br/>4.1.7 IBM和Hadoop43<br/>4.1.8 坚守制高点43<br/>4.2 何谓大数据43<br/>4.2.1 另一种定义44<br/>4.2.2 大体量44<br/>4.2.3 廉价存储44<br/>4.2.4 罗马人口普查方法44<br/>4.2.5 非结构化数据45<br/>4.2.6 大数据中的数据46<br/>4.2.7 重复性数据的语境46<br/>4.2.8 非重复性数据47<br/>4.2.9 非重复性数据的语境47<br/>4.3 并行处理49<br/>4.4 非结构化数据53<br/>4.4.1 无处不在的文本信息53<br/>4.4.2 基于结构化数据的决策53<br/>4.4.3 商业价值建议54<br/>4.4.4 重复性和非重复性非结构化信息54<br/>4.4.5 易于分析55<br/>4.4.6 语境化56<br/>4.4.7 一些语境化方法56<br/>4.4.8 Map Reduce57<br/>4.4.9 手工分析58<br/>4.5 将重复性非结构化数据语境化58<br/>4.5.1 解析重复性非结构化数据59<br/>4.5.2 重铸输出数据59<br/>4.6 文本消歧59<br/>4.6.1 从叙述性数据库到分析性数据库60<br/>4.6.2 文本消歧的输入60<br/>4.6.3 映射61<br/>4.6.4 输入/输出61<br/>4.6.5 文档分解和命名值处理62<br/>4.6.6 文档预处理63<br/>4.6.7 电子邮件63<br/>4.6.8 电子表格64<br/>4.6.9 报告反编译器64<br/>4.7 分类法65<br/>4.7.1 数据模型和分类法66<br/>4.7.2 分类法的适用性67<br/>4.7.3 什么是分类法67<br/>4.7.4 多种语言的分类法68<br/>4.7.5 商业分类法还是私人分类法68<br/>4.7.6 分类法和文本消歧的动态过程68<br/>4.7.7 分类法和文本消歧的分离技术68<br/>4.7.8 分类法的不同类型69<br/>4.7.9 分类法—随着时间的推移进行维护70<br/>第5章 孤岛式应用环境71<br/>5.1 孤岛式应用的挑战71<br/>5.2 构建孤岛式应用73<br/>5.3 孤岛式应用是什么样的74<br/>5.4 当前值数据74<br/>5.5 最低限度的历史数据75<br/>5.6 高可用性76<br/>5.7 孤岛式应用之间的重叠76<br/>5.8 冻结业务需求77<br/>5.9 拆除孤岛式应用77<br/>第6章 数据保险箱78<br/>6.1 数据保险箱2.0简介78<br/>6.1.1 数据保险箱的起源和背景78<br/>6.1.2 什么是数据保险箱2.0建模80<br/>6.1.3 如何定义数据保险箱2.0方法论81<br/>6.1.4 为什么需要数据保险箱2.0架构81<br/>6.1.5 数据保险箱2.0的实施范围81<br/>6.1.6 数据保险箱2.0的商业利益81<br/>6.1.7 数据保险箱1.0简介82<br/>6.2 数据保险箱建模简介83<br/>6.2.1 数据保险箱模型的概念83<br/>6.2.2 数据保险箱模型的定义83<br/>6.2.3 数据保险箱模型的组成部分83<br/>6.2.4 业务键为何如此重要84<br/>6.2.5 数据保险箱和数据仓库的关系85<br/>6.2.6 如何转换到数据保险箱建模85<br/>6.2.7 为什么要对暂存区的数据进行限制86<br/>6.2.8 数据保险箱模型的基本规则86<br/>6.2.9 为什么需要很多链接结构87<br/>6.2.10 数据保险箱2.0的主键选项87<br/>6.3 数据保险箱架构简介93<br/>6.3.1 什么是数据保险箱2.0架构93<br/>6.3.2 如何将NoSQL融入架构93<br/>6.3.3 数据保险箱2.0架构的目标94<br/>6.3.4 数据保险箱2.0模型的目标94<br/>6.3.5 硬业务规则和软业务规则95<br/>6.3.6 如何将管理型自助BI融入架构95<br/>6.4 数据保险箱方法论简介96<br/>6.4.1 数据保险箱2.0方法论概述96<br/>6.4.2 CMMI对方法论的贡献96<br/>6.4.3 如果CMMI这么好,为什么还要关心敏捷性98<br/>6.4.4 如果有CMMI和敏捷就足够了,为什么要加入PMP和SDLC98<br/>6.4.5 六西格玛对方法论的贡献99<br/>6.4.6 TQM与方法论的关系100<br/>6.5 数据保险箱实施简介101<br/>6.5.1 实施概述101<br/>6.5.2 模式的重要性101<br/>6.5.3 为什么重新设计会因大数据而发生102<br/>6.5.4 为什么需要虚拟数据集市103<br/>6.5.5 什么是管理型自助BI103<br/>第7章 运营数据105<br/>7.1 运营环境简史105<br/>7.1.1 计算机的商业用途105<br/>7.1.2 首个应用105<br/>7.1.3 爱德华·尤登和结构化革命106<br/>7.1.4 系统开发生命周期106<br/>7.1.5 磁盘技术107<br/>7.1.6 关系数据库管理系统107<br/>7.1.7 响应时间和可用性107<br/>7.1.8 今天的企业计算108<br/>7.2 标准工作单元109<br/>7.2.1 响应时间的要素109<br/>7.2.2 沙漏类比109<br/>7.2.3 赛车场类比110<br/>7.2.4 你的车辆与前面的车辆速度一样快111<br/>7.2.5 标准工作单元的要求111<br/>7.2.6 服务水平协议 111<br/>7.3 结构化环境的数据建模111<br/>7.3.1 路线图的目的111<br/>7.3.2 只为颗粒数据建模112<br/>7.3.3 实体关系图112<br/>7.3.4 数据项集113<br/>7.3.5 物理数据库设计113<br/>7.3.6 数据模型不同层次的关联性114<br/>7.3.7 连接示例115<br/>7.3.8 通用数据模型115<br/>7.3.9 运营数据模型和数据仓库数据模型115<br/>第8章 数据架构116<br/>8.1 数据架构简史116<br/>8.2 大数据和系统接口123<br/>8.2.1 大数据和系统接口概述123<br/>8.2.2 重复性原始大数据和系统接口123<br/>8.2.3 基于异常的数据124<br/>8.2.4 非重复性原始大数据和系统接口125<br/>8.2.5 进入现有系统环境125<br/>8.2.6 语境丰富的大数据环境126<br/>8.2.7 联合分析结构化数据和非结构化数据127<br/>8.3 数据仓库和操作环境接口127<br/>8.3.1 运营环境和数据仓库接口127<br/>8.3.2 经典ETL接口128<br/>8.3.3 ODS和ETL接口128<br/>8.3.4 暂存区129<br/>8.3.5 变动数据捕获129<br/>8.3.6 内嵌转换130<br/>8.3.7 ELT处理130<br/>8.4 数据架构:高层视角131<br/>8.4.1 高层视角131<br/>8.4.2 冗余132<br/>8.4.3 记录系统132<br/>8.4.4 问题的不同类型133<br/>8.4.5 不同的社区134<br/>第9章 重复性分析135<br/>9.1 重复性分析的基础知识135<br/>9.1.1 不同的分析类型135<br/>9.1.2 寻找模式136<br/>9.1.3 启发式处理137<br/>9.1.4 冻结数据137<br/>9.1.5 沙箱138<br/>9.1.6 “正常”概况139<br/>9.1.7 提炼和过滤139<br/>9.1.8 数据子集140<br/>9.1.9 样本的偏差141<br/>9.1.10 过滤数据141<br/>9.1.11 重复性数据及其语境142<br/>9.1.12 将重复记录链接起来143<br/>9.1.13 日志磁带记录143<br/>9.1.14 分析数据点144<br/>9.1.15 离群值144<br/>9.1.16 随时间推移的数据145<br/>9.2 分析重复性数据146<br/>9.2.1 日志数据147<br/>9.2.2 数据的主动索引和被动索引148<br/>9.2.3 汇总数据和详细数据149<br/>9.2.4 大数据中的元数据150<br/>9.2.5 链接数据151<br/>9.3 重复性分析的进阶知识151<br/>9.3.1 内部数据和外部数据151<br/>9.3.2 通用标识符152<br/>9.3.3 安全性153<br/>9.3.4 过滤和提炼154<br/>9.3.5 归档结果155<br/>9.3.6 衡量指标156<br/>第10章 非重复性数据157<br/>10.1 非重复性数据的基础知识157<br/>10.1.1 内嵌式语境化159<br/>10.1.2 分类法和本体论处理160<br/>10.1.3 自定义变量160<br/>10.1.4 同形异义词消解161<br/>10.1.5 缩略词消解162<br/>10.1.6 否定分析163<br/>10.1.7 数值标记163<br/>10.1.8 日期标记164<br/>10.1.9 日期标准化164<br/>10.1.10 列表处理164<br/>10.1.11 关联词处理165<br/>10.1.12 停用词处理165<br/>10.1.13 词干提取165<br/>10.1.14 文档元数据166<br/>10.1.15 文档分类166<br/>10.1.16 邻近度分析167<br/>10.1.17 文本ETL中的函数序列化167<br/>10.1.18 内部引用完整性167<br/>10.1.19 预处理和后处理168<br/>10.2 映射169<br/>10.3 分析非重复性数据170<br/>10.3.1 呼叫中心信息171<br/>10.3.2 病历177<br/>第11章 运营分析:响应时间181<br/>11.1 事务响应时间182<br/>第12章 运营分析186<br/>12.1 看待数据的不同视角189<br/>12.2 数据集市189<br/>12.3 运营数据存储190<br/>第13章 个人分析193<br/>第14章 终端状态架构中的数据模型196<br/>14.1 不同的数据模型196<br/>14.2 功能分解和数据流图197<br/>14.3 企业数据模型198<br/>14.4 星形连接和维度数据模型200<br/>14.5 分类法和本体论201<br/>14.6 数据的选择性细分203<br/>14.7 主动数据模型和被动数据模型204<br/>第15章 记录系统206<br/>15.1 终端用户的认知周期206<br/>15.2 记录系统简介207<br/>15.3 终端状态架构中的记录系统207<br/>15.4 老化在记录系统中的作用208<br/>15.5 简单示例208<br/>15.6 记录系统中的数据流209<br/>15.7 记录系统以外的其他数据209<br/>15.8 记录系统中的数据是否更新209<br/>15.9 记录系统中的详细数据和汇总数据210<br/>15.10 审计数据和记录系统211<br/>15.11 文本和记录系统211<br/>第16章 商业价值和终端状态架构213<br/>16.1 终端状态架构的演变213<br/>16.2 何谓商业价值214<br/>16.3 战术性商业价值和战略性商业价值214<br/>16.4 数据量和商业价值的关系215<br/>16.5 “百万分之一”综合征215<br/>16.6 商业价值发生在哪里216<br/>16.7 随时间推移的数据相关性216<br/>16.8 在哪里做出战术决策217<br/>第17章 管理文本数据218<br/>17.1 文本的挑战218<br/>17.2 语境的挑战220<br/>17.3 文本ETL的处理组件222<br/>17.4 二次分析222<br/>17.5 可视化223<br/>17.6 基于数据和结构化数据的文本合并223<br/>第18章 数据可视化简介224<br/>18.1 数据可视化概览224<br/>18.2 目的和背景225<br/>18.3 可视化—一门科学和一门艺术225<br/>18.4 可视化框架226<br/>18.5 步骤1:定义226<br/>18.6 步骤2:数据227&a

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP