• pyspark机器学自然语言处理与系统 编程语言 (印)普拉莫德·辛格
  • pyspark机器学自然语言处理与系统 编程语言 (印)普拉莫德·辛格
  • pyspark机器学自然语言处理与系统 编程语言 (印)普拉莫德·辛格
  • pyspark机器学自然语言处理与系统 编程语言 (印)普拉莫德·辛格
  • pyspark机器学自然语言处理与系统 编程语言 (印)普拉莫德·辛格
21年品牌 40万+商家 超1.5亿件商品

pyspark机器学自然语言处理与系统 编程语言 (印)普拉莫德·辛格

none

39.35 6.7折 59 全新

库存4件

北京丰台
认证卖家担保交易快速发货售后保障

作者(印)普拉莫德·辛格

出版社清华大学出版社

ISBN9787302540908

出版时间2020-01

版次1

装帧平装

开本16

页数160页

字数235千字

定价59元

货号xhwx_1202002000

上书时间2024-12-19

智胜图书专营店

七年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
正版特价新书
商品描述
目录:

章 数据 1.1 数据生成 1.2 spark 1.2.1 spark core 1.2.2 spark组件 1.3 设置环境 1.3.1 windows 1.3.2 ios 1.4 小结 第2章 机器学简介 2.1 有监督机器学 2.2 无监督机器学 2.3 半监督机器学 2.4 强化学 2.5 小结 第3章 数据处理 3.1 加载和读取数据 3.2 添加一个新列 3.3 筛选数据 3.3.1 条件 3.3.2 条件 3.4 列中的非重复值 3.5 数据分组 3.6 聚合 3.7 用户自定义函数(udf) 3.7.1 传统的python函数 3.7.2 使用lambda函数 3.7.3 pandas udf(向量化的udf) 3.7.4 pandas udf(多列) 3.8 去掉重复值 3.9 删除列 3.10 写入数据 3.10.1 csv 3.10.2 嵌套结构 3.11 小结 第4章 线回归 4.1 变量 4.2 理论 4.3 说明 4.4 评估 4.5 代码 4.5.1 数据信息 4.5.2 步骤1:创建sparksession对象 4.5.3 步骤2:读取数据集 4.5.4 步骤3:探究式数据分析 4.5.5 步骤4:特征工程化 4.5.6 步骤5:划分数据集 4.5.7 步骤6:构建和训练线回归模型 4.5.8 步骤7:在测试数据上评估线回归模型 4.6 小结 第5章 逻辑回归 5.1 概率 5.1.1 使用线回归 5.1.2 使用logit 5.2 截距(回归系数) 5.3 虚变量 5.4 模型评估 5.4.1 正确的正面预测 5.4.2 正确的负面预测 5.4.3 错误的正面预测 5.4.4 错误的负面预测 5.4.5 准确率 5.4.6 召回率 5.4.7 精度 5.4.8 f1分数 5.4.9 截断/阈值概率 5.4.10 roc曲线 5.5 逻辑回归代码 5.5.1 数据信息 5.5.2 步骤1:创建spark会话对象 5.5.3 步骤2:读取数据集 5.5.4 步骤3:探究式数据分析 5.5.5 步骤4:特征工程 5.5.6 步骤5:划分数据集 5.5.7 步骤6:构建和训练逻辑回归模型 5.5.8 训练结果 5.5.9 步骤7:在测试数据上评估线回归模型 5.5.10 混淆矩阵 5.6 小结 第6章 森林 6.1 决策树 6.1.1 熵 6.1.2 信息增益 6.2 森林 6.3 代码 6.3.1 数据信息 6.3.2 步骤1:创建sparksession对象 6.3.3 步骤2:读取数据集 6.3.4 步骤3:探究式数据分析 6.3.5 步骤4:特征工程 6.3.6 步骤5:划分数据集 6.3.7 步骤6:构建和训练森林模型 6.3.8 步骤7:基于测试数据进行评估 6.3.9 准确率 6.3.10 精度 6.3.11 auc曲线下的面积 6.3.12 步骤8:保存模型 6.4 小结 第7章 系统 7.1  7.1.1 基于流行度的rs 7.1.2 基于内容的rs 7.1.3 基于协同过滤的rs 7.1.4 混合系统 7.2 代码 7.2.1 数据信息 7.2.2 步骤1:创建sparksession对象 7.2.3 步骤2:读取数据集 7.2.4 步骤3:探究式数据分析 7.2.5 步骤4:特征工程 7.2.6 步骤5:划分数据集 7.2.7 步骤6:构建和训练系统模型 7.2.8 步骤7:基于测试数据进行预测和评估 7.2.9 步骤8:活动用户可能会喜欢的排名靠前的电影 7.3 小结 第8章 聚类 8.1 初识聚类 8.2 用途 8.2.1 k-均值 8.2.2 层次聚类 8.3 代码 8.3.1 数据信息 8.3.2 步骤1:创建sparksession对象 8.3.3 步骤2:读取数据集 8.3.4 步骤3:探究式数据分析 8.3.5 步骤4:特征工程 8.3.6 步骤5:构建k均值聚类模型 8.3.7 步骤6:聚类的可视化 8.4 小结 第9章 自然语言处理 9.1 引言 9.2 nlp涉及的处理步骤 9.3 语料 9.4 标记化 9.5 移除停用词 9.6 词袋 9.7 向量器 9.8 tf-idf 9.9 使用机器学进行文本分类 9.10 序列嵌入 9.11 嵌入 9.12 小结

内容简介:

使用pypark构建机器学模型、自然语言处理应用程序以及系统,从而应对各种业务挑战。本书首先介绍park的基础知识及其演进,然后讲解使用pypark构建传统机器学算法以及自然语言处理和系统的知识点。 pypark机器学、自然语言处理与系统阐释如何构建有监督机器学模型,比如线回归、逻辑回归、决策树和森林,还介绍了无监督机器学模型,比如k均值和层次聚类。本书重点介绍特征工程,以便使用pypark创建有用的特征,从而训练机器学模型。自然语言处理的相关章节将介绍文本处理、文本挖掘以及用于分类的嵌入。 在阅读完本书后,读者将了解如何使用pypark的机器学库构建和训练各种机器学模型。此外,还将熟练掌握相关的pypark组件,比如数据获取、数据处理和数据分析,通过使用它们开发数据驱动的智能应用。 主要特 构建一系列有监督和无监督机器学算法 使用park mllib库实现机器学算法 使用park mllib库开发系统 处理与特征工程、分类衡、偏差和方差以及交验证有关的问题,以便构建优的拟合模型 读者对象 数据科学家、机器学工程师。

作者简介:

普拉莫德辛格,pramod ingh是publici.apient公司数据科学部门的经理,目前正作为数据科学跟踪负责人与梅赛德斯奔驰的一个项目进行合作。他在机器学、数据工程、编程,以及为各种业务需求设计算法方面拥有丰富的实践经验,领域涉及零售、电信、汽车以及用消费品等行业。他在publici.apient主导了大量应对机器学和ai的战略计划。他在孟买大学获得了电气与电子工程的学士,并且在印度共生国际大学获得了mba(运营财务),还在iim – calcutta(印度管理学院加尔各答分校)获得了数据分析认证。在过去八年中,他一直在跟进多个数据项目。在大量客户项目中,他使用r、python、park和tenorflow应用机器学和深度学技术。他一直是各重大会议和大学的演讲常客。他会在publici.apient举办数据科学聚合并且定期出席关于ml和ai的网络研讨会。他和妻子以及两岁的儿子居住在班加罗尔。闲暇的时候,他喜欢弹吉他、写代码、阅读以及观看足球比赛。

—  没有更多了  —

以下为对购买帮助不大的评价

正版特价新书
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP