Python机器学习实战案例(第2版高等学校人工智能理论与应用实践系列教材)9787302601241
正版图书,可开发票,请放心购买。
¥
28.8
4.9折
¥
59
全新
库存2件
作者赵卫东,董亮
出版社清华大学出版社
ISBN9787302601241
出版时间2022-03
装帧其他
开本16开
定价59元
货号31426966
上书时间2024-11-26
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
赵卫东,复旦大学计算机科学技术学院副教授。主要负责本科生和各类研究生机器学习、大数据核心技术和商务智能(商务数据分析)等课程的教学。2011年纽约大学访问学者、2015年上海市科技进步二等奖获得者、CDA三级认证数据科学家、腾讯云和百度云机器学习认证讲师。主讲的商务智能课程被评为上海市精品课程以及CMOOC联盟线上线下混合式教学改革项目,并获得2013年高等教育上海市教学成果奖二等奖。目前主要研究方向包括机器学习应用和大数据分析等。主持国家自然科学基金2项,国家重点研发计划子课题、上海市浦江人才以及企业合作课题等30多项。已在KnowledgeandInformationSystems,InformationProcessing&Management,InformationSystemsFrontiers等国内外刊物和学术会议发表论文100多篇。出版专著、教材《机器学习》《机器学习案例实战》《Python机器学习实战案例》等10多部。
目录
第1章 集装箱危险品瞒报预测
1.1 业务背景分析
1.2 数据提取
1.3 数据预处理
1.3.1 数据集成
1.3.2 数据清洗
1.3.3 数据变换
1.3.4 数据离散化
1.3.5 特征重要性筛选
1.3.6 数据平衡
1.4 危险品瞒报预测建模
1.5 模型评估
思考题
第2章 保险产品推荐
2.1 业务背景分析
2.2 数据探索
2.3 数据预处理
2.4 分类模型构建
2.5 平衡数据集
2.6 算法调参
2.7 模型比较
思考题
第3章 图书类目自动标引系统
3.1 业务背景分析
3.2 数据提取
3.3 数据预处理
3.4 基于贝叶斯分类的文献标引
3.4.1 增量训练
3.4.2 特征降维与消歧
3.4.3 权重调节
3.5 贝叶斯分类性能评估
3.6 基于BERT算法的文献标引
3.6.1 数据预处理
3.6.2 构建训练集
3.6.3 模型实现
思考题
第4章 基于分类算法的学习失败预警
4.1 业务背景分析
4.2 学习失败风险预测流程
4.3 数据收集
4.4 数据预处理
4.4.1 数据探查及特征选择
4.4.2 数据集划分及不平衡样本处理
4.4.3 样本生成及标准化处理
4.5 随机森林算法
4.5.1 网格搜索及模型训练
4.5.2 结果分析与可视化
4.5.3 特征重要性分析
4.5.4 与其他算法比较
思考题
内容摘要
机器学习是人工智能的重要技术基础,涉及的内容十分广泛。本书基于Python语言,实现了12个典型的实战案例,其内容涵盖了机器学习的基础算法,主要包括统计学习基础、可视化、常用的分类算法、文本分析、卷积神经网络、循环神经网络、注意力机制、生成对抗网络、电子推荐系统等理论。
本书深入浅出,以实际应用的项目作为案例,实践性强,注重提升读者的动手操作能力,适合作为高等院校本科生及研究生机器学习、深度学习、数据挖掘等课程的实验教材,也可作为对机器学习和深度学习感兴趣的研究人员和工程技术人员的参考资料。
精彩内容
第3章图书类目自动标引系统
21世纪以来,随着信息资源量的不断增长,世界各地的图书馆普遍使用大量数字资源进行数字化建设,如
何对数字资源进行加工整理成为数字化图书馆建设的重要方向之一。为了使数字资源像纸质文献一样能够被快速按类别进行检索,数字资源也需要进行标引。
无论是纸质资源还是数字资源,其分类都不是与生
俱来的,图书文献的标引人员需要经过培训,即使是经验丰富的图书标引人员也要根据纸质资源或数字资源的主要内容,参照《中图分类法》的分类规则进行分类标引。目前数字资源在图书馆馆藏资源中所占的比例已经越来越大,数字资源的标引工作也变得越来越重要,如
何在数字资源种类和规模都在迅速增长的情况下仍然兼
顾标引的质量和速度,是任何一个数字化图书馆都不可忽视的重要项目。
3.1业务背景分析目前对于图书馆收录的数字资源,大部分图书馆仍然在采取人工分类的方式对数字资源进行标引,这种方法需要经验非常丰富的标引人员耗费大量时间才能完成。因此数字资源的自动标引方法不仅可以节省人力和财力,而且还能够大大提高数字资源标引的速度,缩短资源上架周期,被读者更好地利用,有利于知识的传播。
而目前图书馆所能够使用的数字资源自动标引系统均较为陈旧,其算法依赖词表和知识库的构建,且并未使用近年来机器学习和自然语言处理领域的最新成果。这些系统的标引准确率低下,且对于部分数字资源需要人工参与进行协助分类或者检验,并不能从真正意义上解放人力资源,达不到自动标引的要求。而近年来快速发展的基于机器学习和自然语言处理的算法,并没有在数字资源标引系统上有效应用。
3.2数据提取这里将使用某市图书馆提供的F经济大类馆藏数字资源作为语料素材。数字资源的文献标题、期刊或会议名称、作者、单位、时间、文献摘要和作者给出的关键词组成了全部数字资源的索引数据库部分,而数字资源的全文则以二进制大文件的形式单独进行存储。
由于多数字段空值比例较高,从中选择部分字段作为机器标引的输入特征,经过筛选,选择标题、出版社、关键词、摘要作为后续分类标引的依据,如图3.1所
示。
图3.1待标引文献数据示例图书馆提供的初始数据库文件为Access数据库,文件类型为mdb,一共有74万条样本数量。首先安装Access数据驱动以及pyobdc工具包,连接Access数据库并将数据导出为csv文件。 在Windows系统上运行以下代码:importpyodbcprint([xforxinpyodbc.drivers()ifx.startswith('MicrosoftAccessDriver')])如果看到一个空列表,那么正在运行64位Python,
— 没有更多了 —
以下为对购买帮助不大的评价