消息首页搜索举报

文本数据挖掘(第2版)

全新正版极速发货

60.6 6.1折 99 全新

库存2件

广东广州

认证卖家担保交易快速发货售后保障

作者宗成庆//夏睿//张家俊|责编:黎强//孙亚楠

出版社清华大学

ISBN9787302612957

出版时间2022-11

装帧平装

开本其他

定价99元

货号31640637

上书时间2024-09-04

书香美美

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 16小时
好评率暂无

最新上架

论语集释(上中下)(精)/新编诸子集成 ¥151.77

DK法律百科(全彩) ¥77.04

新时代主题大学英语进阶快速阅读(2第2版新题型版数字教材版) ¥12.91

历史的沙盘（上） ¥18.46

社会统计学(第3版21世纪通识教育系列教材) ¥29.99

数字技术赋能乡村振兴 ¥17.42

社区志愿服务组织与管理 ¥22.96

新SAT词汇红宝书 ¥37.13

阿布卡克斯历史大发现系列共29册 ¥593.22

商品详情

品相描述：全新

商品描述: 作者简介
张家俊，中科院自动化所模式识别国家重点实验室副研究员，研究方向为自然语言处理、机器翻译、跨语言跨模态信息处理等。担任中国中文信息学会机器翻译专委会副主任等职务。发表高水平学术论文60余篇，曾4次获得最佳论文奖。担任多个国际一流学术会议的领域主席和高级程序委员会委员。获中国中文信息学会2014年“钱伟长中文信息处理科学技术奖”（一等奖）和2018年“汉王青年创新奖”。2015年入选中国科协首届“青年人才托举工程”计划。

目录
第1章  绪论
  1.1  基本概念
  1.2  文本挖掘任务
  1.3  文本挖掘面临的困难
  1.4  方法概述与本书的内容组织
  1.5  进一步阅读
  习题
第2章  数据预处理和标注
  2.1  概述
  2.2  数据获取
  2.3  数据预处理
  2.4  数据标注
  2.5  基本工具
    2.5.1  汉语自动分词与词性标注
    2.5.2  句法分析
    2.5.3  n元语法模型
  2.6  进一步阅读
  习题
第3章  文本表示
  3.1  概述
  3.2  向量空间模型
    3.2.1  向量空间模型的基本概念
    3.2.2  特征项的构造与权重
    3.2.3  文本长度规范化
    3.2.4  特征工程
    3.2.5  其他文本表示方法
  3.3  词的分布式表示
    3.3.1  神经网络语言模型
    3.3.2  C&W模型
    3.3.3  CBOW与Skip-gram模型
    3.3.4  噪声对比估计与负采样
    3.3.5  字词混合的分布式表示方法
  3.4  短语的分布式表示
    3.4.1  基于词袋的分布式表示
    3.4.2  基于自动编码器的分布式表示
  3.5  句子的分布式表示
    3.5.1  通用的句子表示
    3.5.2  任务相关的句子表示
  3.6  文档的分布式表示
    3.6.1  通用的文档分布式表示
    3.6.2  任务相关的文档分布式表示
  3.7  进一步阅读
  习题
第4章  预训练语言模型
  4.1  概述
  4.2  ELMo：源自语言模型的语境化分布式向量表示
    4.2.1  基于双向LSTM的语言模型
    4.2.2  适应下游任务的语境化ELMo词向量
  4.3  GPT：生成式预训练模型
    4.3.1  Transformer

内容摘要
文本数据挖掘是通过机器学习、自然语言处理和推理等相关技术或方法，理解、分析和挖掘文本的内容，从而完成信息抽取、关系发现、热点预测、文本分类和自动摘要等具体任务的信息处理技术。本书主要介绍与文本数据挖掘有关的基本概
念、理论模型和实现算法，包括数据预处理、文本表示、文本分类、文本聚类、主题模型、情感分析与观点挖掘、话题检测与跟踪、信息抽取以及文本自动摘要等，最后通过具体实例展示相关技术在实际应用中的使用方法。
本书可作为高等院校计算机、自动化、网络安全、
大数据分析等专业，以及利用到文本信息处理的交叉学科（如金融财经、社会人文、生物医药等）的高年级本科生或研究生从事相关研究的入门参考书，也可供相关技术研发人员阅读和参考。

— 没有更多了 —