消息首页搜索举报

大规模现代汉语分词语料库构建及应用

正版保障假一赔十可开发票

58.52 6.2折 95 全新

库存24件

广东广州

认证卖家担保交易快速发货售后保障

作者黄水清，王东波著

出版社南京大学出版社

ISBN9787305271489

出版时间2023-11

装帧其他

开本其他

定价95元

货号16168705

上书时间2024-10-27

灵感书店

三年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 10小时
好评率暂无

最新上架

一个青年艺术家的画像/二十世纪百大英文小说 ¥28.34

女房客(英汉对照) ¥22.67

日式烧烤(和味道) ¥30.68

税收策划36计 ¥52.27

118小时突破中级中文(练习册)(上) ¥33.88

政治科学研究(2020年卷·上) ¥43.08

欧洲旧石器时代社会/东北亚与欧亚草原考古学译丛 ¥110.88

地下结构试验与测试技术 ¥28.95

国际市场营销 ¥35.73

商品详情

品相描述：全新

商品描述

作者简介

黄水清，南京农业大学信息管理学院二级教授、博导，江苏省“333高层次人才培养工程”第二层次培养对象。主持国家社科基金重大和重点项目。获教育部、江苏省科技进步二等奖、江苏省哲社优秀成果一等奖。研究方向为文本信息计量等。王东波，南京农业大学教授，博导。主持国家自然科学基金、国家社科基金重大项目。江苏省“333高层次人才培养工程”第三层次培养对象。研究方向为知识管理与知识发现。

第1章绪论

1．1 背景与目标

1．2 价值与意义

第2章语料库研究及国内语料库的建设与发展

2．1 国内语料库研究的定量分析

2．1．1 发文量和发文时间

2．1．2 语料库研究学者合作分布

2．1．3 语料库研究主题演变

2．2 语料库的研究内容

2．2．1 语料库的构建

2．2．2 语料库的应用研究

2．3 国内代表性的语料库介绍

2．3．1 通用单语语料库

2．3．2 汉英双语平行语料库

2．3．3 其他汉外平行语料库

2．3．4 其他特色语料库

2．4 小结

第3章 NEPD语料库构建及测评

3．1 汉语分词语料及分词模型

3．2 原始语料获取及预处理

3．3 标注规范、过程及结果

3．4 NEPD语料库分词性能测评

3．4．1 分词性能比较的思路

3．4．2 性能测评与对比

3．5 小结

第4章 NEPD语料句长与词汇分布

4．1 句长与词汇分布的研究及NEPD的句子类型

4．2 字维度上的句长分布

4．2．1 2015年1月人民日报语料字维度上的句长分布

4．2．2 2015年2月人民日报语料字维度上的句长分布

4．2．3 2015年3月人民日报语料字维度上的句长分布

4．2．4 2015年4月人民日报语料字维度上的句长分布

4．2．5 2015年5月人民日报语料字维度上的句长分布

4．2．6 2015年6月人民日报语料字维度上的句长分布

4．2．7 2016年1月人民日报语料字维度上的句长分布

4．2．8 2017年1月人民日报语料字维度上的句长分布

4．2．9 2018年1月人民日报语料字维度上的句长分布

4．2．10 2022年1月人民日报语料字维度上的句长分布

4．3 词维度上的句长分布

4．3．1 2015年1月人民日报语料词维度上的句长分布

4．3．2 2015年2月人民日报语料词维度上的句长分布

……

第5章面向NEPD语料的分词歧义分析

第6章面向NEPD语料的深度学习分词模型构建

第7章面向NEPD语料的新闻关键词抽取

第8章面向NEPD语料的新闻自动摘要

第9章面向NEPD语料的新闻文本自动分类

第10章面向NEPD语料的新闻词汇级检索

第11章结语

参考文献

附录

后记

内容摘要

第1章绪论

我们身处科学技术蓬勃发展的时代,其中,信息技术的引领作用尤为突出。信息技术深刻地影响甚至完全改变了一些学科领域的研究对象与研究方法，进而催生了许多新兴学科。在多学科交叉基础上产生并发展起来的自然语言处理就是其中之一。

从目前已掌握的科学证据来看,语言是人类区别于其他生物的特有能力。尤其是作为人类历史上最伟大发明和创举之一的文字,更是为人类所独有。如果没有文字的发明与使用，人类便无法记录、保留并跨越时空传递海量的知识、信息，人类文明甚至不可能出现。《淮南子。本经训》中描述了仓颉创造文字后“天雨粟,鬼夜哭”的情景,用神话的笔法形象地揭示了文字发明与使用在人类文明史上开天辟地的作用。

语言不仅是人类的交流工具,同时也是人类最重要、最有效的思维工具，人类的智能常常与语言和语言能力存在密切的关系。因此，自然语言的计算机处理往往与人工智能联系在一起。

自然语言处理以各种人类自然语言为对象,以计算机的加工、处理、分析功能为手段,对语言及语言携带的相关信息进行定量化的研究，使人类自然语言成为人类与计算机可以共同理解与使用的对象,进而成为人机之间通信与交互的工具和桥梁。自然语言处理广泛应用于语言学、计算机科学、图书情报学等学科领域,基于语料和语料库的研究方法是其中的一个分支。

1.1背景与目标

语料,即语言材料,指的是为一定目的收集的真实语言环境中出现过的语音、词汇、句子、语法等素材，可以是原始录音、文字,也可转化为计算机存贮方式。语料通常需要达到一定的规模，视情形不同语料规模可大可小，以句子数量为例，从几百句至数亿句甚至更多均有可能。目前,语料以存贮于计算机中的文本形态比较多见。而语料库则是对真实语料进行人工或机器加工、标注后形成的数据集。根据对象与目的不同,语料库可以划分为多种类型,譬如，根据所收录语料的语种可分为单语语料库、双语语料库、多语语料库,根据所收录语料的主题可分为通用语料库、专题语料库,根据所收录语料的时间跨度可分为共时语料库、历时语料库,根据所收录语料是否书面语可分为口语语料库、书面语语料库。

语料库承载了语言知识,因而是开展与自然语言有关研究的有效工具和手段。自20世纪80年代以来，以语料库为基础的自然语言处理研究得到长足发展，多种规模、多种类型、多种语言的语料库纷纷出现,语料库的加工程度也越来越深化和细致。语言体现了人类思维方式，在人工智能语料库蓬勃发展的今天,语料库也常常被用作机器学习模型的训练集,直接决定了机器学习的运算效果。

在现代汉语通用语料库方面，由北京大学计算语言研究所俞士汶先生构建的1998年1月精加工北京大学人民日报语料库最具代表性,影响力也最大。以该语料库为主要工作内容,俞先生团队获得了包括国家科技进步二等奖在内的一系列奖项。除北大人民日报语料,国家语委现代汉语通用平衡语料库、清华汉语树库以及宾州树库中的现代汉语部分也为学界所知，但这几种语料库的原始语料与北大人民日报语料一样基本上都是2000年之前的。随着时代的发展，现代汉语在语言风格和使用习惯等方面不断地……

精彩内容

语料库是人工智能算法的训练集，直接决定了机器学习的运算效果。本书在系统综述语料库构建情况的基础上，选取2015年1-6月、2016年1月、2017年1月、2018年1月、2022年1月共10个月的《人民日报》发表的全部文章为对象，制定分词规范，经过对原始数据的多次清洗、标注和校对，构建了新时代《人民日报》语料库。基于所构建的人民日报分词语料库，对新时代《人民日报》的字、词分布进行了多个维度的统计与分析，深入研究分词不一致问题。同时，开展了以下应用研究：结合深度学习模型，构建了具有实用价值的深度学习分词模型；结合系列机器学习模型，完成了对新时代《人民日报》语料的关键词抽取及分析；围绕所构建的新时代《人民日报》语料，利用深度学习模型，探讨摘要的自动生成问题；针对《人民日报》版面已有的类别知识，充分利用所构建的《人民日报》分词语料，构建了《人民日报》类别自动判定模型。

— 没有更多了 —

大规模现代汉语分词语料库构建及应用

灵感书店

商品详情

相关推荐