Python与语言研究
¥
42.3
九五品
仅1件
作者李文平
出版社机械工业出版社
出版时间2021-01
版次1
装帧平装
货号A16
上书时间2024-12-10
商品详情
- 品相描述:九五品
图书标准信息
-
作者
李文平
-
出版社
机械工业出版社
-
出版时间
2021-01
-
版次
1
-
ISBN
9787111672371
-
定价
39.00元
-
装帧
平装
-
开本
16开
-
纸张
胶版纸
-
页数
164页
-
字数
243千字
- 【内容简介】
-
本书旨在向语言学研究者介绍如何使用Python,快速、准确地处理大规模语言数据。本书由三大部分16章构成,具体内容如下:
第1章,语言研究与编程。简单介绍语言研究中编写Python程序处理数据的必要性。
第2、3章是第1部分,使用Python处理文本。该部分以编写程序处理数据为前提介绍了文本数据的编码、查找、替换(第2章),以及文本处理时的强大工具——正则表达式(第3章)。
第4至11章是第2部分,Python的基础。该部分列举英语分析实例,解释了Python的基本操作。处理日语文本时字符编码的处理较为复杂,所以该部分以英语文本为中心进行讲解。第4章,Python入门。解释为什么使用Python,并图文并茂的教授Python的安装步骤和Python中的变量类型。
第5章,使用Python读取文件。介绍如何通过Python读取并保存文本文件。
第6章,Python的检索。以if函数为中心,解释说明检索目标数据。应用例子是只输出符合条件的行,和删除空白行等。
第7章,循环。介绍for循环,及循环控制命令continue和break的使用。应用例子是给每行添加行号,确认文件中是否出现某一单词等。
第8章,列表。介绍列表的概念,以及如何切分数据为列表等操作。应用例子是制作单词表等。
第9章,制作单词频度表。该内容可以说在语言研究中是必不可少的操作。
第10章,文件操作。介绍文件夹内所有文件的批处理。
第11章,在Python中使用正则表达式。正则表达式这一强大工具和Python结合,进行匹配和替换操作。
第12至16章是第3部分,Python的应用:以日语为中心,同时介绍汉语分词。该部分在第2部分内容的基础上,介绍了如何编写利用日语词素分析(形态素解析)检索日语文本的程序。第12章介绍日语词素分析。
第13章,介绍汉语分词。很多语言研究者需要进行英语和汉语;日语和汉语的对照研究,在对照时首先需要对汉语进行分词。本章主要介绍汉语分词工具NLPIR和Python jieba分词工具的安装和使用。
第14章,Python处理日语文本。以日语为例,介绍指定编码读取日语文件以及日语词汇频次表的制作方法。同样内容可以应用到汉语。
第15章,用Python进行KWIC检索。在说明KWIC是什么的基础上,介绍KWIC的Python实现方式。
第16章,使用Python检索词语搭配。词语搭配也叫语块,是语料库研究的重要内容之一。本章主要介绍设置不同的条件,以及以不同方式显示抽出词语搭配及其前后语境。
- 【作者简介】
-
西安交通大学本硕。理工科背景,本科时通过计算机2级(C++)考试,有一定的编程基础。
日本名古屋大学国际开发研究科博士,专业教育工学。擅长大规模数据处理,精通Perl,Python,R等语言。在《日本语教育》杂志上发表过单著论文,在其他杂志上也发表过多篇论文。
曾任名古屋大学助教后,现为大连海事大学校聘副教授。
担任研究生语料库语言学、语言信息处理等课程。
于西安交通大学、大连东软信息学院进行过自然语言处理方面的讲座。
现已加入浙江大学求是特聘教授刘海涛老师团队,从事依存语法、计量语言学方面研究。
- 【目录】
-
前言
篇准备工作与文本
章语言研究与编程
1.1学编程的理由
1.1.1大数据语言研究
1.1.2新增功能
1.1.3注意事项
1.2编程难点
1.3本书构成
1.3.1内容构成
1.3.2样本文件和相关软件
1.4本章小结
题
第2章文本数据
2.1文本文件的优点
2.2文本文件的使用
2.2.1文本编辑器
2.2.2文本编辑器的安装
2.2.3单文本检索
2.2.4多文本检索
2.2.5文本编辑器替换实例
2.3字符编码与换行编码
……
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价