NLTK（语料库） - 物流网资讯

NLTK（语料库）

2024-11-07 21:38

本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。 2.1 P41

NLTK（语料库）

古腾堡语料库主要包含一些文学书籍。先看一个例子，查看古腾堡语料库包含的文本名称：

utenberg是NLTK预先帮我们加载的语料库，我们可以把gutenberg看做是一个PlaintextCorpusReader对象。

PlaintextCorpusReader::fileids()：该方法返回语料库中的文本标识列表。

PlaintextCorpusReader::words(fileids)：该方法接受一个或多个文本标识作为参数，返回文本单词列表。

PlaintextCorpusReader::raw(fileids)：该方法接受一个或多个文本标识为参数，返回文本原始字符串。

PlaintextCorpusReader::sents(fileids)：该方法接受一个或多个文本标识为参数，返回文本中的句子列表。

平均词长、平均句子的长度、文本中每个词出现的平均次数

网络文本语料库中包括火狐交流论坛、在纽约无意听到的话、加勒比海盗电影剧本、个人广告以及葡萄酒评论等等。 webtext同样可以看做是一个PlaintextCorpusReader对象。

语料库被分成15个文件，每个文件包含几百个按特定日期和特定年龄的聊天室收集的帖子，例如：10-19-20s_706posts.xml包含2006年10月19日从20多岁聊天室收集的706个帖子。

nps_chat可以看做是一个NPSChatCorpusReader对象。

NPSChatCorpusReader::fileids()：该方法返回语料库中的文本标识列表。

NPSChatCorpusReader::posts(fileids)：该方法接受一个或多个文本标识作为参数，返回一个包含对话的列表，每一个对话又同时是单词的列表。

布朗语料库是一个百万词级的英语电子语料库，这个语料库包含500个不同来源的文本，按照文体分类，如：新闻、社论等。我们可以先看看布朗语料库中包含哪些类别：

brown可以看做是一个CategorizedTaggedCorpusReader对象。

CategorizedTaggedCorpusReader::categories()：该方法返回语料库中的类别标识。

CategorizedTaggedCorpusReader::fileids(categories)：该方法接受一个或多个类别标识作为参数，返回文本标识列表。

CategorizedTaggedCorpusReader::words(fileids, categories)：该方法接受文本标识或者类别标识作为参数，返回文本单词列表。

CategorizedTaggedCorpusReader::sents(fileids, categories)：该方法接受文本标识或者类别标识作为参数，返回文本句子列表，句子本身是词列表。

路透社语料库包含10,788个新闻文档，共计130万字。文档被分成了90个主题，按照训练和测试分为两组。路特社语料库中的类别是项目重叠的，因为新闻报道往往涉及多个主题。

reuters也可以看做是一个CategorizedTaggedCorpusReader对象。

该语料库是55个文本的集合，每个文本都是一个总统的演说。这个集合的一个显著特性是时间维度。

inaugural同样可以看做是一个PlaintextCorpusReader对象。

。。。未完

gutenberg、webtext和inaugural是PlaintextCorpusReader的实例对象。

PlaintextCorpusReader成员方法：

nps_chat是NPSChatCorpusReader的实例对象。

NPSChatCorpusReader成员方法：

brown和reuters是CategorizedTaggedCorpusReader的实例对象。

CategorizedTaggedCorpusReader成员方法：