本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。 2.1 P41
古腾堡语料库主要包含一些文学书籍。 先看一个例子,查看古腾堡语料库包含的文本名称:
utenberg是NLTK预先帮我们加载的语料库,我们可以把gutenberg看做是一个PlaintextCorpusReader对象。
PlaintextCorpusReader::fileids():该方法返回语料库中的文本标识列表。
PlaintextCorpusReader::words(fileids):该方法接受一个或多个文本标识作为参数,返回文本单词列表。
PlaintextCorpusReader::raw(fileids):该方法接受一个或多个文本标识为参数,返回文本原始字符串。
PlaintextCorpusReader::sents(fileids):该方法接受一个或多个文本标识为参数,返回文本中的句子列表。
平均词长、平均句子的长度、文本中每个词出现的平均次数
网络文本语料库中包括火狐交流论坛、在纽约无意听到的话、加勒比海盗电影剧本、个人广告以及葡萄酒评论等等。 webtext同样可以看做是一个PlaintextCorpusReader对象。
语料库被分成15个文件,每个文件包含几百个按特定日期和特定年龄的聊天室收集的帖子,例如:10-19-20s_706posts.xml包含2006年10月19日从20多岁聊天室收集的706个帖子。
nps_chat可以看做是一个NPSChatCorpusReader对象。
NPSChatCorpusReader::fileids():该方法返回语料库中的文本标识列表。
NPSChatCorpusReader::posts(fileids):该方法接受一个或多个文本标识作为参数,返回一个包含对话的列表,每一个对话又同时是单词的列表。
布朗语料库是一个百万词级的英语电子语料库,这个语料库包含500个不同来源的文本,按照文体分类,如:新闻、社论等。我们可以先看看布朗语料库中包含哪些类别:
brown可以看做是一个CategorizedTaggedCorpusReader对象。
CategorizedTaggedCorpusReader::categories():该方法返回语料库中的类别标识。
CategorizedTaggedCorpusReader::fileids(categories):该方法接受一个或多个类别标识作为参数,返回文本标识列表。
CategorizedTaggedCorpusReader::words(fileids, categories):该方法接受文本标识或者类别标识作为参数,返回文本单词列表。
CategorizedTaggedCorpusReader::sents(fileids, categories):该方法接受文本标识或者类别标识作为参数,返回文本句子列表,句子本身是词列表。
路透社语料库包含10,788个新闻文档,共计130万字。文档被分成了90个主题,按照训练和测试分为两组。路特社语料库中的类别是项目重叠的,因为新闻报道往往涉及多个主题。
reuters也可以看做是一个CategorizedTaggedCorpusReader对象。
该语料库是55个文本的集合,每个文本都是一个总统的演说。这个集合的一个显著特性是时间维度。
inaugural同样可以看做是一个PlaintextCorpusReader对象。
。。。未完
gutenberg、webtext和inaugural是PlaintextCorpusReader的实例对象。
PlaintextCorpusReader成员方法:
nps_chat是NPSChatCorpusReader的实例对象。
NPSChatCorpusReader成员方法:
brown和reuters是CategorizedTaggedCorpusReader的实例对象。
CategorizedTaggedCorpusReader成员方法: