分享好友 最新资讯首页 最新资讯分类 切换频道
NLTK(语料库)
2024-11-07 21:38

本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。 2.1 P41

NLTK(语料库)

古腾堡语料库主要包含一些文学书籍。 先看一个例子,查看古腾堡语料库包含的文本名称

utenberg是NLTK预先帮我们加载的语料库,我们可以把gutenberg看做是一个PlaintextCorpusReader对象。

PlaintextCorpusReader::fileids():该方法返回语料库中的文本标识列表。

PlaintextCorpusReader::words(fileids):该方法接受一个或多个文本标识作为参数,返回文本单词列表

PlaintextCorpusReader::raw(fileids):该方法接受一个或多个文本标识为参数,返回文本原始字符串。

PlaintextCorpusReader::sents(fileids):该方法接受一个或多个文本标识为参数,返回文本中的句子列表。

平均词长、平均句子的长度、文本中每个词出现的平均次数

网络文本语料库中包括火狐交流论坛、在纽约无意听到的话、加勒比海盗电影剧本、个人广告以及葡萄酒评论等等。 webtext同样可以看做是一个PlaintextCorpusReader对象。

语料库被分成15个文件,每个文件包含几百个按特定日期和特定年龄的聊天室收集的帖子,例如:10-19-20s_706posts.xml包含2006年10月19日从20多岁聊天室收集的706个帖子。

nps_chat可以看做是一个NPSChatCorpusReader对象。

NPSChatCorpusReader::fileids():该方法返回语料库中的文本标识列表。

NPSChatCorpusReader::posts(fileids):该方法接受一个或多个文本标识作为参数,返回一个包含对话的列表,每一个对话又同时是单词的列表。

布朗语料库是一个百万词级的英语电子语料库,这个语料库包含500个不同来源的文本,按照文体分类,如:新闻、社论等。我们可以先看看布朗语料库中包含哪些类别

brown可以看做是一个CategorizedTaggedCorpusReader对象。

CategorizedTaggedCorpusReader::categories():该方法返回语料库中的类别标识。

CategorizedTaggedCorpusReader::fileids(categories):该方法接受一个或多个类别标识作为参数,返回文本标识列表。

CategorizedTaggedCorpusReader::words(fileids, categories):该方法接受文本标识或者类别标识作为参数,返回文本单词列表。

CategorizedTaggedCorpusReader::sents(fileids, categories):该方法接受文本标识或者类别标识作为参数,返回文本句子列表,句子本身是词列表。

路透社语料库包含10,788个新闻文档,共计130万字。文档被分成了90个主题,按照训练和测试分为两组。路特社语料库中的类别是项目重叠的,因为新闻报道往往涉及多个主题。

reuters也可以看做是一个CategorizedTaggedCorpusReader对象。

该语料库是55个文本的集合,每个文本都是一个总统的演说。这个集合的一个显著特性是时间维度。

inaugural同样可以看做是一个PlaintextCorpusReader对象。

。。。未完

gutenberg、webtext和inaugural是PlaintextCorpusReader的实例对象。

PlaintextCorpusReader成员方法

 

nps_chat是NPSChatCorpusReader的实例对象。

NPSChatCorpusReader成员方法

 

brown和reuters是CategorizedTaggedCorpusReader的实例对象。

CategorizedTaggedCorpusReader成员方法


最新文章
10.Google hacking
这篇文章是21年中旬记录的,平安夜p牛的直播中也谈到,对于渗透测试来说最好有一个checklist,为了避免忘记测试某一部分的内容而
抖音被限流的表现
“云山苍苍,江水泱泱,先生之风,山高水长”的意思:云雾缭绕的高山,郁郁苍苍,大江的水浩浩荡荡,先生的品德啊,比高山还高,
在百度上做广告推广一年要多少钱_百度广告推广费用解析
在当今数字化的商业环境中,百度作为国内(黑帽seo)的搜索引擎平台,拥有庞大的【常熟seo】用户群体和广泛的影响力,许多企业和个
淘宝蓝海虚拟项目4.0,让你最大化15-20天内起店和快速实操
相信大家也看到了,黄岛主最近经常晒朋友圈,晒的都是淘宝蓝海虚拟项目学员做出的成绩反馈,带了这么多期学员没白带,很多学员都
FESE
  原文链接(点击“阅读原文”直接获取)  https://journal.hep.com.cn/fese/EN/10.1007/s11783-022-1542-7  文章出版:Fr
0202是什么意思 0202年梗怎么来的发展经历介绍
  0202是什么梗?指2020年。该词的说法最早出自2017年,原来的形式为都7102年...二者含义用法相同,0202年则是该词的衍生说法
医美整形美容双眼皮营销包装文案
1、医美整形美容双眼皮营销包装文案精致量化眼部整形眯眯眼?死鱼眼?肿泡眼?离桃花美目就那么几毫米的改变?精致量化综合设计一
SEO优化报价背后的科学:成本与收益的平衡艺术 (seo的优化方案)
在数字营销的领域,搜索引擎优化(seo)是提升网站可见性和吸引潜在客户的主要手段。随着时间的推移,SEO已经从简单的关键词堆砌
45天涨粉429万,这届年轻人爱上了东北姥姥
⭐️欢迎关注预约“新榜和ta的朋友”系列直播!可能成成也没想到,为姥姥开设的账号“八零徐姥姥”会火得那么快。9月2日,“八零
抖音最近很火的配音歌曲有哪些 抖音最近很火的配音文案有哪些
很多小伙伴和小编说自己喜欢看一些抖音上面的配音视频,觉得这些抖音原创配音​视频制作的是真的很好,希望自己也有那个能力能制