分享好友 最新动态首页 最新动态分类 切换频道
自然语言处理(三) 语料库和语言知识库
2024-11-07 22:10

在这里插入图片描述 语料库(corpus):用于存放语言数据的文件(语言数据库)。 语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。

自然语言处理(三) 语料库和语言知识库

语料库语言学研究的内容: 语料库的建设与编纂(最重要) 语料库的加工和管理技术 语料库的使用

在这里插入图片描述

==按内容构成和目的划分 == 异质(heterogeneous)语料库:最简单的语料收集方法,没有事先规定和选材原则。 异质(heterogeneous)语料库:最简单的语料收集方法,没有事先规定和选材原则。同一个领域或者同一个食材的! 系统性(systematic)语料库:充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题。 专用(specialized)语料库:如:北美的人文科学语料库。 按语言种类划分 单语的 双语的或多语的:篇章对齐 / 句子对齐 / 结构对齐 是否标注 生语料和熟语料

语料采集的七项原则:语料的真实性、可靠性、科学性、代表性、权威性、分布性和流通性。其中,语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布等。

平衡语料库:着重考虑语料的代表性与平衡性。

平行语料库:一种是指在同一种语言的语料上的平行,例如,“国际英语语料库”,共有20个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。建库的目的是对不同国家的英语进行对比研究。另一种平行语料库是指在两种或多种语言之间的平行采样和加工,例如,机器翻译中的双语对齐语料库。

共时语料库 是为了对语言进行共时(同一时段)研究而建立的语料库。研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的关系。

历时语料库:是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞关系的演变,即研究一个历时切面中元素与元素关系的演化

布朗语料库 (Brown Corpus)在这里插入图片描述 LLC口语语料库在这里插入图片描述 朗文语料库 (Longman Corpus)在这里插入图片描述 宾夕法尼亚大学(UPenn)树库(Tree Bank):(http://www.ldc.upenn.edu/) 在这里插入图片描述 他还提出一系列具体措施的政策要点。 分词标注:他/PN 还/AD 提出/VV 一/CD 系列/M 具体/JJ 措施/NN 和/CC 政策/NN 要点/NN 。/PU 在这里插入图片描述 UPenn树库的扩展: (1) PropBank (Proposition Bank)其基本观点认为:树库仅提供句子的句法结构信息,对于计算机理解人类语言是不够的。因此,PropBank 的目标是对原树库中的句法节点标注上特定的论元标记,使其保持语义角色的相似性。 (2) NomBank (Nominalization Bank):NomBank 是 PropBank 的孪生项目,它和PropBank 标注的都是同一批树库,区别在于NomBank标注的是树库中名词的词义和相关的论元信息。 (3) UPenn语篇树库:建造目标是开发一个标注语篇结构信息的大规模语料库,主要标注与语篇连通方式 (discourse connectives) 相关的一致关系(coherence relation)。标注信息主要包括连通方式的论元结构、语义区分信息,以及连通方式和论元的修饰关系特征(attributionrelated features) 等。

汉语篇章树库(CDTB): 在这里插入图片描述 在这里插入图片描述 布拉格依存树库 (Prague Dependency Treebank, PDT):目前已经建成三个语料库:捷克语依存树库、捷克语-英语依存树库和阿拉伯语依存树库.

北大计算语言学研究所开发的综合性语言知识库CLKB:综合性语言知识库(CLKB)涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。CLKB是目前国际上规模最大且获得广泛认可的汉语语言知识资源. 在这里插入图片描述 台湾中研院平衡语料库(Sinica Corpus)😦 http://rocling.iis.sinica.edu.tw/ROCLING/corpus98/ ) 在这里插入图片描述 口语翻译语料库: BTEC (Basic Traveler’s expression Corpus) 20万句6国语言 对照口语句子 + 25 万 句 CJK 三 国语言对照 口语句子 在这里插入图片描述 在这里插入图片描述

语料库建设需要考虑的几个问题 (1)静态与动态:一种主张认为,应建立动态的或监督语料库(monitor corpus):文本集的收集通常是随遇的,而不是平衡的。而另一种主张认为,应该建立相对静态的、平衡的。其实每种主张均与研究或应用目的密切相关。 (2)代表性和平衡性:一个语料库具有代表性,是指在该语料库上获得的分析结果可以概括成为这种语言整体或其指定部分的特性。

已有语料库的特点: Ø 语料大多来自规范文本 Ø 标注体系不统一 (POS: PKU CLKB: 26+74+106; UPenn: 33) Ø 主要以基础语言学研究为目标, 没有明确的NLP任务导向 Ø 有些标注没有层次和粒度区分,处于同一层面,过细 Ø 单一模态(文本), 不涉及其他模态的信息(语音、图片

WordNet (http://wordnet.princeton.edu/ ):解决词典中同义信息的组织问题 目前规模:95600 英语词条,其中,51500个简单词,44100 个搭配词。70100个词义(同义词集合)。 五大类词汇:名词、动词、形容词、副词、虚词。(实际上 WordNet 中仅包含前4类) 目前规模:95600 英语词条,其中,51500个简单词, WordNet 按语义关系组织:语义关系看作是同义词集合之间的一些指针,语义关系是双向的。如果词义 {x1, x2, …} 和{y1, y2, …}之间有一种语义关系R,则在{y1, y2, …}和{x1, x2, …} 之间也有语义关系R。属 于这两个同义词集合的单词之间的关系也是R。 4 种语义关系: 同义关系(synonymy) 反义关系(antonymy) 上下位关系(hypernym/ hyponym)或称从属/上属关系:如:{枫树}是{树}的下位,{树}是{植物}的下位。 部分关系(meronym)或称部分/整体关系。

WordNet 的应用:词汇消歧,语义推理,理解等。

知网(HowNet) (http://www.keenage.com):聚焦于汉语~ 1988年由董振东教授提出。 知网的4个基本观点: (1)NLP系统最终需要更强大的知识库的支持。 (2)知识是一个系统,是一个包含着各种概念与概念之间的关系,以及概念的属性与属性之间的关系的系统。一个人比另外一个人有更多的知识说到底是他不仅掌握了更多的概念,尤其重要的是他掌握了更多的概念之间的关系以及概念的属性与属性之间的关系 (3)知识库建设应首先建立一种可以被称为知识系统的常识性知识库。它以通用的概念为描述对象,建立并描述这些概念之间的关系。 (4)首先应由知识工程师来设计知识库的框架,并建立常识性知识库的原型。在此基础上再向专业性知识库延伸和发展。专业性知识库或称百科性知识库主要靠专业人员来完成。这里很类似于通用的词典由语言工作者编纂,百科全书则是由各专业的专家编写。

知网的特色:知网作为一个知识系统,名副其实是一个网而不是树。它所着力要反映的是概念的共性和个性,例如: 对于“医生”和“患者”,“人”是它们的共性。同时知网还着力要反映概念之间和概念的属性之间的各种关系 在这里插入图片描述 概念层次网络(Hierarchical Network of Concepts, HNC) 研究从自然语言空间到语言概念空间的映射:建立语言概念空间的概念基元符号体系;建立语言概念空间的语句基元符号体系。

最新文章
2023-2029年中国脂肪醇行业市场竞争态势及发展趋向分析报告
脂肪醇是合成醇系表面活性剂的主要原料,按原料来源不同又分为合成醇和天然醇。由石油为原料制备合成醇的路线很多,但目前已在工业上形成大吨位生产的路线主要有三条:1.几基合成醇,该法在羰基化催化剂接触下,将烯烃和一氧化碳、氢气反应,
seo综合查询是啥意思(seo综合查询工具可以查看哪些数据)
SEO中有一个很重要的知识点就是要在页面中布局关键词,那么在布局关键词时,往往给出的要求是“查找用户爱搜索的词”,并进行布局。那么如何查找用户爱搜索的关键词呢?1.搜索引擎下拉框我们在搜索框中输入相应关键词时,系统往往会在下拉
AI智能脱口秀文案生成工具:一键打造爆笑子与幽默桥,全面满足创作需求
AI智能脱口秀文案生成工具:一键打造爆笑子与幽默桥,全面满足创作需求在信息时代飞速发展的今天人工智能已经渗透到咱们生活的方方面面甚至连幽默与创意也不例外。你是不是曾经为创作脱口秀子而头痛不已绞尽脑汁却依然无法捕捉到那些让人捧
1000个箭头(ai源文件,可编辑)在此,绘图必备!
免费资源:一、国自然类:1 2023历年国自然标书全文3国自然项目答辩PPT5标书写作模板7 国自然项目造假清单22018-24年国自然清单4 基金插图素材(可编辑)6 ‍近10年国自然标书全文‍二、SCI生信+实验类:1 160套SCI实验操作视频3Meta分析范
交通银行:启动新一代集团信息系统智慧化转型工程
  中国网财经8月16日讯 交通银行16日在银行业例行新闻发布会上介绍了该行加速推进信息技术智慧化转型的相关情况。交通银行副行长沈如军表示,日前,交通银行正式启动新一代集团信息系统智慧化转型工程(“新531”工程),目的是以打造数字
抖音短视频什么时间段发布最多人看?抖音流量时间段分析
三、注意事项其实,选择视频发布的时间对流量的影响虽然很重要,但是我们也不可忽视视频的内容质量,一个优质的视频可以轻松帮助我们登上热门。那如何产生优质的内容呢,我们可以从以下两点出发:1)素材来源 内容是重中之重。但是创造优质
11个帮助站长提升网站搜索引擎自然流量的SEO技巧
怎样提高你的百度搜索引擎提升专业技能?能够小范畴的试着一下这一明细里边的SEO专业技能,她们全是行得通并便于了解的百度搜索引擎提升专业技能。绝大多数的SEO专业技能明细都很模糊不清:对的…点“回到”按键。在本文中,大家将清除模棱
9月20日,百万美国人打算解救51区的外星Homie
美国最热话题是,一群哥们儿要抱团冲进美国神秘的军事基地51区,活捉外星人。什么叫51区,杰个话题都快被他吗说烂了,简单带你复习一下:美国政府储藏1947年罗斯威尔不明飞行物坠毁残骸和地外生物尸体的仓库,以及和外星人签订研究外星科技
2024流行的1一4多人游戏有哪些 好玩的多人游戏排行榜
多人游戏随着发展目前已经成为了众多游戏玩家们的圣地,这种游戏类型不仅仅只是注重玩家的个人技术,更是对玩家们的心理素质以及团队协作的终极挑战,2024流行的1一4多人游戏有哪些,介绍的游戏将会给玩家带来阵阵令人心跳加速的快感,同时
2005年以来国内成品油历次调价一览表
三次成品油定价机制改革自1998年迄今,中国已经历了三次成品油定价机制改革。1998年6月3日,原国家计委出台《原油成品油价格改革方案》,规定中石油和中石化两个集团公司之间原油交易结算价格由双方协商确定,价格由原油基准价和贴水两部分
相关文章
推荐文章
发表评论
0评