相关文章
GPT-4的早期实验,通用人工智能的火花
2024-12-27 05:42

GPT-4的早期实验,通用人工智能的火花

最近,微软发布了一个长达154页的论文名称为《通用人工智能的火花,GPT-4的早期实验》。

文章的主要观点是虽然GPT-4还不完整,但是已经可以被视为,一个通用人工智能的早期版本。

由于全文将近7万字,本篇将论文的内容做了一下精炼和解读,有兴趣可阅读原文 https://arxiv.org/pdf/2303.12712.pdf

来自微软的科学家们认为,GPT-4的智能水平已经非常接近于人类的水平,而且远超之前的诸如先前ChatGPT用的GPT-3.5这样的模型,可以将GPT-4视为通用人工智能系统,也就是AGI的早期,但是并不完整的版本。

1994年,52名心理学家给出了智能一个定义:智能是一种通用的心理能力,包括推理、计划、解决问题、抽象思考,理解复杂思想、快速学习,以及从经验中学习的能力等等。

微软的这篇论文中的AGI,指代的就是在对智能的这个定义标准下,达到或者超过人类水平的系统。

那么如何对GPT-4进行测试,从而证明这一点呢。有不少大语言模型的评测基准。比如说Super natural instructions以及big bench。GPT-4是否拥有智能的一个关键方面,是它的通用性,就是能够看似理解和链接任何的主题和领域,这就超出了经典的自然语言处理的任务范畴。为了突破这个限制,研究团队提出了一种更接近于传统心理学,而不是机器学习的测评方法来测试GPT-4,就是利用人类的创造力和好奇心,来重新生成各种新颖而且困难的任务和问题让GPT-4作答。

研究团队将不同的问题划分为了4大类的能力,分别是自然语言,编程和数学,计划和解决问题,以及人类心理和常识。

接下来通过一些精彩的示例,来说明GPT-4在各个方面的能力。

示例1: 跨学科组合的能力

这些任务往往都需要调取并且融合多学科多领域的知识或者技能来生成文本或者代码。比如说下面这个例子,图2.2:GPT-4和ChatGPT(GPT-3.5)在跨学科任务上的比较:用莎士比亚的风格来证明存在无穷多的素数。

GPT-4和ChatGPT(GPT-3.5)都对这个问题进行了回答,让GPT-4评价下哪个回答更好,也就是说,让GPT-4评价自己(GPT-4)和ChatGPT(GPT-3.5)的回答:

我认为两个学生都用莎士比亚风格的方式写出了有无限多个质数的证明,并且都使用了证明的基本思路:假设只有有限个质数,然后构造一个更大的质数,从而与该假设相矛盾。他们还使用了适当的语言和词汇来匹配莎士比亚的风格。但是,我认为GPT-4更好地利用了押韵和韵律来使对话更有诗意和戏剧性。ChatGPT(GPT-3.5)没有使用押韵,而且韵律不连贯。我还认为GPT-4在创造两个对立的派别方面表现更好,一个派别自信,另一个派别怀疑,而学生B则使用了罗密欧和朱丽叶,两者都意见相同、相爱。因此,我会给GPT-4一个更高的评分,给予A,而ChatGPT(GPT-3.5)则是B。

示例2: 编程能力

在测试中,为了避免GPT-4在预训练的时候,见过相同或者类似的代码,研究团队特意采用了GPT-4预训练之后发布的100个新的LeetCode试题作为测试的基准。图中的pass@K就代表了k次尝试后成功的概率。我们可以看到当k等于5时,GPT-4已经全面超越了人类的表现。(其实,k=1,在中等和困难的编程题目中就已经超越了人类的表现)

事实证明GPT-4是一位编程大师,AGI模型可能会彻底的改变我们未来编程的方式。

论文非常长,示例远不止上面提到的,我这里只挑选了两个,感兴趣的可以阅读论文原文。

论文最后指出,在面向更加通用的人工智能的路上,大语言模型还需要在以下几个方面进一步的提升。比如说幻觉和置信度,长期记忆,持续学习、个性化、规划以及概念发散,也就是所谓的灵光闪现、透明度、可解释性、一致性、认知谬误、非理性思维以及对提示响应的鲁棒性等等。

    以上就是本篇文章【GPT-4的早期实验,通用人工智能的火花】的全部内容了,欢迎阅览 ! 文章地址:http://gzhdwind.xhstdz.com/news/12369.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://gzhdwind.xhstdz.com/mobile/ , 查看更多   
最新文章
抖音里的法务逾期处理可靠吗:真实、安全且可信的解决方案
抖音里的法务逾期应对可靠吗?随着社交媒体平台的普及,越来越多的使用者开始在抖音上寻求帮助。在这个信息爆炸的时代,咱们怎样
如何制作一个广告网站?(百度推广网站需要备案吗,做一个百度推广网站多少钱)
现在做网站的成本越来越低,有很多服务商就是为不懂编程的人提供做网站服务,类似凡科,建站ABC等,基础类网站加一年的服务费不
零售进销存ERP系统:实时监控库存的高效解决方案
随着零售行业的发展,企业的经营规模逐步扩大,经营模式趋向多元化与复杂化。传统的库存管理方式已经无法满足现代零售业的需求,
谷歌浏览器(Google Chrome Dev) 63.0.3236.0 Dev官方最新版
谷歌浏览器Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器,它的设计超级简洁,使用起来更加方便。Google 浏览器Chrom
高效广告投放指南,百度推广优化全攻略
百度推广优化攻略,助您广告投放精准高效。通过优化关键词、合理设置预算、精准定位目标受众,提高广告点击率和率。掌握数据分析
海底捞学生证打折如何使用
引言:海底捞的魅力与变化 近年来,海底捞以其独特的火锅文化、优质的服务和丰富的菜品迅速崛起,成为了火锅界的佼佼者。尤其是针对年轻消费者与学生群体,海底捞不断推出各种优惠活动。其中,使用学生证打折的活动备受欢迎,不仅为学生们
助力企业网站腾飞:优化推广大作战
助力企业网站腾飞:优化推广大作战 在当今数字化时代,企业网站已经成为企业展示自身实力和吸引客户的重要窗口。然而,在竞争激烈的市场中,如何使企业网站脱颖而出,成为客户首选?在这个问题上,优化推广大作战是至关重要的。 全面优化网
坚持运动健身的好处:提升身体健康与心理幸福感的秘诀
html 引言:运动健身的重要性 随着现代社会生活节奏的加快,越来越多的人们意识到运动健身的重要性。不论是为了保持身材,还是为了提升身体健康与心理幸福感,适度的运动都是不可或缺的。本文将深入探讨坚持运动健身的好处,以及如何通过合
深入解析社区团购:新兴电商模式的崛起与未来发展
什么是社区团购 社区团购是一种新兴的电商模式,其核心理念是在社区或小区内,借助社交网络的力量,将用户的需求集中起来,通过团购的方式实现产品的低价采购与高效配送。这种模式不仅可以降低消费者的购物成本,提升购物体验,还能为供应
社区团购行业现状及前景分析
引言 在数字经济快速发展的时代背景下,社区团购作为一种新兴的商业模式,悄然崛起并受到众多消费者的热捧。它将传统的购物方式与现代的网络技术结合,打破了时间和空间的限制,为消费者提供了更加便捷和经济的购物体验。随着城市化的加速
相关文章