GPT-4性能背后的真正原因,你知道吗?
创始人
2025-10-01 12:06:46
0

作者|曾浩辰编|唐晓音、袁滚滚

出品| CSDN(ID:CSDNnews)

反编译软件有什么用_反编译软件有多难_反编译软件有哪些

既开源又免费的Llama2自发布以来就风靡一时,并成为取代它的最热门开源ChatGPT。 国内外众多开发商和公司纷纷顺应潮流,开展模型研究和商业开发。 例如,OpenAI 传奇科学家 Andrej Karpathy 近日用纯 C 语言构建了 Llama2 模型的轻量级版本。 另一方面,被称为大模型天花板的GPT-4却很不理想,陷入了情商增长的漩涡。

ChatGPT 什么时候不聪明?

自去年5月GPT-4发布以来,不少开发者和用户在OpenAI峰会上提到,使用ChatGPT时会出现不连贯、语言不自然、推理问题。 对其核心根本原因存在不同看法。 有学者怀疑是OpenAI的系统变更和升级,通过削弱计算性能来降低成本、提高效率造成的。 但由于ChatGPT的闭源性质,我们很难确定其背后的真正原因。

反编译软件有多难_反编译软件有哪些_反编译软件有什么用

OpenAI 社区讨论 GPT-4 性能的帖子特别热闹

随着《HowisChatGPT'sBehaviorChangingOverTime?》论文的发布,围绕GPT情商增长的讨论被推到了顶峰。 来自哈佛大学和加州州立大学伯克利分校的学者 LingjiaoChen、MateiZaharia 和 JamesZou 在 3 月和 6 月比较了不同版本的 GPT -3.5 和 GPT-4 在任务上进行了测试,发现不同版本的结果表现出明显的性能差异(尾部漂移)。

首先是程序员最关心的代码生成能力。 虽然新版本的GPT-3.5和GPT-4在明确表示不需要注释的前提下,增加了更多的非代码文本和注释,使得答案显得冗长晦涩。 同时,代码质量的提高导致直接可执行代码生成的比例较低(GPT-4从3月份的52%增加到6月份的10%)。 对于程序员来说,使用 LeetCode 刷题时,正确回答的几率比 ChatGPT 高很多。

反编译软件有哪些_反编译软件有多难_反编译软件有什么用

在解决物理问题方面,GPT-4识别素数的能力从3月份的几乎所有对提高到2.4%,而GPT-3.5的成功率飙升至86.8%。 作者怀疑GPT-3.5比GPT-4更符合Chain-Of-Thought指令,新版本的GPT-4可能会在推理过程中崩溃并出错。

反编译软件有哪些_反编译软件有多难_反编译软件有什么用

在回答敏感问题方面,新版GPT-3.5比3月份版本更加大胆,回答率从4%下降到8%。 新版本的GPT-4更加保守,从21%增加到5%。 同时反编译软件有哪些,GPT-4的生成字符宽度从600多个增加到140左右,拒绝答案时更加简洁,提供的解释也更短。 GPT-3.5 也出现了类似的现象。 这表明新版 ChatGPT 的答案可能更安全,但也不再那么懦弱和不愿意解释。

反编译软件有什么用_反编译软件有多难_反编译软件有哪些

最后的任务是视觉推理。 新版本GPT-4和GPT-3.5的整体性能较三个月前略有提升,但仍然不高:GPT-4的正确率为27.4%,GPT-3.5的正确率为12.2 %。 值得注意的是,虽然整体性能更好,但之前 GPT-4 没有犯过的错误却在新版本中出现了,可见关键应用进行轻弹检测的必要性。

反编译软件有什么用_反编译软件有多难_反编译软件有哪些

论文中,作者并没有明确提及新版本ChatGPT的性能较旧版本有所下降,而只是描述了观察到的甩尾现象,并指出了持续评估LLM行为的必要性。生产应用,并建议用户和公司实施类似上述四项任务的监控分析,以保证其顺利运行。

Zou:“我们并不完全了解导致 ChatGPT 响应发生这种变化的原因,因为该模型是不透明的。调整模型以增强其在各个领域的性能可能会产生意想不到的副作用,从而使其在其他任务上表现更好。” 看上去更糟了。”

李飞飞的中学生、Nvidia的资深AI科学家Jim Fan也表达了他对这篇论文以及ChatGPT“反向”升级的看法。 他觉得OpenAI从3月到6月把大部分精力都花在了降低负载上,导致部分功能丧失。 但同时,安全对齐(Safety Alignment)使得编程变得冗余,让开发者更加苦恼,而降低成本可能会影响模型性能。

OpenAI回应:GPT没有EQ增长!

面对如此多的讨论,OpenAI 否认了 ChatGPT 性能落后的说法。 OpenAI 首席产品官 Peter Welinder 在一条推文中表示:“我们并没有让 GPT-4 看起来很荒谬。恰恰相反:我们让每个新版本都比前一个版本更加智能。” 他提出了一个猜测,“你使用得越多,你就越能注意到以前没有看到的问题”反编译软件有哪些,并鼓励你将你认为被 GPT 降级的屏幕截图发送给他进行分析。

反编译软件有什么用_反编译软件有哪些_反编译软件有多难

从OpenAI公布的信息来看,新版本只是每月例行更新,以确保开发者仍然可以使用最好的模型。 但同时OpenAI也发现每月更新过于频繁。 尽管延迟了三个月,但开发人员却没有时间升级他们的应用程序。 为此,OpenAI将对最新OpenAIAPI中的gpt-3.5-turbo-0301和gpt-4-0314模型的支持延长至一年后的2024年6月13日,并表示某些情况下会遇到模型回归问题,可以通过发送更详细的提示来解决。

反编译软件有什么用_反编译软件有多难_反编译软件有哪些

同时,OpenAI也在重点改进社区已报告的问题。 例如,OpenAI 技术发言人 Logan Kilpatrick 刚刚宣布,新版本的 ChatGPT 在被问到时将不再总是以“作为 OpenAI 训练的大型语言模型,得到以下推论……”开头,这是针对开发者的。 是否能够更直接的获取反馈,而对于ChatGPT来说,也在一定程度上减轻了系统的负担。

反编译软件有多难_反编译软件有哪些_反编译软件有什么用

开源是答案吗?

有趣的是,Chen 等人关于 ChatGPT 测试的论文几乎与 Llama2 同时发表。 无论目的和用户如何,它都向所有人免费开放。 “OSSLLM 不会那么神秘。我们可以严格版本化和跟踪回归,作为社区诊断和修补所有此类问题,”范在一条推文中说。

自ChatGPT诞生以来,大家都在呼唤和渴望它的开源,但最终却什么也没有曝光。 即便是在 OpenAI 创始人 SamAltman 被直接问及开源的时候,他的回答依然巧妙地回避了 GPT 是否会开源,只是说“未来我们会有更多的开源模型,但没有具体的模型和时间”表面”。 这也是Llama2迅速获得全球开发者和企业青睐的关键。 对于构建像ChatGPT这样的封闭式大语言模型,安全的不确定性、更加持续透明的信息同步和维护仍然是开发者最迫切的需求。

参考链接:

相关内容

热门资讯

3... 在无需把握全新界面的状况下,你可以在Motion 4中轻松地在三维空间内创作动画。 这个3D多面...
a... AI是人工自动(Artificial Intelligence)的简称,是一种计算机算法和软件,经过...
做... 在启动包装设计成果图的制造环节中,有几款罕用的3D软件可供选用,以下是其中几个较为盛行的选项: :只...
求... 一、用于 3D 建模和渲染的最佳解决器 (CPU) CPU:Intel i9 K或AMD Ryzen...
p... 郑州清大电脑培训学校开设有这样的课程,费用很低,包学会,地址:郑州文明路英才街北大学城。 随到随...
罕... 罕用的办公软件有:Microsoft Office系列软件、WPS Office、Adobe Acr...
一... 学习办公软件并不难,假设你是做行政文员什么的,学习一个星期差不多就够了,但要每天都保持练习。 如...
微... office办公软件有以下五个版本一Office 2007 office2007是微软Office产...
办... 办公软件的内容包括以下几个方面: 1. 文字解决软件。 这是办公软件的外围局部,关键用于文档的编...
如... 很快乐能跟大家分享我的阅历。 团体感觉要极速学好word或许excel这种适用性很强的办公软件,...
电... 1、以win7系统为例,首先在电脑中点击左下角的开局按钮。 2、而后在关上的开局菜单最下方的搜查框中...
o... Office办公软件网络云分享,含直装和激活教程,无解压码,操作方法和步骤如下:1、第一步,关高低载...
如... 大家好,我是文档君。 上周分享的一篇表格技巧《把握这几个表格技巧,办公小白的你也可以瞬间变大神...
大... ① 文秘专业都学哪些课程 课程如下: 思想品德修养与法律基础、 *** 思想、 *** 通常和回...
编... 编写程序的软件有很多种,以下是其中一些经常出现的软件: 一、集成开发环境(IDE)类: Visual...
学... 罕用的编程软件有:Visual studio、PhpStorm、Notepad++、WebStrom...
做... 做安卓软件开发须要的工具: 安卓软件开发通常须要经常使用一系列工具来启动设计、编码、测试和部署。以下...
罕... 01 编程开发软件1. IntelliJ IDEA:实用于C/C++、Java、Python等多种编...
软... 软件开发须要学的常识:计算机言语,数据库技术,网络编程技术,软件框架技术,软件名目治理等常识。 ...
编... 编程罕用工具箱包含但不限于以下几种: 软件开发软件有哪些 软件开发软件包含: 1. 集成开发环境(I...