你的位置:强奸片 > 黑丝 色情 >


阿朱 露出 打脸!GPT-4o输出长度8k齐强迫,陈丹琦团队最新LLM基准测试

发布日期:2025-01-16 18:40    点击次数:65


阿朱 露出 打脸!GPT-4o输出长度8k齐强迫,陈丹琦团队最新LLM基准测试

奇月 发自 凹非寺量子位 | 公众号 QbitAI

好多大模子的官方参数齐宣称我方可以输出长达32K tokens的内容阿朱 露出,但这数字执行上是存在水分的??

最近,陈丹琦团队冷漠了一个全新的基准测试器具LONGPROC,故意用于检测长陡立文模子处理复杂信息并生成回应的才气。

实验恶果有点令东说念主有时,团队发现,包括GPT-4o等早先进的模子在内,尽管模子在常用长陡立文回忆基准上阐明出色,但在处理复杂的长文生成任务时仍有很大的雠校空间。

具体来说,测试的总共模子齐宣称我方陡立文窗口大小特出32K tokens,但开源模子一般在2K tokens任务中就阐明欠安,而GPT-4o等闭源模子在8K tokens任务中性能也明显下落。

例如来说,让GPT-4o模子生成一个详备的旅行缠绵时,即使提供了相干的时刻节点和直飞航班廓清,在模子的生成恶果中仍然出现了不存在的航班信息,也便是出现了幻觉。

这到底是怎样回事呢?

全新LONGPROC基准

当今现存的长陡立文说话模子(long-context language models)的评估基准主要蚁集在长陡立文回忆任务上,这些任务要求模子在处理大齐无关信息的同期生成轻视的响应,莫得充分评估模子在整合散播信息和生成长输出方面的才气。

为了进一步精准检测模子处理长陡立文并生成回应的才气,陈丹琦团队冷漠了全新的LONGPROC基准测试。

从表1中各测试基准的对比可以看出,唯独LONGPROC基准同期应承6个要求,包括复杂的过程、要求模子输出大于1K tokens、且提供详情趣的惩办有筹备等。

新基准包含的任务

具体来说,LONGPROC包含6个不同的生成任务:

1.HTML到TSV:要求模子从HTML页面中索求指定信息并神气化为表格。需要从复杂的HTML结构中庄重地索求总共相干信息,并将其正确神气化。

比如从底下的网页中索求出总共影片的信息:

2.伪代码生成代码:要求模子将伪代码翻译成C++代码。需要保捏源代码和筹备代码之间的逐个双应关系,并确保翻译的正确性。

3.旅途遍历:要求模子在假定的民众交通汇注会找到从一个城市到另一个城市的旅途。需要确保旅途的独一性和正确性。

4.Theory-of-Mind追踪:要求模子追踪故事中对象位置的念念想变化。需要进行长距离的推理,以准确反应对象在不同技能点的位置和气象。

比如凭据底下的笔墨阐发测度出“Alice以为条记本在那边”:

5.Countdown游戏:要求模子使用四个数字和基本算术操作找到达到筹备数字的程序。需要进行深度优先搜索,并确保搜索过程的齐全性和正确性。

比如不才面的示例中,要求模子用四则运算操作输入的数字,最终得出29的恶果:

6.旅行缠绵:要求模子生成应承多种不停的多城市旅行筹备。需要探索多种可能的行程安排,并确保总共不停条款得到应承。

如下图所示,图中要求模子凭据任务提供的欧洲行程筹备和直飞航班缠绵最好的旅行时刻安排:

在输出恶果的同期,LONGPROC还会要求模子在实行详备才能辅导的同期生成结构化的长格局输出 。

从表2中可以看出,除了对比左边的实例数目(N)、输入和输出tokens的平均数目(#In/#Out),团队还会从表格最右3列的获取信息的格局、是否存在演绎推理和实行搜索这三个方靠近任务进行比较。

实验任务斥地

实验中,上头的6个任务齐有不同的数据集。例如,HTML到TSV任务使用了Arborist数据蚁集的56个网站;伪代码生成代码任务使用了SPOC数据集;旅途遍历任务构建了一个假定的民众交通汇注等等。

实验齐会要求模子实行一个详备的才能来生成输出。

此外,凭据任务的输出长度,数据蚁集被分为500 tokens、2K tokens和8K tokens三个难度级别。比如关于HTML到TSV任务来说,每个网站齐会被分割成非重迭子样本,这么就可以取得更多数据点。

参与实验的模子包括17个模子,包括流行的闭源模子(如GPT-4o、Claude 3.5、Gemini 1.5)和开源模子(如ProLong、Llama-3、Mistral-v0.3、Phi-3、Qwen-2.5、Jamba)。

实验恶果及分析

领先来望望实验中模子的举座阐明。

恶果有点令东说念主有时,总共模子在长才能生成任务中齐阐明出显耀的性能下落!具体的数值可以检讨底下的表3。

即使是GPT-4o这种前沿模子,在8K tokens的输出任务上也难以保捏庄重的阐明。

咱们再来详备分析一下不同模子之间的各异。

凭据底下的图3可以看出,像GPT-4o这么的顶尖闭源模子在0.5K任务上阐明最好,但在8K任务上性能显耀下落。

小范围的开源模子基本齐阐明欠安,而中等范围的开源模子(Llama-3.1-70B-Instruct)在低难度任务上阐明与GPT-4o收支不大。

不外,在某些8K任务上,中等范围的模子阐明很可以,比如Gemini-1.5-pro在HTML to TSV任务中就特出了GPT-4o,Llama-3.1-70B-Instruct、Qwen2.5-72B-Instruct在8K的Countdown游戏中也与GPT-4o收支不大。

但举座来看,开源模子的性能已经不足闭源模子。

勾引

此外,模子阐明跟任务类型也关系系。在需要更长推理的任务中,模子的性能宽广出现了更显耀的下落。

如图4所示,在Theory-of-Mind追踪、Countdown游戏和旅行缠绵任务这些需要处理更复杂的信息、进行更长链的推理的任务中,模子性能的下落幅度齐更大,GPT-4o、Qwen等模子的精准度致使直线下落。

除了对比17个模子之间的才气,团队成员还将阐明较好的模子输出内容与东说念主类输出进行了对比。

从表6的恶果中可以看出,与东说念主类才气比拟,面前模子还存在显耀差距。

东说念主类在Countdown游戏和旅行缠绵任务均分袂惩办了10个和9个问题,而最好的模子GPT-4o分袂只惩办了7个和3个问题。

总体来说,本论文冷漠的LONGPROC测试基准灵验地评估了模子在长才能生成任务方面的阐明,是对现存基准的一个补充。

实验发现,即使是早先进的模子,在生成连贯的长段内容方面仍然有很大的雠校空间。

尤其是在要求输出8k tokens的任务中,参数较大的先进模子也阐明欠安,这可能是异日LLM规划的一个尽头故意念念的地点。

一作是清华学友

这篇论文的一作是本科毕业于清华软件学院的Xi Ye(叶曦),之后从UT Austin计较机科学系取得了博士学位。

清华特奖得主Tianyu Gao(高天宇)也有参与这篇论文:

据一作Xi Ye的个东说念主主页暴露,他的规划主要蚁集在当然说话处理界限,要点是擢升LLM的可诠释性并增强其推理才气,此外他还从事语义知道和才能详尽的相干使命。

当今他是普林斯顿大学说话与智能实验室(PLI)的博士后规划员,还将从 2025 年 7 月开动加入阿尔伯塔大学(University of Alberta)担任助理耕种。

PS:他的主页也正在招收25届秋季全奖博/硕士生哦

参考聚合:

[1]https://arxiv.org/pdf/2501.05414[2]https://xiye17.github.io/

— 完 —

量子位 QbitAI · 头条号签约

缓和咱们阿朱 露出,第一时刻获知前沿科技动态



    热点资讯

    相关资讯