辉夜姬反差开源大模子新王干翻GPT-4o，新时候可改造我方幻觉，数学99.2分刷爆测试集 - hongkongdoll face

极度强奸

你的位置：hongkongdoll face > 极度强奸 > 辉夜姬反差开源大模子新王干翻GPT-4o，新时候可改造我方幻觉，数学99.2分刷爆测试集

辉夜姬反差开源大模子新王干翻GPT-4o，新时候可改造我方幻觉，数学99.2分刷爆测试集

2024-09-11 00:21 点击次数：168

辉夜姬反差开源大模子新王干翻GPT-4o，新时候可改造我方幻觉，数学99.2分刷爆测试集

开源大模子王座骤然易主辉夜姬反差，的确来自一家小创业团队，须臾引爆业界。

新模子名为Reflection 70B，使用一种全新考试时候，让AI学会在推理进程中改造我方的造作和幻觉。

比如最近流行的数r测试中，一开动它犯了和掀开阔模子同样的造作，但主动在标签中改造了我方。

在官方评测中，70B模子全面卓绝最强开源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro，相配是数学基准GSM8K上径直刷爆，得分99.2%。

这个戒指也让OpenAI科学家、德扑AI之父Noam Brown感情开麦：

GSM8K得分99%！是不是不错进展淘汰这个基准了？

模子刚刚上线网友就把试玩挤爆了，对此Meta还主动支持了更多算力。

在网友测试中，Reflection 70B能回答对GSM8K数据聚合自身谜底造作的问题：

我向模子提供了GSM8K中存在的5个“ground_truth”自身就不正确的问题。

模子莫得类似数据聚合的造作谜底，而是一谈回答对了，这很令东谈主印象真切，标明那99.2%的准确率并非来自于操心测试集！

数多样r齐不在话下，连生造词“drirrrngrrrrrnnn”中有几个r也能被正确数对。

网友纷纷对小团队作念出的开源卓终点流闭源感到诧异，目下最强开源模子不错在土产货运行了。

盘曲70B还仅仅个开动，官方示意下周还会发布更大的Reflection 405B。

瞻望405B性能将大幅优于Sonnet和GPT-4o辉夜姬反差。

Reflection 70B权重已公开，API看望将至今天晚些时期由Hyperbolic Labs提供。

模子能自我反念念改造造作

目下对于Reflection 70B的更多细节如下。

Reflection 70B才能普及的盘曲，是摄取了一种名为Reflection-Tuning的考试模式，它简略让模子反念念我方生成的文本，松岛枫作品在最终细目复兴前检测并改造自身推理中的造作。

考试中的数据来自使用GlaiveAI平台生成的合成数据。

Reflection 70B基于Llama 3.1 70B Instruct，不错使用与其它Llama模子调换的代码、pipeline等从Reflection Llama-3.1 70B进行采样。

它以致使用了圭臬的Llama 3.1聊天体式。

不外，Reflection 70B引入了一些稀零tokens，结构化输出进程。

如底下这个例子所展示的，策画进程分为一个零丁的体式，这么作念不错提高CoT后果，并保抓输出精好意思：

模子将从在和标签内输出推理开动，一朝对其推理感到空隙，就会在和标签内输出最终谜底。

是以它简略将其里面念念考和推理与最终谜底分裂。

在部分，模子可能会输出一个或多个标签，这标明模子发现了其推理中的造作，并将在提供最终谜底之前尝试改造该造作。

系统教导如下：

You are a world-class AI system， capable of complex reasoning and reflection. Reason through the query inside tags， and then provide your final response inside tags. If you detect that you made a mistake in your reasoning at any point， correct yourself inside tags.

（你是一个天下级东谈主工智能系统，简略进行复杂的推理和反念念。在标签内对查询进行推理，然后在标签内提供你的最终复兴。若是你发现我方在职何时期推理出错，请在标签内改造我方。）

此外值得一提的是，基准测试中，通盘基准齐已通过LMSys的LLM Decontaminator查验欺凌，遏制了部分，并单独对这一部分进行测试。

使用Reflection 70B的时期，官方还共享了小tips：

初步提议参数temperature为.7 ， top_p为.95

为提高准确性，最佳附加“Think carefully.”在Prompt末尾

官方还示意，下周会发布一份论说，精明先容模子考试进程和发现。

Agent创业团队打造

Reflection 70B的背后是一支小团队，由HyperWriteAI的CEO Mutt Shumer指导。

领英裸露，Mutt Shumer是一位结合创业者，毕业于好意思国锡拉丘兹大学，现任OthersideAI的荟萃首创东谈主兼CEO。

OthersideAI是一家AI把握公司，接力于于通过大边界AI系统栽种大家起先进的自动补全用具，亦然HyperWrite的幕后公司。

HyperWrite是一个浏览器操作agent，不错像东谈主同样操作谷歌浏览器来完成一系列任务，比如订披萨：

和gpt-llm-trainer同样，你只需要用笔墨形容办法，它就会一边列体式，一边扩充。

刚推出时堪称“比AutoGPT强”。

HyperWrite还不错在谷歌推广规律中装配。

另外，Mutt Shumer高中时期就创立了Visos，接力于于栽种用于医疗用途的下一代凭空推行软件。

还创立了FURI，这是一家旨在通过创造高性能家具并以刚正的价钱销售它们来颠覆体育用品行业的公司。

诚然有Meta复旧，但目下打开试玩，依然：暂时无法看望。

上一篇：曼谷人妖新台风将生成！或影响东南沿海！福建今起有强对流
下一篇：色图片绘说当代化丨快递增速率构建便利中国

友情链接：

Powered by hongkongdoll face @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024