昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试
创始人
2024-11-27 18:02:54
0

今天,昆仑万维正式推出具有复杂思考推理能力的系列模型——「天工大模型4.0」 o1版(Skywork o1)。

Skywork o1是由昆仑万维集团发布的具有慢思考推理能力的系列模型。这是国内第一款中文逻辑推理能力的o1模型。不同于现有的复现OpenAI o1模型的工作,Skywork o1不仅在模型输出上内生了思考、计划、反思等能力,同时,该开源模型在标准评测集上,对比普通模型推理能力大幅上升,真正让模型拥有了思考和反思带来的推理能力的提升。团队复现o1的技术路线,使得初始推理能力较差的基座模型在基准测试集上成为生态位SOTA。

此次发布的Skywork o1包括三款模型,既有回馈开源社区的开放版本,也有能力更强的专用版本:

  • Skywork o1 Open:一款基于Llama 3.1 8B的开源模型,该模型在同生态位开源模型中评测指标大幅提升达到SOTA水平,并解锁了许多轻量级模型无法解决的复杂数学任务。该模型的发布也将帮助加速国内开源社区复现o1的进程。
  • Skywork o1 Lite:该模型具备完整的思考能力,具有更好的中文支持和更快的推理和思考速度。在数学、中文逻辑和推理类问题上表现突出。
  • Skywork o1 Preview:这款模型是本次完整版的推理模型,搭配自研的线上推理算法,对比Skywork o1 Lite有着更多样和“深度”的思考过程,更完善和更高质量的推理。

其中,我们开源的Skywork o1 Open,在各项数学和代码指标上均有大幅提高,将Llama-3.1-8B的性能拉到同生态位SOTA(超越Qwen-2.5-7B instruct)。同时,8B的Skywork o1 Open也解锁了很多较大量级模型,如GPT 4o,无法完成的数学推理任务(如24点计算)。这也为推理模型在轻量级设备上部署提供了可能性。

同时,我们也将开源两个推理任务的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,相比此前开源的Skywork-Reward-Model仅对整个模型回答进行打分,Skywork o1 Open-PRM能给模型回答中的每个步骤进行打分。

对比开源社区现有的PRM,Skywork o1 Open-PRM-1.5B能达到开源社区8B的模型效果,例如RLHFlow的

Llama3.1-8B-PRM-Deepseek-Data,OpenR的Math-psa-7B,Skywork o1 Open-PRM-7B能同时在大部分benchamrk上接近/超过10倍量级的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款适配代码类任务的开源PRM。下面表格为以Skywork-o1-Open-8B作为基础模型,使用不同PRM在数学和代码评测集上的评估结果。

除Skywork-o1-Open-PRM外,其他开源PRM均未针对代码类任务进行专门优化,故不进行代码任务的相关对比。

详细技术报告也将在不久后发布。目前模型和相关介绍在Huggingface开源。

开源地址:

https://tinyurl.com/skywork-o1

强推理以及自我反思的能力是如何练成的?

Skywork o1在逻辑推理任务上性能的大幅提升得益于天工三阶段自研的训练方案:

  • 推理反思能力训练:通过自研的多智能体体系构造高质量的分步思考,反思和验证数据。通过高质量的、多样性的长思考数据对基座模型进行继续预训练和监督微调。
  • 推理能力强化学习:团队研发了最新的适配分步推理强化的Skywork o1 Process Reward Model(PRM)。实验证明Skywork-PRM可有效的捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响。结合自研分步推理强化算法进一步加强模型推理和思考能力。
  • 推理planning:基于天工自研的Q*线上推理算法配合模型在线思考,并寻找最佳推理路径。这也是全球首次将Q*算法实现和公开。Q*算法落地也大大提升了模型线上推理能力。

关于天工 Q*算法,更多详情可见:

https://arxiv.org/abs/2406.14283

亮点功能与实测

Skywork o1模型具有以下能力和亮点功能:

  • 模型思考和规划能力
  • 模型自我反思能力
  • 模型自我验证能力

相较于此前(长文本任务)大模型,无论是常识推理问题、逻辑推理问题、数学推理问题、伦理决策问题、还是“弱智”(类似脑筋急转弯)逻辑陷阱问题等,Skywork o1都处理的游刃有余。整体来说,Skywork o1 Lite和Skywork o1 Preview线上版本在复杂问题分析、思考反思过程、输出答案质量上均有大幅提升。

首先,我们拿一道「2024年全国硕士研究生入学统一考试数学(一)试题」考考它(如下图所示),测试一下它的“智力水平”。

面对难度不小的最新考研数学题,Skywork o1 Preview尽管花费了一些时间,但还是一步步推理出了正确结果。

那么,之前大模型经常翻车的比大小问题,Skywork o1现在的回答水平如何了?

从它的思考过程可以看出,Skywork o1的模型思考和规划能力大幅提升。这个解题逻辑非常像人类的思考方法了,“如果整数部分相同,那么就要开始比较小数部分了”。通过严谨的推理过程,准确得出8.8大于8.11,且多给出了一步差值计算。

此外,模型自我反思能力和自我验证能力也都有长足进步。Skywork o1可以准确识别出“nǐ hǎo hěn gāo xìng rèn shí nǐ”,还可以给出后续对话建议。

尽管我们让它回答存在中文读音“陷阱”的问题——“请将qíng rén yǎn lǐ chū xī shī转换为中文”,它也没有被我们绕进去。充分展示了中文逻辑问题思考中的反思能力,它主动发现了“西诗”是不对的说法,而是“西施”。

同样的,对于之前的大模型来说,“算24点”的游戏很容易把模型搞崩溃了,但是对于Skywork o1来说,可谓是小菜一碟。它不仅给出了正确答案,重点是它在过程中进行了「自我验证」。它在计算过后,又检查了一遍,确认过程和答案全部符合命题要求,才给出最终答案。

除了上述给出的数学推理、比大小、中文逻辑以及24点计算的任务外,Skywork o1在其他复杂的场景也有较好表现:

竞赛数学:Skywork o1拿到2024 AIME第一题(如下图所示),也从容应对。计算逻辑清晰、公式展示流畅,计算时长也明显具有优势。

密码解密:在复杂密码解密任务中,Skywork o1拥有强大的自我探索和推理能力。

在已知「原文→密文」的前提下,经过一系列复杂推理后成功给出答案(如下图所示)。

如果反过来呢?已知一段「密文→原文」,能否找出新密文所对应的原文。Skywork o1表示小菜一碟。

智力问答:在复杂的中文推理问题上,Skywork o1表现优异,并给出了完整的思考链路。

最后,再让我们再给他出一些有趣的“弱智”问题,来看看它的回答是不是合理。

  • 为什么我爸妈结婚的时候没邀请我参加婚礼?
  • 被门夹过的核桃,还能补脑吗?
  • 午餐肉,我可以晚上吃吗?

令人惊喜的是,Skywork o1不但没有被问题绕进去,还分析的头头是道,甚至透露出“大智慧”,引申出了一些更底层的思考。

进阶版的复杂人类思考能力的解锁也将进一步在垂类领域增强大模型的应用,例如:

  • 中英文常见逻辑推理和复杂任务,如数学/代码类任务,科学研究
  • 高质量内容生成,如创意写作,行业报告写作
  • 深度搜索,解锁复杂搜索任务的拆解

2024年以来,昆仑万维天工AI持续进化,陆续发布了「天工2.0」、「天工3.0」、「天工大模型4.0」4o版——Skywork 4o,以及今天正式发布的「天工大模型4.0」 o1版(Skywork o1),不仅是我们贯彻“All in AGI 与 AIGC” 战略的重要举措,更是我们构建AI技术栈的重要一步。我们将秉持“实现通用人工智能,让每个人更好地塑造和表达自我”的使命,从模型层、应用层等全方位、多维度来构建公司技术竞争力和生态矩阵。

测试地址

「天工大模型4.0」 o1版(Skywork o1)开启测试

相关内容

热门资讯

原创 1... 在人民币收藏领域,1元纸币因其流通时间长、版本多样、设计独特而备受关注。每个时代的1元纸币都承载着独...
全柴动力新提交1件商标注册申请 证券之星消息,根据企查查数据显示,近日安徽全柴动力股份有限公司新提交1件商标注册申请。商标申请详情如...
【1月1日】相约升钟湖 共赴这... 看南部网推荐百家号 获取精彩独家资讯! 爆料微信:15520870888 正文 升钟湖“庆元旦...
国家5A景区,吉林省+1! 12月27日,文化和旅游部发布《文化和旅游部关于确定19家旅游景区为国家5A级旅游景区的公告》,吉林...
1月1日元旦,记得提醒家人吃这... 1月1日元旦,记得提醒家人吃这4道“开运菜”福满财多寓意好,欢乐过新年! 时光如梭,转眼间2024年...
原创 阿... 做客的、赛前排名第19的升班马伊普斯维奇队迎来了英超第18轮的较量,伊普斯维奇队此役做客PK赛前排名...
力源信息新提交1件商标注册申请 证券之星消息,根据企查查数据显示,近日武汉力源信息技术股份有限公司新提交1件商标注册申请。商标申请详...
航天工程新注册《总包造价软件V... 证券之星消息,近日航天工程(603698)新注册了《总包造价软件V1.0.1》项目的软件著作权。今年...
国家通知!这种疫苗,调整了!明... 重要提醒!! 孩子们打的一类疫苗 有调整!!! 根据《关于国家免疫规划百白破疫苗和白破疫苗免疫程序调...
1月1日起,暂停!广东紧急通知 今天(12月27日) “广东税务”发布最新通告 2025年1月1日00:00至1月5日24:00 暂...
2025年1月1日!交通管制! 12月25日 阳泉市交警一大队发布 关于2025年阳泉市矿区新年登高 全民健身活动期间 交通管制的通...
陕鼓动力将于1月13日召开股东... 金融界12月27日消息,陕鼓动力发布公告,将于2025年1月13日召开第1次临时股东大会,网络投票同...
1+1观影团《误判》甄子丹“以... 由黄百鸣、甄子丹联合监制,甄子丹导演的贺岁档动作电影《误判》将于12月27日正式与观众见面。片中,曾...
上海气温暴跌至零下5℃!冷空气... 上海人注意! 北方有一股冷空气正在南下 今天5点钟 它的前锋已经到达华东地区北部 预计今天下午开始影...
突发!以色遭高超音速导弹袭击,... 据央视新闻,当地时间12月27日,也门胡塞武装发言人叶海亚·萨雷亚发表声明称,胡塞武装使用“巴勒斯坦...
颐和园:2025年1月1日起游... 新京报讯 据颐和园官微消息,北京市颐和园管理处12月27日发布温馨提示: 颐和园于2024年10月至...
哈尔滨市出租车计价新规明年1月... 近日,哈尔滨市交通运输局、哈尔滨市发展和改革委员会联合印发《关于印发哈尔滨市巡游出租汽车计价规则的通...
英超-近13场仅1胜!哈兰德点... 央视网消息:英超第18轮,曼城主场迎战埃弗顿。上半场格瓦迪奥尔中柱,B席破门,阿坎吉踢空+刘易斯漏人...
北京菜市口百货股份有限公司党委... 北京商报讯(记者 王维祎)12月26日,由北京市商务局指导,北京日报报业集团和北京市商业联合会共同主...
哈尔滨冰雪大世界勉强盈利,小型... 文|劲旅网 哈尔滨冰雪大世界一经开业,再次成为今年绝对顶流。尽管票价高达300元+,但丝毫阻拦不住...