DeepSeek新应用!这群杭州90后做的事上热搜

东坡肉、蘑菇炒青菜、清蒸鲫鱼、虾仁豆腐……做了满满一桌菜,拍张照片扔给AI,问它:图片里的哪种食物蛋白质含量最高?哪道菜尿酸偏高的人不宜多吃?

AI深度思考了几秒钟,打出推理全过程,最后在图片上将答案圈了出来。

这是学会推理的多模态大模型,未来在日常生活中的一个应用小场景。此前,这种“长眼睛”、擅长推理的AI还停留在想象阶段。不过最近,来自杭州Om AI Lab的一群95后,已经成功地将DeepSeek-R1的训练方法,从纯文本领域迁移到视觉语言领域,打开了多模态大模型的更多想象空间。

他们还将这个名叫VLM-R1的项目开源,发布在全球最大的代码托管平台GitHub上,上线仅一周,就获得各国开发者给出的2.7k Stars(星标),并在2月21日登上热门趋势榜。这一成绩在这个开源社区里堪称亮眼。

VLM-R1上线GitHub一周的Star(星标)数据曲线

2月21日上了GitHub热门趋势榜

这支研发团队的带头人,是名90后——Om AI Lab的创始人赵天成博士,他同时也是浙江大学滨江研究院Om人工智能中心主任、博士生导师。

将教DeepSeek-R1推理的方法

带到机器视觉领域

DeepSeek-R1模型的独特之处,在于DeepSeek对通用的模型推理步骤进行了调整。此前,模型在提升推理能力时,通常依赖“监督微调”(即SFT,监督式微调)这个环节。简单来说,就是拿一个已经学了不少东西的大模型,用一些特定的、标记好的数据,来教它如何更好地完成某个任务。这就好比你已会做菜,但具体到川菜或徽菜,还需通过专门的练习来掌握烹饪技巧。

而DeepSeek-R1在训练过程中直接跳过了这个环节,进入“强化学习”阶段,探索大模型在没有监督数据的情况下,通过纯强化学习进行自我进化。这种创新性的强化学习方法,有个专业名词,叫群组相对策略优化(Group Relative Policy Optimization,GRPO)。

GRPO已经帮助DeepSeek-R1学习推理,那是否也能帮助AI模型在一般计算机视觉任务中表现得更强?

Om AI Lab研发团队反复实验后的答案是:可以。

他们在一个视觉定位任务中,训练了通义开源视觉理解模型Qwen2.5-VL。在此基础上,同时用R1方法和SFT方法进行对比。目前得出的结论是:R1方法在各种复杂场景下,都能保持稳定的高性能。这在实际应用时至关重要。

如下图的街景照片,给AI的任务是:定位出图中可能对视障人士行走造成危险的物体。

在路边人行道的场景里,人类能想到对视障人士造成行走障碍的,通常是石墩子、公交站牌、行人等,这些就是可以提前标记好的“数据”。但在这张图中,出现了一个比较特殊的情况——台阶。

从赵天成团队的实验看,经过R1方法训练的AI模型,能够成功推理出台阶在这个场景中会对视障人士造成危险。

“对人类来说,这属于常识性推理,再容易不过。但对于此前传统的计算机视觉模型而言,这其实非常难。”赵天成解释。

又如下面这张图,桌子上放着山药、鸡蛋饼、毛豆、青菜、咖啡和橙子,让AI定位图中含维生素C最多的食物。

使用R1方法训练的AI模型,很快锁定了橙子并附上思考过程。“以前它直给答案,不会告诉你解题思路,且错误率偏高,比如10道题最多答对四五题,而用R1方法训练的,能答对七八题。”

此外,机器学习领域有一种很常见的情况:用任务A去训练模型,随着训练步数(训练模型所执行的迭代次数)的增加,在跟A没有那么相似的任务B上,它的性能会变差(图中红色曲线)。“有点‘摁了葫芦起了瓢’的意思。所以以前做多任务时,还要精心控制任务间的比例。”而使用R1方法训练的AI模型(图中绿色曲线)并不会出现这种趋势,这意味着R1方法能帮助模型真正“学会”理解视觉内容,而不是简单地记忆。

绿色曲线是使用R1方法训练,红色曲线是使用传统的SFT方法。

为视觉语言模型训练

打了新思路

“实验从春节长假期间开始启动。好在前期积累比较多,很多‘基础设施’是现成的,有了想法后,能快速进行实验、验证结果。”组成团队的10人,有研究院的研发人员,也有赵天成带的博士生。

2月15日,赵天成在海外社交平台上发布VLM-R1的实验结果,并将它开源、上传到GitHub,截至2月22日,已获得全球开发者们给出的2.7k Stars。

大大小小的交流切磋问题蜂拥而来:要训练多久,最低显存是多少,能否再多分享几个模型思考过程……

“虽然底层逻辑是相通的,但视觉和数学、代码是完全不同的模态。怎么在视觉领域进行设计,让它真正跑通,团队其实也经历了多次试错,才找到目前这样一个比较有效的组合。”赵天成坦言,现在这个版本只能算是0.1版,远未达到成熟,“有一些问题,需要继续用更多实验来解答。”

在他看来,这段时间的实验,最大意义之一是为多模态模型的训练和行业提供了一些新的思路。它证明了R1方法的通用性,“不仅在文本领域表现出色,还可能引领一种全新的视觉语言模型训练潮流。”

“做一个勇于尝试的引领者

比在风口追随着他人来得重要”

Om AI Lab背后的母公司联汇科技,位于杭州滨江互联网产业园,这里曾是阿里、网易崛起的摇篮,互联网和物联网技术从这里走入我们的日常生活。眼下,人工智能成了主角,这家公司正在致力于人工智能智能体平台的应用和落地。

2月21日,由赵天成带队的Om AI Lab,在上海举行的2025全球开发者先锋大会(GDC)上,带去了基于R1强化学习的视觉理解多模态模型VLM-R1的首秀,以及开源大语言模型智能体评测平台Open Agent Leaderboard。

赵天成 (陈中秋 摄)

去年8月,赵天成在接受采访时说,他始终记得当年在美国卡耐基梅隆大学(CMU)求学时导师说的一句话:To be a leader, not a follower,做一个勇于尝试的引领者,远比在风口追随着他人来得重要。

(来源:潮新闻)

主题测试文章,只做测试使用。发布者:参考消息网,转转请注明出处:https://www.cns1952.com/gov/7418.html

(0)
参考消息网的头像参考消息网
上一篇 2025年2月25日 下午4:00
下一篇 2025年2月25日 下午4:00

相关推荐

  • 莫生气,别焦虑!这些伤害“颜值”的皮肤问题,都跟心理有关

    给大家一个建议 马上开心一点! 图片来源 :发表情 毕竟 心理影响皮肤 皮肤又影响心理 要是心情不好、抑郁 是不是有时候要爆痘、长疹子 甚至脸都变油了? 要是皮肤不好,影响颜值 是不是心情更差了 饭都吃不下? 总结起来就是 越“愁”越“丑” 越“丑”越“愁” 心理因素和皮肤问题 存在双向关联 压力对皮肤的影响 心理问题(如压力、焦虑或抑郁)会激活下丘脑-垂体…

    2024年12月22日
    23300
  • 又有人被野菜“放倒”了,这次是“一支箭”

    春夏时节,不少野菜生长于户外,热衷于去户外“打野”的人也越来越多。有人手握“野菜图鉴”,结伴“扫荡”公园、绿地,甚至催生了“挖野菜搭子”和付费体验活动。 结伴挖野菜: 这到底能不能吃啊? 4月初,在北京南苑森林湿地公园的草地上,一群年轻人三三两两地蹲在草丛间。他们手持小铲和篮子,拨开草丛,不时拿出手机里的“野菜图鉴”比对甄别。 “这棵个头儿可真大!这是蒲公英…

    2025年4月21日
    3500
  • 一起“森”呼吸,探索高黎贡山的自然宝藏

    认识高黎贡山 高黎贡山起源于青藏高原唐古拉山,呈东西走向的伯舒拉岭作为其山系一脉,在西藏与云南交界的横断山区因地壳运动的影响而转向,进入云南后被称为高黎贡山,并随之形成了南北走向,与我国众多东西走向的山脉形成鲜明对比。高黎贡山海拔高度差异显著,最高处达到5,128米,而在我国境内的最低点则为210米。高黎贡山地理位置独特,其东侧紧邻怒江,西侧则是伊洛瓦底江支…

    2024年12月30日
    22500
  • “科研界的郑渊洁”?他把科学当童话讲给孩子听

    “传说,在大山的深处,住着一条长尾龙,它喜欢在狂风暴雨的夜晚从山里冲出来,如果人们离得太近,就会被它吃掉……”这是科普童书《大山里的长尾龙》的第一句话,出自中国地质调查局成都地质调查中心教授级高级工程师、地质工程专业硕士研究生导师铁永波笔下。 铁永波 或许这二者的联系有些“反差萌”。但铁永波就是这样一个人,富有童心、热爱文学,凭一己之力一扫大众眼中类似“科学…

    2024年12月22日
    27300
  • 墨鱼汁真的洗不掉?仅3招教你轻松搞定~

    近期,一则视频在网上流传:一位餐厅顾客的脸沾到了墨鱼汁,结果越擦越黑,另一位顾客说:“如果擦得掉,服务员早就擦掉了”。 在享用墨鱼或墨鱼汁制成的食物时,许多人都会被它独特的颜色和味道所吸引,却又在衣服甚至皮肤被染黑时陷入困扰——这种浓稠的液体是否真的像传说中那样难以清洗?事实上,墨鱼汁的清洁难度与其成分特性、附着材质及处理方式密切相关。 墨鱼汁为何难洗? 墨…

    2025年4月26日
    3300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信