0次浏览 发布时间:2025-04-11 18:16:00
4月10日,商汤科技举办2025技术交流日活动,推出新升级的“日日新SenseNova V6”(日日新V6)大模型体系,通过多模态长思维链训练、全局记忆、强化学习的技术突破,形成领先的多模态推理能力,并突破成本边界。
会上,商汤科技董事长兼CEO 徐立发表演讲,他提到,大语言模型发展至今,已经消耗了互联网大部分的文本数据,有人预测说到2028年,互联网上所有的文本数据将会被消耗完,“那是不是整个知识就消耗完了?不是的,因为有很多知识都蕴藏在大量的图像、视频,甚至3D等等其他模态中”。
徐立说,多模态是补充人类智能的核心要素。以自动驾驶为例,从现实场景中收集数据已经不够了,商汤自己的开悟平台用可控的生成数据,能够提升端到端自动驾驶的决策,这就是一个跨模态提升技能的例子。
不过,从文本切换到图片、切换到视频,很显然输入要变大很多。例如,单图的字幕到视频能力,即使是以每秒一帧的速度来采样,也是翻了整整400倍。如果更密的采样,甚至更加复杂的编码,会使得数据量暴增,现在,通过长图像、视频的上下文性能的优化等等一系列工作,从而使大模型能用一个完整的表达来完成和人之间的交互。
此次发布的商汤“日日新 V6”,具有“长思维链”优势,能解决复杂问题,还有全局记忆,使得交互更加自然,比如能处理更长的视频段,更好的交互,比如视频交互中它有更好的前期记忆,使得流畅度提升,并且能对视频有整体的理解和深度推理。
徐立谈到,随着模型的通用性越来越强,很多场景在于百姓之日用。每天的使用,真正意义上辅助了人工智能的通用模型的大规模发展。
他重点提到一个网购的例子。双11、618期间,各个平台上的价格不一样,买哪一个更划算?然而,不同平台的图片有非常大的差异,打折的位置都不一样,有些写在黄色地方,有些写在蓝色地方,有些是在字后面。打折、价格都不一样,而且包装量大小也不一样,这就是一个天然多模态的问题。
如今,商汤大模型给出的建议,可以优化到每一张纸多少钱,给出平均价钱,从而给出最优方案的建议。徐立说,这是一个很琐碎的场景,也是大家会用到的场景,但这个小场景也会带来很多的客户闭环价值。
除了线上店,还有线下商铺,会得到大量线下反馈,甚至客服加了顾客微信,会有线上反馈等等。不少商家希望,能综合这些不同来源的意见,及时提升产品的质量和服务。
徐立举例说,一家咖啡店有微信朋友圈的吐槽,又有手写的反馈,还有网上点评等等,商家会定期整理一张表单,思考这些图表面潜藏的情绪。商汤大模型自动输出一个Excel,有近200条分析,这成为商家决策依据。
“商家分析所有数据之后,可以寻找到新的机会点。做推广活动后也能及时发现,线上推广活动效果是不错还是无效,那接下来就要思考怎么搞好推广活动。”徐立说。
在整理超过100万条用户反馈时,商汤注意到,有超过50%的用户上传的文件不只一个,30%的用户是非标准的数据文件格式,甚至有20%的用户是完全非结构化的,包括各种图片、手写等等,商家对多模态分析已经是一个明显的刚性需求。
推而广之,不只是店铺经营需求,其它如老师教学、销售报告、日志分析,甚至学生做数学建模的大作业都可以用大模型来分析。徐立对此表示,到了今天通用人工智能的时代,大模型加速走进更多的老百姓家里,变成老百姓的日用品,在很多的细分场景中带来价值闭环。
当天,商汤科技还宣布将发放“1亿代金券”,该计划聚焦具身智能、AIGC等多个前沿领域,通过多维度的精准扶持,为企业提供从专家咨询到模型训练、推理验证的全流程AI服务支持,打造“高效率、低成本、端到端”的一站式赋能方案。
南方+记者 郜小平
【作者】 郜小平
【来源】 南方报业传媒集团南方+客户端