具身智能“卷”数据:行业共鸣质地为先 各种性和畅通性仍有不及

逸品商贸有限公司具身智能“卷”数据:行业共鸣质地为先 各种性和畅通性仍有不及

你的位置:逸品商贸有限公司 > 行业资讯 >

具身智能“卷”数据:行业共鸣质地为先 各种性和畅通性仍有不及

发布日期:2026-06-18 14:23    点击次数:84

具身智能“卷”数据:行业共鸣质地为先 各种性和畅通性仍有不及

6月16日,在北京亦庄举行的以“Build with Galaxea”为主题的星海图全球斥地者大会(Galaxea WDC 2026)上,“数据”成为要道词之一。

围绕具身智能数据问题,多位行业东谈主士共享了大齐一线数据和判断:刻下国内可用于检修的具身数据量级约为百万小时,与大言语模子动辄几千万小时的视频数据、几十万亿Token(词元)的文本数据比拟仍有明显差距。

星海图CEO(首席推论官)高继扬在继承包括《逐日经济新闻》记者在内的媒体记者采访时默示,与大言语模子主要依赖互联网公开数据不同,具身智能的数据险些齐来自现实宇宙的收集,具有热烈的特有化属性。

这意味着,行业靠近的不仅是数据量不及的问题,更包括数据质地、收集老本、畅通遵守以及安全合规等一系列挑战。

“百万小时”之后,行业缺的仍是高质地数据

在采访中,高继扬领先回话了业界对于VLA(视觉-言语-手脚模子)与宇宙模子道路之争的问题。他以为,两者并非对立,而是同源共生。岂论检修哪一种模子,本质上齐需要将多模态数据救助为Token,再进行编码和学习。

他进一步将具身智能的数据需求拆解为四个维度:手脚、对象、场景和内容。所谓“采数据”,本质上是要尽可能把这四个维度的不同类型数据一起收集到。其中,Human-Centric Data(以东谈主为中心的数据)和Robot-Centric Data(以机器东谈主为中心的数据)各有作用。前者玩忽以较低老本快速遮掩大齐场景和不同东谈主体口头,后者则更靠近最终部署机器东谈主的真实通顺特色。

对于使用的数据类型,高继扬默示,当今的预检修基本一起使用真实数据,险些不必仿真数据。在公司达到100万小时数据鸿沟之前,暂时看不到大鸿沟继承仿真数据的必要性,因为真实数据更能灵验遮掩上述四个维度。

海天瑞声CEO李科在6月16日上昼的圆桌对话中默示,在刻下具身智能鸿沟中,诚然依然出现大齐检修场和数据采聚拢心,但简直可用于检修的数据鸿沟仍然有限。他估算,咫尺国内可用于具身模子检修的数据毛糙在百万小时量级,而学术界公开数据集大多唯罕有百小时,少数达到万小时鸿沟。

李科以为,咫尺之是以智能莫得闪现,问题不仅在于数据总量不及,还在于数据各种性和畅通性不够。不同检修场基于不同机器东谈主内容收集数据,变成了明显的数据孤岛。

对此,鲸跃能源CEO李广宇则进一步指出,高质地的数据亦然蹙迫身分。“咱们但愿,本年要是整个行业累积千万小时的数据,日韩在线精品一区其中简直有价值的不错达到100万小时,从量变到质变。”

在具身智能鸿沟,数据收集时时被视为一项推动工程。

高继扬以星海图的实践为例,给出了较为具体的老本测算。Human-Centric Data的收集老本约每小时50元至100元,Robot-Centric Data约每小时250元。轮廓来看,行业平均数据老本约每小时100元至150元。按照这一尺度,收集100万小时数据的老本在1亿元至2亿元之间。

高继扬强调,比拟大模子检修动辄数亿好意思元的算力参加,这笔钱“必须得花,而况相等合算”。他建议,揣摸数据参加不行只看数据单项老本,而应该海涵智能总老本。“智能总老天职三部分:数据老本、算力老本以及研发团队工程师老本。咱们(指星海图)的实践至少是1∶10,即1块钱的数据至少花10块钱去作念检修材干把它训剖释。”

在高继扬看来,简直推动的不是数据自己,而是低质地数据带来的检修奢侈。“要是输入的是不那么灵验的数据,产生的模子也不会有太大价值,在数据上量之前一定要先把数据质地惩办,人摸人人人澡人人超碰97而什么是最高质地的数据?真实数据是最高质地的。”

除了老本,数据壁垒也成为行业海涵焦点,高继扬直言,翌日具身智能模子的竞争很大程度上取决于数据质地。他以为,数据各异会逐层传导:从数据质地各异,到模子材干各异,再到运用放胆各异,最终体现为营业价值各异。

在营业模式上,高继扬将具身智能的发展分为两个阶段:刻下阶段仍以整机销售为主,简直面向坐蓐力的决策订阅模式阶段尚未熟谙。他以为,现阶段行业尚未有企业简直终了大鸿沟坐蓐力场景落地,因此更大的市集空间仍在翌日。

从数据到智能,行业正在寻找下一次跃迁

具身智能正处于从数据冷启动向智能闪现过渡的要道阶段。

清科灵境创举东谈主杨子江将具身数据比作主谈主工智能时期的石油。在他看来,简直的挑战不仅是收集数据,更是怎样完成数据的提真金不怕火、加工、提纯和畅通。“具身智能怎样获取三维的多模态的数据,奈何样材干高效地把其提真金不怕火并加工成有用的数据,这亦然需要禁止累积的经由。”

对于翌日的数据起首,业内也出现了一些新的探索标的。

李广宇以为,滥用电子诞生可能成为蹙迫的数据进口,举例手机、智能眼镜等末端具备录像头和端侧算力,不错在用户平方糊口中执续收集具身数据。与此同期,跟着机器东谈主缓缓进入真实坐蓐和糊口场景,其运行经由自己也将禁止产生新的检修数据。“各人以为本年是具身运用元年,预期翌日有更多的机器东谈主玩忽执行铺到真实的坐蓐糊口当中,这些机器东谈主产生的数据亦然很有价值的。”

高继扬在受访时默示,行业简直的Scaling(鸿沟化扩展)尚未运转。在他看来,具身智能的数据增长不会是线性的,而应是指数级推广。

此外,高继扬以为,咫尺具身基础模子的成长速率依然快于婴幼儿学习时刻的成长速率。因此,他并不以为行业发挥沉静。但高继扬同期强调,数据量的飞腾并不胜利带来模子推论速率的晋升,推论速率更多取决于后检修而非预检修。

他先容,预检修惩办的是泛化性问题,即面对新场景、新任务能否在不加多新数据的前提下完成;后检修则是针对特定场景的补充检修,肖似于服务者上岗前的专项培训,唯有经过培训后,推论速率才会简直晋升。

要是将刻下具身智能水平类比为婴儿,那么发展到绝顶于七八岁孩子的智能水平,大致需要多永劫分、多大鸿沟的数据?

面对这一问题,李科判断需要3至5年时分,对应的灵验数据量级在千万小时傍边。在他看来,要道在于灵验数据并非肤浅的数据总量。同期,与内容胜利关连的特定数据,如机器东谈主手腕目田度带来的各异化操作数据等,可能比泛化数据更具价值。

星海图CFO(首席财务官)罗天奇则默示,星海图里面判断的中性预计周期为3年傍边,要是算法层面出现紧要阻塞,这一程度有可能进一步提速。他同期提到,在数据老本中,算力仍是最大支出,数据自己相对是“小头”,但数据质地比鸿沟更为要道。数据基础步履材干以及标注时势的降本增效,将是行业接下来需要执续参加的要点标的。