这张图还是很清楚的解释了VLA是个啥。
简单说就是通过摄像头看到了画面(Vision),然后用大模型解读画面提取有效信息(Language),再通过大模型针对信息给出决策(Action)参考
存在着大模型解读画面的信息损失和延时,还有根据信息给出Action的信息损失和延时,所以VLA是个快不起来的东西。
小鹏科技日

这张图还是很清楚的解释了VLA是个啥。
简单说就是通过摄像头看到了画面(Vision),然后用大模型解读画面提取有效信息(Language),再通过大模型针对信息给出决策(Action)参考
存在着大模型解读画面的信息损失和延时,还有根据信息给出Action的信息损失和延时,所以VLA是个快不起来的东西。
小鹏科技日

作者最新文章
热门分类
汽车TOP
汽车最新文章