腾讯汽车 这段采访有意思。
腾讯汽车:李想说的是昆虫、哺乳动物和人类三个阶段。你们一直在延续“好模型、好数据、好算法”这个路线?没包装一下?
曹旭东:一直在延续这个路线,但我们并没有用VLA这个概念,因为VLA这个概念它跟更好的模型不是同一件事情。
VLA只是说这个模型它是Vision-Language-Action,它能干这些事,是不是真的可以用这样的模型去干这些事?
我举个例子,大猩猩和人,它其实都是VLA的model(模型),猩猩人家也有语言,有可能老鼠也有老鼠的语言。
就是说,VLA的model,有的是老鼠的VLA,有的是猩猩的VLA,有的是人的VLA。
VLA更好的模型,意味着这个模型上限是更高的,它有更好的视觉能力、更好语言能力以及更强的action能力。
新能源大牛说