关键是它没能解决核心问题:理解世界。
激光雷达给你的是点云,一个距离场,它不知道交通灯是红的还是绿的,它不知道这个是小孩还是塑料袋。
它只是一个更贵的尺子。
在人工智能领域,多数据不等于好数据。
我们当然可以往模型里灌更多输入,但信息要有信息熵,要有对理解世界有用的信号。
激光雷达在高速公路上,或者高度规则化的场景下可能有用,但在日常城市驾驶,它反而会让系统依赖一个捷径,不去构建真正的世界模型。
你提到大语言模型,对,规模很重要。
但语言模型的前提是人类语言本身就包含了整个世界的复杂性,视觉输入也一样,视觉包含了驾驶所需的全部复杂性。
如果我们加进激光雷达,神经网络可能会依赖‘简化的答案’,而不去学习真正困难但关键的部分。
所以,这不是偷懒。
内容未完,下一页继续阅读