Wednesday, 2 November 2016

香农的信息论,可以简单地理解为利用信息消除不确定性(即信息熵)

但是随着科学的发展,科学家们发现,这个世界并不是确定的。不论是有法国数学家庞加莱(Henri Poincaré)在三体问题、美国气象学家洛伦兹(Edward Lorenz)在天气预报等宏观世界中发现的混沌现象,还是有物理学家海森堡(Werner Heisenberg)在微观世界中发现的测不准原理,都表明:这个世界在大部分情况下是不可预测的(即1+1≠2)。
基于这个世界是不确定的前提,在第二次世界大战中,美国数学家维纳(Norbert Wiener)和香农(Claude Shannon)各自逐步发明了一套新的方法论,即控制论和信息论。而直到第二次世界大战结束才真正开始发展的硅谷和以色列则跳过了指导了前两次工业革命的牛顿力学和机械思维,直接接受了这套新的方法论,避免了历史包袱,从而成为了全世界IT创新创业最活跃的地区。
香农的信息论,可以简单地理解为利用信息消除不确定性(即信息熵),现在提的比较多的“大数据思维”本质上是香农的信息论。而维纳的控制论,可以简单地理解为根据反馈不断进行调整输出,而放弃对未来做过多的预测,因为随机性无处不在。在Google内部,产品经理们都遵循这样一个规则:在没有数据之前,不要给出任何结论。这正好体现了信息论与控制论的思维方式。吴军博士在《智能时代》中提到:“人类在机器智能领域的成就,其实就是不断地把各种智能问题转化成消除不确定性的问题,然后再找到能够消除相应不确定性的信息,如此而已。”不论是Google在线广告与用户的高度匹配,还是Nate Siliver准确预测出2012年美国大选所有50个州及华盛顿特区的结果,皆是如此。
具体到无人驾驶汽车而言,最先研制出的Google的做法也体现了“利用信息消除不确定性”并在此基础上“根据反馈不断进行调整输出”的原则——Google无人车是Google街景项目的延伸,只能在街景车扫过的、具有大量数据积累的地方行驶,Google工程师根据测试的结果离线调整程序。而当Google的无人驾驶大数据具有了完备性,即覆盖了所有可能的情况时,不确定性就被完全消除了,无人驾驶汽车就实现了100%的安全。但事实上,这对Google而言比较困难,因为其在测的无人车数量比较少,只有几百台。据华尔街日报美国当地时间10月5日报道,Google宣布自己的无人驾驶汽车刚刚完成200万英里道路行驶里程。从2010年纽约时报曝光Google无人车算起,时间经过了6年。而由于搭载Tesla Autopilot的汽车数量大了两个量级,Elon Musk几天后在个人Twitter上宣布:Tesla Autopilot发布后的1年中累计行驶里程已达到2.22亿英里。因此,Tesla更有机会先达到大数据的完备性。
当然,实现大数据完备性不可能是一蹴而就的。如果汽车工况也如自然界和社会中的许多现象一样,遵循帕累托分布(即幂律),则图4中绿色部分表示的经常发生的少数工况占所有工况发生次数的绝对比重(如80%以上),而不经常发生的大量工况则分布在图中黄色的长尾中。但由于汽车保有量的基础达到亿辆级别,长尾中的小概率工况乘以10^9后,发生的次数也是惊人的。而要覆盖长尾中的小概率工况,需要积累比80%经常发生的工况多得多的行驶里程,比如后者需要积累100万公里,前者可能需要积累100亿公里里程,相似的例子可以在搜索引擎中找到。细心的用户可能会发现,对于常见的关键词搜索,比如“人工智能”,Google和微软Bing搜索的结果差不多,但是遇到偏僻的关键词,如“伦勃朗早期作品”,由于Google长期积累的数据足够训练出这些“长尾搜索”的点击模型,它的结果要比Bing要准确的多。
Tesla作为一家诞生于硅谷并自诩为“IT公司”的汽车企业,自然深谙上述道理——产品在达到一定水准后,只有通过先上线,得到反馈,然后再修改,才能完善,那种一次性设计开发一个完美的产品的做法,在未知因素过多的情况下,几乎不可能做到。其OTA(Over-The-Air)升级软件系统的做法,即Tesla官方文件中声称的“Before activating the features enabled by the new hardware, we will further calibrate the system using millions of miles of real-world driving to ensure significant improvements to safety and convenience.(在启用由新硬件激活的新功能之前,我们将使用数百万英里的真实驾驶里程进一步校准系统,以确保显著提高安全性和便利性)”,体现了“利用信息消除不确定性”及“根据反馈不断调整输出”的思维方式:Tesla会针对出现的小概率新工况,做出相应的反应,及时制定应对措施,这完全不同于传统车企的做法。
通常情况下,车企试图在研发阶段就提前预测到一切可能的情形,然后在开发的过程中予以解决。对传统车企而言,在汽车离开流水线的一刹那,两者之间的联系就被切断了,车企对于汽车的运行状况其实是一无所知的。汽车厂商对数据并不关注,并不会像通用电气那样认真地收集航空发动机每次飞行所产生的数据,将提炼出的宝贵信息用于下一代产品的开发。例如,在汽车出厂之后,根据每一个车主的不同驾驶习惯和形式工况的数据,汽车厂商能够做到修改标定过的内燃机MAP图以提升经济性或动力性吗?并不能!因为传统车企本质上是基于牛顿力学的,并不关注不确定性和个性化。
就研发无人驾驶汽车而言,传统车企那种想保证完全安全之后再发布新车的做法是行不通的,因为长尾中的小概率工况只有通过收集大量的数据,以OTA的方式才能逐步覆盖,正如Tesla所做的那样。值得一提的是,只要汽车的被动安全技术做到位,Tesla这种看似比较激进的做法并不会导致无法挽回的结果,但却可以实实在在地在整体上提升行车的安全性。

No comments:

Post a Comment