跳转至

2023.06.16.思考的真相.10

上一节课呢,讲到未知结束的时候我们说,其实呢在此之前相当长一段时间里是长长的暗黑时代。当所谓之呢,我们顶多走到了后半夜,离哪怕黎明还有相当长一段时间的距离。那后来呢,就来了曙光了,那这就是我们这节课的标题“曙光”。让我们从一个专门的词开始说起,叫“算法”。大家可能都听说过所谓的算法,通俗的讲呢就是计算的方法。那再进步通俗化的话呢,就是一步一步怎样算而已。其实呢这也是一种流程而已。

人类史上迄今为止最重要、最具价值的算法,很可能是200多年前一位牧师提出来的。后来呢人们以他的名字将其命名为贝叶斯定理。说实话,仔细想想的话呢,这个贝叶斯本人呢可能并不同意这个以他名字命名的定理名称。因为严格意义上来看呢,贝叶斯只是证明了贝叶斯定理的一个特例。而另外一位数学家叫拉普拉斯,证明的是贝叶斯定理的一个更为普遍的版本,并将其应用于天体力学、医学统计甚至法理学之中。

但是比较遗憾的是什么呢?这个拉普拉斯啊,被称为数学界的牛顿的泰斗拉普拉斯,认为这个定理呢几乎无关紧要。遗憾的是什么呢?当时啊贝叶斯只是个小神父,而拉普拉斯呢是个大神、数学泰斗。于是呢,拉普拉斯的看法影响了随后一百多年时间里几乎所有的统计学家。要直到二十世纪五十年代快要结束的时候,那从现在往回看的话呢就是七十多年的时间,七十多年前啊,贝叶斯定理呢才被重新发现,就好像当初亚里士多德的言论在消失之后一千多年之后重新发现一样,而后逐步变成了今天所谓人工智能的终极算法。

虽然说啊上面这个数学公式的理解难度实际上并不是特别特别高,但呢也的确不是一看就懂的那种。它也并不是存在于当前正在讲授的中学课本里,甚至呢绝大多数本科毕业生在毕业之前,也不见得在自己的学科里见到过他。就算见到过他的人呢,也不见得对他真正了解,也只不过是一知半解,弄不好只不过是仅仅听说过而已。

其实无论在哪个国家都是一样的,这实在是在重要的知识点上认知分布差异极大的一个经典案例。在人群当中,对这个当下正在对人类影响最大的数学公式或者所谓的算法不了解之比例之高,实在是令人惊讶。拿中国为例的话呢,大家可能听说过,在中国呢本科学历以上人口仅占人群的4%都不到,研究生学历以上人口仅占整个人口的0.6%都不到。然后呢你要知道的就是说,不管是本科学历还是研究生学历,其中绝大多数学科可能都不会在自己的专业领域里应用到这个公式。于是呢,在人群当中真正理解他并且真正应用他的人,仅占万分之一不到都不见得是错误的估计。

所以呢,如果你见过这个公式不一定理解这个公式,你也别着急,实在是没办法的事情,这是当下教育的结构造成的。等到下一代的下一代,很可能在中学的时候或者小学的时候,就有人在课堂上讲解这个东西了。到那个时候呢,可能知识的普及率就真的提高了。但是现在呢,智商啊、积累啊、教育啊、生产资料都相对有限的普通人,比如说你和我,常常可以选择捷径。

这个捷径是什么呢?就所谓的四个字叫“囫囵吞枣”。也就说,虽然那证明过程我看不大懂,可如果那结论的确严肃且靠谱,那么我总可以把它直接拿过来用吧。事实上我自己翻阅很多领域的科学论文的时候,也的确经常这么干。反正呢也理解不了证明过程,看完之后呢,看完概要之后呢,就直接跳到末尾去看结论,然后拿着结论去解决问题。你还别说,就这样轻松解决了不少问题呢。

你仔细想想就明白了,哪怕字面意义上的囫囵吞枣,你拿了一个枣直接吞了下去,虽然缺了咀嚼的过程、少了品尝的滋味,甚至可能吞下了原本就应该吐出来那个枣核,但是呢从冲击的角度来看,也的确相当管用。我们不是在讲概率课,现在也不是想马上深入研究人工智能主算法,所以呢我们可以在这里先不管具体的细节,就先囫囵吞枣地理解一下贝叶斯定理究竟是干什么的。

以下这句话我相信其实所有人都能读懂,不管你是本科学历还是研究生学历,或者是仅仅中学学历。这个贝叶斯定理用来干什么呢?它就是可以用新的证据修订并提高之前假说的正确概率。每个字都认识,对吧?然后呢每个词都好像不复杂。你先囫囵吞枣地去理解这句话,这个贝叶斯定理就是用来干什么的呢?它修正假说正确的概率。那用什么修正呢?用新的证据。

举例来说,炮兵呢在战场上就不由自主地在应用贝叶斯定理。你别管他是否知道贝叶斯定理这个词汇,但他就是在用。或者换个说法,炮兵在打击目标的过程其实就是贝叶斯推理过程。当一个炮兵瞄准目标并且准备发射的时候,他现在呢就持有一个假说。他要熟悉自己的设备,能够估算炮弹的轨迹,估算距离和风速的影响,确定炮筒的方向和角度。然后呢这个假说说有一定的成功概率击中目标,虽然很难直接做到百分之百准确。

然后呢第一发炮弹打过去,击中了目标那当然很好,可以说是技术好,也可以说多少有点运气好。事实上呢,哪怕成功概率不超过一半,也有可能第一次就打中,你说是不是这样?这第一发如果没有打中呢,其实很正常。但是第一发炮弹落地的位置将成为新的证据,而这个新的证据将使这位炮兵改进自己的假说。他会调整炮筒的方向和角度,于是呢这一次的假说比上一次的假说成功概率更高。这个呢其实就是贝叶斯推理过程。

在此之前呢,这个形式逻辑也好、非形式逻辑也好、统计概率也罢,事实上呢都是面向过去的。而后呢一厢情愿的希望能够用基于过去的数据、在当下分析出来的结果去指导未来的决策。翻译过来呢,就差不多是经过分析确定过去是因为这样所以那样,然后呢再下一步是多少一厢情愿了,如果我现在这样,那么将来就会那样。可问题在于说哈,如果我现在这样,那么将来就会那样,往往呢只不过是一个假说,而非确定的结论。

那有句话说的好,是这么说的,说这世界唯一确定的就是不确定。于是呢问题在于说,不确定又总是藏在世界里,并且随着时间的推移终将显现,那么等它出现的时候就一切都是零了。更为关键的细节呢可能不是所有人都可以听得懂的,不过呢先囫囵吞枣,这个贝叶斯推理过程呢是可以递归迭代地使用的。也就是说,它可以反复通过新的证据提高假说正确的概率,直至那个假说正确的概率接近百分之百。而传统的统计概率呢,它只是一次性计算,且不见得可以递归迭代地使用。

好了,我们不具体深入了,要不然的话我还得去讲什么叫递归、什么叫迭代。但是呢目前的理解囫囵吞枣已经足够用了。于是呢,有了贝叶斯定理之后呢,突然之间人类有了一个面向未来的因果推理工具。贝叶斯定理或者贝叶斯推理过程,可以不断地用新的证据计算假说的正确概率,并且呢通过对假说进行逐步调整,达到更高的正确概率。

那换言之呢,人类终于有了一个工具可以用来预测未来了。虽然那预测不可能一上来就是百分之百准确,但它就是可以通过不断迭代,逐步提高预测的准确率,直至接近百分之百。这真是一个漫长的历史过程。起初的几十万年时间里,人类几乎没有什么思考工具。然后呢到了公元前四世纪呢,出来了一个形式逻辑,亚里士多德提出的开始的形式逻辑,但是呢他不能给我们带来新的知识。然后呢到了十七世纪才有统计概率,然后呢这个统计概率呢直到1964年才在中国被正式统一命名,对吧?然后到了上个世纪的七十年代才有所谓的非形式逻辑。

那贝叶斯定理呢,虽然是200年前被提出,然后呢七十多年前被重新发现,但其实只有到了最近的20年才开始全面应用。生活中呢,民众是倾向于拒绝任何不确定性的,这其实也是没有办法的事情。尤其试错的成本涉及到金钱甚至生命的时候,在实际生活中呢,回避不确定性事实上确实可以躲避很多的危险,少承担很多的损失,这是不可否认的事实。

那久而久之呢,大多数人不仅回避不确定性,也养成了干脆拒绝对不确定性进行思考的习惯。因为人们有限的实际经验表明,那不仅浪费时间,且总是危机四伏,这是实情。当然了,其实呢更为深层次的原因是一个现实的局限,什么呢?就是我们的人脑不够用。我的意思是说,任何人类的大脑在使用贝叶斯定理去预测未来或者提高预测准确度的时候都不够用,百分之百都不够用。因为贝叶斯推理过程需要的不只是一次运算,而是重复、间歇的持续运算,这只是第一个层面。

再进一步,人脑就更不够用了。因为要计算的因素,刚才的公式上写的是两个,可现实生活当中需要计算的往往不止两个,而是很多很多个。那请问人脑怎么能够用呢?每多考虑一个因素,计算量就会几何级数上涨,仅凭人脑怎么可能够用呢?没有任何人的人脑是够用的。

万幸的是,今天的人们有了另外一个工具,那就是计算机。这个计算机无疑是人类历史上最成功的仿生产品,飞机、潜艇什么的相对来看就弱爆了,对吧?因为电脑仿生的是天下最复杂的器官——人脑。并且呢随着时间的推移,综合各种因素,计算机的硬件和软件持续发展,并逐步突破了各种限制。比如单台计算机的运行速度和效率在持续提高的同时,它们的单位时间耗能也越来越低。再比如说,分布式网络构成的集群工作能力越来越强的同时,电力成本在持续降低。

仰仗着什么呢?仰仗着持续提高的算力和持续降低的成本。那人工智能呢,到了2022年年底突然开始爆发,也就是说我们不用人脑,我们用电脑去计算。于是呢,人类正式进入了所谓的智能时代。那用我的话来讲呢,就是人类呢突然进入了用暴力破解宇宙秘密的时代。好,我们下节课再见。