第十一章 概率演算

彭加勒Ctrl+D 收藏本站

在这里查明关于概率演算的思想,无疑会使人感到惊讶。它与物理科学的方法有什么关系呢?可是,我要提出而不去解决的问题自然地呈现在正在思考物理学的哲学家的面前。正是针对这一情况,我在前两章常常不得不使用“概率”和“偶然性”的词汇。

正如我在上面已经说过的:“预见的事实只能是可几的。一个预见在我们看来不管建立得可能多么牢固,我们从来也没有绝对保证,实验不会否证它。然而,其概率往往是很大的,以致我们实际上可以满意它。”稍后,我又补充说,“看看简单性的信念在我们的概括中起了什么作用。我们已在为数众多的特例中证实了简单的定律;我们拒不承认这种如此经常重复的一致只能是偶然性的结果,……”

这样,在许多境况下,物理学家与只盼望机遇的赌徒处在同一位置上。他像运用归纳推理一样,也常常或多或少有意识地需要概率演算,这就是我不得不引入插话、中断我们的物理学方法研究的原因,以便稍为比较仔细地审查一下这种演算的价值以及相信它有什么好处。

概率演算这个名字本身就是一个悖论。与确定性相对的概率是我们不知道的东西,我们如何能够演算我们不知道的东西呢?可是,许多著名的学者已经从事这种演算,而且不能否认,科学从中获得了不少好处。

我们如何能够说明这个表观上的矛盾呢?

概率被定义了吗?它到底能够被定义吗?如果不能定义,那我们怎么敢针对它进行推理呢?人们将说,这个定义是很简单的:一个事件的概率是有利于这个事件的个例数与可能的个例总数之比。

一个简单的例子将表明,这个定义是多么不完善。我掷出两个骰子。要使这两个中的一个至少出现六点的概率是多少?每一个骰子能够显示出六个不同的点;可能的个例数是6×6=36;有利的个例数是11;概率是11/36。

这是正确的答案,但是,难道我不可以同样说:两个骰子上现出的点能够形成6×7/2=21种不同的组合吗?在这些组合中,6个是有利的;概率是6/21。

现在,为什么第一种枚举可能个例的方法比第二种合理呢?

无论如何,这不是我们的定义所能告诉我们的。

因此,我们只好用下述说法完善我们的定义:“一个事件的概率是有利于这个事件的个例数与可能的个例总数之比,倘若这些个例同样是概然的话。”这样一来,我们便被迫用概然定义概然了。

我们怎么能够知道,两个可能个例同样是概然的呢?这难道是依据约定吗?如果我们在每个问题的开头都放一个明晰的约定,那可就好了。于是,除了应用算术和代数法则以外,我们将无事可做,而且我们将完成我们的演算,我们的结果毫无怀疑的余地。但是,如果我们希望稍微应用一下这个结果,那么我们必须证明我们的约定是合理的,于是我们将发现我们恰恰面临着我们企图回避的困难。

人们能说健全的感官足以向我们表明应该采纳什么约定吗?哎呀!贝尔特朗德(Bertrand)先生为了自娱而讨论了下述的简单问题:“圆的弦可比内接正三角形之边大的概率是多少?”这位杰出的几何学家相继采纳了健全的感觉似乎同样都能说出的两个约定,他发现一个概率是1/2,另一个概率是1/3。

似乎从所有这一切就能断言,概率演算是一门无用的科学,而且我们必须怀疑这种模糊的本能,可是我们刚才还称其为健全的感觉,并习惯于求助它来证明我们的约定是合理的呢。

但是,我们也不能赞成这个结论;没有这种模糊的本能,我们便无从做起。没有它科学则是不可能的,没有它我们既不能发现定律又不能应用定律。例如,我们有权利阐述牛顿定律吗?毋庸置疑,许多观察都与它相符;但这不是偶然性的简单结果吗?此外,这个定律几个世纪以来都为真,我们怎么知道它明年是否还将为真呢?对于这个异议,你会感到无从回答,除非说:“那是极其不可能的。”

但是,姑且承认这个定律吧。依靠它,我自信我自己能够计算从现在起一年后土星的位置。我有权利相信这一点吗?谁能够告诉我,在从现在到那时这段时间内,一个以极大速度运动的巨大质量不会通过太阳系附近,从而产生未预见到的扰乱呢?在这里,只能再一次回答:“那是极其不可能的。”

从这种观点来看,全部科学只可能是概率演算的无意识的应用而已。谴责这种演算就是谴责整个科学。

在有些科学问题上,插入概率演算是比较明显的,我将稍微详述一下。在这些问题的最前沿有内插法问题,在内插法中,已知一定数目的函数值,我们企图猜测中间值。

我同样要提到著名的观察误差理论,我以后还要提及它;气体运动论这个众所周知的假设假定,每一个气体分子都描绘出极复杂的轨道;但是,由于大数的效果,唯一可观察的平均现象服从马略特和盖-吕萨克(Gay-Lussac)的简单定律。

所有这些理论都建立在大数定律的基础上,概率演算显然会毁坏它们。的确,它们只有特殊的利益,除了涉及内插法外,这些都是我们心甘情愿付出的牺牲。

但是,正如我上面说过的,可以受到怀疑的也许不仅仅是这些部分的牺牲;整个科学的合法性恐怕将受到挑战。

我确实知道有人可能会说:“我们是无知的,可是我们必须行动。为了行动,我们无暇全力以赴地进行充分的调查,以消除我们的无知。况且,这样的调查也需要无数的时间。因此,我们必须在未知之前作决定;不论成功与否,我们不得不这样做,我们必须在不完全相信这些法则的情况下遵循它们。我知道的并不是某一事物是真实的,不过在我看来,最好的方针就是权当它是真实的而行动。”从那时起,概率演算从而科学本身都只有实际的价值了。

不幸的是,困难并没有因此而消失。赌徒想一举获胜;他询问我的意见。如果我向他提出建议,那么我要运用概率演算,但是我不能保证成功。这就是我所谓的主观概率。在这个个案中,我必须满足于我刚才给出梗概的说明。但是,假定一观察者在赌博现场,他记下各盘的输赢,赌博继续了很长时间。当他汇总他的记录时,他将发现,事件的发生与概率演算的规律一致。这就是我所谓的客观概率,正是这个现象必须加以说明。

有许多保险公司应用概率演算法则,它们把红利分给它们的股东,这些红利的客观实在性是无可辩驳的。乞灵于我们的无知和行动的必要性不足以说明它们。

因此,绝对的怀疑论是不可接受的。我们可以怀疑,但是我们不能整个儿宣布不适用。有必要进行讨论。

Ⅰ. 概率问题的分类。为了把所呈现的关于概率的问题恰当地加以分类,我们可以从许多不同的观点考察它们,首先从普遍性的观点考察它们。我在上面已经说过,概率是有利个例数与可能个例数之比。由于没有较好的名词,我所谓的普遍性将随着可能个例数增加。这个数可以是有限的,例如我们掷一局骰子,其中可能个例数是36。这是一次普遍性。

但是,例如我们要问,圆内的点在内接正方形内的概率是多少,那么圆内有多少点便有多少可能个例,也就是说有无限多可能个例。这是二次普遍性。普遍性还能够向前推进。我们可以问函数将满足给定条件的概率。于是,人们能设想出多少不同的函数,就有多少可能个例。这是三次普遍性,例如当我们企图寻找与有限的观察数相符合的最概然的定律时,我们就上升到三次普遍性了。

我们可以使自己站在完全不同的观点上。如果我们不是无知的,那就不会有概率,无非为确定性留下了位置。但是,我们的无知不能是绝对的,因为那样根本就不会再有任何概率,由于甚至要达到不确定的科学,还需要一点光明才行。因此,概率问题可以按照这种无知的或深或浅来进行分类。

在数学中,我们甚至可以提出概率问题。从对数表中随意取出的对数的第五位小数是9,其概率若何?可以毫不犹豫地回答,这个概率是1/10;在这里,我们具有该问题的所有数据。我们不用求助对数表就能够计算我们的对数,但我们不想去自找麻烦。这是第一级无知。

在物理科学中,我们的无知变得更大。一个系统在给定时刻的状态取决于两件事:它的初始状态和状态变化所依据的定律。如果我们知道这个定律和这个初始状态,那么我们将有一个待解决的数学问题,我们又落回到第一级无知上。

但是,常常会发生这种情况:我们知道定律,却不知道初始状态。例如,可以问小行星目前的分布如何?我们知道,自古以来,它们服从开普勒定律,但是我们不知道它们的初始分布是什么。

在气体运动论中,我们假定气体分子沿直线轨道运动,并服从弹性体碰撞定律。但是,因为我们不知道它们的初始速度,所以我们也不知道它们现在的速度。

概率演算只能使我们预言由这些速度组合将要引起的平均现象。这是第二级无知。

最后,不仅初始条件,而且定律本身都可能是未知的。这样,我们便达到第三级无知,至于现象的概率,一般说来,我们根本不再能肯定任何东西。

人们往往不是借助或多或少的关于定律的不完善的知识试图猜测事件的,事件可能是已知的,我们想去寻找定律;或者,我们不是由原因推导结果,而是希望从结果推导原因。这些是所谓的原因概率问题,从它们的科学应用的观点来看是最有趣的。

我和一位先生玩纸牌游戏,我知道他是很诚实的。他正准备发纸牌。他翻出王牌的概率是多少?是1/8。这是结果概率的问题。

我和一位不相识的先生玩牌。他发了十次牌,而翻出六次王牌。他是骗子的概率是多少?这是原因概率中的问题。

有人可能会说,这是实验方法的基本问题。我观察到x的n个值和相应的y值。我发现,后者与前者之比实际上是常数。这里有一个事件,其原因何在呢?

大概存在着y与x成比例的普遍定律吧,大概小小的发散是由于观察的误差吧?这是人们正在不断询问的一种类型的问题,每当我们从事科学工作时,我们都在无意识地解决它。

现在,我将把这些不同范畴的问题提出来加以评论,同时依次讨论我上面所谓的主观概率和客观概率。

Ⅱ. 数学中的概率。自从1882年以来,求圆面积的不可能性已被证明;但是,即使在那时之前,所有几何学家都认为,这种不可能性是如此之“可能(概然)”,以致科学院不经审查,就抛弃了一些不幸的狂人每年递交的关于这个课题的论文,哎呀,这些论文可真是太多了!

科学院错了吗?显然不是这样,它清楚地知道,这样做不会冒一点扼杀重大发现的危险。科学院不可能证明它是对的,但它十分清楚地了解,它的本能不会犯错误。假使你要问科学院院士,他们会回答说:“我们曾作过比较,是无名学者能够解决长期努力依然悬而未决的问题的概率大,还是地球上多了一个狂人的概率大;在我们看来,第二个概率好像比较大。”这些是十分充足的理由,但它们毫无数学根据,它们纯粹是心理的理由。

如果你再进一步追问他们,他们会补充道:“你为什么要假定超越函数的特别值是代数数呢?如果π是一个代数方程的根,你为什么要假定这个根是函数sin2x的周期,而同一方程的其他根则又不然呢?”总而言之,他们要求助于以模糊形式出现的充足理由律。

然而,他们能够从中推出什么呢?至多不过推出它们时代使用的行为规则,与其阅读激起他们合理怀疑的学究式的文章,倒不如把时间花在日常工作上更有用。但是,我上面所谓的客观概率与这里的第一个问题毫无共同之处。

至于第二个问题,则是另外的样子。

考虑一下我在对数表中找出的头10 000个对数。在这10 000个对数中,我随意取出其中之一。它的第三位小数是偶数的概率是多少?你将毫不犹豫地回答是1/2;事实上,如果你在对数表中挑出这10 000个数的第三位小数,你将发现偶数和奇数几乎一样多。

或者,如果你乐意的话,让我们写出与10 000个对数对应的10 000个数来;若相应的对数的第三位小数为偶数,则这些数中的每一个是+1,若为奇数,则是-1。接着,取这10 000个数的平均值。

我会毫不迟疑地说,这10 000个数的平均值大概是0,如果我实际去计算它,我便可以核验它是极小的。

但是,即使这一核验也是不需要的。我可以严格地证明,这个平均值小于0.003。为了证明这个结果,我不得不作相应冗长的演算,这里没有它的篇幅,为此我只好引用我在1899年4月15日的《科学总评论》上发表的一篇文章。我希望引起注意的唯一之点如下:在这一演算中,我只应需要把两件事实作为我的个例的基础,也就是说,对数的一阶导数和二阶导数在所考虑的区间内依然处在某些极限之间。

因而,这是一个重要的结果,即该性质不仅对对数为真,而且对任何连续函数也为真,由于每一个连续函数的导数都是有限的。

如果我预先确定了这个结果,首先是因为我就其他连续函数常常观察到类似的事实;其次,是因为我在心里以或多或少的无意识的和不完善的方式做过推理,这种推理能使我得出前面的不等式,正如一位娴熟的演算能手,在做完乘法之前,总能考虑到它大约是多少了。

此外,由于我所谓的我的直觉只不过是真实推理片断的不完善的概要,这就明白了观察为何能确认我的预见,客观概率为何与主观概率一致。

我将选择下述问题作为第三个例子:随便取一个数u,n是一个给定的很大的整数。sinnu的概值(probable value)是什么?这个问题独自毫无意义。为了使它有意义,就需要约定。我们将公认,数u处在a和a+da之间的概率等于ϕ(a)da;因此,它与无限小区间da成比例,而且等于这个区间与仅依赖于a的函数ϕ(a)之积。至于这个函数,我可以任意选择它,但是我必须假定它是连续的。当u增加2π时,sinnu的值依然相同,因此我可以在不失去普遍性的情况下设想,u处在0与2π之间,这样我便有可能假定,ϕ(a)是周期函数,其周期是2π。

所求的概值可以方便地用单积分表示,很容易证明,这个积分小于

2πMk/nk,

Mk是ϕ(u)的k阶导数的极大值。于是我们看到,如果k阶导数是有限的,那么当n无限增加时,我们的概值将趋于0,而且比1/nk-1更快地趋于0。 因此,当n很大时,sinnu的概值是零。要定义这个值,我需要约定;但是,无论约定可能是什么,其结果总是相同的。在假定函数ϕ(a)是连续的和周期的时,我只是给我自己强加了很少的限制,这些假设是如此自然,以致我们可以自问,如何能够避免它们。

通过对前述三个在各方面如此不同的例子的审查,已经使我们一方面瞥见到哲学家所谓的充足理由律是什么,另一方面瞥见到对所有连续函数都是共同的某些性质这一事实的重要性。研究物理科学中的概率将导致我们得到同一结果。

Ⅲ. 物理科学中的概率。我现在来到与我们所谓的第二级无知有关的问题上,也就是说,在这些问题中,我们知道定律,但不知道系统的初始状态。我能增加许多例子,但只想举一个。在黄道带上,小行星目前可能的分布如何?

我知道它们服从开普勒定律。我们甚至根本不用改变问题的性质就可以假定,它们的轨道都是圆的,并且处在同一平面上,我们知道这个平面。另一方面,谈到它们的初始分布,我们却一无所知。不过,我们却毫不犹豫地断定,它们的分布现在几乎是均匀的。为什么呢?

设b是小行星在初始时刻的黄经,也就是说,初始时刻是零。设a是它的平均运动。它在目前时刻,即在t时刻的黄经将是at+b。说目前的分布是均匀的,也就是说at+b的倍数的正弦和余弦之平均值是零。为什么我们肯定这一点呢?

让我们用平面上的一点来代表每一个小行星,也就是说,用其坐标恰恰是a和b的点来代表。这一切表示点将被包括在该平面的某一区域内,但是当点很多时,这个区域看来好像布满了点。关于这些点的分布,我们一无所知。

当我们想把概率演算用于这样的问题时,我们怎么办呢?在该平面的某一部分可以找到一个或多个表示点的概率是多少?由于我们无知,我们只好做任意的假设。为了说明这个假设的性质,请容许我利用粗糙的但却是具体的图像,以代替数学公式。让我们设想,在我们平面的表面上,铺一层虚构的实物,其密度是可变的,但却是连续地变化的。然后我们一致说,在该平面一部分上找到表示点的概数(probable number)与在那里找到的虚构的物质之量成比例。因此,如果我们在该平面上有相同范围的两个区域,那么在这一区域或那一区域找到一个小行星的表示点的概率将与在这一区域或那一区域虚构物质的平均密度彼此一样。

于是,这里有两种分布:一种是实在的,其中表示点很多、十分密集,但却像原子假设中的物质分子一样是离散的;另一种远离实在,其中我们的表示点被连续的虚构物质代替。我们知道,后者不能是实在的,但是我们的无知迫使我们采纳它。

倘若我们还有关于表示点的真实分布的某些观念的话,我们就可以这样排列它,使得在某范围的一个区域中,这种虚构的连续物质的密度几乎与表示点的数目成比例,或者,如果你愿意的话,也可以说与包括在那个区域中的原子数成比例。甚至这也是不可能的,我们的无知太厉害了,以致我们被迫任意选择函数,来定义我们的虚构物质的密度。我们将只受我们几乎不能避免的假设的限制,我们可以假定这个函数是连续的。正如我们将要看到的,这能够充分地使我们得出结论。

小行星在时刻t的概然分布是什么?或者确切地讲,黄经在时刻t的正弦,即sin(at+b)的概值是多少?起初我们做出了任意的约定,但是我们若采用它,则这个概值就完全确定了。把平面分成面元。考虑sin(at+b)在每一个面元中心的值;把这个值乘以面元的面积和虚构物质的相应密度。然后,取该平面所有面元之和。按照定义,这个和将是我们所求的平均概值,它是用二重积分表示的。人们乍看起来可能认为,平均值取决于定义虚构物质密度的函数的选择,由于这个函数ϕ是任意的,按照我们所做的任意选择,我们能够得到任何平均值。但这并非如此。

简单的演算表明,当t增加时,我们的二重积分急剧地减小。因此,我完全无法告诉,关于这个或那个初始分布的概率,我们能做什么假设;但是,不论作什么假设,结果将是相同的,这使我摆脱了我的困难。

无论函数ϕ是什么,当t增加时,则平均值趋于零,而且由于小行星肯定已完成了极大次数的旋转,所以我可以断言,这平均值是很小的。

我可以像我希望的那样选择ϕ,不过总有一个限制:这个函数必须是连续的;而且,事实上,从主观概率的观点来看,选择非连续函数也许是不合理的。例如,我会有什么理由假定,初始黄经必须严格为0°,而不能处在0°和1°之间呢?

但是,如果我们采用主观概率的观点,如果我们从我们设想的虚构物质是连续的分布过渡到我们的表示点在其中仿佛形成分立的原子那样的真实分布,那么困难就出现了。

sin(at+b)的平均值将十分简单地用

1/nΣsin(at+b)

来表示,n是小行星的数目。作为与连续函数有关的二重积分的替代,我们将有离散项之和。可是,没有人会认真地怀疑,这个平均值实际上是很小的。 由于表示点十分密集,我们的离散和一般来说与积分的差异将是极其微小的。

当离散项的数目无限增加时,积分就是这些项之和趋近的极限。如果项很多,和与它的极限相差也很小,也就是说,与积分相差很小,我就积分所说的话对于和本身而言还将为真。

然而也有例外。例如,对于一切小行星来说,如果

b= -at,

那么所有行星在时间t的黄经总是π/2,其平均值显然等于1。为使情况如此,在时刻0时,也许有必要让小行星都处在特殊形状的螺旋上,这个螺旋的螺纹是十分密集的。每一个人将承认,这样的初始分布是极为不可能的(而且,即使假定它实现了,这种分布在目前,例如在1900年1月1日,也不会是均匀的,但是在几年后,它却会变均匀)。 可是,我们为什么认为这种初始分布不可能呢?这是必须说明的,因为我们若没有理由把这个怪诞的假设作为不可能的而加以拒绝,那么一切都会毁坏的,而且我们再也不能就某个目前分布的概率做出任何断言了。

我们将再次求助充足理由律,我们总是必须重新提起它。我们应该承认,开始时行星几乎分布在一条直线上。我们应该承认,它们是不规则分布的。但是,在我们看来,似乎没有充足的理由认为,某种未知的原因引起它们沿着如此规则却又如此复杂的曲线运行,这仿佛是特意如此选择的,从而使得目前的分布不可能均匀。

Ⅳ. 红与黑。像轮盘赌这样的机遇游戏所产生的问题,基本上与我刚才论述的问题完全类似。例如,把一个轮盘分为极多的红黑相间的等分。用力使指针旋转,在转了许多圈之后,它停在这些分格之一上。这个分格是红的概率显然是1/2。指针旋转的角度为θ,且包括几个整圈。用这样的力转动指针,使这个角度必须处于θ与θ+dθ之间,我不知道其概率是多少;但是,我能够做出约定。我可以假定,这个概率是ϕ(θ)dθ。至于函数ϕ(θ),我能够以完全任意的方式选择它。在我选择时,没有什么东西能够指导我,但是我自然地被导致假定这个函数是连续的。

设ε是每一个红分格和黑分格的长度(在半径为1的圆周上测量)。我们必须计算ϕ(θ)dθ的积分,一方面把它扩大到所有红分格,另一方面把它扩大到所有黑分格,并把结果进行比较。

考虑区间2ε,它包括红分格和接着它的黑分格。设M和m是函数ϕ(θ)在这个区间的最大值和最小值。扩大到红分格的积分将小于Σ Mε;扩大到黑分格的积分将大于Σmε;因此,二者之差将小于Σ(M-m)ε。但是,如果假定函数θ是连续的;此外,如果区间ε相对于指针旋转过的总角度来说很小,那么差M-m将是很小的。因此,两个积分之差将很小,概率将十分接近1/2。

我们看到,在对函数θ一无所知的情况下,我必须像概率是1/2那样去行动。另一方面,如果我使自己站在客观的观点上观察若干次,那么我理解,为什么观察使我得到红的次数与黑的次数大约一样多。

所有的赌博者都知道这个客观规律;但它却使他们陷入了值得注意的错误之中,这种错误虽则常常被揭露出来,但他们总是一再堕入其中。例如,当红的连赢六次时,他们押在黑的上,以为他们这回准胜;他们说,因为红的连赢七次是十分稀少的。

实际上,他们获胜的概率依然是1/2。的确,观察表明,七个接连红的系列是十分稀少的,但是六个红接着一个黑的系列同样是十分稀少的。

他们注意到七个红的系列是罕有的;如果他们没有看到六个红和一个黑的稀罕,那只是因为这样的系列没有引起注意。

Ⅴ. 原因概率。现在我们开始谈谈原因概率问题,从科学应用的观点来看,这是最重要的问题。例如,两个恒星在天球上十分接近。这种表观的接近仅仅是偶然性的结果吗?这些恒星虽然几乎在同一视线上,但它们处在与地球极其不同的距离、从而相互之间十分遥远吗?或者,这种表观的接近也许与实际的接近是一致的?这是原因概率的问题。

我首先想起,在迄今我们关注的结果概率的所有问题开始,我们总是必须做出或多或少被证明是合理的约定。在大多数个案中,如果结果在某种程度上不依赖于这个约定,这仅仅是因为某些假设容许我们先验地排除不连续函数,或者比如说,排除某些荒谬的约定。

当我们处理原因概率时,我们将会发现某些类似的东西。一个结果可以由原因A或原因B产生。该结果刚刚被观察到了。我们要问它由原因A产生的概率。这是后验的原因概率。但是,如果没有或多或少被证明是合理的约定预先告诉我,原因A开始起作用的先验的概率是多少,那么我就不能计算后验的原因概率;我意指对于某个没有观察到该结果的人而言的这个事件的概率。

为了说明得更清楚,我回到上面提到的玩纸牌游戏的例子。我的对手首先发牌,他翻出王。他是骗子的概率是多少?通常讲授的公式给出8/9,结果显然是相当令人惊奇的。如果我比较仔细地检查一下结果,那么我会看到,这个演算仿佛在我坐到桌旁之前就做过了,我已经认为在两次机会中有一次我的对手是不诚实的。这是一个荒谬的假设,因为在此种情况下我肯定不会和他玩了,这便说明了结论的荒谬性。

关于先验概率的约定是不合理的,这就是为什么后验概率演算把我引向不能容许的结果。我们看到这个预备约定的重要性。我甚至还想补充说,如果不做预备约定,后验概率问题便毫无意义。预备约定总是必须做出的,或者直截了当地做出,或者不言而喻地做出。

再举一个更有科学特点的例子。我想决定一个实验定律。当我了解这个定律时,它能够用曲线来描绘。我做了若干孤立的观察;其中每一个将用一点来表示。当我得到这些不同的点时,我在它们之间引一条曲线,尽可能使曲线靠近它们,可还是保持曲线的规则形状,没有角点,或者没有太急剧的弯曲,或者曲率半径没有突然的变化。在我看来,这个曲线将表示概然定律,我不仅假定它将告诉我在所观察到的值之间的中间函数值,而且假定它将给我比直接观察更精确的观察值。这就是我使曲线通过点的附近而不通过点本身的原因。

这里有原因概率的问题。结果是我记录的测量;这些结果取决于下述两个原因的组合:现象的真实定律和观察的误差。知道了结果,我们必须寻求现象服从这个或那个定律的概率以及观察受这个或那个误差影响的概率。于是,最概然定律对应于所画的曲线,而最概然的观察误差则由相应点与这个曲线的距离来表示。

但是,在任何观察之前,如果我没有形成某一定律的概率的先验观念以及我所面临的误差偶然性的先验观念,那么这个问题将毫无意义。

如果我的仪器是好的(而且我在做观察前已了解这一点),我将不容许我的曲线与表示初步测量的点偏离得太多。如果仪器不好,我可以使曲线离点稍远一些,以便得到弯曲较少的曲线;我将较多地牺牲规则性。

那么我为什么企图画一条没有曲折的曲线呢?这是因为,我先验地认为定律是用连续函数(或用其高阶导数是很小的函数)表示的,这种定律比不满足这些条件的定律更可能。没有这个信念,我们所谈的问题就没有意义;内插法就是不可能的;从有限数目的观察中无法推导出定律;科学便不会存在了。

50年前,物理学家认为,在其他情况相同时,简单的定律比复杂的定律更可能。他们甚至求助于这个原则来袒护马略特定律,反驳勒尼奥(Regnault)实验。今天,他们拒斥这个信念;可是,有多少次他们被迫像他们持有这个信念一样地去行动!不管情况怎样,这种倾向遗留下来的是对于连续性的信念,我们刚才看到,假如这个信念本身不得不消失的话,实验科学就变得不可能了。

Ⅵ. 误差理论。我们就这样被导致谈误差理论,这个理论直接与原因概率问题相关。在这里,我们再次发现结果即若干不一致的观察,我们企图去推测原因,这些原因一方面是所测量的量的真值,另一方面是在每次孤立观察中所造成的误差。有必要计算每一个误差的后验可能量是多少,从而计算所测量的量的概值。

但是,正如我刚刚说明的,如果我们不先验地承认,也就是说,在所有观察之前不承认误差概率定律,那么我们就不可能知道如何着手进行这个演算。误差定律存在吗?

所有计算者承认的误差定律是高斯(Gauss)定律,它是用某一超越曲线表示的,该曲线以“钟形曲线”的名字而闻名。

不过,首先回想一下系统误差和偶然误差的经典区别是恰当的。如果我们用过长的米尺测量长度,我们将总是得到太小的数,而且测量几次也是无用的;这就是系统误差。即使我们用准确的米尺测量,但是我们也会犯错误;不过,我们有时错得多,有时错得少,当我们取多次测量的平均值时,则误差将趋于减小。这就是偶然误差。

显而易见,系统误差原来不能满足高斯定律;但是,偶然误差能满足吗?人们尝试做了大量的证明;几乎所有的证明都是粗制滥造的谬论。不管怎样,我们可以从下述假设出发证明高斯定律:所造成的误差是大量的部分误差和独立误差的结果;每一个部分误差是很小的,而且服从任何概率定律,只要正误差的概率与均等的负误差的概率相同。显然,这些条件常常能被满足,但并非总是如此,对于满足这些条件的误差来说,我们可以保留偶然误差的名称。

我们看到,最小二乘法并非在每一种个案中都是合理的;一般说来,物理学家比天文学家更怀疑它。无疑地,这是因为天文学家除了遇到与物理学家一样的系统误差以外,还必须与极重要的误差来源作斗争,这种误差来源完全是偶然的;我指的是大气波动。于是,听到物理学家和天文学家讨论观察方法是很奇怪的。物理学家使人们相信,一次好的测量比多次不好的测量更有价值,他们首先关心的是凭借预防最小的系统误差来消除误差,而天文学家对他说:“但是,你这样只能观察少数恒星;偶然误差将不会消失。”

我们应该得出什么结论呢?我们必须继续利用最小二乘法吗?我们必须识别。我们已消除了我们可以怀疑的一切系统误差;我们清楚地知道还有其他误差,不过我们无法把它们检查出来;我们必须下定决心,采用一个确定的数值,可以把它看做是概值;为此,显然最好的做法是应用高斯方法。我们只应用与主观概率有关的实际法则。在这里无须多说。

但是,我们希望更进一步,不仅肯定概值是这么多,而且肯定结果的概差是这么多。这是绝对不合理的;只有我们保证所有系统误差都被消除了,它才为真,但是我们对此绝对一无所知。我们有两个观察系列;应用最小二乘法则,我们发现,第一个系列的概差比第二个系列的概差小一倍。不过,第二个系列可以比第一个系列好,因为第一个系列也许受到很大的系统误差的影响。我们能够说的一切就是,第一个系列可能比第二个系列好,由于它的偶然误差较小,我们没有理由肯定一个系列的系统误差比另一个的大,我们关于这点的无知是绝对的。

Ⅶ. 结论。在前文中,我提出了许多问题,其中还没有一个解决了。可是,我并不懊悔把它们写下来,因为它们也许会引起读者对这些棘手的疑问进行思考。

不管情况怎样,其中某些方面似乎妥善地建立起来了。为了着手进行任何概率演算,进而为了使这种演算有任何意义,就必须承认假设或总是具有某种程度任意性的约定是出发点。在选择这个约定时,我们只能以充足理由律为指导。不幸的是,这个原则是十分模糊的和十分灵活的,在我们刚刚做出的粗略审查中,我们看到它采取了许多不同的形式。我们最为经常遇到的形式是对于连续性的信念,这种信念很难用无可置疑的推理去辩护,但是若没有它,整个科学也许就不可能了。最后,概率演算可以富有成效地应用的问题,是结果独立于起初所做的假设的问题,只要这个假设满足连续性条件就行。