无限猴子定理-无限猴子是什么意思

无限猴子定理指出,猴子打在密钥随机一个打字机键盘上无限的时间量将几乎肯定键入任何给定的文本,如全集莎士比亚。事实上,猴子几乎肯定会无限次地输入每个可能的有限文本。然而,概率,猴子填充观测宇宙键入一个完整的作品,如莎士比亚的哈姆雷特是小,所以在一段时间的几十万数量级的长比出现它的机会岁的宇宙是非常低(但技术上不为零)。

在这种情况下,“几乎肯定”是一个具有精确含义的数学术语,而“猴子”不是一个真正的猴子,而是一个抽象设备的隐喻,它产生无穷无尽的随机字母和符号序列。最早使用“猴子隐喻”的例子之一是1913年法国数学家ÉmileBorel [1],但第一例可能更早。

该定理的变体包括多个甚至无限多的打字员,并且目标文本在整个库和单个句子之间变化。豪尔赫·路易斯·博尔赫斯追溯到这一理念的历史从亚里士多德的论产生和毁灭和西塞罗的德NATURA deorum(神灵的性质),通过帕斯卡和乔纳森·斯威夫特,达到他们的标志性猿类和打字机现代报表。在20世纪早期,Borel和Arthur Eddington使用该定理来说明统计力学基础中隐含的时间尺度。

这个定理有一个明确的证明。作为介绍,回想一下,如果两个事件在统计上是独立的,那么两个事件发生的概率等于每个事件发生的概率的乘积。例如,如果下雨的机会莫斯科某一天以后是0.4和的机会地震在旧金山在某一天是0.00003,则在同一天都发生的几率是0.4×0.00003 = 0.000012,假设它们确实是独立的。

假设打字机有50个键,要输入的单词是banana。如果随机且独立地按下按键,则意味着每个按键具有相同的按下机会。然后,机会键入的第一个字母“B”为1/50,而机会输入第二个字母是一个也1/50,依此类推。因此,拼写香蕉的前六个字母的机会是

(1/50)×(1/50)×(1/50)×(1/50)×(1/50)×(1/50)=(1/50)6 = 1/15 625 000 000,

不到150亿,但不是零,因此可能的结果。

从上面可以看出,在6个字母的给定块中打字香蕉的机会是1 – (1/50)6。因为每个块是独立键入的,所以在6个字母的前n个块中的任何一个中都没有键入banana的机会n

{\ displaystyle X_ {n} = \ left(1 – {\ frac {1} {50 ^ {6}}} \ right)^ {n}。}

随着n的增长,n变小。对于ñ一百万,ñ大约是0.9999,但对于ň 10十亿的ñ大约是0.53,对于ñ 100十亿大致是0.0017。当n接近无穷大时,概率n 接近零; 也就是说,通过使n足够大,可以使n尽可能小,[2] [注1]并且键入香蕉的几率接近100%。

同样的论证表明,为什么至少有一只无限多只猴子会产生一个文本,就像完全准确的人类打字员从原版中复制它一样。在这种情况下,n =(1 – (1/50)6n其中n表示前n个猴子在第一次尝试时没有正确选择香蕉的概率。当我们考虑1000亿只猴子时,概率下降到0.17%,随着猴子数量n的增加,n的值- 猴子无法重现给定文本的概率 – 任意接近零。n的限制走向无限,是零。因此,单词banana出现在无限按键序列中某个点的概率等于1。

无限的字符串 

这可以在字符串方面更一般地和紧凑地说明,字符串是从某些有限字母表中选择的字符序列:

  • 给定一个无限的字符串,其中每个字符随机均匀地选择,任何给定的有限字符串几乎肯定在某个位置作为子字符串出现。
  • 给定无限字符串的无限序列,其中每个字符串的每个字符是随机均匀选择的,任何给定的有限字符串几乎肯定作为这些字符串之一的前缀出现。

两者都很容易从第二个Borel-Cantelli引理中得出。对于第二个定理,让k成为第k个字符串以给定文本开头的事件。因为这具有一些固定的非零概率p,所以k是独立的,并且下面的和是发散的,

{\ displaystyle \ sum _ {k = 1} ^ {\ infty} P(E_ {k})= \ sum _ {k = 1} ^ {\ infty} p = \ infty,}

无限多个k出现的概率是1.第一个定理类似地显示; 可以将随机字符串划分为与所需文本的大小匹配的非重叠块,并使k成为第k个块等于所需字符串的事件。 

概率 

然而,对于物理上有意义的数量的猴子打字在物理上有意义的时间长度,结果是相反的。如果存在与可观察宇宙中的原子一样多的猴子,那么宇宙生命的数万倍频繁地输入,那么猴子复制甚至单页莎士比亚的概率也是不可思议的。

忽略标点符号,间距和大写字母,随机均匀地输入字母的猴子有可能在26中正确输入哈姆雷特的第一个字母它有可能在676(26×26)中输入前两个字母。因为概率以指数方式缩小,所以在20个字母中它已经只有一个机会在26 20 = 19,928,148,895,209,409,152,340,197,376(几乎2×10 28)。在哈姆雷特的整个文本的情况下,概率非常小,以至于不可思议。哈姆雷特的文本包含大约130,000个字母。[注3]因此,有一个概率为3.4×10 183,946在第一次审判中获得正确的文本。在文本出现之前需要输入的平均字母数也是3.4×10 183,946[注4]或包括标点符号,4.4×10 360,783[注5]

即使可观测宇宙中的每个质子都是带打字机的猴子,从大爆炸到宇宙结束(质子可能不再存在)打字,它们仍然需要更长的时间 – 超过三个六万个数量级的长-有甚至在1 10 500成功的机会。换句话说,对于万亿成功的机会,需要有10个360,641个由原子猴组成的宇宙。[注6]正如Kittel和Kroemer在热力学教科书中所说的那样,统计基础推动了第一个已知的打字猴子论述的领域,[3] “ 因此,任何操作意义上的哈姆雷特概率为零……”,以及猴子必须最终成功的陈述“给出了关于非常非常大的数字的误导性结论。“

事实上,只有一千万亿的成功机会,这样一个由猴子组成的宇宙可以输入任何特定文件只有79个字符长。[注7]

几乎肯定 

无限随机生成的文本字符串将包含特定有限子字符串的概率为1.然而,这并不意味着子字符串的缺失是“不可能的”,尽管缺少先验概率为0.例如,不朽的猴子可能随机键入G作为其第一个字母,G作为其第二个字母,G作为其后的每个字母,产生无限的Gs字符串; 在任何时候都不得“强迫”猴子输入任何其他东西。(假设否则意味着赌徒的谬误。)无论长期随机生成的有限字符串是多少,都有一个很小但非零的机会,它将由整个重复的相同字符组成; 当弦的长度接近无穷大时,这个机会接近零。这种单调的序列没有什么特别之处,只是很容易描述; 同样的事实适用于任何可命名的特定序列,例如“RGRGRG”永远重复,或“ab-aa-bb-aaa-bbb -…”或“Three,Six,Nine,Twelve ……”。

如果假想的猴子有一个90个同样可能的键,包括数字和标点符号的打字机,那么第一个键入的键可能是“3.14”(pi的前三个数字),概率为(1/90)4,即1 / 65610000。同样可能是打字机允许的任何其他四个字符串,例如“GGGG”,“mATh”或“q%8e”。100个随机键入的密钥由pi的前99个数字(包括分隔符键)或该长度的任何其他特定序列组成的概率要低得多:(1/90)100。如果猴子分配的文本长度是无限的,那么仅键入pi的数字的机会是0,这是尽可能的 (在数学上可能)因为只输入Gs(也是概率0)。

这同样适用于输入特定版本的哈姆雷特,然后是无尽的自身副本; 或哈姆雷特紧接着是pi的所有数字; 这些特定字符串是同样无限长,它们不是由思想问题的条款所禁止,并且它们每一个具有0事实上一个先验概率,任何特定无限序列的不朽猴类型将已具有的0的先验概率,即使猴子必须输入一些东西。

这是那个随机文本串有限具有的越来越低概率原则的扩展一个特定的字符串长是(尽管所有的特定字符串也同样不太可能)。当弦接近无穷大时,该概率接近0。因此,猴子在90键键盘上键入无尽长字符串(例如pi的所有数字)的概率是(1/90),等于(1 /∞),基本上为0。同时,序列包含的概率一个特定的子序列(例如单词MONKEY,或pi的第12到第999位数字,或King James Bible的一个版本)随着总字符串的增加而增加。当总弦接近无穷大时,该概率接近1,因此原始定理是正确的。

字符串和数字之间的对应关系 

在思想实验的简化中,猴子可以有一个只有两个键的打字机:1和0.这样产生的无限长的字符串将对应于0和1之间的特定实数的二进制数字。可数无限的一组可能的字符串以无限重复结束,这意味着相应的实数是合理的。例子包括对应于三分之一(010101 ……),五分之六(11010101 ……)和五分之八(1010000 ……)的字符串。只有这样的实数字符串的子集(尽管是一个可数无限的子集)包含整个哈姆雷特(假设文本受到数字编码,例如ASCII)。

与此同时,有一个无数无限的字符串集合,并没有以这种重复结束; 这些对应于无理数。这些可以分为两个不可忽略的无限子集:包含哈姆雷特的子集和不包含哈姆雷特的子集。但是,所有实数的“最大”子集不仅包含哈姆雷特,而且包含任何长度的所有其他可能的字符串,并且具有相同的字符串分布。这些无理数被称为正常。因为几乎所有数字都是正常的,几乎所有可能的字符串都包含所有可能的有限子串。因此,猴子键入正常数字的概率是1.无论猴子可以选择的键的数量如何,相同的原则都适用。90键键盘可以看作是用基座90写的数字生成器。

历史 

统计力学 

其中一种形式是概率论者现在知道这个定理,其中有“dactylographic”[即打字]猴子(法语:singes dactylographes ;法语单词singe涵盖猴子和猿猴),出现在ÉmileBorel的1913年文章“ MécaniqueStatistiqueetIrréversibilité ”(统计力学与不可逆性),[1]他在1914年的“Le Hasard”一书中写道。他的“猴子”不是真正的猴子; 相反,它们是一种隐喻,用于产生大量随机字母序列的想象方式。Borel说,如果一百万只猴子每天打字十小时,那么它们的产量极不可能与世界上最富有的图书馆的所有书籍完全相同; 然而,相比之下,统计力学定律甚至更不可能被违反,甚至是短暂的。

物理学家阿瑟·爱丁顿在“物理世界的本质”(1928)中进一步描绘了Borel的形象,写道:

如果我让我的手指懒洋洋地在打字机的键上闲逛,我的熨平板可能会发生一个可理解的句子。如果一群猴子在打字机上弹奏,他们可能会写下大英博物馆的所有书籍。他们这样做的机会明显比分子返回血管一半的机会更有利。[4] [5]

这些图像邀请读者考虑大量但有限数量的猴子在大量但有限的时间内完成重要工作的难以置信的不可能性,并将其与某些物理事件的更大不可能性进行比较。任何比这些猴子成功的可能性更小的物理过程实际上是不可能的,并且可以安全地说这样的过程永远不会发生。[3] 从背景中可以清楚地看出,爱丁顿并没有暗示这种情况发生的可能性值得认真考虑。相反,它是一个修辞的例子,说明在某些概率水平之下,不可能的术语在功能上等同于不可能

起源和“总图书馆 

在1939年题为“总图书馆”的文章中,阿根廷作家豪尔赫·路易斯·博尔赫斯将无限猴子概念追溯到亚里士多德的形而上学。解释了Leucippus的观点,他认为世界是通过原子的随机组合产生的,亚里士多德指出原子本身是均匀的,它们可能的排列只在形状,位置和排序上有所不同。在“生成与腐败”中,希腊哲学家将此与悲剧和喜剧由相同的“原子”(字母字符)组成的方式进行了比较。[6]三个世纪后,西塞罗的De natura deorum关于众神的本质)反对原子论的世界观:

相信这一点的人也可以相信,如果大量的一二十封由黄金或任何其他物质组成的信件被扔在地上,他们就会陷入如此清晰的秩序,形成“ 年鉴”。昆图斯·恩纽斯。我怀疑财富是否能成为他们的一节经文。[7]

博尔赫斯通过布莱斯帕斯卡和乔纳森斯威夫特这一论证的历史,[8]然后观察到,在他自己的时代,词汇已经改变。到了1939年,这个成语是“在一些东西中,有六只提供打字机的猴子会在大英博物馆里制作所有书籍。” (博尔赫斯补充道,“严格来说,一只不朽的猴子就足够了。”)博尔赫斯想象一下,如果把这个企业发挥到最大程度,它将会产生总图书馆的内容:

一切都将是盲目的。一切:未来的详细历史,埃斯库罗斯 “ 埃及人的恒河水域反映猎鹰,罗马的秘密和真实自然的飞行时间的确切数量,百科全书诺瓦利斯将已经建造,我的梦想和1934年8月14日,半梦在黎明的证明皮埃尔·费马的定理,不成文的章节埃德温Drood,同样是这些章节翻译成口语的语言Garamantes,悖论大学伯克利分校发明有关的时间,但没有出版,Urizen的铁书,斯蒂芬迪达勒斯的早熟顿悟在一千年的周期之前,这将是无意义的,波司底的诺斯替福音,警笛唱的歌,图书馆的完整目录,证明该目录的不准确性。一切:但是对于每一个合理的线条或准确的事实,都会有数以百万计的无意义的杂音,口头的贪婪和喋喋不休。一切都是如此:但人类的所有代人都可以在令人眼花缭乱的架子之前通过,这些架子抹去了当天的混乱局面,并且在一个可容忍的页面上奖励他们。[9]

博尔赫斯的全部图书馆概念是他广泛阅读的1941年短篇小说“ 巴别图书馆 ”的主题,它描述了一个难以想象的庞大的图书馆,由互锁的六角形房间组成,一起包含可能由字母表中的字母组成的每个可能的音量。还有一些标点字符。

真正的猴子 

2003年,普利茅斯大学 MediaLab艺术课程的讲师和学生使用艺术委员会的 2000英镑赠款来研究真正的猴子的文学作品。他们在六个外壳留下了计算机键盘西里伯斯凤头猕猴在佩恩顿动物园在德文郡在英格兰一个月,无线电链路广播网站上的结果。[10]

这些猴子不仅仅产生了五个总页数,主要由字母S组成,[11]男主角开始用石头敲打键盘,猴子随后弄脏了它。该大学数字艺术与技术学院(i-DAT)主任Mike Phillips表示,艺术家资助的项目主要是表演艺术,他们从中学到了“非常多”。他的结论是,猴子“不是随机发生器。它们比这更复杂……他们对屏幕非常感兴趣,他们看到当他们输入一封信时,发生了一些事情。那里有一定程度的意图。 “ [10] [12]

猴子创建的全文可在[1]中阅读。

申请和批评 

进化 

托马斯·赫胥黎(Thomas Huxley)有时会在与塞缪尔·威尔伯福斯(Samuel Wilberforce)的辩论中错误地提出这一理论的变体。

在他1931年出版的“神秘的宇宙”一书中,爱丁顿的竞争对手詹姆斯牛仔裤把猴子的比喻归结为“赫胥黎”,大概是托马斯亨利赫胥黎。这种归属是不正确的。[13]今天,它有时还报告说,赫胥黎应用的例子,现在,传说中的争论在查尔斯·达尔文的物种起源与牛津大学的英国圣公会主教,塞缪尔·威尔伯福斯,在会议召开的英国协会 1860年6月30日牛津大学的科学进步。这个故事不仅缺乏证据,而且还有1860年打字机本身尚未出现的事实。[14]

尽管最初的混淆,但猴子和打字机的争论现在在进化论证中很常见。例如,道格鲍威尔认为,作为一名基督教护教者,即使一只猴子不小心输入了哈姆雷特的字母,它也无法产生哈姆雷特,因为它缺乏沟通的意图。他的平行暗示是自然法则无法在DNA中产生信息内容。[15]牧师John F. MacArthur代表了一个更常见的论点谁声称从变形虫中产生绦虫所必需的基因突变与猴子打字哈姆雷特的独白一样不可能,因此不可能克服所有生命进化的可能性。[16]

进化生物学家 理查德·道金斯(Richard Dawkins)在他的书“盲人制表师 ”(The Blind Watchmaker)中运用了打字猴子的概念来证明自然选择能够通过随机突变产生生物复杂性。在模拟实验中,道金斯有他的黄鼠狼程序产生哈姆雷特短语METHINKS就像一个Weasel,从一个随机类型的父母开始,通过“繁殖”后代,并总是选择与后代最接近的匹配,即父母的副本,具有随机突变。目标短语在一个步骤中出现的可能性非常小,但道金斯表明,它可以使用累积的短语选择快速生成(大约40代)。随机选择提供原材料,而累积选择提供信息。然而正如道金斯所承认的那样,黄鼠狼程序对于进化来说是一个不完美的类比,因为“后代”短语是根据与遥远理想的相似标准选择的。相比之下,道金斯肯定地说,进化没有长期计划,也没有向一些遥远的目标(如人类)发展。而黄鼠狼计划则用来说明非随机累积选择和随机单一之间的区别。- 步骤选择。[17] 就打字猴子类比而言,这意味着如果置于非随机,达尔文式选择的约束下,罗密欧与朱丽叶可以相对较快地生成,因为适应度函数将倾向于保留任何位置恰好与目标文本匹配的字母,改进了每一代输入猴子的生成。

探索进化与无约束猴子之间类比的另一种途径在于猴子一次只输入一个字母,与其他字母无关。Hugh Petrie认为需要更复杂的设置,在他的情况下不是为了生物进化,而是为了思想的演变:

为了得到正确的类比,我们必须为猴子配备更复杂的打字机。它必须包括整个伊丽莎白时代的句子和思想。它必须包括伊丽莎白时代关于人类行为模式和原因的信仰,伊丽莎白时代的道德和科学,以及用于表达这些的语言模式。它甚至可能必须包含一些经历的叙述,这些经历将莎士比亚的信仰结构塑造成伊丽莎白时代的一个特例。然后,也许,我们可能允许猴子玩这样的打字机并制作变体,但是获得莎士比亚戏剧的不可能性已不再明显。真正的变化确实包含了大量已经实现的知识。[18]

詹姆斯·W·瓦伦丁虽然承认经典猴子的任务是不可能的,却发现在另一种意义上,书面英语和后生动物基因组之间存在一个有价值的类比:两者都具有“组合,层次结构”,极大地限制了大量的组合在字母表级别。[19]

文学理论 

RG科林伍德在1938年提出,艺术不能偶然产生,并且作为讽刺者写给他的批评者,

……有些……否定了这个命题,指出如果一只猴子和打字机一起玩……他会产生……莎士比亚的完整文本。任何无所事事的读者都可以通过计算值得投注的概率花费多长时间来娱乐自己。但这个建议的兴趣在于能够通过印在书页上的一系列字母来识别莎士比亚作品的精神状态…… [20]

尼尔森古德曼采取相反的立场,以博尔赫斯的“ 皮埃尔梅纳德,吉诃德的作者 ”为榜样,与凯瑟琳埃尔金一起阐述了他的观点,

梅纳德写的只是文本的另一个题词。我们任何人都可以这样做,印刷机和复印机也是如此。事实上,我们被告知,如果无数的猴子……最终会产生一个文本的复制品。我们认为,这个复制品将与塞万提斯的手稿,梅纳德的手稿,以及曾经或将要印刷的每本书的副本一样,都是唐吉诃德的作品。[21]

在另一篇文章中,古德曼详细说明,“猴子可能应该随机制作他的副本没有任何区别。它是相同的文本,并且对所有相同的解释都是开放的……” GérardGenette驳斥了Goodman的论点乞求这个问题。[22]

对于Jorge JE Gracia来说,文本的身份问题导致了一个与作者不同的问题。如果一只猴子能够输入哈姆雷特,尽管没有意图并因此取消作为作者的资格,那么看起来文本不需要作者。可能的解决方案包括说找到文本并将其标识为哈姆雷特的人是作者; 或莎士比亚是作者,猴子是他的经纪人,而发现者只是文本的使用者。这些解决方案有其自身的困难,因为文本似乎具有与其他代理人分开的意义:如果猴子在莎士比亚出生之前运作,或者如果莎士比亚从未出生,或者如果没有人发现猴子的打字稿,该怎么办?[23]

随机文档生 

该定理涉及一个在实践中无法完全实现的思想实验,因为预计需要大量的时间和资源。尽管如此,它激发了有限随机文本生成的努力。

根据“纽约客”的一篇文章,亚利桑那州斯科茨代尔的Dan Oliver运行的一个计算机程序在2004年8月4日得出了一个结果:在该组织工作了42,162,500,000亿亿猴年之后,其中一只猴子“打字,” 情人。停止对象:eFLP0FRjWK78aXzVOwm) - '; 8.t “这个序列的前19个字母可以在”维罗纳的两个绅士“中找到。其他球队从“Timon of Athens”中复制了18个角色,17个来自“Troilus and Cressida”,16个来自“Richard II”。[24]

一个名为The Monkey Shakespeare Simulator的网站于2003年7月1日推出,其中包含一个Java applet,它模拟了随机打字的大量猴子,其目的是看到虚拟猴子从一开始就制作完整的莎士比亚戏剧需要多长时间结束 例如,它从亨利四世(第四部分)中产生了这一部分线,报告说它花费了“2,737,850亿亿亿猴年”来达到24个匹配的字符:

谣言。请听我说; 9r“5j5&?OWTY Z0d ……

由于处理能力的限制,程序使用概率模型(通过使用随机数生成器或RNG)而不是实际生成随机文本并将其与莎士比亚进行比较。当模拟器“检测到匹配”(即,RNG生成某个值或某个范围内的值)时,模拟器通过生成匹配的文本来模拟匹配。[25]

在实践中使用更复杂的方法来生成自然语言。如果不是简单地生成随机字符,而是将生成器限制为有意义的词汇并保守地遵循语法规则,例如使用无上下文语法,那么以这种方式生成的随机文档甚至可以欺骗一些人(至少在粗略阅读时)在SCIgen,snarXiv和后现代主义发生器的实验中显示。

随机数发生器的测试 

关于描述理想猴子预期键入某些字符串的频率的统计数据的问题转化为随机数生成器的实际测试 ; 这些范围从简单到“非常复杂”。计算机科学教授乔治·马萨利亚(George Marsaglia)和阿里夫·扎曼(Arif Zaman)报告称,他们曾经在讲座中将这类测试称为“重叠的m- 元组测试”,因为它们涉及随机序列中连续元素的重叠m元组。但他们发现称他们为“猴子测试”有助于激发学生的想法。他们在1993年发表了关于各种RNG的测试类别及其结果的报告。[26]

在流行文化 

无限猴子定理及其相关图像被认为是概率数学的一个流行和众所周知的例证,由于它通过流行文化传播而不是通过正规教育而广为人知。[注8]这得益于源自一群打字机上的文字猴子形象的天生幽默,是一种流行的视觉插科打..

辛普森一集的剧集“ 最后一个退出斯普林菲尔德 ”中,伯恩斯先生向荷马展示了“一千个打字机上有一千只猴子的房间。很快他们就会写出人类所知的最伟大的小说!” 伯恩斯然后惩罚一只猴子打字,“ 这是最好的时期,这是次要的!”。

道格拉斯·亚当斯(Douglas Adams)在1978年的电台剧“银河系漫游指南”The Hitchhiker’s Guide to the Galaxy)中引用该定理来说明为宇宙飞船提供动力的“无限不定性驱动器”。从第2集开始:“ 福特,外面有无数的猴子想和我们谈谈他们制作的哈姆雷特剧本。”

由于一个报价[27]到1996年的演讲由罗伯特威伦斯基说:“我们听说一百万只猴子在一百万的键盘可以产生莎士比亚全集;如今,由于互联网,我们知道这是不是真的。 “

2001年的一篇论文“猴子,打字机和网络:根据意外卓越理论的互联网”的引言中提到了这一定理的持久和广泛流行。[28] 2002年,“华盛顿邮报 ” 的一篇文章说:“很多人都对着名的观念感到高兴,即拥有无限数量打字机和无限时间的无数猴子最终可以写出莎士比亚的作品。 ”。[29] 2003年,前面提到的艺术委员会资助的实验涉及真正的猴子和计算机键盘接受了广泛的新闻报道。[30] 2007年,该定理被连线列出杂志在八个经典思想实验的列表中。[31]