笔者近日诸事不顺,想要换个心情,便前两个星期去染了头发。纵使我的头发质量好到每次剪头发都要被造型师称赞一番,连续三个小时4次漂色处理对头发的损伤也是显而易见的。再回想大学的时候,一次次熬夜赶due、通宵做project的时候,一次次忧愁地看着浴室间下水槽堆积的掉发,我偶然不禁想道:此时此刻有没有和我头发数量一样多的人呢?短暂思考过后我得到了准确的答案。
根据常识我们知道亚洲人种的头发大约在8~10万根,高加索人种发丝更细、约有12万根。我们现在假设人类头发长度满足正态分布(normal distribution)模型,且平均数为10万根、标准差为3万根,那么可以认为本次讨论的统计数据不包含头发数量大于20万根的人。
同时考虑到北京市朝阳区常驻人口约有300万,那么这样我们直接得出结论——在北京市朝阳区至少有15个人的头发数量是一样多的!因为当我们假设有200,001个朝阳群众的头发数量都各不一样(0~200,000),但当我们有第20万零2个人被考虑进来的时候,他(她)的头发数量一定会与之前的20万零1个人有重复。
在考虑这个问题的时候,我们也许可以把这300万朝阳群众按照他们的身份证号进行一下排列,得到集合X={1,2,3,...,3000000}。我们也同时可以把可能的头发数量归为集合Y={0,1,2,3,...,200000}。集合X中的每一个元素,即这300万朝阳群众中的每一个人,会对应集合Y中的一个元素即一个头发数量(每个人的头发数量在某一特定时刻是不变的),也就意味着存在这样一个从集合Y到集合X的单射(injection),那么我们就可以说Y集合所含元素的个数,或者我们说这个集合的势、或集合的基数(cardinality),记作lYl或card(Y),小于等于X集合的基数——lYl<lXl。但同时,我们不能说每个头发数量只对应一个身份证号,因为的确会存在多个人的头发数量是相同的,也就意味着不存在这样一个从X到Y的单射,即可得lXllYl。联立两个不等式可得lYl<lXl,即X集合和Y集合不存在一一对应关系,也必然就意味着一定会有多人的头发数量一样。
对于有限集合(finite set)的大小比较,也就是有限集合基数的比较,其实还是很直观的;但对于无穷集合(infinite set)我们又如何判断其基数的大小呢?举个例子说的话,究竟是奇数多还是偶数多呢?究竟是整数多还是正整数多呢?
在考虑这些问题之前我们不妨先来看一个比较有意思的数学悖论:假设有这样一个不可思议的旅馆,它有无穷多个房间——在某一个周一的晚上客满了,而这时来了一个新的客人,但旅馆的夜班经理并不需要拒绝这位多金客户的入住请求,因为他仅仅需要把原本1号房间的客人请到2号房间、把2号房间的客人请到3号房间、把3号房间的客人请到4号房间、……、把n号房间的客人请到n+1号房间,这样这位新客人就可以顺利入住1号房间了。
在周二的晚上旅店依然客满,这时外边开来一辆大巴车载有无穷多个客人亟待入住。夜班经理需要做的是把原本1号房间的客人请到2号房间、把原本2号房间的客人请到4号房间、把原本3号房间的客人请到6号房间、把原本4号房间的客人请到8号房间、……、把原本n号房间的客人请到2n号房间,这样一来所有的奇数号房间都能腾空了,剩下的只需要把大巴车里的客人按照他们在车上的座位号(或其他任何序列号)按顺序一一安排进空着的房间,所有客人就都可以顺利入住了。
这家旅店因此一夜之间名声大噪,很多客人蜂拥而至。在周三的晚上,这家旅店的外边停有无穷多辆大巴车,而每一辆大巴车上都有无穷多个慕名而来的客人。这位勤奋聪明(并无惧投诉)的旅店夜班经理首先按照周二晚上的方法一样腾空了所有的奇数号房间,然后把外边的无穷多辆大巴车按照它们的车牌号排出了顺序,把第1辆大巴车上按座位顺序的第1个客人安排进2之后的下一个质数(prime number)——3的1次方即3号房间、把第2个客人安排进即9号房间、第3个客人安排进即27号房间、……、把整个第1辆大巴车上的第n个客人安排到3的n次幂即号房间。然后把第2辆大巴上的客人按照顺序安排进下一个质数——5的正整数次幂号房间;把第3辆大巴上的客人按照顺序安排进7的正整数次幂号房间;把第4辆大巴上的客人安排进11的正整数次幂号房间;以此类推,把第k辆大巴上的第n个客人安排进号,p为第k+1个整数(p∈ P,P = {p: p is a prime number} ={2,3,5,7,11,13,17,19,23,29…...})。这样所有的客人都能顺利入住了。这就是著名的希尔伯特旅馆悖论(Hilbert's Paradox of the Grand Hotel)。
以上的内容我们用一一对应(one-to-one correspondence)的原则得出了这几个这样表达上并不是很严谨但理论上无误的关于无穷集合基数的性质。进一步类似地,我们可以证明出|{ 1,2,3,4,...}| = |{ 2,3,4,5,...}| = |{ 0,1,2,3,...}| = |{ 1,3,5,7,...}| = |{ 2,4,6,8,...}| = |{ ...-3,-2,-1,0,1,2,3,4,...}| = ,即奇数、偶数、自然数、正整数、负整数、整数、有理数这些集合所含的元素实际上都是一样多的。因为这些集合虽然都是无穷集,但是可数无穷集或叫做可数集(countable set),它们与自然数集N之间都能构建一一对应关系即双射(bijection)。我们把这些集合的基数记为(aleph-naught / aleph-null / aleph-zero,阿列夫零,第一个阿列夫数;是希伯来语的第一个字母)。
燃鹅!我们并不能做出从全体实数到自然数的一一对应关系,也就是说实数集并不可数,所以这就意味着实数集的基数会大于。也就是说——没有人会有两根头发的长度是严格数学意义上相等的!因为头发的长度是可以被取值到某个非负实数闭区间内任意一个实数的。而实数的大小会因测量或保留精度的不同的时候不同。
当Jodie老师基于目测结果告诉我她的秀发有70多cm长的时候实际上是告诉我她的某根头发长度,我们设为x,满足70cm≤x<80cm;而当她摆弄了一番直尺之后告诉我这根头发是74.2cm长的时候实际上说的是这根头发长度满足74.15cm≤x<74.25cm;最后当她确认完螺旋测微器的订单之后告诉我这根头发是74.22513cm长的时候,实际上说的是这根头发长度满足74.225125cm≤x<74.225135cm。……
然后我被揪着头发揍了一顿……
是的,因此头发的长度——以及或者其他很多很多数学和统计上我们感兴趣的数据——并不能取到一个准确的实数值,因为它总会被测量方法和记录方法的精度限制而得到一个近似值。但我们能统计到在[70cm, 71cm)这个区间之内的头发有多少,和计算这部分头发在全部头发中的占比。
综上所述,当我们从朝阳群众中随机挑选一个人并观测他(她)的头发数量的时候,我们会得到一个整数,我们称之为离散型随机变量(discrete random variable);当我们从Jodie老师头上随机薅下一根头发并检测它的长度的时候,我们会得到一个实数,我们称之为连续型随机变量(continuous random variable)以及一顿胖揍。关于这一部分概率和统计具体的介绍,恐怕不是本文的篇幅能够涵盖的了。
想要了解更多关于自然科学、社会科学或英语学术写作的知识吗?我们在英领计划等你喔!
用心的留学
咨询公众号
青春不留白!
关于投稿
图文模式:1500字以上+图片(摄影技术的展现就在此时)
文字内容必须与澳大利亚、新西兰留学有关
学习方法,留学感受,有趣课堂,多彩生活
投稿主题请标明:姓名+顾问老师姓名+留学院校+就读专业
发表:新东方澳洲新西兰官方微信平台