数字预测之“魔法”

集体预测

美国加州南部的橙县博览会上,即将开始“群体智慧”预测游戏。此举旨在验证1906年举行的一项竞赛一猜猜一头牛的体重。当时无人猜对这头牛的精确体重,但大家所猜数字的平均值与精确数字只相差不到1%。这被称为“群体智慧”。但这只是—个巧合,还是一个普遍现象?

这次博览会的预测内容是:罐子里有多少颗糖豆?135人提交了猜测数,其中最小数是183,最大数是12000,平均数是1522,实际数是1676。也就是说,预测平均数与实际数相差不到10%。从统计学意义上说,数字预测中的群体智慧的确存在。

独特科学

运用统计学进行预测是近数百年的事。古罗马人利用鸟的飞行和叫声来做预测。中国殷周时代的古人通过烧龟壳,由出现的裂纹多少和裂纹走向来预测将发生的事。从几百年前开始,人类转向运用科学来做预测,取得了了不起的成绩,从海王星、无线电波或黑洞的存在到彗星将来的位置都测得很准。而让这些预测取得惊人成功的关键就是统计学的运用。

统计学是一门独特的学科。它不是一门经验科学,不是纯数学,也不是哲学,而是做科学研究所依据的语言、架构和规则。也就是说,做决策、下结论和做预测都始于统计学。而归根结底,统计学的预测能力依赖的是大约500年前的一种创新性见解——随机性本身可被概率学(一门数学学科)驯服。

大数定律

美国博弈之城拉斯维加斯可谓建立在概率论的基础上。事实上,几百年来数学和博弈一直被捆绑在一起。掷骰子的随机性根本没有你想象的那么强,博弈也不是什么新鲜事。古希腊人和古埃及人很早就把羊踝骨作为一种原始骰子来用。令人惊讶的是,虽然古希腊人是数学的奠基人之一,他们却根本没想到要研究概率博弈。

16世纪,意大利数学家卡尔达诺提出:博弈游戏重复次数越多,数学概率对博弈结果的预测越准。后来这被称为“大数定律”。大数定律的例子在日常生活中比比皆是,比如:定义硬币的正反面,并且向空中抛硬币;如果只抛几次,那么硬币掉下来后正面或反面朝上的次数明显更多;但如果抛100次以上,那么正面或反面朝上的次数很可能差不多各占一半。虽然无法预测单次抛硬币的结果,但可以预测集合行为(抛硬币100次以上)的结果,这就是大数定律在起作用。

事实上,很多游戏厅就利用了大数定律。游戏的设计目的是让游戏厅比游戏者多一点点优势。以美国轮盘游戏为例:轮盘上有数字1~36,其中一半为红色数,另一半为黑色数。向其中一种颜色投注一角钱,赢的概率似乎是50%。但轮盘上还有两个绿色小孔,如果球落入它们则无论投注红色还是黑色都输。正是这种优势让游戏厅从长期来看不会赔钱。

VFH8gfG1Q+t4GnzUhHKkmM4XQQKX6ypdyHM0OCztQj4=

两强博弈

大数定律当然不只在博弈领域起作用。在篮球赛中,投篮命中率是指命中数占投篮次数的比例。但在赛季之初基于较小的数字进行预测,会有误导性。例如,一些不算优秀的球员在赛季之初可能有较高的命中率,但这中间存在幸运因素,并不表明他們会一直有高命中率。而一些优秀球员可能在赛季之初表现差强人意,但这并不表明他们会一直表现不佳。也就是说,小样本可能造成误导,而根据大样本做预测的准确度更高。

概率论为预测未来打开了一扇新门。概率论的出现是源于法国数学家帕斯卡和费马在17世纪50年代的一系列书信交流,交流内容是关于此前已存在了几百年的一个博弈问题。其简化形式为:B和P抛硬币;B选正面,P选反面;五局两胜;双方投注金放入奖池。抛硬币3次后,B以2比1领先。游戏至此中断,而问题是:怎样分配奖金才公平?所谓公平,是指如果游戏能继续进行到结束,那么如何划分奖金?

费马提出要想象游戏继续下去的可能结果。为此还要抛两次硬币,从而有4种可能的结果:正面,正面;正面,反面;反面,正面;反面,反面。如果出现前3种情况,B赢。只有出现第4种情况,P才赢。因此费马提出B和P的奖金分配比例为3:1最合理。费马的突破陛见解就是从数学上对未来进行想象。帕斯卡刚开始不接受这个观点,但最终表示认可。

至此,人们意识到未来并非空白。虽然你不可能确知未来情况,但可能以高精确度计算事情的可能性。这一重要见解为通往现代世界打开了一扇门。

数字天气

从股市到保险再到零售商网络,我们对未来的所有预测都基于一种理念:有了合适的数据,未来事件的发生概率就能被计算。事实上.预测学的最大成功之一是天气预报。

2017年的美国飓风季非常猛烈,风暴频发,强度以惊人速度递增,这让预报员强调风暴登陆地点的不确定性。事实上,在天气预报中,唯一能确定的就是不确定性。科学家依赖全球性地面观测和计算机运行方程来做天气预报,这一方法的本质意味着预测的不完美。为尽可能地消除这种不完美,需要更大量数据。在美国国家气象局巴尔的摩一华盛顿办公署,每天两次发送气象气球飞越全美。同一时间,全球各地发送气象气球.它们搭载仪器升人大气层,每上升大约10米就传输读数。虽然有其他方法来了解大气层的垂直情况,但气象气球的精度要高得多,这就是科学家仍然要依靠气象气球的原因。

来自巴尔的摩一华盛顿办公署气象气球的数据,最终被传到位于美国马里兰州大学帕克分校的美国国家环境预测中心,这里是美国几乎所有天气预报的起始点。巴尔的摩一华盛顿办公署气象气球数据只不过是这里每天数据流中的沧海一粟。美国国家气象局每天从数万个点观测所获大气层温度、压力、风速和风向等数据出发进行模拟。这样的气象预测是20世纪数字预测的最大成就之一。

数字气象预报的第一步,是把从地面到64千米高度的一部分大气分割成三维格子,这些格子覆盖全球。第二步,基于持续不断涌入国家气象局的数十亿次测量数据,每个格点被赋予天气不同方面(温度、压力、风速和风向等)的数值。接着,流体物理和热力学方程式被应用到每个格子。在分析过程中不仅每个格子的数值会变,而且这些改变会影响相邻格子的数值,而相邻格子又会影响其他格子。因此,大气情况随着时间在这个三维空间里持续演化。

这一方法获得了惊人的成功。考虑到这种预报方法需要对初始状态做出多种假设,因而具有很大的不确定性,这种成功就更了不起。事实上,初始状态相当重要。在数字气象预报初期,看来对未来很长时间的天气预报都会很准确,但20世纪60年代的研究发现:初始状态测量的轻微偏差会随时间放大,导致预测精度越来越低。

具有讽刺意味的是,这种对初始状况的敏感度表明了一种提高数字天气预测准确度的途径。由于今天的计算机性能大大加强,因此科学家可进行多次而非一次天气模拟。在其中每一次模擬,他们微调初始状况以反映测量中的固有差错和预测模型本身的不确定性。这一过程被称为集成预报。

最终,气象学家借助统计学工具来分析天气预报,并经常使用概率来表述预报的不确定性,例如电视台气象预报员这样说:“降雨概率为40%。”现在的3天天气预报精确度已经和10年前的1天预报精确度一样,而且精确度还会提高。

费雪贡献

和气象学的情况一样,我们对所有科学理解的终极测试就是我们做出精准预测的能力。在更大规模上,像爱因斯坦广义相对论这样的科学理论必须做出能被证实的预测,才能变得可接受。在此情况下,广义相对论在从被提出到长达4年后才被接受。当时,一次日全食显示经过太阳附近的光线正如广义相对论预测的那样被弯曲,这是证明爱因斯坦有关太阳质量会扭曲时一空结构(即我们体会到的引力)的说法正确的第一个证据。

事实上,科学方法需要假设,这就意味着经过仔细设计的实验产生预测结果,而实验本身要测试预测说法。惊人的是,直到20世纪二三十年代,英国科学家费雪才提出了运用统计学和概率来判断结果的实验设计原则。作为例子,他讲了一个故事说,一位女士称自己能尝出把牛奶倒进茶水里和把茶水倒进牛奶里的味道区别。费雪思考用什么方法能测试她的说法。那么,只给她一杯奶茶行不行?如果这样,她说对的概率为50%,当然不能因此确信她真有分辨这两者的技巧。费雪提出了一项合理测试:按照随机顺序,给她4杯倒入牛奶的茶和4杯倒入茶的牛奶,看她能不能把它们完全正确地分成两组。

为什么是8杯?因为这会有70种不同的分组方法,但其中只有1种正确。就算该女士分组正确,也不能“证明”她有特殊能力,但费雪可以如此下结论:因为如果完全靠猜,那么她猜对随机事件的概率P仅为1.4%(1/70);而当她真的分组正确,就是做了一件如果完全靠猜那么很不可能猜对的事,因此她很可能不是简单靠猜,而是真的有能力做对。

主要归功于费雪,尸值这个概念在实验科学中逐EsxO/OoSuNlj9rj9LssDLbMXK8fT7Up8V82/Bndh/fI=渐得到广泛应用。如果你假设一个过程完全随机(P值很低),很不可能得到你所得到的数据,那么你可能会猜测这个过程并非随机。因此,你会探究是什么非随机因素在起作用。费雪提出了一个标准:只有P值小于5%的实验结果才值得调查。换句话说,如果假定实验结果完全是随机的,那么实验20次也不见得能见到一次这样的结果。费雪称P值低于5%的结果“在统计上显著”。换句话说,从统计学意义上讲,这些结果并非随机的概率高于95%。

不难理解,P值越低越好。自从费雪时代以来,P值被包括科学期刊编审在内的许多人用作衡量成功的一把便利标尺。为了发布自己的成功,在职业提升中获得筹码,一些人肆意编撰、篡改实验数据以得到低P值。需要指出的是,P值是一种探查手段,而不是裁判。如果你发现自己的实验结果在统计上显著,就意味着那是一个可以继续研究的兴趣点,而不是说已有定论,无需再研究。

对P值造假和过度强调P值的一个解决办法.是更大的透明度。越来越多的人在发表科研成果时也更详尽发布数据,这样就越来越难以在统计上造假,因为同行会说:“把你的数据亮出来.让我看看你是怎么得到结论的。”

预测出错

统计学继续在科学中起重要作用。只要是有数据采集的地方,就有统计学家在工作。他们找规律,下结论,经常做预测,但预测并不一定准确。抽样本身并不新鲜。想看汤味道合不合适,用勺子舀点来尝就行,无需整锅汤。要验血,一点点血就够,不会让你血流干。但在许多情况下,要想找到具有代表性的样本,做起来比听起来困难。不妨设想一座有1000人的小城,调查人们对建立遛狗公园的意见。用绿珠代表支持者,红珠代表反对者。

第一步是随机抽样。只有随机抽样才有说服力。抽样数的多少由调查精度决定。误差边界(误差幅度)是一个精度指标,它是指抽样结果与调查全体的结果之间的最大幅度差异。另一个精度指标是置信水平,也就是反映对样本能否真正代表全体的不确定性。如果把置信水平定在90%,误差边界为±5%,那么上述小城市民抽样的样本大小为至少214颗珠子。结果抽出了103颗红珠和111颗绿珠,也就代表反对遛狗公园提案的市民占48%,支持的占52%。但这还不包括5%的误差边界,如果把误差边界考虑进去,那么支持和反对比例的差异更小,两者几乎相等。

此外,对“概率”的终极解释必须视情况而定。例如:虽然30%的概率看起来不高,但如果你知道某航空公司的航班坠毁比例是3/10,那么你还会选择这家公司吗?当然不会。而如果气象预报员说下雨概率是30%,那你一定会带雨伞外出吗?不见得会。虽然都是30%,但人们对前一个30%的在意程度远高于后一个。抽样随机性很难保证,再加之其他种种因素,预测大选结果当然不容易,也可能不准确。

数字棒球

但至少在一个领域——棒球领域,对比赛结果已有几十年的详细统计。棒球一直是一种数字博弈:个人技术统计、安打率、投手责任得分率和打点等等都是数字。虽然统计学在棒球中一直都有运用,但统计数字的重要性在过去20多年中才因体育分析学(采用预测模型提高球队表现的学科)而飙升。某种程度上,不只是体育,每个企业(例如金融或技术企业)都在试图预测下次事件,因为每个企业都是商场上的选手,就像球场上的球队。

20世纪90年代末期,美国奥克兰运动家队总经理比利比恩率先在体育中采用量化分析法。当时,面对奥克兰运动家队这支小市场球队的收入困境,他放弃了数十年来的主观性棒球传统,转向采用统计分析来引导球队决策。当奥克兰运动家队连续4年杀人夺标决赛,并创下连赢20场的联赛纪录后,比利比恩由统计数字主导的球队策略开始引起关注。随后,这一策略备受推崇。虽然统计分析主导的市场策略并未让奥克兰运动家队当上联赛冠军,但该策略的确改变了棒球赛。今天,美国职业棒球大联盟每一支主要队伍都有体育分析部,其职责是通过数据预测和提高球员表现,分析各种技术指标。

数字搜救

统计分析不仅转变了棒球运动,而且被运用在了许多非相关领域。支持数字主导决策和预测的人已经把这种方法运用到了例如通俗音乐和执法这样的多个领域。该方法已经让采集自互联网的海量信息“大数据化”。但反面情况下——如果数据不够却必须采取举措,例如在海上搜救失踪者,那么怎样开始就算是预测失踪者在哪里?

一天上午,有人打电话说一位朋友早晨在进行桨叶式冲浪艇冲浪时失踪。美国海岸警卫队出动14米响应船搜救失踪者。实际上,桨叶式冲浪艇陷入麻烦的事件越来越多。按照要求,桨叶艇冲浪者必须身着救生衣。仅在2015年,全美就有625名桨叶艇冲浪者死亡,其中许多人未穿救生衣。

海岸警卫队还派出了另一艘搜救船。报警者说失踪者通常在楠斯基特海滩和波士顿灯塔之间海域冲浪,两地相距大约5千米。但因包括他陷入了什么麻烦和他会怎样漂移等一切信息未知,搜寻范围变得很大。

搜救行动经常是基于独特情况——虽然信息不全也必须开展行动。为解决这样的问题,统计师转向18世纪英国教士贝叶斯的概率理论。如果是抛硬币博弈,你就想知道游戏是否公正,即硬币落地后正面或反面朝上的概率是否各占一半,或者是否其中一面被做得更重而导致不公。但传统统计学和科学预测手段并不预先假定答案,而是要采用实验寻找答案,为此需要抛硬币许多次。要不然,就得采用贝叶斯方法。

与传统统计学不同,贝叶斯方法是指基于已知信息算出初始概率。以抛硬币为例,假定硬币没作假。接着,抛硬币多次,随着出现的结果调整概率。假如开始时连续出现正面朝上的情况,你可能会怀疑硬币作假。但随着抛硬币次数更多,反面朝上的情况多起来,你可能又会认为开始时连续正面朝上只是偶然情况。你的最终结论可能是硬币未作假,两面质量相同。但你并不拒绝所有新信息,因此有可能根据新信息继续调整概率设定。

贝叶斯推理创造了基于新信息计算概率的一种严格的数学方法,该方法正是美国海岸警卫队最优救助规划系统(简称萨罗普斯)的核心。萨罗普斯被输入失踪冲浪艇的最后已知位置,再结合有关海浪和风等的数据预测失踪冲浪艇漂流情况,其中包含数千条漂流路径。这些路径被处理成由不同颜色标记的各种概率,被输入搜救方案。萨罗普斯迅速重新计算所有概率,产生一个新的搜救方案。

事实上,这只是一次搜救演练。几小时前,这艘冲浪艇被海岸警卫队的另一艘船放到海上,让它漂流。冲浪艇上的仪器组测量风,并且记录冲浪艇漂流路径。这些信息稍后被用作初始信息来调整萨罗普斯对冲浪艇的漂流模拟。结果,萨罗普斯在预测搜救方向时非常准确。这证明萨罗普斯的预测能力十分强大。事实上,萨罗普斯已在以往多次实际搜救中表现出色。

机器学习

贝叶斯推理需要更新概率,而更新概率所必需的计算复杂性让贝叶斯推理在20世纪前期无法发挥作用(因为当时无法克服计算复杂性)。但今天的计算能力让贝叶斯推理在全球大显身手。从垃圾邮件过滤器到网络搜索引擎再到自动驾驶汽车,贝叶斯推理无处不在。有科学家认为贝叶斯推理蕴含着经验学习能力,于是他们把贝叶斯推理置人计算机,让计算机成为会学习的机器。

还有另一种方法:把计算机看成是学骑车的小孩。没人会让小孩按照一套规则来学骑车,大人可能会给小孩一点提示,但小孩学骑车的最终老师是尝试与纠错。与此相似,科学家不告诉计算机任何规则,而只是给例子,让计算机从例子中学习。设想训练计算机识别猫的图像。通过扫描成千上万有标记的图像(其中一些显示的是猫,另一些不是),计算机发展出自己的规则来评估一幅图像是否显示的是猫的概率。现在,计算机学会的本领当然已远远不只是识别猫。计算机现在已经能战胜围棋世界冠军,在大堆文件里寻找所需的一份文件(这是昂贵付费律师的工作之一),或者诊断疾病。美国斯坦福大学最近进行了一项研究,调查一种机器学习算法在诊断皮肤癌等疾病方面能否匹敌皮肤病专家,结果发现他们的小黑箱在这方面的能耐和专家的一样。

这引起一连串问题。例如:我们应该更相信软件还是医生?智能诊断软件能不能替代医生?正如学会骑车的人说不清自己是怎么学会的,小黑箱究竟怎样诊断出了癌症也无人说得清。用小黑箱诊断癌症还不错,但用类似装置治疗癌症则令人存疑——患者和医生都希望了解智能治疗软件的预测和处方依据。

用学习型智能预测软件来评估谁应获得房贷、谁该被解雇或谁会被保释等,也存在同样的问题。这些决策对人的生活影响很大,知其然却不知其所以然的黑箱机器算法怎么会让人信服?

在我们生活的数据融合时代,计算机、概率和统计赋予我们前所未有的强大预测能力,这当然令人兴奋,但其中也暗藏危机,或者令人担忧,因为不知道我们会被这种强大预测能力带往何方。但有一点确定无疑——未来总是不确定的,因此数学必然將凭借概率和数字预测的力量引领我们前行的道路,虽然数学在这方面并非是唯一和主要的指路人。

版权声明:三分钟阅读 发表于 2021年10月31日 下午10:17。
转载请注明:数字预测之“魔法” | 三分钟阅读-杂志精选

相关文章