本福特定律
定义
本福特定律,也称为本福德法则,说明一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成,接近期望值1/9的3倍。推广来说,
本福特定律
越大的数,以它为首几位的数出现的机率就越低。它可用于检查各种数据是否有造假。说明本福特定律说明在b进位制中,以数n起头的数出现的机率为logb(n + 1) − logb(n) .本福特定律不但适用于个位数字,连多位的数也可用。
在十进制首位数字的出现机率(%,小数点后一个位):
d | p |
1 | 30.1% |
2 | 17.6% |
3 | 12.5% |
4 | 9.7% |
5 | 7.9% |
6 | 6.7% |
7 | 5.8% |
8 | 5.1% |
9 | 4.6% |
一组平均增长的数据开始时,增长得较慢,由最初的数字a增长到另一个数字a + 1起首的数的时间,必然比a + 1起首的数增长到a + 2,需要更多时间,所以出现率就更高了。
从数数目来说,顺序从1开始数,1,2,3,...,9,从这点终结的话,所有数起首的机会似乎相同,但9之后的两位数10至19,以1起首的数又大大抛离了其他数了。而下一堆9起首的数出现之前,必然会经过一堆以2,3,4,...,8起首的数。若果这样数法有个终结点,以1起首的数的出现率一般都比9大。
这个定律的严格证明,可以参见Hill, T. P. "A Statistical Derivation of the Significant-Digit Law." Stat. Sci. 10, 354-363, 1996.
应用
1972年,Hal Varian提出这个定律来用作检查支持某些公共计划的经济数据有否欺瞒之处。1992年,Mark J. Nigrini便在其博士论文"The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies."(Ph.D. thesis. Cincinnati, OH: University of Cincinnati, 1992.)提出以它检查是否有伪帐。
推而广之,它能用于在会计、金融甚至选举中出现的数据。
若所用的数据有指定数值范围;或不是以机率分布出现的数据,如正态分布的数据;这个定律则不准确。历史
1881年,天文学家西蒙·纽康伯发现对数表包含以1起首的数那首几页较其他页破烂。可是,亦可以以任何书起首数页也会较破烂这个观点解释。这个故事可能是虚构的。
1938年,物理学家法兰克·本福特重新发现这个现象,还通过了检查许多数据来证实这点。
2009年,西班牙数学家在素数中发现了一种新模式,并且惊讶于为何现在才为人发现。虽然素数一般被认为是随机分布的,但西班牙数学家发现素数数列中每个素数的首位数字有明显的分布规律,它可以被描述了素数的本福德法则。这项新发现除了提供对素数属性的新洞见之外,还能应用于欺骗检测和股票市场分析等领域。
数字统计的一种内在规律,指所有自然随机变量,只要样本空间足够大,每一样本首位数字为1至9各数字的概率在一定范围内具有稳定性。见右图。即以1开首的样本占样本空间的0.3,以2开首的样本占样本空间0.17-0.19,而以9或8开首的样本始终只占0.05左右。
世界上千千万万的数据的开头数字是1到9中的任何一个数字,而且每个数字打头的概率本应该差不多,但如果你统计的数据足够多,就会惊讶地发现,打头数字是1的数据最多。
1935年,美国的一位叫做本福特的物理学家在图书馆翻阅对数表时发现,对数表的头几页比后面的页更脏一些,这说明头几页在平时被更多的人翻阅。
本福特再进一步研究后发现,只要数据的样本足够多,数据中以1为开头的数字出现的频率并不是1/9,而是30.1%。而以2为首的数字出现的频率是17.6%,往后出现频率依次减少,9的出现频率最低,只有4.6%。
本福特开始对其它数字进行调查,发现各种完全不相同的数据,比如人口、物理和化学常数、棒球统计表以及斐波纳契数列数字中,均有这个定律的身影。
1961年,一位美国科学家提出,本福特定律其实是数字累加造成的现象,即使没有单位的数字。比如,假设股票市场上的指数一开始是1000点,并以每年10%的程度上升,那么要用7年多时间,这个指数才能从1000点上升到2000点的水平;而由2000点上升到3000点只需要4年多时间;但是,如果要让指数从10000点上升到20000点,还需要等7年多的时间。因此我们看到,以1为开头的指数数据比以其他数字打头的指数数据要高很多。
2001年,美国最大的能源交易商安然公司宣布破产,当时传出了该公司高层管理人员涉嫌做假账的传闻。事后人们发现,安然公司在2001年到2002年所公布的每股盈利数字就不符合本福特定律,这证明了安然的高层领导确实改动过这些数据。
第一数字定律描述的是自然数1到9的使用频率,公式为F(d) = log[1 + (1/d)](d为自然数),其中1使用最多接近三分之一,2为17.6%,3为12.5%,依次递减,9的频率是4.6%。科学家们仔细研究第一数字定律后,无法对这种现象做出合理解释。定律的主要奠基人Frank Benford对人口出生率、死亡率、物理和化学常数、素数数字等各种现象进行统计分析后发现,由度量单位制获得的数据都符合第一数字定律。当然彩票上随机数据并不符合。第一数字定律在许多方面都得到了应用,但对于这种数字奇异现象人们依旧是迷惑不解。
上图表中的几个数据范例来自于西班牙国家统计局,数据是按照本福特对数定律统计的。然而,按照彩票获得的数据是随机的和统一的。
您住宅地址号码是以a 1开始的吗?根据一个奇特的数学定律统计,约三分之一的住宅号码是以1作为其首个数字的。其它许多几乎没有任何共通性的地区也有相同的情况:比如道琼斯指数的历史数据、个人电脑中文件储存的大小排列顺序、世界主要河流的长度、报纸头版头条的数字及其它许多事情。
该定律根据其第二位奠基人弗兰克.本福特的名字被命名为本福特定律。通用电气公司物理学家本福特于1935年发现了这一定律。该定律告诉人们在各种各样不同数据库中每个数字(从1到9)作为首个重要阿拉伯数字的频率。
除数字1始终占据约三分之一的出现频率外,数字2的出现频率为17.6%,3出现的频率为12.5%,依次递减,9的出现频率是4.6%。在数学术语中,这一对数定律的公式为F(d) = log[1 + (1/d)],此公式中F代表频率,D代表待求证数字。
这一现象让人觉得很奇怪,来自科尔多瓦大学的科学家杰赫斯.托里斯、桑索利斯.费尔罗德滋、安东尼奥.迦米洛和安东尼奥.索拉同样也如此认为。科学家们在《欧洲物理杂志》上发表了一篇题为“数字如何开始?(第一数字定律)”的文章,该文章对这一定律进行了简要的历史回顾。他们的论文同时还对第一数字定律的有效应用进行了阐述,并对为何没有人能够对这一数字出现频率现象做出合理解释的原因进行了阐述。
等离子体物理学专家托里斯说,“自从我了解本福特定律以来,它一直是我很感兴趣的问题之一。在统计物理学课堂上,我一直将此定律作为一个令人惊奇的范例来激发学生们的好奇心。”托里斯解释道,在本福特之前,有一位深受尊敬的天文学家名为西蒙.纽库姆,他在1881年发现了这一定律。纽库姆同时代的科学家们并没有对他的科学发现引起足够重视。本福特和纽库姆两位科学家均对这一定律感到困惑:当浏览对数表书籍时,他们注意到书的开始部分要比结束部分脏得多。这就是说他们的同事到图书馆后,选择各种各样学科书籍时首选第一页开始阅读。
本福特对此疑问的观察要比纽库姆更深入一些。他开始对其它数字进行调查,发现各个完全不相同的数据,比如人口、死亡率、物理和化学常数、棒球统计表、半衰期放射性同位数、物理书中的答案、素数数字和斐波纳契数列数字中均有“第一数字定律”现象的出现。换句话说就是只要是由度量单位制获得的数据都符合这一定律。
另一方面,任意获得的和受限数据通常都不符合本福特定律。比如,彩票数字、电话号码、汽油价格、日期和一组人的体重或者身高数据是比较随意的,或者是任意指定的,并不是由度量单位制获得的。
正如托里斯和他的同事所解释的,数十年来科学家紧随本福特对这一数字现象进行研究,但是除了发现更多的例子外,他们几乎没有发现有关比第一数字定律本身更多的东西。然而科学家们还是发现一些奇特现象。比如当对数据库中的第二重要数字进行调查时,该定律仍然发挥着作用,但是第二重要数字的重要性却降低。同样,第三和第四重要数字所展现出来的特征就开始变得相同起来,第五重要数字的频率为10%,刚好是平均数。第二个奇特现象引发了更多的科学兴趣:
科学家们在他们所发表的文章中写到,“1961年,皮克汉姆发现了首个常规相关结论,该结论显示本福特定律是一个尺度不变原理,同时也是唯一一个提出数字尺度不变原理的定律。那就是说,由于是以公里来表示世界河流的长度,因此它满足本福特定律,同样以英里、光年、微米或者其它长度单位数字都会满足这一定律。”
托里斯同时还解释到,在二十世纪晚期,一些重要的预测理论(基数恒定性及唯一性等)被特德.希尔和其它数学家证实。虽然一些范例(比如住宅地址号几乎总是以数字1开头,低位数总是出现在高位数之前)得到了解释,但是目前仍然没有找到任何能解释各种范例的能用判断标准。科学家们同时还解释到,没有任何优先标准能够告诉我们什么时候应当或者不应当遵守这一定律设置数字。托里斯说,“现在对该定律的研究取得了许多理论成果,但是一些理论成果仍然是前途未明。为什么一些数字设置,比如通用物理学恒量会如此完美地符合这一定律?我们不仅要了解这一定律的数学原因,还要掌握这一套实验数据的特征。比如他们的连接点是什么?他们来自哪里?很显然,他们是相当独立的。我希望将来能够找到这一定律的总体必然性和充分条件。很多人都对这一定律感兴趣,特别是经济学家。但是我也知道这一定律也许有可能是永远都不可能的事。”
然而,科学家们已经使用该定律进行了许多实践应用。比如,一个公司的年度账目数据应当是满足这一定律,经济学家可以根据这一定律查找出伪造数据。因为伪造数据很难满足这一定律。(非常有趣的是,科学家发现数字5和6,而不是1是最流行的数字,这表明伪造者试图在账目中间“隐藏”数据。)
本福特定律最近还用于选举投票欺诈发现。科学家依据这一定律发现了2004年美国总统选举中佛罗里达州的投票欺诈行为,2004年委内瑞拉的投票欺诈和2006年墨西哥投票欺诈。
托里斯说,“有关第一数字定律是通过脏书页发现的故事是完全不可信的。本福特定律不可否认已经得到应用。当这一定律被发现是其能够带来的好处并不明朗。对我而言,它仿佛仅仅只是一个数字奇异现象。这就是简单中可能蕴涵有意想不到神奇之处的典型范例。”应用
benford定律在审计方面的应用
一、本福德定律对于抽样审计,我们已经进行了详细讲解。抽样审计的方法主要包括随机抽样和重点抽样。随机抽样是采用数理统计与概率论的原理从总体中抽取样本并进行检查;重点抽样是审计人员根据经验和职业判断有针对性的抽取样本并进行检查。我们回顾这两种抽样形式,会发现如下缺点和不足:
(1)随机抽样如果要达到一定精确度,样本必须很大。这对于强调效率、效果和时效性的审计来说,有时可能存在成本高、在预定时间内无法完成任务的情况。审计人员为了在既定时间内完成任务,必然存在大量开飞机(没有执行的审计程序在审计底稿中记录已经执行了)的现象,反而大大影响审计效果。
(2)重点抽样强调审计人员的经验和判断。在审计实务中,一般是根据金额大小、性质严重程度并结合随机抽样方法进行抽样的。这种抽样方法对于总体中样本金额差异大、个体数量少的情况下比较适用,但是对于总体中个体数量多、个体间金额比较均匀的情况则显得很吃力。
那么是否有更好的方法可以祢补这些不足呢?这就是本节要讲的方法,这种方法是随机抽样、重点抽样审计方法的有益补充,该方法就是富兰克•本福德(FrankBenford)定律(Benford's Law)。
本福德早年在通用电器公司(GE)实验室工作,是一名物理学家,二十世纪二十年代发现了一个令人震惊的数学规律,即在任何一组同质随机发生的数据中,排在数据第一或第二位的数字是存有一个可预测到的概率。例如,在一组数据中1排在第一位的概率约为31%,而9排在第一位的概率仅有5%。本福德测试了多种来源的数据组发现存在这样的概率。
本福德定律在审计中的应用
我们知道,本福德定律的适用条件是数据不能经过人为修饰。如果数据来自舞弊所得到的结果,则这些数据将不再服从本福德定律。注册会计师可以利用本福德定律来发现被审计单位舞弊,提高审计效果含义本福德定律的含义如下:
一组随机发生的数字,各个数字的首位存在一定规律,越小的数字出现的比率越高,既0出现的概率是100%(实际上首位不可能是0,因此我们可以认为其出现的概率是100%),1出现的概率是31%,2出现的概率是18%,依次类推,9出现的概率只有不到5%。
其实,本福德定律也服从大数法则和中心极限定理,但是其证明比较复杂,这里不赘述。下图是美国物理学家 T. P. Hill 于1998年7-8月试验本福德定律的概率图:
本福德定律的应用条件是:
(1)数据不能是规律排序的,比如发票编号、身份证号码等;
(2)数据不能经过人为修饰。
附件列表
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。