Skip to content

模型思维 1-4

1. 正态分布 normal distribution

形状:钟形曲线

大多数特种的高度和重量都满足正态分布,它们围绕着均值对称分布。

我们可以通过中心极限定理(Central Limit Theorem)来解释正态分布的普遍性:只要把随机变量加总或求其平均值,就可以期望获得正态分布。

结构

分布给事件或价值分配概率:每个事件的分布给每个可能的结果值分配一个概率。

均值 = (最小值+最大值)/2

方差1= \(σ^2 = \frac{∑(每个值-所有值的平均数)^2}{数量}\)

样本方差(如果总数是样本数据) = \(σ^2 = \frac{∑(每个值-所有值的平均数)^2}{样本数量-1}\)

标准差 = \(σ = \sqrt{方差}\)

68%的数值在离平均值1个标准差内,95%的数值在离平均值2个标准差内,99.7%的数值在离平均值3个标准差内。利用这个规律可以画出具体的分布图。

举例:学校里95%的学生身高在1.1到1.7之间,求分布图。
平均值 = (1.1+1.7)/2 = 1.4
1个标准差 = (1.7-1.1)/4 = 0.15m(95%是平均两边2个标准差的距离)
通过 1.4 ± 0.15 得到分布图,结果 1.1, 1.25, 1.4, 1.55, 1.7

逻辑:中心极限定理

定义:只要各随机变量是相互独立的,每个随机变量的方差都是有限的,且没有任何一小部分随机变量贡献了大部分方差,那N ≥ 20 个随机变量的和就近似一个正态分布。

功能:应用分布知识

样本量影响均值和标准差。在小的群体中应该会观察到更多的好事和更多的坏事。

如果不考虑样本量,直接根据离群值(异常值)推断因果关系可能会导致相当糟糕的政策行为。

检验显著性:我们可以利用正态分布的规律来检验各种平均值的显著性差异。如果经验均值和假设均值之间的偏差超过了2个标准差(5%的显著性,是社会科学家的一个使用惯例),社会科学家就会拒绝这两种均值相同的假设。

六西格玛(6σ)方法

  • 摩托罗拉公司的比尔·史密斯提出,属于品控管理方法,核心是追求零缺陷生产,防范产品责任风险,降低成本,提高生产率和市场占有率,提高顾客满意度和忠诚度。

  • 六西格码的中心思想是,如果你能“测量”一个过程有多少个缺陷,你便能有系统地分析出,怎样消除它们和尽可能地接近“零缺陷”。

  • DPMO(百万次采样数的缺陷率) = (总缺陷数/机会) * 一百万分之一百万, 如果DPMO是百万分之三点四,即达到99.99966%的合格率,可称为六西格玛

对数正态分布

如果随机变量是不可相加而是以某种方式相互作用的,或者如果它们不是相互独立的,那么产生的分布就不一定是正态分布。

对数正态分布的可预测性较差,意味着更大的事件和更多非常小的事件。作为预测规则 ,我们当然更倾向于规律性,而不是发生很大事件的可能性。我们可能更希望随机冲击相加,而不是相乘,以减少发生很大事件的可能性。

对数:多少个既定的数相乘会等于另一个数,对数可以是小数。

多少个 2 相乘等于 8?
3: 8 以 2 为底的对数是 3

\(log_2(8) = 3\)

指数:指多少个数和自己相乘

多少个 2 相乘等于 8?
3: 2 的指数是 3

常用对数:底为10,一般不写 log(100)

自然对数:底为 e 欧拉数 ,大约值为 2.71828 \(log_e(7.389)\)

2. 幂律分布 power law

每个基本定律都有例外,但你仍然需要定律,否则你所拥有的只是毫无意义的观察。那不是科学,只是做笔记。 Geoffrey West

在统计学中,幂律是两个量之间的函数关系,其中一个量的相对变化会导致另一个量的相应幂次比例的变化,且与初值无关。(和正态分布的区别是,正态分布的因素相互独立)

幂律分布就是通常说的长尾分布或重尾分布。例如城市人口分布、物种灭绝、互联网上的链接数量、企业规模等。

产生幂律分布要求非独立性,通常以正反馈的形式出现。社会学家Robert Merton把这种现象称为马太效应2

没有一个机制可以解释所有的幂律分布。但长尾分布的拉长会增加不平等,灾难的可能性变得更大,波动性也会变得更剧烈。

结构

幂律分布中,事件发生的概率与事件大小的某个负指数成比例。k表示指数,指数的大小决定了大事件的可能性和大小。

\(f(c x) = a(c x)^{-k} = c^{-k} f(x) \propto f(x)\)

幂律分布有明确的定义,不是每一个长尾分布都是幂律分布,要想快速地检验某个公布是不是幂律分布,可以用双对数坐标系把分布画出来:双对数坐标系可以将事件大小及其概率转换为相应的对数值,并将幂律分布转换为直线。也就是说,在双对数坐标系中,自始至终都呈直线的图形就是幂律分布的证据,而一开始是直线然后逐渐下降的是对数正态分布或指数分布。对数正态分布向下弯曲的速率取决于产生分布的变量的变化。

齐普夫定律 Zipf’s Law

对于指数为2的幂律分布(k=2),事件的等级*事件大小=常数

例如,美国城市人口排名*人口数=常数

逻辑

  • 模型1:优先连接模型 preferential attachment model
  • 能够解释城市规模、图书销量、网络连接、企业规模、学术引用数量、音乐下载量
  • 模型假设实体以相对于其比例的速度增长,即马太效应

  • 模型2:自组织临界模型 self-organized criticality model

  • 能够解释交通拥堵、战争伤亡、地震、火灾和雪崩的大小等
  • 沙堆模型(sand pile model):当沙堆到达临界状态时,此后每加一次沙子都可能导致“沙崩”
  • 森林火灾模型(forest fire model):当树木的密度低时,闪电引发的火灾规模很小,变得足够高时,被闪电击中很容易导致火灾

功能

  • 公平
  • 幂律分布增加了不平等
  • 灾难
  • 幂律分布还包括灾难性事件:地震、火灾、金融崩溃和交通拥堵。模型无法预测地震,但我们至少知道会发生什么,尽管不知道什么时候发生。
  • 一个模型要想真正有用,就必须考虑到各种组合。如果没有这些信息,即使知道哪些环节有问题,也不足以预测或防止系统崩溃
  • 波动性
  • 如果组成幂律分布的实体规模出现了波动,那么幂律的指数就可以作为衡量系统层面波动性的一个代表。
  • 尾部越长,最大企业对波动性的影响越大。反之亦然。

在幂律分布中,大事件发生的概率必须加以考虑。幂律分布是由于反馈和相互依赖性产生的,我们应该高度注意这个结果。

3. 线性模型

在线性关系中,前一个变量的变化不依赖于后一个变量的变化。

线性回归可以解释犯罪、洗衣机销量,葡萄酒价格变化等。

结构

\(y = mx + b\)

m: 直线的斜率((y2-y1)/(x2-x1),线向下时,Y为负值)

x: 自变量

b: 截距,即当自变量等于0时的因变量值,先求出斜率,再求b

逻辑

回归所揭示的是变量之间的相关关系,而不是因果关系。

数据挖掘更有助于发现显著相关性,但有可能导致虚假相关关系。我们可以通过创建训练集和检验集来避免报告虚假相关,但即便如此,我们仍然无法保证因果关系。

要证明因果,还需要进行实验来操纵自变量并观察因变量是否会随之发生变化,或想办法找到可以证明这类因果关系的自然实验。

多元线性模型

实力-运气方程:任何成功,都可以视为实力-运气的一个加权线性函数。

\(成功 = a \times 实力 + (1-a) \times 运气\)

a: 位于区间 [0,1] 上的技能相对权重

结构

\(y = b_0 + b_1x_1 + b_2x_2+ ...... + b_kx_k + e\)

b0: 常数项

b1: 回归系数,即当x1,x2,x3....xk固定时,x1每增加一个单位对y的影响量

e: 误差项,即除了自变量以外的其它可能影响因变量的因素,是不可测的

可简化为:\(y = bX + e\),其中 X 为矩阵

建立多元线性模型的准则:

  • 自变量对因变量必须有显著影响,并呈密切的线性相关
  • 自变量与因变量之间的纯属相关必须是真实的,不能是形式上的
  • 自变量之间应具有一定的互斥性,即自变量之间的相关程度不应高于自变量与因变量之间的相关程度
  • 自变量之间应具有完整的统计数据,其预测值容易确定

大系数与新现实

线性回归模型在科学研究、政策分析和战略决策中都发挥着重要作用,部分原因是因为线性回归模型容易估计和解释。

对数据的过度依赖(通常指滥用线性回归模型),可能会导致我们过于倾向边际行动(marginal action),远离重要的新思想。

在采取行动时,最好选择具有较大系数的变量,而不要选择有较小系数的变量。同时,“大系数至上”这个思路建立在“保守主义”的基础上,它会使我们将注意力集中到较小的改进上,而无法再关注全新的政策。

大系数思维相当不错,因为基于证据的行为是明智的,但我们也必须同时关注重要的新思想。当我们遇到重要的新思想时,可以用模型去探究它们是否可行。

在现有数据范围之外推断线性效应时必须非常小心,我们不应该用线性模型对过于久远的未来进行预测。

线性模型只是一个开始,大多数有趣的现象都不是线性的。但它至少提供了一个很好的起点,在给定了数据的情况下,可以使用线性模型来检验我们的直觉判断。

4. 非线性模型

凸函数

凸函数的斜率是递增的:函数值随度量值的增加而增加。


指数增长模型

时间 t, 时间的资源值 \(V_t\), 初始值 \(V_0\),以速率R增长。

公式:\(V_t = V_0(1+R)^t\)

如果应用于金融问题时,这里的变量就是货币。 指数增长应用于金融、经济、人口、生态及技术领域。

72法则:如果一个变量在每个周期内以R(增长率小于15%)的百分比增长,那么:

翻倍所需的周期数 ≈ \(\frac{72}{R}\)


半衰期模型:如果每H周期,剩余数量的一半会衰减,那么在 t 周期后,剩余的比例为:

剩余比例 ≈ \((\frac{1}{2})^\frac{t}{H}\)

半衰期模型应用于考察生物年龄、心理学(人们几乎以固定不变的速度忘记信息)

放射性碳年代测定法: 有机体死亡后,体内的碳-14开始分解,半衰期为5734年,而碳-12的数量不变,可以利用碳-14和碳-12的比例,估计化石或人工制品的”年龄“

凹函数

凹函数的斜率是递减的。具有正斜率的凹函数会呈现收益递减的特点:当我们拥有的东西越来越多时,每个额外东西能带来的价值会越来越少。

几乎所有商品的效用或价值都呈递减趋势。当我们假设了凹性时,也就隐含地假设了对多样性和风险规避的偏好向。


经济增长模型

标准经济生产模型:产出取决于劳动和实物资本,产出是劳动力和资本的凹函数,而且从规模上看是线性的。

柯布-道格拉斯模型(Cobb-Douglass model)- 经济学中使用最广泛的模型之一:

给定L个工人和K个单位资本,a 是介于0到1之间的实数,表示劳动力的相对重要性,总产出如下:

\(产出 = 常数 * L^aK^{1-a}\)

因为a在0-1之间,也可看作:

\(产出=常数 \times \sqrt[\frac{1}{a}]{L} \times \sqrt[\frac{1}{1-a}]{K}\)


索洛增长模型(Solow Growth Model)- 新古典经济学框架内的经济增长模型:

GDP(总收入) \(Y = AK^{1-a}L^a\)

A: 效率

K: 资本

L: 生产人数

人均收入 \(y = A\frac{K^{1-a}}{L^{1-a}} = Ak^{1-a}\)

k: 人均资本

下一时间段的资本 \(K(t+1) = K(t) + I - δK(t)\)

δ: 折旧率

I: 投资

投资 I = sY

s: 储蓄率

新投入的投资等于折旧 \(sy(t) = δk(t)\)

当技术出现一个突破时,技术参数的变化是相当缓慢的。旧的实物资本必须被新技术的新实物资本所取代。只有成规模才会加快变化。

一个实物资本较少的落后国家,有可能通过新的资本投入进入技术前沿 ,从而实现难以置信的高速增长。

多元主义能够阻止精英的俘虏,精英往往更喜欢现状,可能不会接受创新,因为创新往往可能具有很大的破坏性。

这毕竟是一个非线性的世界

一旦包括了非线性,直觉就变得不够用了。我们通常可以用直觉推断出上升和下降的内容,但缺乏对功能关系形式的理解。利用模型,我们可以更好地思考非线性效应。

-


  1. 衡量一个分布的离散程度,即数据与均值之间距离的平方的平均值,如果分布中每个点具有相同的值,方差=0 

  2. 凡有的,还要加给他,叫他有余;凡没有的,连他所有的,也要夺去。(马太福音25:29)