模型思维 1-4¶

1. 正态分布 normal distribution¶

形状：钟形曲线

大多数特种的高度和重量都满足正态分布，它们围绕着均值对称分布。

我们可以通过中心极限定理（Central Limit Theorem）来解释正态分布的普遍性：只要把随机变量加总或求其平均值，就可以期望获得正态分布。

结构¶

分布给事件或价值分配概率：每个事件的分布给每个可能的结果值分配一个概率。

均值 = (最小值+最大值)/2

方差¹= \(σ^2 = \frac{∑(每个值-所有值的平均数)^2}{数量}\)

样本方差(如果总数是样本数据) = \(σ^2 = \frac{∑(每个值-所有值的平均数)^2}{样本数量-1}\)

标准差 = \(σ = \sqrt{方差}\)

68%的数值在离平均值1个标准差内，95%的数值在离平均值2个标准差内，99.7%的数值在离平均值3个标准差内。利用这个规律可以画出具体的分布图。

举例：学校里95%的学生身高在1.1到1.7之间，求分布图。
平均值 = (1.1+1.7)/2 = 1.4
1个标准差 = (1.7-1.1)/4 = 0.15m（95%是平均两边2个标准差的距离）
通过 1.4 ± 0.15 得到分布图，结果 1.1, 1.25, 1.4, 1.55, 1.7

逻辑：中心极限定理¶

定义：只要各随机变量是相互独立的，每个随机变量的方差都是有限的，且没有任何一小部分随机变量贡献了大部分方差，那N ≥ 20 个随机变量的和就近似一个正态分布。

功能：应用分布知识¶

样本量影响均值和标准差。在小的群体中应该会观察到更多的好事和更多的坏事。

如果不考虑样本量，直接根据离群值（异常值）推断因果关系可能会导致相当糟糕的政策行为。

检验显著性：我们可以利用正态分布的规律来检验各种平均值的显著性差异。如果经验均值和假设均值之间的偏差超过了2个标准差(5%的显著性，是社会科学家的一个使用惯例)，社会科学家就会拒绝这两种均值相同的假设。

六西格玛(6σ)方法：

摩托罗拉公司的比尔·史密斯提出，属于品控管理方法，核心是追求零缺陷生产，防范产品责任风险，降低成本，提高生产率和市场占有率，提高顾客满意度和忠诚度。
六西格码的中心思想是,如果你能“测量”一个过程有多少个缺陷,你便能有系统地分析出,怎样消除它们和尽可能地接近“零缺陷”。
DPMO（百万次采样数的缺陷率） = （总缺陷数/机会） * 一百万分之一百万，如果DPMO是百万分之三点四，即达到99.99966%的合格率，可称为六西格玛

对数正态分布¶

如果随机变量是不可相加而是以某种方式相互作用的，或者如果它们不是相互独立的，那么产生的分布就不一定是正态分布。

对数正态分布的可预测性较差，意味着更大的事件和更多非常小的事件。作为预测规则，我们当然更倾向于规律性，而不是发生很大事件的可能性。我们可能更希望随机冲击相加，而不是相乘，以减少发生很大事件的可能性。

对数：多少个既定的数相乘会等于另一个数，对数可以是小数。

多少个 2 相乘等于 8？
3: 8 以 2 为底的对数是 3

\(log_2(8) = 3\)

指数：指多少个数和自己相乘

多少个 2 相乘等于 8？
3: 2 的指数是 3

常用对数：底为10，一般不写 log(100)

自然对数：底为 e 欧拉数，大约值为 2.71828 \(log_e(7.389)\)

2. 幂律分布 power law¶

每个基本定律都有例外，但你仍然需要定律，否则你所拥有的只是毫无意义的观察。那不是科学，只是做笔记。 Geoffrey West

在统计学中，幂律是两个量之间的函数关系，其中一个量的相对变化会导致另一个量的相应幂次比例的变化，且与初值无关。（和正态分布的区别是，正态分布的因素相互独立）

幂律分布就是通常说的长尾分布或重尾分布。例如城市人口分布、物种灭绝、互联网上的链接数量、企业规模等。

产生幂律分布要求非独立性，通常以正反馈的形式出现。社会学家Robert Merton把这种现象称为马太效应²。

没有一个机制可以解释所有的幂律分布。但长尾分布的拉长会增加不平等，灾难的可能性变得更大，波动性也会变得更剧烈。

结构¶

幂律分布中，事件发生的概率与事件大小的某个负指数成比例。k表示指数，指数的大小决定了大事件的可能性和大小。

\(f(c x) = a(c x)^{-k} = c^{-k} f(x) \propto f(x)\)

幂律分布有明确的定义，不是每一个长尾分布都是幂律分布，要想快速地检验某个公布是不是幂律分布，可以用双对数坐标系把分布画出来：双对数坐标系可以将事件大小及其概率转换为相应的对数值，并将幂律分布转换为直线。也就是说，在双对数坐标系中，自始至终都呈直线的图形就是幂律分布的证据，而一开始是直线然后逐渐下降的是对数正态分布或指数分布。对数正态分布向下弯曲的速率取决于产生分布的变量的变化。

齐普夫定律 Zipf’s Law

对于指数为2的幂律分布（k=2)，事件的等级*事件大小=常数

例如，美国城市人口排名*人口数=常数

逻辑¶

模型1：优先连接模型 preferential attachment model
能够解释城市规模、图书销量、网络连接、企业规模、学术引用数量、音乐下载量
模型假设实体以相对于其比例的速度增长，即马太效应
模型2：自组织临界模型 self-organized criticality model
能够解释交通拥堵、战争伤亡、地震、火灾和雪崩的大小等
沙堆模型（sand pile model)：当沙堆到达临界状态时，此后每加一次沙子都可能导致“沙崩”
森林火灾模型（forest fire model)：当树木的密度低时，闪电引发的火灾规模很小，变得足够高时，被闪电击中很容易导致火灾

功能¶

公平
幂律分布增加了不平等
灾难
幂律分布还包括灾难性事件：地震、火灾、金融崩溃和交通拥堵。模型无法预测地震，但我们至少知道会发生什么，尽管不知道什么时候发生。
一个模型要想真正有用，就必须考虑到各种组合。如果没有这些信息，即使知道哪些环节有问题，也不足以预测或防止系统崩溃
波动性
如果组成幂律分布的实体规模出现了波动，那么幂律的指数就可以作为衡量系统层面波动性的一个代表。
尾部越长，最大企业对波动性的影响越大。反之亦然。

在幂律分布中，大事件发生的概率必须加以考虑。幂律分布是由于反馈和相互依赖性产生的，我们应该高度注意这个结果。

3. 线性模型¶

在线性关系中，前一个变量的变化不依赖于后一个变量的变化。

线性回归可以解释犯罪、洗衣机销量，葡萄酒价格变化等。

结构¶

\(y = mx + b\)

m: 直线的斜率（(y2-y1)/(x2-x1)，线向下时，Y为负值）

x: 自变量

b: 截距，即当自变量等于0时的因变量值，先求出斜率，再求b

逻辑¶

回归所揭示的是变量之间的相关关系，而不是因果关系。

数据挖掘更有助于发现显著相关性，但有可能导致虚假相关关系。我们可以通过创建训练集和检验集来避免报告虚假相关，但即便如此，我们仍然无法保证因果关系。

要证明因果，还需要进行实验来操纵自变量并观察因变量是否会随之发生变化，或想办法找到可以证明这类因果关系的自然实验。

多元线性模型¶

实力-运气方程：任何成功，都可以视为实力-运气的一个加权线性函数。

\(成功 = a \times 实力 + (1-a) \times 运气\)

a: 位于区间 [0,1] 上的技能相对权重

结构¶

\(y = b_0 + b_1x_1 + b_2x_2+ ...... + b_kx_k + e\)

b0: 常数项

b1: 回归系数，即当x1,x2,x3....xk固定时，x1每增加一个单位对y的影响量

e: 误差项，即除了自变量以外的其它可能影响因变量的因素，是不可测的

可简化为：\(y = bX + e\)，其中 X 为矩阵

建立多元线性模型的准则：

自变量对因变量必须有显著影响，并呈密切的线性相关
自变量与因变量之间的纯属相关必须是真实的，不能是形式上的
自变量之间应具有一定的互斥性，即自变量之间的相关程度不应高于自变量与因变量之间的相关程度
自变量之间应具有完整的统计数据，其预测值容易确定

大系数与新现实¶

线性回归模型在科学研究、政策分析和战略决策中都发挥着重要作用，部分原因是因为线性回归模型容易估计和解释。

对数据的过度依赖（通常指滥用线性回归模型），可能会导致我们过于倾向边际行动（marginal action)，远离重要的新思想。

在采取行动时，最好选择具有较大系数的变量，而不要选择有较小系数的变量。同时，“大系数至上”这个思路建立在“保守主义”的基础上，它会使我们将注意力集中到较小的改进上，而无法再关注全新的政策。

大系数思维相当不错，因为基于证据的行为是明智的，但我们也必须同时关注重要的新思想。当我们遇到重要的新思想时，可以用模型去探究它们是否可行。

在现有数据范围之外推断线性效应时必须非常小心，我们不应该用线性模型对过于久远的未来进行预测。

线性模型只是一个开始，大多数有趣的现象都不是线性的。但它至少提供了一个很好的起点，在给定了数据的情况下，可以使用线性模型来检验我们的直觉判断。

4. 非线性模型¶

凸函数¶

凸函数的斜率是递增的：函数值随度量值的增加而增加。

指数增长模型

时间 t, 时间的资源值 \(V_t\)，初始值 \(V_0\)，以速率R增长。

公式：\(V_t = V_0(1+R)^t\)

如果应用于金融问题时，这里的变量就是货币。 指数增长应用于金融、经济、人口、生态及技术领域。

72法则：如果一个变量在每个周期内以R（增长率小于15%）的百分比增长，那么：

翻倍所需的周期数 ≈ \(\frac{72}{R}\)

半衰期模型：如果每H周期，剩余数量的一半会衰减，那么在 t 周期后，剩余的比例为：

剩余比例 ≈ \((\frac{1}{2})^\frac{t}{H}\)

半衰期模型应用于考察生物年龄、心理学（人们几乎以固定不变的速度忘记信息）

放射性碳年代测定法：有机体死亡后，体内的碳-14开始分解，半衰期为5734年，而碳-12的数量不变，可以利用碳-14和碳-12的比例，估计化石或人工制品的”年龄“

凹函数¶

凹函数的斜率是递减的。具有正斜率的凹函数会呈现收益递减的特点：当我们拥有的东西越来越多时，每个额外东西能带来的价值会越来越少。

几乎所有商品的效用或价值都呈递减趋势。当我们假设了凹性时，也就隐含地假设了对多样性和风险规避的偏好向。

经济增长模型

标准经济生产模型：产出取决于劳动和实物资本，产出是劳动力和资本的凹函数，而且从规模上看是线性的。

柯布-道格拉斯模型（Cobb-Douglass model）- 经济学中使用最广泛的模型之一：

给定L个工人和K个单位资本，a 是介于0到1之间的实数，表示劳动力的相对重要性，总产出如下：

\(产出 = 常数 * L^aK^{1-a}\)

因为a在0-1之间，也可看作：

\(产出=常数 \times \sqrt[\frac{1}{a}]{L} \times \sqrt[\frac{1}{1-a}]{K}\)

索洛增长模型（Solow Growth Model）- 新古典经济学框架内的经济增长模型：

GDP（总收入） \(Y = AK^{1-a}L^a\)

A: 效率

K: 资本

L: 生产人数

人均收入 \(y = A\frac{K^{1-a}}{L^{1-a}} = Ak^{1-a}\)

k: 人均资本

下一时间段的资本 \(K(t+1) = K(t) + I - δK(t)\)

δ: 折旧率

I: 投资

投资 I = sY

s: 储蓄率

新投入的投资等于折旧 \(sy(t) = δk(t)\)

当技术出现一个突破时，技术参数的变化是相当缓慢的。旧的实物资本必须被新技术的新实物资本所取代。只有成规模才会加快变化。

一个实物资本较少的落后国家，有可能通过新的资本投入进入技术前沿，从而实现难以置信的高速增长。

多元主义能够阻止精英的俘虏，精英往往更喜欢现状，可能不会接受创新，因为创新往往可能具有很大的破坏性。

这毕竟是一个非线性的世界¶

一旦包括了非线性，直觉就变得不够用了。我们通常可以用直觉推断出上升和下降的内容，但缺乏对功能关系形式的理解。利用模型，我们可以更好地思考非线性效应。

-

衡量一个分布的离散程度，即数据与均值之间距离的平方的平均值，如果分布中每个点具有相同的值，方差=0 ↩
凡有的，还要加给他，叫他有余；凡没有的，连他所有的，也要夺去。（马太福音25:29) ↩