查看原文
其他

独家 | 对Fisher信息量的直观解读

数据派THU 2023-10-04
作者:Sachin Date

翻译:付雯欣

校对:王紫岳‍


本文约4000字,建议阅读10+分钟

它代表着什么?它又为什么是这样计算的?


Fisher信息量提供了一种衡量随机变量所包含的关于其概率分布中的某个参数(如均值)的信息量的方法。

我们将从Fisher信息量的原始定义和计算公式开始。

Fisher信息量的定义和计算公式

给定一个随机变量y ,假设其服从概率分布f(y;θ) ,其中θ是该分布的参数(或参数向量),则Fisher信息量是其对数似然函数l(θ/y)关于参数θ的偏导数的方差。

图:参数θ的Fisher信息量被表示为其对数似然函数l(θ/y)关于参数θ的偏导数的方差(图片来源:作者)

上述公式可能看起来有些吓人,不过不用担心。在本文中,我们首先将深入理解Fisher信息量的概念,然后了解它为什么这样去计算,以及它是如何进行计算的。

让我们从一个例子开始吧。

一个关于泊松过程的例子

让我们从下面这个数据样本开启我们的探索之旅吧。这是一个泊松过程的模拟,它模拟了一家医院急诊室每小时患者到达人数的情况。

图:对医院急诊室到达的病人数量的泊松过程模拟(图片来源:作者)

在这个样本中,随机变量(我们称其为y)表示每小时的患者到达人数。由于y是一个离散随机变量,它肯定遵循某个概率质量函数(PMF)。像这样的整数型事件数据通常可以很好地被泊松分布所表示,如下所示:

图:描述随机变量y的泊松分布的概率质量函数(图片来源:作者)

现在,让我们先后退一步,想想以下两点:

  • 首先,我们不知道(也永远不会知道)随机变量y的真实概率分布是什么。我们只有一个包含着几百个数据的样本。根据数据的性质(在我们的例子中,由于数据是事件发生的次数,它们都是非负的),我们假设y服从泊松分布。

  • 其次,即使我们对y服从泊松分布这一假设是正确的,我们也不知道y的总体的平均速率λ0的真实值。我们最多只能用样本的均值λ来估计λ0。

现在,假设你观察到在某个小时内,有一定数量的患者走进急诊室。比如说,y=20。那么,要是能知道y包含的有关总体的真实平均速率λ0的信息量,对我们来说肯定非常有用。而Fisher信息量就能让我们以数学所擅长的可量化的方式来做到这一点!

在我们理解如何得到随机变量y中包含的Fisher信息量之前,让我们再次看一下泊松概率的公式:

图:描述随机变量y的泊松分布的概率质量函数(图片来源:作者)

注意到它其实是以下两个变量的函数:

  • 观测到的事件发生次数 y;

  • 平均速率 λ。

所以,我们可以对这个等式做一点小小的改变,就像下面这样:

图:由y和λ共同构成的泊松分布的概率质量函数(图片来源:作者)

假设我们开了上帝视角,知道总体的人流量平均速率的真值为λ0=16。令 λ=λ0=16,我们得到了f(y;λ)关于y的图形:

图:泊松分布的概率质量函数图(当λ=16)(图片来源:作者)

这张关于y的概率质量函数图给出了下面这个问题的答案:

在平均速率的真值为16的情况下,单位时间内观察到人流量为0,1,2,3… 事件发生的概率是多少?

没有任何意外, 概率f(y;λ=16)在λ=16处达到峰值。

泊松分布的变量通常是整数值(也就是离散的),但我们将用平滑的曲线来表示它。严格地说,简单地将PMF(离散的概率函数)转换成平滑的概率曲线是非常不正确的,但是将其表示为平滑曲线将有助于我们使用单一参数分布(如泊松分布)来说明Fisher信息量的一些基本概念。下面是上述分布的连续版本:

图:f(y;λ)图像(λ=16)(图片来源:作者)

似然的概念

现在,假设我们只观察y=10的情况。我们将y固定为10,而速率λ则可以在0到∞内变化。

那么,我们不禁要问一个问题:给定不同的速率λ,在某个单位时间的间隔内观察到10次事件的概率是多少?

这个问题背后暗含着似然函数的概念。

下面的图展示了f(y;λ)关于λ变化的情况. 它在形状上和刚刚那张图非常相似,区别在于它们的横纵坐标不同。

在上一张图中,X轴表示随机变量 y的观测值,Y轴表示概率(y是连续变量时则表示其概率密度)。

在下面这张图中,图的X轴则表示参数λ的取值,Y轴则描绘了λ的似然函数,用花体的L表示,也就是L(λ/y),更一般的情况下写作L(λ/θ),θ是y的概率分布中的参数。给定随机变量y的某个观测值时,它被称作θ的似然函数。

图:λ的似然函数图(y=10)(图片来源:作者)

在这个图中,我们可以观察到以下三点(对应图中蓝色方框圈出的地方):

图:似然函数中变化较慢的地方(图片来源:作者)

1.当真实(但未知)的速率λ的值与y的观测值(这里是10)距离很远时,似然函数的变化不大。在图中我们用左下角和右下角的蓝色矩形标记出来(在曲线的右边这一点更明显)。

2.类似地,当真实(但未知)的速率λ的值与y的观测值(这里是10)距离很近时,似然函数的变化不大。这一点可以从图中曲线最高处的扁矩形内看出。

3.对于λ的其他取值,λ的每一个单位的变化,都会导致对应的单位时间内观测到10次事件发生的概率变化很大。


以上三种直觉上的发现都是通过观察关于λ的似然函数L(λ/y)的绝对值的变化率发现的。

似然函数关于θ的变化率

图:L(λ/y)关于λ求偏导的绝对值(图片来源:作者)

我们通过将观测值y固定为一小时内观测到10次事件,构建了上图,图中所表现的是以下值关于平均速率的变化:

:L(λ/y)关于λ求偏导的绝对值(图片来源:作者)

对数似然的概念

一般来说,我们不直接对似然函数求微分,更方便的做法是对似然函数的自然对数求微分,原因如下:

  • 出于对目标函数凸性的需求:通常,我们想要找到参数向量θ,使观察到整个训练数据集的联合概率最大。换句话说,我们想要最大化所有在训练数据集中观察到的yi的似然的积。这种优化技术称为最大似然估计。如果被优化的函数是下凹(上凸)的,那么优化目标是可以达到的,而很多概率分布函数只有在取对数时才满足这一条件。
  • 保留优化目标:x的对数函数关于x是严格递增的,即log(x) 随着x的增加而增加,随着x的减少而减少。因此无论我们对 x有怎样的优化目标,使用log(x) 都可以不用变换目标。

  • 微分上的便利性:一些概率分布函数f(y;θ)包含指数和乘积项,泊松分布和正态分布的概率分布函数就是典型的例子。对这些函数进行微分可能会很复杂,有时甚至几乎不可能做到。对其取自然对数,可以消灭指数部分(即'e'项);同时,对数运算还能将所有的乘法转换为加法,让微分运算变得更容易。


对数似然函数通过小写的花体l表示, 即 l(λ;y),给定随机变量y的某个观测值时,它被称作θ关于y的对数似然函数。

对泊松分布的分布函数取对数,并进行如下简化:

图:泊松分布函数的自然对数(图片来源:作者)

对数似然函数的微分

让我们将y固定为某个观察到的值y,并将 ln(f(λ;y))重写为对数似然函数l(λ/y=y)。接下来,我们对l(λ/y=y)关于λ求偏导数,得到以下函数:

图:对数似然函数关于λ求偏导(图片来源:作者)

绘制该函数在λ非负时的图像:

图:l(λ/y=y)关于λ求偏导的函数图像(只取λ非负的部分)(图片来源:作者)

上述图具有以下特征:

  • 当平均速率的真值λ等于观测值y=10时,对数似然函数的变化率急剧降至零。

  • 当平均速率的真值λ与观测值y=10差异很大时,对数似然函数随着平均速率的真值λ的变化迅速且渐近地稳定在一个常数值(-1)附近。

  • 当平均速率的真值λ取其他值时, λ的变化会导致对数似然函数的急剧变化。

下面让我们来看点有意思的事情:

对数似然函数偏导数的方差

就像y一样,对数似然函数的偏导数同样是一个随机变量,也有均值和方差。

这个函数的方差越小,观测值y与y的概率分布的均值真实值就越可能接近。换句话说,随机变量y所包含的关于真实的y的均值信息就越多;而偏导数l(λ/y=y)关于θ的方差越大,y包含的关于其真实的均值信息就越少。

因此,y包含的关于(假定的)y的分布中的某个参数θ的真实值的信息,与其对数似然函数的偏导数关于θ的方差之间存在反比关系。这种反比关系通过y的分布的Fisher信息量来表示,如下所示: 

图:Fisher信息量(图片来源:作者)


上述方程的右侧可以使用以下计算随机变量X方差的公式来简化:

图:随机变量X的方差计算公式(图片来源:作者)

让我们回想一下,对数似然函数的偏导数本身是一个随机变量,也具有均值,也就是关于y的期望值。因此,我们可以使用上述提到的方差公式,如下所示:

图:Fisher信息量(图片来源:作者)

期望值在计算Fisher信息量中的作用

在上述公式中需要注意的一个重要事项是,右侧的期望值,即E()运算符是关于随机变量y的。它们不是关于y的概率分布的参数θ的期望值。这很合理,因为对数似然函数的偏导数始终是针对随机变量的特定观测值y=y计算的。例如,在泊松分布这个例子中,我们计算的是某个小时内观察到10 个事件(y=10)对应的值。因此,对于随机变量y的每个观测值,对数似然函数的偏导数可能具有不同的值。因此,偏导数的期望值的作用,随意一点地说,是在观测值的整个范围内“平滑”方差。

简化 Fisher 信息量公式的过程

等式 (1) 右边的第一个期望可以通过佚名统计学家公式(Law of the unconscious statistician,简便起见下文称LOTUS) 来简化,过程如下:

  • 如果X 是一个连续随机变量,其概率密度函数为 f(X=x), 

  • 且g(X) 是 X的函数,

  • 则 g(X)的期望,即 E(g(X)) 可以通过下面这个公式计算出来:

图:The Law of the Unconscious Statistician (LOTUS) (图片来源:作者)

我们可以像下面这样使用LOTUS来计算等式 (1)右边的第一个期望:

图:简化Fisher信息量公式(图片来源:作者)

类似地,我们也可以使用LOTUS来计算等式(1)右边的第二个期望:

图:简化Fisher信息量公式(图片来源:作者)

在上述公式中,右侧的积分可以进一步简化,注意到对数似然函数l(θ/y=y)实际上是随机变量y的概率分布函数f(θ;y)的自然对数,并且它是两个变量y和θ的函数。因此,它关于θ的偏导数可以表示成如下的形式:

(图片来源:作者)

我们把这个结果代入到方程(1b)右侧的积分中。另外,由于右侧的积分是关于y的,可以将对θ的偏导数从这个积分中取出,如下所示:

图:简化Fisher信息量公式中的(1b) (图片来源:作者)

在上述简化中,我们利用了这一点:由于是f(.)所假定的y的概率分布, f(y=y)从-∞到 -∞的积分对于1,而对常数值1的偏导数为零。因此,等式(1b)化简得到零。

现在,让我们回顾一下Fisher信息的方程,如等式(1)所示:

图:Fisher信息量的计算公式(图片来源:作者)

等式 (1) 包含了等式 (1a):

(图片来源:作者)

和被我们计算证明为0的1b。

因此,我们得到以下结果:

对于一个被假定服从概率分布f(y;θ)的随机变量y,可以使用以下公式计算该分布的Fisher信息量:

图:Fisher信息量的计算公式(图片来源:作者)

参考文献:

Fisher R. A., (1922) On the mathematical foundations of theoretical statistics, Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or Physical Character. 222309–368. http://doi.org/10.1098/rsta.1922.0009

图片来源:

本文中的所有图像均受Sachin Date 版权保护,CC-BY-NC-SA,除非图像下方提到了不同的来源和版权。

原文标题:

An Intuitive Look At Fisher Information

原文链接:

https://towardsdatascience.com/an-intuitive-look-at-fisher-information-2720c40867d8


编辑:黄继彦校对:杨学俊



译者简介





付雯欣,中国人民大学统计学专业硕士研究生在读,数据科学道路上的探索者一枚。小时候梦想做数学家,现在依旧着迷于数据背后的世界。热爱阅读,热爱遛弯儿,不停感受打开生命大门的瞬间。欢迎大家和我一起用概率的视角看世界~

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。


点击文末“阅读原文”加入数据派团队~



转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。



点击“阅读原文”拥抱组织



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存