Life sucks, but you're gonna love it.

0%

Estimation and Detection | Properties of estimators

Intro

这部分主要讲的是对于已知分布的随机变量的分布参数的估计,这里对参数的估计可以具备三种不同的性质:分别置无偏,有效,一致。这些性质可以帮我们更好的对参数进行估计。另外,在我们发现有多个

Properties of estimators

在现实生活中,我们想到得知一个整体的某个特征 $k$,也就是 $k$ 值的大小。但有时候由于整体太过庞大,我们无法对整体中的每一个个体的该特征 $k$ 都进行统计计算,这时候我们只能抽样整体中的一小部分的个体,由他们组成我们要估计的样本空间。那对于这些小部分个体的 $k$ 我们需要构建估计量,来估计 $k$ 的值。

这时候,对于估计量来说,有三个特征:无偏,有效,一致

Unbiased (无偏)

假设现在我们的样本空间${X_1, X_2,…,X_N}$ ,无偏估计是指当我们在对样本的 $\theta$ 特征进行估计的时候,估计量 $T{(\theta)}$ 的期望等于 $\theta$, 即 $E{T(\theta)} = \theta$. 若该估计量是有偏估计,那么 $E{T(\theta)} = g(\theta)$,即估计量的期望是关于被估计参数的方程,如果这个方程是线性的,那么这个估计量是可以从有偏变到无偏的。

Consistency(一致)

对于一致估计量,我们希望在我们增大样本数据的时候,估计量的方差会趋近于0.

假设现在我们的样本${X_1, X_2,…,X_N}$ 作为估计样本$\theta$ 的估计量 为 $T{X_1, X_2,…,X_N}$ ,若样本量增大 N值变大,$Var{T{X_1, X_2,…,X_N}}$ 趋近于0,那么我们称这个估计量是一致的。

Efficient (有效)

Finsher-Neyman Factorization theorem

上式表示,当且仅当$T(\underline{X})$ 是充分统计量的时候,样本空间的联合概率 $p(\underline{X}|\theta)$ 可以表示为分离的两部分的乘积。

MVUE & Sufficient Statistics

为什么需要MVUE呢,因为在我们对 ${X_1, X_2,…,X_N}$ 分布的参数进行估计的时候,可能 $\theta$ 的估计量有很多都是无偏估计(unbiased)。如何在这么多的无偏估计中选一个最好的呢,我们选择那个variance比较小的。

引入MVUE的时候,我们需要先说明一个概念:sufficient statistics

Sufficient Statistics

  • 假设样本空间 ${X_1, X_2,…,X_N}$ ,IID (independent and identical distribution)
  • 服从分布 $p_i(X_i|\theta)$

这时,如果联合分布 $P(X_1,…X_N|T{X_1, X_2,…,X_N},\theta)$中的估计量是不含 $\theta$ 变量的,那么估计量 $T{X_1, X_2,…,X_N}$ 就是充分统计量(sufficient statistics)。其实也就是说我们可以用 $T{X_1, X_2,…,X_N}$ 来估计样本 ${X_1, X_2,…,X_N}$ 的分布而不需要用到样本分布的参数 $\theta$ 的时候,我们就说此时 $T{X_1, X_2,…,X_N}$ 是充分统计量。

我们在计算充分统计量的时候可以通过计算 ${X_1, X_2,…,X_N}$ 这些变量的联合概率,然后提取和 $\theta$ 不相关的部分提取出来,就是充分统计量。提取的方法我们称作 Fishser-Neyman factorization theorem.

举个例子

假设 $x1, x_2, …,x_n$ 服从伯努利分布,即: $\begin{align}x_i = \begin{cases} 1 &{w.p. \theta}\0 & w.p. (1-\theta)\end{cases}\end{align}$ 表示$x_i$ 在伯努利分布下,取 1 的概率是 $\theta$ 取 0 的概率是 $1- \theta$. 这样的话,联合分布 $p({\bf x}|\theta) = \prod\limits{i = 1}^{n}\theta^{xi}(1 - \theta)^{1 - x_i} = \theta^{\sum\limits{i = 1}^{n}xi}(1 - \theta)^{n - \sum\limits{i = 1}^{n}x_i}$

这样可以得到,$\theta$ 的充分统计量是 $T(x1,x_2,…,x_n) = \sum\limits{i = 1}^{n}x_i$. 这样的话,充分统计量就是独立于参数$\theta$ 外的量了,也就是说$p({\bf x}|\theta) = \theta^{T}(1 - \theta)^{n - T}$

既然得知了 $\theta$ 的充分统计量 $T(x1,x_2,…,x_n) = \sum\limits{i = 1}^{n}x_i$, 我们可以首先来看一下 $T$ 的取值范围:$0\leq T\leq n$, 那么关于 $T(x_1,x_2,…,x_n) $ 就有 $n$ 个不同的取值,$T(x_1, x_2, …,x_n)$ 的分布 就为 $P(T(x_1, x_2, …,x_n) = k | \theta) = {\tbinom{k}{n}\theta^k(1 - \theta)^{n-k}}$,$P(x_1, …,x_n,T(x_1, x_2, …,x_n) = k |\theta) = {\theta^k(1 - \theta)^{n-k}}$ 这样的话:$P(x_1,…x_n|T(x_1, x_2, …,x_n) = k , \theta) = \frac{\theta^k(1 - \theta)^{n-k}}{\tbinom{k}{n}\theta^k(1 - \theta)^{n-k}} = \frac{1}{\tbinom{k}{n}}$.

这说明 ,在已知充分统计量的时候, 联合分布是和参数 $\theta$ 无关的。同时充分统计量也减少了在数据中和 参数 $\theta$ 相关的部分。

Rao-Backwell theorem

  • 令 $g(x_1, x_2, …x_n)$ 为参数 $\theta$ 的一个无偏估计量,那么 $E{g({\bf x})} |T({\bf x})}$则是参数 $\theta$ 的MVUE,也就是说 $E{\hat g} = E{E{g({\bf x})} |T({\bf x})} = \theta$, 且 $VAR{\hat g({\bf x})} \leq VAR{g({\bf x})}$

How to find the MVUE

  • 找到参数的 $T$, 充分统计量
  • 找到任意一个参数的 无偏估计量 $g({\bf x})$
  • 计算 MVUE 为 $\hat g({\bf x}) = E{ g({\bf x}) | T({\bf x })}$