ShihanRan's Blog Life is like a Markov Chain.

All of Statistics


This is my course note taken in Chinese.

Chap 7 - Introduction to Statistical Inference

Population

  • 未知

Sample

  • 已知、随机、iid

Parametric Models

  • 我们假定总体符合一个分布$F(\cdot ; \theta)$,这个分布是我们熟悉的分布(比如:norm),而我们不知道的是分布的参数$\theta$。
  • 在参数模型中,我们倾向于去估计这个$\theta$,一旦这个参数被确定下来,我们就知道了该分布的所有信息。

Statistic

  • 对于随机的样本定义的一个已知的函数
  • 已知意味着,函数表达式中不能出现未知的$\theta,\mu$等,而只能出现已知的$X_i$

Fundamental concepts in statistical inference

Point Estimation

  • 评价estimator的指标:

    • $\mid \hat \theta-\theta\mid$

    • Mean Square Error

    • The Standard Error an estimator for the standard deviation ${Var(\hat \theta)}^{1/2}$

    • Consistency

  • estimator的渐近正态性

Confidence Sets

  • 目的:表示估计的不确定性

  • Confidence Interval

    • 含义:盖住真值的概率(注意主动被动)

    • Confidence level: $1-\alpha$

    • 渐近正态的estimator成立置信区间

    • 在这一章中讲的置信区间都还比较简单,只是利用CLT去构造一个正态的。

Hypothesis testing

  • 问题:是否能够有足够的证据拒绝零假设

Nonparametric models and Empirical distribution functions

Nonparametric model

  • 并不假定F为何种分布,而是直接对于F进行估计和检验

Empirical Distribution Functions

  • $I(X_i \le x)$是属于Bernoulli分布的一个随机变量,$p=F(x)$

Exercise 5

构造estimator并求其相关性质

  • 先按照该统计量在分布中的定义和性质写出他的原表达式(e.g. Bernoulli的方差是p(1-p),均值是p)
  • 这里可能会用到均值和方差的那些计算公式(e.g. $Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)$)
  • 然后利用plug in

经验分布

  • 天生就适合与Bernoulli相结合,因为$I(X_i \le x)$定义上就是个Bernoulli的分布
  • ==分清楚Bernoulli和Binomial==

Chap 9 - Point Estimation

  • 目的:估计参数模型中的参数

Methods of Moments Estimation

  • k阶矩(Moment)

  • k阶样本矩

  • MM estimator $\hat \theta$

  • 需要记住的两点

  • $\hat \sigma^2$的有偏性和$S^2=\frac{1}{n-1} \sum_{i=1}^n(X_i - \bar X)^2$的无偏性

Maximum Likelihood Estimation

Likelihood

  • 区分:likelihood function L 和 density function f

    • 一个是参数$\theta$的函数,一个是样本x的函数
  • 定义

Maximum Likelihood Estimation

  • 注意“截断性”的那种条件,比如要求$y\ge \theta$的话那么就要在Likelihhod的表达式中加上$I_{{(\theta,\infty)}}Y_{min}$
  • Invariance property of MLEs:当出现1-1的映射$\phi=g(\theta)$的时候,则$\phi$的MLE为$\hat \phi=g(\hat \theta)$

Numerical computation of MLEs

  • 目的:用迭代的方法去找到MLE

Newton-Raphson Scheme/Newton Method

  • 如果只有一个参数$\theta$,那就是求二阶导,如果有多个参数的话就是求Hessian矩阵
  • 初始值的确定是很重要的

The Fisher Scoring method

Differences between NM and FSM

  • NM收敛更快
  • 初始值对于FSM的影响更小
  • 用法:一般都是先随便初始化一个初始值,用FS去找一个收敛值,然后把这个收敛值当成初始值去用NM。

Evaluating Estimation

  • Note:SE只对无偏估计量有意义

Fisher Information

  • If $X=(X_1,\cdots,X_n)$ and X iid

  • 如果只有一个参数,即$\theta$是标量

Cramer-Rao Inequality

  • 一个统计量(也即样本X的映射)$T=T(X)$,$g(\theta)=E(T)$,对于任意的$\theta$

  • 当无偏时,$T=T(X), g(\theta)=E(T)=\theta,g’(\theta)=1$

  • 这代表了无偏估计量T的精度,为其求得了一个最小值$1/I(\theta)$。此时,T为Minimum Variance Unbiased Estimator(MVUE)

  • 对于有多个参数的时候,$Var(T)-I(\theta)^{-1}$为半正定矩阵。

Asymptotic Properties of MLEs

  • Consistency

  • Asymptotic normality

Exercise 6

求MLE及其性质

  • 用分布的f去求likelihood function,然后取log连乘变加和,求导=0得到MLE。
  • 求MLE的时候与之前一样,注意$0\le y \le \theta$截断的情况。以及有时候常数项可以不写出来。
  • 得到MLE后再针对MLE去求一些相关性质比如bias,var,se甚至是分布$F(X)=P(\theta\le X)$等等。
  • 分布的话,先求CDF再通过求导求pdf。

Information

  • $I(\theta)=I_X(\theta)=\sum_{i=1}^nI_{X_i}(\theta)=nI_{X_1}​$,不要漏掉n啊。
  • ==求E的时候的积分太太太难求了!还有就是各种公式不要记混,参数是一维还是二维都要分清楚,求的是导数还是梯度,二阶导数还是Hessian都要分清==

Chap 10 - Hypothesis Testing (I)

General setting of hypothesis test

  • Notice: Not reject $\not =$ Accept
  • Reject $H_0$ if $p-value\le \alpha$
  • 更极端的情况是相对于$H_1$而言的

Two types of errors

  $H_0$为真 $H_1$为真
拒绝$H_0$ Type I error $\le \alpha$ $\beta(\theta)$
不拒绝$H_0$   Type II error=$1-\beta(\theta)$

The Wald test

  • 前提:估计量满足渐近正态$(\hat \theta- \theta)/SE(\hat \theta)\rightarrow N(0,1)$

  • 检验量:$(\hat \theta- \theta_0)/SE(\hat \theta)$

  • 拒绝条件(注意单边双边

$\chi^2$ Distribution

Confidence Interval for $\sigma^2$

  • 前提:$X\sim N(\mu,\sigma^2)$
  • 检验量:$\sum_{i=1}^n (X_i-\bar X)^2/\sigma^2 \sim \chi^2_{n-1}$

t Distribution

An important property of normal samples

  • 前提:$X \sim N(\mu,\sigma^2)$

  • 已知:$\bar X=\frac{1}{n}\sum_{i=1}^nX_i,S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2,SE(\bar X)=\frac{S}{\sqrt{n}}$

  • 结论:==证明==

    • $\bar X \sim N(\mu,\sigma^2/n),(n-1)S^2/\sigma^2 \sim \chi^2_{n-1}$

    • $\bar X$和$S^2$独立

Accurate confidence interval for mean

看《概率论》书籍的补充【表格总结】

  • t-test (one sample)
  • Tests for normal means(two sample)
    • pairwise comparison - one sample t-test
    • two sample t-test
    • the wald test (也可以针对多个sample适用)

==Most Powerful Tests and Neyman-Pearson Lemma==

Exercise 7

纯构造置信区间

  • 分清楚$\sigma$已知未知,用正态还是用t
  • $\chi$的自由度是多少
  • 一个新的统计量构造置信区间的话要先求MLE

Chap 11 - Hypothesis Testing (II)

Likelihood Ratio Tests

  • 适用:当$H_0$和$H_1$都为复杂域的时候

  • 检验量: $\hat \theta$是全局上的MLE,而$\tilde \theta$是$H_0$成立时的MLE。

  • 拒绝条件:$2\log (LR) > \chi^2_k(\alpha)$

Asymptotic Distribution of Likelihood ratio test statistic

$\varphi$是我们关注的参数,而$\lambda$是我们不感兴趣(却同样未知)的参数。$k=d-d_0$,d是$\Theta$的维度,$d_0$是$\Theta_0$的维度。

The permutation test

  • 目的:测验两个分布是否一样。

  • 前提:无前提假设,在处理小样本的时候非常有优势。

  • 核心思想:将两个样本“合”在一起看分布。

  • 检验量: 对于$A_{m+n}=(m+n)!$种排列都计算T,得到$T_1,\cdots,T_{(m+n)!}$

  • 拒绝条件:

$\chi^2$ test

Goodness of fit test

  • 目的:检验样本是否服从某一给定的分布(分布已知,但参数未知)。

  • 形式:列表(frequency在这里是频数而不是频率。

  • 步骤:首先估计参数(利用MLE),然后计算期望频数$E_i=np_i(\hat \theta)$

  • 统计量:$T=\sum_{j=1}^k (Z_j-E_j)^2/E_j \sim \chi_{k-1-d}^2$

    d为$\theta$的维数。

  • 拒绝条件:$T>\alpha$

Test for independence of two discrete random variables

  • 回顾:独立性的条件为$p_{ij}=p_i p_j$

  • 步骤:在$H_0$成立的条件下,$\tilde p_{ij}=\hat p_i \hat p_j = \frac{Z_i}{n} \frac{Z_j}{n}$,由此可以计算出期望频数$E_{ij}=n\tilde p_{ij}={Z_i} \frac{Z_j}{n}$

  • 统计量:$T=\sum_{i=1}^r\sum_{j=1}^c (Z_{ij}-E_{ij})^2/E_{ij}\sim \chi^2_{p-d}$

    p为rc-1,d为r+c-2,所以$p-d=(r-1)(c-1)$

  • 拒绝条件:$T>\alpha$

==Test for several binomial distributions==

Test for rxc tables - a general description

Exercise 8


Comments

Content