很久之前的概率论数理统计笔记,如今为了复习而放上来。也许会有大量错漏(就像我的其他blog一样),但我也懒得逐一校对纠正了。
Part 1 概率论
随机事件和概率
随机事件才有概率
基本概念
基本事件、样本点
事件的关系(包含、互斥、相容、对立、相等、独立)
事件的运算(和、积、差)
A−B=AB
概率的统计定义和公理化定义
统计定义:从频率出发,实验次数越多,频率越接近概率
公理化定义:设E是一次随机试验,那么对E的所有事件赋予一个实数,满足
- 非负性
- 归一性
- 可列可加性
那么P(A)为概率
概率运算的性质
对立事件和概率为1
包含关系蕴含着概率大小关系
概率加法公式:P(A+B)=P(A)+P(B)−P(A∩B)
可列个事件的加法公式
概率减法公式:P(A−B)=P(A)−P(A∩B)
条件概率:P(B∣A)=P(A)P(AB),在A发生的条件下,B发生的概率
完备事件组,样本空间的划分
条件概率运算的性质:参考前面概率的性质,只是后面多加一个条件
条件概率相关公式
乘法公式:P(AB)=P(A)P(B∣A)
乘法公式意味着两个事件同时发生,与分别先后发成(如果对顺序没有要求)是等价的
全概率公式:P(A)=∑P(A∣Bi),B1,B2,…,Bn是一个划分
全概率公式意味着一个事件有多种不同原因
也可以将事件的划分类比线性空间的一个正交基,全概率公式便是把一个事件的概率表示成多个事件的线性组合。
Bayes公式:P(Bi∣A)=P(A)P(Bi)P(A∣Bi),当时左边是后验概率,P(Bk)为先验概率
贝叶斯公式意味着一种从结果反推原因,获知已知一个结果已经发生,“更新”原因发生的概率。考虑酒桌上的摇色子游戏。考虑检测中的假阳性和假阴性(涉及到后面的假设检验)
随机事件的独立性:P(AB)=P(A)P(B)
两事件独立,则他们的对立事件也独立
n重Bernoulli实验
例题
- 拿枪问题(装信封问题)〔条件概率,减法公式(容斥原理)〕
- 摸奖问题(抓阄问题)〔摸奖与顺序无关〕
- 集合概型:等车问题〔画图解决〕
Pitfalls and Fallacies
- A−B=AB
- 独立不等于对立
- 互斥不等于对立
- 两个事件同时发生,等价于依次发生且不考虑它们的顺序
- 摸奖和顺序无关
随机变量和概率分布
基本概念
随机变量:f:Ω→R,一个随机事件对应一个实数,那么这个实数便是随机变量
这意味着随机变量是一个数,f是一种特殊的映射。对于一个数,研究它的性质就比较容易了。
随机变量的分类
- 离散型
- 其他(包含连续型,也包含各种缝合怪,主要研究连续型)
对于离散性,研究分布律
对于连续型,研究概率密度函数
两者都可以统一为分布函数
分布律
分布函数:F(x)=P{X≤x},二维联合分布:F(x,y)=P{X≤x,Y≤y}
对于离散性,F(x)有很多间断点,间断点的跃度表示概率
对于连续型,F(x)可导,导函数为分布函数
分布函数的性质
- 非负
- 右连续(典型区间决定的)
- 递增
- 归一
概率密度函数的性质
边缘分布:消灭掉一个维度的随机性(在实数上积分)
条件分布
P{X=xi∣Y=yi}=P{Y=yi}P{X=xi,Y=yi}=p⋅jpij
ϵ→0limP{X≤x∣y−ϵ<Y≤y+ϵ}=FX∣Y(x∣y)
可证
fX∣Y=fY(y)f(x,y)
〔不考,但是有趣〕
随机变量的独立:F(x,y)=FX(x)FY(y),f(x,y)=fX(x)fY(y)
n维随机变量相互独立,定理与二维雷同。不过两两独立不意味着相互独立。
常见分布
一维
两点分布
二项分布:X∼B(n,p)
Poisson分布:P{X=k}=k!λke−λ
e−λ为归一化因子,有了它才能归一
X∼π(λ)
[泊松定理]泊松分布和二项分布的关系
若npn→λ,且n→∞,那么有n→∞limCnkpnkqnn−k=k!λke−λ
具体实际操作中,n≥10,且p≤0.1,那么可以用泊松分布计算二项分布
[实际背景]相同间隔内到达的乘客批数,电话总机某段事件内接收到的呼叫次数。(大概就是与连续时间挂钩的“二项分布”,因为每个时刻发生的「概率」相同)
- 几何分布:P{X=n}=pn
[实际背景]过红绿灯,在第几个红绿灯前停下。
均匀分布:X∼U(a,b)
指数分布:X∼e(θ),f(x)={θ1e−θx0x≥0
[实际背景]寿命
- 正态分布:X∼N(μ,σ2)
[实际背景]最广泛的分布,比如测量误差
表达式要记:
f(x)=2πσ1e−2σ2(x−μ)2
图形要记,归一化的证明方法要记(积分前先平方,然后化成二元函数)
[归一化]σX−μ
二维
均匀
正态:X∼N(μ1,μ2,σ12,σ22,ρ),其中ρ为相关系数。两个维度独立/不相关时,ρ=0.
表达式:如果X∼N(0,0,1,1,ρ)
f(x,y)=2π1−ρ21e−1−ρ21[x2+y2−2ρxy]
验证归一,请配方
随机变量函数的概率
谁是谁的谁 找支撑
离散型:分布律重写
连续型
图像法
公式法(要求h(x)为g(y)的反函数
fY(y)={fX(h(y)∣h′(y)∣0α<y<β
- 分布函数法
二维
如何推导?紧扣定义,找支撑。最后积分、利用独立性化简
- Z=X+Y:卷积公式
FZ(z)=∬x+y≤zf(x,y)dxdy=∫−∞+∞dy∫−∞z−yf(x,y)dx=∫R∫−∞zf(u−y,y)dudy
类似可得概率密度函数的公式。如果X、Y相互独立,最后可以推得卷积公式
fX∗fY=∫RfX(x)fY(z−x)dx
Z=max(X,Y)
很简单,就是分布函数相同
Z=min(X,Y)
分布函数分别被1减,然后相乘再被1减
Z=XY
Z=X/Y
例题
- 给概率密度函数求分布函数
- 判断独立性
- 求边缘
- 已知独立性求参数
Pitfalls and Fallacies
- 已知分布函数求概率,无论一维二维都需要割,很麻烦
- 已知边缘不能反求联合,但是如果补充上条件,便可以得到联合
- ∫0∞e−x2dx=2π
随机变量的数值特征
本章只有一个东西:数学期望
基本概念
数学期望
- 离散型:级数∑∣xkpk∣收敛,那么定义∑xkpk为E(X)
- 连续型:∫∣xfX(x)∣dx收敛,那么定义∫xfX(x)dx为E(X)
绝对收敛是为了保证求和不受求和次序的影响
随机变量函数的数学期望
Y=g(X)
- 离散型:E(Y)=E(g(X))=∑g(xk)pk
- 连续型:E(Y)=∫g(x)f(x)dx
- 二维:Z=g(X,Y),E(Z)=∬R2g(x,y)f(x,y)dxdy
数学期望的性质
- E(C)=C
- 完美的线性:E(aX+bY)=aE(X)+bE(Y)
- E(XY)=E(X)E(Y),当且仅当二者不相关时(联系协方差)
矩
- k阶原点矩:E(Xk)
- k阶中心矩:E((X−Xˉ)k)
方差:二阶中心矩,D(X),或σ2
方差的性质
- D(C)=0
- D(X±C)=D(X)
- D(CX)=C2D(X)
- D(X1+X2)=D(X1)+D(X2),当且仅当二者不相关
- 与期望:D(X)=E(X2)−E(X)2
第五点根据定义可以证明。
协方差:Cov(X,Y)=E[(X−Xˉ)E(Y−Yˉ)]
协方差的性质
- 交换
- 双线性
- 与期望的关系:E(XY)−E(X)E(Y)=Cov(X,Y)
- 与方差的关系:D(X±Y)=D(X)+D(Y)±2Cov(X,Y)
相关系数:标准化的协方差:ρXY=D(X)D(Y)Cov(X,Y)
相关系数与线性相关:∣ρXY∣=1⇔P{Y=a+bX}=1
相关系数仅仅衡量线性关系,不代表两个变量没有其他关系
协方差矩阵、多维正态:略
常见分布的数学期望和方差
- 均匀分布:(a+b)/2,(b−a)2/12
- 指数分布:θ,θ2
- 正态分布:μ,σ2
- 二项分布:np、np(1−p)
- 泊松分布:λ,λ
大数定律和中心极限定理
基本概念
大数定理
Chebyshev不等式[误差的概率有上限]
条件:已知期望和方差
P{∣X−μ∣≥ϵ}≤σ2/ϵ2
P{∣X−μ∣≤ϵ}≥1−σ2/ϵ2
「依概率收敛」/「服从大数定理」:limn→∞P{∣Xˉn−an∣≥ϵ}≤σ2/ϵ$
Chebyshev大数定理的特殊情况
条件:随机变量序列独立,方差有奇性(方差已知且相等)
这个随机变量序列按概率收敛于期望
由此可以得到两个结论:连续函数保收敛。平均值趋近于期望
Bernoulli大数定理:针对二项分布,频率稳定性
条件:n次简单重复试验,nA为A发生的次数,p为A发生的概率
∣∣nnA−p∣∣依概率收敛于1
使用Chebyshev大数定理证明
Хинчин大数定理
条件:随机变量序列,独立同分布
结论和Chebyshev大数定理一样
中心极限定理
Lindbeyg-Levy中心极限定理
对象:随机变量序列
条件:独立同分布,期望方差已知
Y=D(∑Xk)∑Xk−E(∑Xk)=nσ∑Xk−nμ
和的标准化随机变量按概率收敛于标准正态
de Moivre-Laplace中心极限定理
对象:二项分布总体
Y=np(1−p)X−np
趋近于标准正态。
二项分布的极限的标准正态
Part 2 数理统计
五个统计量、四大分布、六大定理
基本概念
总体:类,一个随机变量
样本:对象,一次试验的结果,一个随机变量
简单随机样本、简单随机抽样
- 代表性:同分布
- 独立性:所有样本相互独立
统计量:样本不含参的函数
五个统计量
- 样本均值
- 样本方差:n−1nB2
- 样本标准差
- Ak,k阶原点矩
- Bk,k阶中心矩
为何方差这么奇葩?因为他是无偏估计
以正态为基础,统计学三大分布
龙珑的四大分布
正态分布:后面所有分布的基础
χ2分布:样本平方和的分布
定义:χ2=∑Xi2,χ2∼χ2(n),自由度为n的χ2分布
性质
期望、方差:E(χ2)=n,D(χ2)=2n
证明出奇的简单,利用独立性!
α分位点[一般是上分位点]
图形不对称
Fisher的定理:n够大的时候,χα2(n)=21(zα+2n−1)2
t分布
定义:T=nYX,T∼t(n)(X标准正态,Y服从χ2)
标准正态除以一个「等价的」标准正态
性质
- 图形和标准正态相似
- 偶函数
- n>30时,近似标准正态
F分布
- 定义:F=V/nU/m,U,V都服从χ2
- 性质
- F(m,n)1⇔F(n,m)
- F1−α(n,m)=Fα(n,m)1
- 图形不对称,和χ2分布有点像
六大定理
分为对单个正态总体、和两个正态总体均值和方差的估计。又能分成已知方差、未知方差
均值做差,方差做比
定理一:已知σ2对μ的估计
- Xˉ∼N(μ,nσ2)
- nσXˉ−μ∼N(0,1)
2是1的标准化。这个定理意味不仅意味着均值趋于方差,而且意味着方差
定理二:未知σ对μ估计
nSXˉ−μ∼t(n)
把σ换成S
定理三:对σ估计
σ2(n−1)S2∼χ2(n−1)
所有的n−1都来自这个定理
定理四:Xˉ和S独立
使用增量法理解
定理五:两个正态总体均值差的关系
已知σ2
n2σ12+m2σ22(Xˉ−Yˉ)−(μ1−μ2)∼N(0,1)
未知σ2。把分母换成Sw(n11+n21),服从t(n+m−2)分布
Sw2=(m−1)+(n−1)(m−1)Sx2+(n−1)S22,两者方差的「均值」
定理六:两个正态总体方差比的关系
σ22σ12SY2SX2∼F(m−1,n−1)
参数估计
概论
- 如何估计:点估计、区间估计
- 如何评价:三个评价标准
点估计
矩估计
估计原理:辛钦大数定理,Xˉk→PE(Xk)
方法:列方程、解方程,列到方程足够为止,解出来的参数就是估计量。
μk(θ^1,…,θ^m)=Xˉm
优点:简单
缺点
- 不唯一
- 有时不合理(考虑均匀分布)
极大似然估计
首选
估计原理:最大似然原理(与小概率原理对立)
方法
构建似然函数,然后求极大值点。
似然函数有两种情况
离散情形下
L(θ)=i=1∏nP(xi;θ)
连续情形下
L(θ)=i=1∏nf(xi,θ)
由于出现累乘,常常需要对L(θ)取对数。不过ln不改变极大值点,因此很方便。
评价
无偏:E(θ^)=θ,基本要求
有效:两个无偏估计,方差小的更有效
无偏是有效的前提,都不无偏,那就一定不有效
相合:θ^→Pθ
无偏和有效是相合的前提
区间估计
单侧估计和双侧估计
都得往正态上靠
联系定理
置信区间:θ是要估计的未知参数,θ^1、θ^2是两个统计量,如果
P{θ^1<θ<θ^2}=1−α
那么随机区间(θ^1,θ^2)是置信度为1−α的置信区间,α叫显著性水平
方法
- 正态总体
- 双侧
- 已知σ估计μ:(Xˉ±nσz2α),定理分母乘以分位点
- 未知σ也是一样的,不过分布改成t分布
- 估计σ2,由于估计量放在分母上,所以要注意1−α/2和α/2的位置关系。定理分子除以分位点。
- 单侧:双侧改一改
- 非正态:中心极限定理
假设检验
基本思想
- 证伪
- 样本说服力不同
- 「差异显著」=「小概率事件发生」几乎是不可能的。如果「差异显著」,就成功证伪
显著性水平:小概率α
检验统计量:要检验的量
原假设:H0,默认发生
备择假设:H1,默认不发生
H0一般认为是大概率的,H1一般认为是小概率的。同一个问题,假设放置的位置不同,体现着立场不同。
比如:做有罪推定,还是无罪推定?没有证据,是否认为犯罪?假定无恶意,还是假定恶意?
但是这其中并不只是概率的问题,还涉及到价值观、目的。比如,病毒检测,我们不应该放过任何一个潜在的携带者,H1应该放阳性。
研发中,刚刚想出的新方法一般不优于旧方法。
H0和H1未必对立
拒绝域:小概率发生的区间,落入拒绝域,则说明「差异显著」,成功证伪。
假设检验可能发生的错误
有两个概率需要控制,一个是冤枉好人的概率,一个是放走坏人的概率。减小一个,就会增大另一个,那么我们应该选择控制哪一个呢?
弃真概率(第一类错误发生的概率)
α=P{拒绝H0∣H0为真}
即为显著性水平。显著性检验只控制弃真概率。
也就是,控制冤枉好人的概率。
取伪概率(第二类错误发生的概率)
β=P{接受H0∣H0为假}
检验功效1−β
考虑病毒检测,如果一个检测方式,如果检测得到阳性,那么大概率是有病,那么这种检测功效是不错的。(即便可能存在一大批假阴性)。
双侧检验:H1:???=???
单边检验
与置信区间的关系