type
status
date
slug
summary
tags
category
icon
password

🔏快速回顾

1 随机变量定义,连续型随机变量、离散型随机变量 2 随机变量的概率分布(概率质量(密度)函数)、累积分布函数。如何验证概率密度函数 3 常见的离散随机变量及其概率质量函数(伯努利随机变量、二项随机变量、几何随机变量、泊松随机变量) 4 常见连续型随机变量及其概率密度函数(均匀随机变量、指数随机变量、伽马随机变量、正态随机变量) 5 随机变量的数字特征定义:期望、方差、矩,期望的线性性质,方差的性质,Cauchy-Swartz不等式 6 联合分布随机变量的分布函数、概率质量(密度)函数、均值、协方差 7 协方差的定义、性质、意义 8 矩母函数定义,常见随机变量的矩母函数 9 矩母函数的两个重要性质

1 随机变量

随机变量:记样本空间为Ω,ωΩ\Omega, \omega \in \Omega,我们将定义在样本空间Ω\Omega上的实值函数X(ω)X(\omega)称为随机变量。简单来说,随机变量是实数集合,这个实数集合是由某一个映射将样本空间变换获得。
X(ω):ωRX(\omega): \omega \rightarrow R
例1: 如果试验由投掷两个骰子构成,那么样本空间Ω\Omega由以下36个点组成。
Ω={(1,1),(1,2),(1,3),(1,4),(1,5),(1,6)(2,1),(2,2),(2,3),(2,4),(2,5),(2,6)(3,1),(3,2),(3,3),(3,4),(3,5),(3,6)(4,1),(4,2),(4,3),(4,4),(4,5),(4,6)(5,1),(5,2),(5,3),(5,4),(5,5),(5,6)(6,1),(6,2),(6,3),(6,4),(6,5),(6,6)}\Omega= \begin{Bmatrix} (1,1), (1,2), (1,3), (1,4), (1,5), (1,6)\\ (2,1), (2,2), (2,3), (2,4), (2,5), (2,6)\\ (3,1), (3,2), (3,3), (3,4), (3,5), (3,6)\\ (4,1), (4,2), (4,3), (4,4), (4,5), (4,6)\\ (5,1), (5,2), (5,3), (5,4), (5,5), (5,6)\\ (6,1), (6,2), (6,3), (6,4), (6,5), (6,6)\\ \end{Bmatrix}
我们记随机变量XX定义为两颗骰子点数的和。那么随机变量的取值范围是2到12的任意实数
P{X=2}=P{(1,1)}=136P{X=3}=P{(1,2),(2,1)}=236P{X=4}=P{(1,3),(2,2),(3,1)}=336P{X=5}=P{(1,4),(2,3),(3,2),(4,1)}=436P{X=6}=P{(1,5),(2,4),(3,3),(4,2),(5,1)}=536P{X=7}=P{(1,6),(2,5),(3,4),(4,3),(5,2),(6,1)}=636P{X=8}=P{(2,6),(3,5),(4,4),(5,3),(6,2)}=536P{X=9}=P{(3,6),(4,5),(5,4),(6,3)}=436P{X=10}=P{(4,6),(5,5),(6,4)}=336P{X=11}=P{(5,6),(6,5)}=236P{X=12}=P{(6,6)}=136\begin{array} { l } { \mathrm { P } \{ X = 2 \} = \mathrm { P } \{ ( 1 , 1 ) \} = \frac { 1 } { 3 6 } } \\ { \mathrm { P } \{ X = 3 \} = \mathrm { P } \{ ( 1 , 2 ) , ( 2 , 1 ) \} = \frac { 2 } { 3 6 } } \\ { \mathrm { P } \{ X = 4 \} = \mathrm { P } \{ ( 1 , 3 ) , ( 2 , 2 ) , ( 3 , 1 ) \} = \frac { 3 } { 3 6 } } \\ { \mathrm { P } } \{ X = 5 \} = \mathrm { P } \{ ( 1 , 4 ) , ( 2 , 3 ) , ( 3 , 2 ) , ( 4 , 1 ) \} = \frac { 4 } { 3 6 } \\ \mathrm { P } \{ X = 6 \} = \mathrm { P } \{ ( 1 , 5 ) , ( 2 , 4 ) , ( 3 , 3 ) , ( 4 , 2 ) , ( 5 , 1 ) \} = \frac { 5 } { 3 6 } \\ \mathrm { P } \{ X = 7 \} = \mathrm { P } \{ ( 1 , 6 ) , ( 2 , 5 ) , ( 3 , 4 ) , ( 4 , 3 ) , ( 5 , 2 ) , ( 6 , 1 ) \} = \frac { 6 } { 3 6 } \\ \mathrm { P } \{ X = 8 \} = \mathrm { P } \{ ( 2 , 6 ) , ( 3 , 5 ) , ( 4 , 4 ) , ( 5 , 3 ) , ( 6 , 2 ) \} = \frac { 5 } { 3 6 } \\ { \mathrm { P \{ X = 9 \} = \mathrm { P \{ ( 3 , 6 ) , ( 4 , 5 ) , ( 5 , 4 ) , ( 6 , 3 ) \} = { \frac { 4 } { 3 6 } } } } } \\ { \mathrm { P \{ X = 1 0 \} = \mathrm { P } \{ ( 4 , 6 ) , ( 5 , 5 ) , ( 6 , 4 ) \} = { \frac { 3 } { 3 6 } } } } \\ { \mathrm { P \{ X = 1 1 \} = \mathrm { P } \{ ( 5 , 6 ) , ( 6 , 5 ) \} = { \frac { 2 } { 3 6 } } } } \\ { \mathrm { P \{ X = 1 2 \} = \mathrm { P } \{ ( 6 , 6 ) \} = { \frac { 1 } { 3 6 } } } } \end{array}
注意到:1=P(i=212{X=n})=n=212P{X=n}1 = \mathrm { P } ( \bigcup _ { i = 2 } ^ { 1 2 } \{ X = n \} ) = \sum _ { n = 2 } ^ { 1 2 } \mathrm { P } \{ X = n \}
例2: 假定我们抛掷一枚出现正面的概率为p 的硬币直至正面首次出现 。以 N 记需要抛掷的次数,假定相继抛掷的结果是独立的,那么NN 是取值于1,2,3,1,2,3,\cdots, 中的 某个值的随机变量,分别具有概率
HH为正面,TT为反面。
样本空间 Ω\Omega
随机变量的概率
抛1枚硬币
{T,H}\{T, H\}
P(N=1)=P(H)=p=12P(N=1) = P(H) = p = \frac{1}{2}
抛2枚硬币
{(T,T),(T,H),(H,T),(H,H)}\{(T, T), (T, H), (H, T), (H, H)\}
P(N=2)=P({(T,H)})=(1p)p=14P(N=2) = P(\{(T, H)\})=(1-p)p = \frac{1}{4}
抛3枚硬币
{(T,T,T),(T,T,H),(T,H,T),(H,T,T),(H,T,H),(H,H,T),(T,H,H),(H,H,H)}\{(T, T, T), (T, T, H), (T, H, T), (H, T, T),\\ (H, T, H),(H, H, T),(T, H, H) ,(H, H, H)\}
P(N=3)=P({(T,T,H)})=(1p)2p=18P(N=3) = P(\{(T, T, H)\}) = (1-p)^{2}p =\frac{1}{8}
抛n枚硬币
{(T,T,,T),(T,T,,H),,(H,H,,H)}\{(T, T, \cdots, T), (T, T, \cdots, H), \cdots,(H, H, \cdots, H)\}
P(N=n)=P({(T,T,,Tn1,H)})=(1p)n1pP(N=n) = P(\{(\underbrace{T, T, \cdots, T}_{n-1 }, H)\}) = (1-p)^{n-1}p
注意到:P(n=1{N=n})=n=1P{N=n}=pn=1(1p)n1=p1(1p)=1\mathrm { P } ( \bigcup _ { n = 1 } ^ { \infty } \{ N = n \} ) = \sum _ { n = 1 } ^ { \infty } \mathrm { P } \{ N = n \} = p \sum _ { n = 1 } ^ { \infty } ( 1 - p ) ^ { n - 1 } = \frac { p } { 1 - ( 1 - p ) } = 1
离散型随机变量(discrete):取有限个或可数个可能的值的随机变量。
连续型随机变量(continuous):可以取连续多个可能的值的随机变量。
随机变量的累积分布函数(cumulative distribution function),简称分布函数F()F(\cdot)定义为,对于任意实数b,<b<+b, -\infin < b < + \infin
F(b)=P{Xb}F(b) = P\{X \le b\}
表示随机变量XX取一个小于或等于bb的值的概率。FF具有以下性质:
(1)F(b)F(b)bb的非减函数
(2)limbF(b)=F()=1\lim _ { b \rightarrow \infty } F ( b ) = F ( \infty ) = 1
(3)limbF(b)=F()=0.\lim _ { b \rightarrow - \infty } F ( b ) = F ( - \infty ) = 0 .
对于随机变量XX的所有概率问题都可以用分布函数回答。如对于所有的a<ba \lt b,我们有
P{a<Xb}=F(b)F(a)\mathrm { P } \{ a \lt X \leqslant b \} = F ( b ) - F ( a )
随机变量的概率分布。离散随机变量:概率质量函数;连续随机变量:概率密度函数。
离散随机变量
连续随机变量
概率质量(密度)函数
概率质量函数p(a)p(a)定义: p(a)=P{X=a}p(a) = P\{X=a\}
概率密度函数f(x)f(x)定义: 若定义在所有实数x(,)x \in (-\infin, \infin)上的非负函数f(x)f(x),使得对于任意实数集合B满足: P{XB}=Bf(x)dxP\{X \in B\} = \int _ {B} f(x)dx
性质
X={xii=1,2,,N},X = \{x_i | i=1, 2, \cdots ,N\},p(xi)0i=1Np(xi)=1p(x_i) \geq 0 \sum _{i=1}^{N} p(x_i) = 1
f(x)0P{X(,)}=+f(x)dx=1P{aXb}=abf(x)dxP{X=a}=aaf(x)dx=0f(x) \ge 0 \\ P\{X \in (-\infin, \infin)\} = \int _{-\infin} ^ {+\infin}f(x) dx = 1 \\ P\{a \leq X \leq b \} = \int _{a} ^ {b}f(x) dx \\ P\{X=a \} = \int _{a} ^ {a}f(x) dx = 0
分布函数
F(a)=  xia  p(xi)F ( a ) = \; \sum_{\forall x_i \leq a} \; p ( x _ { i } )
F(a)=P{X(,a]}=af(x)dxF(a) = P\{X \in (-\infin, a] \} = \int _{-\infin} ^ {a}f(x) dx 两边求导数: ddaF(a)=f(a)\frac { \mathrm { d } } { \mathrm { d } a } F ( a ) = f ( a ) 概率密度函数是分布函数的导数。 当ε\varepsilon 很小时, P{aε2<Xa+ε2}=aε/2a+ε/2f(x)dxεf(a)\mathrm { P } \{ a - \frac { \varepsilon } { 2 } \lt X \leqslant a + \frac { \varepsilon } { 2 } \} = \int _ { a - \varepsilon / 2 } ^ { a + \varepsilon / 2 } f ( x ) \mathrm { d } x \approx \varepsilon f ( a )XX包含在点aa 附近长度为:的区间内的概率近似地为εf(a)\varepsilon f(a). 由此,我们 明 白 f(a)f (a ) 是 随 机 变 量 在 aa 附 近 可 能 性 大 小 的 量 度 .

2 常见的随机变量

2.1 常见的离散随机变量

定义
概率质量函数p(x)
均值
方差
矩母函数ϕ(t)\phi(t)
伯努利随机变量
假定一个试验只有成功和失败。则样本空间Ω\Omega{0,1}\{0, 1\}组成。令X=1X=1表示成功,X=0X=0表示失败,则随机变量XX称为伯努利随机变量。
p(0)=P{X=0}=1p,p(1)=P{X=1}=p0<p<1p ( 0 ) = \mathrm { P } \{ X = 0 \} = 1 - p , \\ p ( 1 ) = \mathrm { P } \{ X = 1 \} = p 0 < p < 1
pp
p(1p)p(1-p)
二项随机变量
假定nn独立重复试验,其中结果为成功的概率为pp,失败的概率为1p1-p。如果以XX代表出现在nn次试验中的成功次数。那么XX称为具有参数(n,p)(n,p)的二项(binomial)随机变量
p(x)=(nx)px(1p)nx,x=0,1,,n,p ( x ) = \left( \begin{array} { c } { n } \\ { x } \\ \end{array} \right) p ^ { x } ( 1 - p ) ^ { n - x } , \quad x = 0 , 1 , \cdots , n, 其中: (nx)=n!(nx)!x!,x\left ( \begin{array} { c } { n } \\ { x } \\ \end{array} \right ) = \frac { n ! } { ( n - x ) ! x ! }, x表示成功的次数。
npn p
np(1p)n p(1-p)
(pet+(1p))n( p \mathrm { e } ^ { t } + ( 1 - p ) ) ^ { n }
几何随机变量
假定进行独立试验直到出现一个结果为成功,其中每一个试验成功的概率都是 pp. 如果我们XX 记直到出现首次成功所需要做的试验次数,那么称XX 为具有参数 pp 的几何随机变量.
p(x)=P{X=x}=(1p)x1p,x=1,2,x=1p(x)=px=1(1p)x1=1p ( x ) = \mathrm { P } \{ X = x \} = ( 1 - p ) ^ { x - 1 } p , \quad x = 1 , 2 , \cdots \\ \sum _ { x = 1 } ^ { \infty } p ( x ) = p \sum _ { x = 1 } ^ { \infty } ( 1 - p ) ^ { x - 1 } = 1
1p\frac{1}{p}
1pp2\frac{1-p}{p^2}
pet1(1p)et\frac { p \mathrm { e } ^ { t } } { 1 - ( 1 - p ) \mathrm { e } ^ { t } }
泊松随机变量
对于取值于0,1,2,0 , 1 , 2 , \cdots的随机变量XX,如果对于某个λ>0\lambda \gt 0 ,有p(i)=P{X=i}=eλλii!,i=0,1,p ( i ) = \mathrm { P } \{ X = i \} = \mathrm { e } ^ { - \lambda } \frac { \lambda ^ { i } } { i ! } , \quad i = 0 , 1 , \cdots 则称XX 为具有参数λ\lambda的泊松随机变量
p(x)=P{X=x}=eλλxx!,x=0,1,x=0p(x)=eλx=0λxx!=eλeλ=1p ( x ) = \mathrm { P } \{ X = x \} = \mathrm { e } ^ { - \lambda } \frac { \lambda ^ { x } } { x ! } , \quad x = 0 , 1 , \cdots \\ \sum _ { x = 0 } ^ { \infty } p ( x ) = e ^ { - \lambda } \sum _ { x = 0 } ^ { \infty } \frac { \lambda ^ { x } } { x ! } = e ^ { - \lambda } e ^ { \lambda } = 1 泊松随机变量的一个重要性质是它可以用来近似二项随机变量
λ\lambda
λ\lambda
exp{λ(et1)}\exp \{ \lambda ( \mathrm { e } ^ { t } - 1 ) \}
泊松分布如何近似二项随机变量
如果二项参数 nn 大,而pp小,假定XX是具有参数(n,p)(n,p)的二项随机变量,并取λ=np\lambda = n p ,那么
P{X=i}=n!(ni)!i!pi(1p)ni=n!(ni)!i!(λn)i(1λn)ni=n(n1)(ni+1)niλii!(1λ/n)n(1λ/n)i\begin{aligned}\mathrm { P } \{ X = i \} & = \frac { n ! } { ( n - i ) ! i ! } p ^ { i } ( 1 - p ) ^ { n - i } = \frac { n ! } { ( n - i ) ! i ! } ( \frac { \lambda } { n } ) ^ { i } ( 1 - \frac { \lambda } { n } ) ^ { n - i } \\ &= \frac { n ( n - 1 ) \cdots ( n - i + 1 ) } { n ^ { i } } \frac { \lambda ^ { i } } { i ! } \frac { ( 1 - \lambda / n ) ^ { n } } { ( 1 - \lambda / n ) ^ { i } } \end{aligned}
对于大的nn 和小的pp
(1λn)neλ,n(n1)(ni+1)n!1,(1λn)i1( 1 - \frac { \lambda } { n } ) ^ { n } \approx \mathrm { e } ^ { - \lambda } , \quad \frac { n ( n - 1 ) \cdots ( n - i + 1 ) } { n ^ { ! } } \approx 1 , \quad ( 1 - \frac { \lambda } { n } ) ^ { i } \approx 1

2.2 常见的连续随机变量

定义
概率密度函数
均值
方差
矩母函数\phi(t)
均匀随机变量
随机变量XX若是区间[a,b][a, b]上的均匀随机变量,那么它的概率密度函数定为右式。
f(x)={1ba,ifa<x<b0,elsef ( x ) = \left \{ \begin{array} { l l } { \frac { 1 } { b - a } , } & \mathrm{if} \, a < x < b \\ { 0 , } & \mathrm{else} \\ \end{array} \right .
a+b2\frac { a + b } { 2 }
(ba)212\frac { ( b - a ) ^2 } { 1 2 }
ebteat(ba)t\frac { e ^ { bt } - e ^ { a t } } { ( b - a ) t }
指数随机变量
若一个随机变量的概率密度定义为,对于某个λ\lambda有右式,则称其为具有参数λ\lambda的指数随机变量。
f(x)={λeλx,ifx00,ifx<0f ( x ) = \left \{ \begin{array} { l } { \lambda e ^ { - \lambda x } , } & \mathrm{if} \, x \ge 0\\ { 0 , } & \, \mathrm{if} x < 0 \\ \end{array} \right .
1λ\frac { 1 } { \lambda }
1λ2\frac { 1 } { \lambda ^ { 2 } }
λλt\frac { \lambda } { \lambda - t }
伽马随机变量
对于λ>0\lambda \gt 0 , α>0\alpha \gt 0,若概率密度函数定义为右式的随机变量,称为具有参数λ\lambdaα\alpha的伽马随机变量
f(x)={λeλx(λx)α1Γ(α),ifx00,ifx<0f ( x ) = \left\{ \begin{array} { c } { \frac { \lambda e ^ { - \lambda x } ( \lambda x ) ^ { \alpha - 1 } } { \Gamma ( \alpha ) } , } & \mathrm{if} x \ge 0 \\ { 0 , } & \mathrm{if} x < 0 \\ \end{array} \right . Γ(α)\Gamma ( \alpha )称为伽马函数,定义为 Γ(α)=0exxα1dx\Gamma ( \alpha ) = \int _ { 0 } ^ { \infty } \mathrm { e } ^ { - x } x ^ { \alpha - 1 } \mathrm { d } x 对于正整数α\alpha ,用归纳法容易证明Γ(n)=(n1)!\Gamma ( n ) = ( n - 1 ) !
nλ\frac { n } { \lambda }
nλ2\frac { n } { \lambda ^ { 2 } }
(λλt)n( \frac { \lambda } { \lambda - t } ) ^ { n }
正态随机变量
XX的概率密度函数如右式,则称XX是具有参数μ\muσ2\sigma^2的正态随机变量(或称XX是正态分布)。
f(x)=12παe(xμ)22σ2,<x<f ( x ) = \frac { 1 } { \sqrt { 2 \pi \alpha } } e ^ { \frac{- ( x - \mu ) ^ { 2 }} {2 \sigma ^ { 2 }} } , \quad - \infty \lt x \lt \infty (钟形曲线,关于μ\mu对称)
μ\mu
σ2\sigma ^ { 2 }
exp{μt+σ2t22}\mathrm { e x p } \{ \mu t + \frac { \sigma ^ { 2 } t ^ { 2 } } { 2 } \}

3 随机变量的数字特征

3.1 数字特征定义(期望、方差、矩)

离散随机变量
连续随机变量
随机变量期望定义
E[X]=x:p(x)>0xp(x)\mathrm { E } [ X ] = \sum _ { x : p ( x ) \gt 0 } x p ( x ) XX的期望值是XX 可能取的值的加权平均; p(x)p(x)是概率质量函数
E[X]=xf(x)dx\mathrm { E } [ X ] = \int _ { - \infty } ^ { \infty } x f ( x ) \mathrm { d } x
随机变量函数期望的定义
E[X]=x:p(x)>0g(x)p(x)\mathrm { E } [ X ] = \sum _ { x : p ( x ) \gt 0 } g(x) p ( x )
E[g(X)]=g(x)f(x)dx\mathrm { E } [ g(X) ] = \int _ { - \infty } ^ { \infty } g(x) f ( x ) \mathrm { d } x
随机变量的矩
E[Xn]=x:p(x)>0xnp(x)\mathrm { E } [ X^n ]=\sum _ { x : p ( x ) \gt 0 } x ^ { n } p ( x ) 注意到,随机变量XX的期望E(X)E(X)也称为XX的一阶矩
E[Xn]=xnf(x)dx\mathrm { E } [ X^n ]= \int _ { - \infty } ^ { \infty } x ^ { n } f ( x ) \mathrm { d } x
随机变量的方差, XX的方差度量了XX 与其期望值之间的偏差平方的期望.
Var(X)=E[(XE[X])2]=E[X2](E[X])2\mathrm { V a r } ( X ) = \mathrm { E } [ ( X - E [ X ] ) ^ { 2 } ] \\ = \mathrm {E}[X^2] - (\mathrm {E}[X])^2
Var(X)=E[(XE[X])2]=E[X2](E[X])2\mathrm { V a r } ( X ) = \mathrm { E } [ ( X - E [ X ] ) ^ { 2 } ] \\ = \mathrm {E}[X^2] - (\mathrm {E}[X])^2

3.2 期望、方差的性质

推论:若a,b是常数,那么(期望的线性性质)
 
E[aX+b]=aE[X]+b\mathrm { E } [ a X + b ] = a \mathrm { E } [ X ] + b \\
Proof:
离散情形:
E[aX+b]=x:p(x)>0(ax+b)p(x)=ax:p(x)>0xp(x)+bx:p(x)>0p(x)=aE[X]+b\begin{aligned} \mathrm { E } [ a X + b ] &= \sum _ { x : p ( x ) \gt 0 } ( a x + b ) p ( x ) \\ &= a \sum _ { x : p ( x ) \gt 0 } x p ( x ) + b \sum _ { x : p ( x ) \gt 0 } p ( x ) \\ & = a \mathrm { E } [ X ] + b \end{aligned} \notag
连续情形:
E[aX+b]=(ax+b)f(x)dx=axf(x)dx+bf(x)dx=aE[X]+b\begin{aligned} { \mathrm { E } } [ a X + b ] & { { } = \int _ { - \infty } ^ { \infty } ( a x + b ) f ( x ) \mathrm { d } x } \\ { } & { { } = a \int _ { - \infty } ^ { \infty } x f ( x ) \mathrm { d } x + b \int _ { - \infty } ^ { \infty } f ( x ) \mathrm { d } x } \\ { } & { { } = a \mathrm { E } [ X ] + b } \\ \end{aligned} \notag
由上式,容易证明
Var[aX+b]=a2Var[X]\mathrm { Var } [ a X + b ] = a^2 \mathrm { Var } [ X ]

3.3 Cauchy-Swartz不等式

设X,Y是两个任意随机变量,则有
E[XY]E[X2]E[Y2]E[|XY|] \leq \sqrt{E[X^2]E[Y^2]}
Proof:
任意取一个常数 λ\lambda,容易得到 (X+λY)2(|X| + \lambda|Y|)^2是一个非负的随机变量,则
E[(X+λY)2)]0E[(|X| + \lambda|Y|)^2)] \geq 0
展开上式:
E[(X+λY)2)]=E[X2+λ2Y2+2λXY]=E[X2]+2λE[XY]+λ2E[Y2]\begin{aligned} E[(|X| + \lambda|Y|)^2)] &= E[X^2 + \lambda^2Y^2 + 2\lambda |XY|] \\ &= E[X^2] + 2\lambda E[|XY|] + \lambda ^2E[Y^2] \end{aligned}
将上式中的 \lambda看作是变量,那么上式就是个一元二次方程,并且该一元二次方程至多一个根 (因 E[(X+λY)2)]0E[(|X| + \lambda|Y|)^2)] \geq 0),故判别式应当满足: Δ=b24ac0\Delta = b^2 - 4ac \leq 0,因此
(2E[XY])24(E[Y2]E[X2])0(2 E[|XY|])^2 - 4 (E[Y^2]E[X^2]) \leq 0
因此:
E[XY]E[X2]E[Y2]E[|XY|] \leq \sqrt{E[X^2]E[Y^2]}

4 联合分布随机变量

4.1 联合分布函数

前面的内容都是关注单个随机变量的概率分布(概率密度or质量函数)。然而我们常常对多个随机变量的概率陈述感兴趣。为了处理这样的概率,对任意两个随机变量XXYY,我们定义XXYY的联合累积分布函数(joint cumulative probability distribution function)。
F(a,b)=P{Xa,Yb},<a,b<F ( a , b ) = P \{ X \leqslant a , Y \leqslant b \} , \quad - \infty \lt a , b \lt \infty
XXYY的分布(边缘分布)都可以通过联合分布得到
FX(a)=P{Xa}=P{Xa,Y<}=F(a,)FY(b)=P{Yb}=P{X<,Yb}=F(,b)F _ { X } ( a ) = \mathrm { P } \{ X \leqslant a \} = \mathrm { P } \{ X \leqslant a , Y \lt \infty \} = F ( a , \infty ) \\ F _ { Y } ( b ) = \mathrm { P } \{ Y \leqslant b \} = \mathrm { P } \{ X \lt \infty , Y \leqslant b \} = F ( \infty , b)
离散随机变量
连续随机变量
联合概率质量(密度)函数
p(x,y)=P{X=x,Y=y}p ( x , y ) = \mathrm { P } \{ X = x , Y = y \}
X,YX,Y联合连续,且存在一个对于所有实数xyx,y定义的函数f(x,y)f(x,y),对于所有的实数集合AABB满足 P{XA,YB}=BAf(x,y)dxdy\mathrm { P } \{ X \in A , Y \in B \} = \int _ { B } \int _ { A } f ( x , y ) \mathrm { d } x \mathrm { d } y 则称函数f(x,y)f(x,y)XXYY的联合概率密度函数。两个条件 1)f(x,y)>=0f(x,y)>=0, 2)f(x,y)dxdy=1 \int_{-\infin }^ {\infin}\int_{-\infin }^ {\infin}f(x,y)dxdy = 1
X(Y)X(Y)的概率质量(密度)函数
pX(x)=y:p(x,y)>0p(x,y)pY(y)=x,y(x,y)>0p(x,y)p _ { X } ( x ) = \sum _ { y : p ( x , y ) \gt 0 } p ( x , y ) \\ p _ { Y } ( y ) = \sum _ { x , y ( x , y ) \gt 0 } p ( x , y )
P{XA}=P{XA,Y(,)}=Af(x,y)dxdy=AfX(x)dx\mathrm { P } \{ X \in A \} = \mathrm { P } \{ X \in A , Y \in ( - \infty , \infty ) \} = \int _ { - \infty } ^ { \infty } \int _ { A } f ( x , y ) \mathrm { d } x \mathrm { d } y = \int _ { A } f _ { X } ( x ) \mathrm { d } x其中 fX(x)=f(x,y)dyf _ { X } ( x ) = \int _ { - \infty } ^ { \infty } f ( x , y ) \mathrm { d } y 称为XX的概率密度函数。同理fY(y)=f(x,y)dxf _ { Y } ( y ) = \int _ { - \infty } ^ { \infty } f ( x , y ) \mathrm { d } x 由于对F(a,b)=P(Xa,Y<b)=abf(x,y)dydxF ( a , b ) = \mathrm { P } ( X \, \leqslant a , Y \, \lt b ) = \\ \int _ { - \infty } ^ { a } \int _ { - \infty } ^ { b } f ( x , y ) \mathrm { d } y \mathrm { d } x 微分得到 d2dadbF(a,b)=f(a,b)\frac { \mathrm { d } ^ { 2 } } { \mathrm { d } a \mathrm { d } b } F ( a , b ) = f ( a , b ) 故和单随机变量一致,微分累积分布函数可以得到概率密度函数。
联合分布随机变量的期望
E[a1X1+a2X2++anXn]=a1E[X1]+a2E[X2]++anE[Xn]\mathrm { E } [ a _ { 1 } X _ { 1 } + a _ { 2 } X _ { 2 } + \cdots + a _ { n } X _ { n } ] = a _ { 1 } \mathrm { E } [ X _ { 1 } ] + a _ { 2 } \mathrm { E } [ X _ { 2 } ] + \cdots + a _ { n } \mathrm { E } [ X _ { n } ]
例:投掷3颗均匀的骰子,计算其期望和
XX为得到的点数和,XiX_i为第i颗骰子的点数
E[X]=E[X1]+E[X2]+E[X3]=3(72)=2212\mathrm { E } [ X ] = \mathrm { E } [ X _ { 1 } ] + \mathrm { E } [ X _ { 2 } ] + \mathrm { E } [ X _ { 3 } ] = 3 ( \frac { 7 } { 2 } ) = 2 \frac { 2 1 } { 2 } \notag
例子:二项随机变量的期望。当XX以参数n,pn,p二项地分布时(XX代表出现在nn次试验中的成功次数),计算E[X]E[X]
除了用二项随机变量的概率质量函数结合期望定义求解,我们还可以将每一次试验视作伯努利分布,记XiX_i是伯努利随机变量
Xi={1,i次试验成功0,i次试验失败X _ { i } = \left \{ \begin{array} { c } { 1 , } & 第i次试验成功\\ { 0 , } & 第i次试验失败\\ \end{array} \right . \notag
X=X1+X2++XnX = X _ { 1 } + X _ { 2 } + \dots + X _ { n },且E[Xi]=1(p)+0(1p)=p\mathrm { E } [ X _ { i } ] = 1 ( p ) + 0 ( 1 - p ) = p ,从而
E[X]=E[X1]+E[X2]++E[Xn]=np\mathrm { E } [ X ] = \mathrm { E } [ X _ { 1 } ] + \mathrm { E } [ X _ { 2 } ] + \cdots + \mathrm { E } [ X _ { n } ] = n p \notag
例子:在一次聚会上,NN 个人将帽子扔到房间的中央. 帽子混杂了以后,每个人 随机地取一个. 求取到自己的帽子的人的期望数
XX记取到自己的帽子的人数.我们最好通过X=X1++XNX=X_1+ \cdots +X_N计算E[X]E[X], 其中
Xi={1,i个人取到自己的帽子0,elseX _ { i } = \left \{ \begin{array} { c } { 1 , } & 第i个人取到自己的帽子\\ { 0 , } & else\\ \end{array} \right . \notagP{Xi=1}=1N\mathrm { P } \{ X _ { i } = 1 \} =\frac{1}{N} \notagE[X]=E[X1]++E[XN]=(1N)N=1\mathrm { E } [ X ] = \mathrm { E } [ X _ { 1 } ] + \cdots + \mathrm { E } [ X _ { N } ] = ( \frac { 1 } { N } ) N = 1 \notag
因此,无论聚会上有多少人,平均总有一人取到自己的帽子

4.2 独立随机变量

如果随机变量XXYY满足
F(a,b)=P{Xa,Yb}=P{Xa}P{Yb}=FX(a)FY(b)F(a,b) = \mathrm { P } \{ X \leqslant a , Y \leqslant b \} = \mathrm { P } \{ X \leqslant a \} \mathrm { P } \{ Y \leqslant b \} = F _ { X } ( a ) F _ { Y } ( b )
则称X,YX,Y独立
离散随机变量
连续随机变量
概率质量(密度)函数
p(x,y)=pX(x)pY(y)p ( x , y ) = p _ { X } ( x ) p _ { Y } ( y )
f(x,y)=fX(x)fY(y)f ( x , y ) = f _ { X } ( x ) f _ { Y } ( y )
随机变量函数的期望
E[g(X)h(Y)]=E[g(X)]E[h(Y)]\mathrm { E } [ g ( X ) h ( Y ) ] = \mathrm { E } [ g ( X ) ] \mathrm { E } [ h ( Y ) ]
E[g(X)h(Y)]=E[g(X)]E[h(Y)]\mathrm { E } [ g ( X ) h ( Y ) ] = \mathrm { E } [ g ( X ) ] \mathrm { E } [ h ( Y ) ]

4.3 协方差与随机变量和的方差

两个随机变量XYX、Y的协方差记为Cov(X,Y)\mathrm { C o v } ( X , Y ) ,定义为
Cov(X,Y)=E[(XE[X])(YE[Y])]=E[XYYE[X]XE[Y]+E[X]E[Y]]=E[XY]E[Y]E[X]E[X]E[Y]+E[X]E[Y]=E[XY]E[X]E[Y]\begin{aligned} \mathrm { C o v } ( X , Y ) & = \mathrm { E } [ ( X - \mathrm { E } [ X ] ) ( Y - \mathrm { E } [ Y ] ) ] \\ & = \mathrm { E } [ X Y - Y \mathrm { E } [ X ] - X \mathrm { E } [ Y ] + \mathrm { E } [ X ] \mathrm { E } [ Y ] ] \\ & = \mathrm { E } [ X Y ] - \mathrm { E } [ Y ] \mathrm { E } [ X ] - \mathrm { E } [ X ] \mathrm { E } [ Y ] + \mathrm { E } [ X ] \mathrm { E } [ Y ] \\ & = \mathrm { E } [ X Y ] - \mathrm { E } [ X ] \mathrm { E } [ Y ] \end{aligned}
X,YX,Y独立,Cov(X,Y)=E[XY]E[X]E[Y]=E[X]E[Y]E[X]E[Y]=0\mathrm { C o v } ( X , Y ) = \mathrm { E } [ X Y ] - \mathrm { E } [ X ] \mathrm { E } [ Y ] = \mathrm { E } [ X ] \mathrm { E } [ Y ] - \mathrm { E } [ X ] \mathrm { E } [ Y ] = 0
协方差的意义
可以证明,若Cov(X,Y)>0\mathrm { C o v } ( X , Y ) > 0 说明X,YX,Y正相关,表明在XX增加时,YY倾向增加。
协方差的性质
对于任意随机变量XXYYZZ和常数cc
  1. Cov(X,X)=Var(X),\mathrm { C o v } ( X , X ) = \mathrm { V a r } ( X ) ,
  1. Cov(X,Y)=Cov(Y,X),\mathrm { C o v } ( X , Y ) = \mathrm { C o v } ( Y , X ) ,
  1. Cov(cX,Y)=cCov(X,Y)\mathrm { C o v } ( c X , Y ) = c \mathrm { C o v } ( X , Y )
  1. Cov(X,Y+Z)=Cov(X,Y)+Cov(X,Z)\mathrm { C o v } ( X , Y + Z ) = \mathrm { C o v } ( X , Y ) + \mathrm { C o v } ( X , Z ) .
证明性质4
Cov(X,Y+Z)=E[X(Y+Z)]E[X]E[Y+Z]=E[XY]E[X]E[Y]+E[XZ]E[X]E[Z]=Cov(X,Y)+Cov(X,Z)\begin{aligned}\mathrm { C o v } ( X , Y + Z ) &= \mathrm { E } [ X ( Y + Z ) ] - \mathrm { E } [ X ] \mathrm { E } [ Y + Z ] \\ &= { \mathrm E } [ X Y ] - { \mathrm E } [ X ] { \mathrm E } [ Y ] + { \mathrm E } [ X Z ] - { \mathrm E } [ X ] { \mathrm E } [ Z ] \\ &= \mathrm { C o v } ( X , Y ) + \mathrm { C o v } ( X , Z ) \end{aligned}
性质4的推广
Cov(i=1nXi,j=1mYj)=i=1nj=1mCov(Xi,Yj)\mathrm { C o v } ( \sum _ { i = 1 } ^ { n } X _ { i } , \sum _ { j = 1 } ^ { m } Y _ { j } ) = \sum _ { i = 1 } ^ { n } \sum _ { j = 1 } ^ { m } \mathrm { C o v } ( X _ { i } , Y _ { j } )
性质4第二个推广
Var(i=1nXi)=性质1Cov(i=1nXi,j=1nXj)=性质4推广i=1nj=1nCov(Xi,Xj)=i=1nCov(Xi,Xi)+i=1njiCov(Xi,Xj)=性质22i=1nj<iCov(Xi,Xj)=i=1nVar(Xi)+2i=1nj<iCov(Xi,Xj)\begin{aligned} \mathrm { V a r } ( \sum _ { i = 1 } ^ { n } X _ { i } )& \stackrel{性质1} = \mathrm { C o v ( } \sum _ { i = 1 } ^ { n } X _ { i } , \sum _ { j = 1 } ^ { n } X _ { j } ) \stackrel{性质4推广}= \sum _ { i = 1 } ^ { n } \sum _ { j = 1 } ^ { n } \mathrm { C o v } ( X _ { i } , X _ { j } ) \\ & = \sum _ { i = 1 } ^ { n } \mathrm { C o v } ( X _ { i } , X _ { i } ) + \underbrace{\sum _ { i = 1 } ^ { n } \sum _ { j \neq i } \mathrm { C o v } ( X _ { i } , X _ { j } )}_{\stackrel{性质2}=2 \sum _ { i = 1 } ^ { n } \sum _ { j \lt i } \mathrm { C o v } ( X _ { i } , X _ { j } )}\\ & = \sum _ { i = 1 } ^ { n } \mathrm { V a r } ( X _ { i } ) + 2 \sum _ { i = 1 } ^ { n } \sum _ { j \lt i } \mathrm { C o v } ( X _ { i } , X _ { j } ) \end{aligned}
样本均值定义:若X1,,XnX _ { 1 } , \cdots , X _ { n }独立同分布的,则随机变量X=i=1nXi/n\overline { { X } } = \sum _ { i = 1 } ^ { n } X _ { i } / n称为样本均值(sample mean).
X1,,XnX _ { 1 } , \cdots , X _ { n }独立同分布的,具有期望值μ\mu与方差σ2,\sigma ^ 2,那么
(a) E[X]=μ,(b) Var(X)=σ2/n,(c) Cov(X,XiX)=0,i=1,,n.( \mathrm { a } ) \ \mathrm { E } [ \overline { { X } } ] = \mu , \quad ( \mathrm { b } ) \ \mathrm { V a r } ( \overline { { X } } ) = \sigma ^ { 2 } / n , \quad ( \mathrm { c } ) \ \mathrm { C o v } ( \overline { { X } } , X _ { i } - \overline { { X } } ) = 0 , i = 1 , \cdots , n .

5 矩母函数(Moment Generating Functions)

5.1 矩母函数的定义

随机变量XX的矩母函数ϕ(t)\phi ( t ) 对所有值t定义为
ϕ(t)=E[etX]={xetxp(x),X离散etxf(x)dx,X连续\phi ( t ) = \mathrm { E } [ \mathrm { e } ^ { t X } ] = \left \{ \begin{array} { c } { { \sum _ { x } \mathrm { e } ^ { t x } p ( x ) , } } & 若X离散 \\ { { \int _ { - \infty } ^ { \infty } \mathrm { e } ^ { t x } f ( x ) \mathrm { d } x , } }& 若X连续 \end{array} \right .
n=1n=1
ϕ(t)=ddtE[etX]=E[ddt(etX)]=E[XetX]\phi ^ { \prime } ( t ) = \frac { \mathrm { d } } { \mathrm { d } t } \mathrm { E } [ e ^ { t X } ] = \mathrm { E } [ \frac { \mathrm { d } } { \mathrm { d } t } ( e ^ { t X } ) ] = \mathrm { E } [ X e ^ { t X } ]
因此:ϕ(0)=E[X]\phi ^ { \prime } ( 0 ) = \mathrm { E } [ X ]
n=2n=2
ϕ(t)=ddtdtE(t)=ddtE[XetX]=E[ddt(XetX)]=E[X2tX]\phi ^ { \prime \prime } ( t ) = \frac { \mathrm { d } } { \mathrm { d } t } { \mathrm { d } t } { \mathrm { E } } ^ { \prime } ( t ) = \frac { \mathrm { d } } { \mathrm { d } t } { \mathrm { E } } [ X { \mathrm { e } } ^ { t X } ] = \mathrm { E } [ \frac { \mathrm { d } } { \mathrm { d } t } ( X { \mathrm { e } } ^ { t X } ) ] = \mathrm { E } [ X ^ { 2 } t ^ { X } ]
因此:ϕ(0)=E[X2]\phi ^ { \prime \prime } ( 0 ) = \mathrm { E } [ X ^ { 2 } ]
一般地,ϕ(t)\phi ( t )nn阶导数在t=0t =0时等于E[Xn]\mathrm { E } [ X ^ { n } ] ,就是说
ϕ(n)(0)=E[Xn],n1\phi ^ { ( n ) } ( 0 ) = \mathrm { E } [ X ^ { n } ] , \quad n \geqslant 1

5.2 矩母函数两个重要性质

性质1: 独立随机变量和的矩母函数正是单个矩母函数的乘积。假设XXYY是独立的,它分別有矩母函数ϕX(t)\phi _ { X } ( t )ϕY(t)\phi _ { Y } ( t )。 那么X+YX + Y的矩母函数是
ϕX+Y(t)=E[et(X+Y)]=E[etXetY]=E[etX]E[etY]=ϕX(t)ϕY(t)\phi _ { X + Y } ( t ) = \mathrm { E } [ \mathrm { e } ^ { t ( X + Y ) } ] = \mathrm { E } [ \mathrm { e } ^ { t X } \mathrm { e } ^ { t Y } ] = \mathrm { E } [ \mathrm { e } ^ { t X } ] \mathrm { E } [ \mathrm { e } ^ { t Y } ] = \phi _ { X } ( t ) \phi _ { Y } ( t )
性质2: 矩母函数唯一地确定了分布,这就是说 ,在随机变量的矩母函数和分布函数之间存在 一一对应.
 
Ross随机过程笔记(一): 概率论引论Ross随机过程笔记(三): 随机过程
Loading...
莫叶何竹🍀
莫叶何竹🍀
非淡泊无以明志,非宁静无以致远
最新发布
Attention Free Transformer(AFT)技术小结
2025-4-15
BLIP 小结
2025-4-13
BLIP系列文章小结(BLIP, BLIP-2, InstructBLIP)
2025-4-13
Nougat 深度剖析
2025-3-18
表格结构还原——SLANet
2025-2-27
KV-Cache技术小结(MHA,GQA,MQA,MLA)
2025-2-24
hexo