指数分布とポアソン分布
今回は指数分布とポアソン分布、ポアソン過程の関係についてまとめます。
「M/M/1行列モデルの公式の導出」で証明を省略した命題の証明についても考えます。
1 ポアソン分布
まずポアソン分布の定義を確認しましょう。
母数\(\lambda>0\)のポアソン分布\(\mathrm{Po}(\lambda)\)は、確率質量関数が \[P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\] で表されるような離散的な確率分布です。ポアソン分布の期待値(平均)は\(\lambda\)であることが容易に分かります。 \(\mathrm{Po}(\lambda)\)は、大雑把に言うと「単位時間に平均では\(\lambda\)回発生するようなランダムな出来事が単位時間に何回発生するか」(\(X\)回とする)が従う確率分布です。ここで言う「ランダムな出来事」というのは単に発生回数が確率変数であるという意味ではなく、隕石の落下回数や電話の本数などのような定常的で一定の起こりやすさをもつ無記憶で偶発的な出来事を意味します。ポアソン分布がそのような出来事の発生回数のモデル化として妥当であることの数学的定式化の一つは次の命題です。
Proposition 1. \(\{N(t)\}_{t\geq 0}\)を非負整数全体を状態空間とする確率過程とする。任意の\(t,s>0\)に対して\(N(t+s)-N(s)\)と\(N(s)\)が独立であるとする。このとき、\(N(t+s)-N(s)\sim \mathrm{Po}(\lambda t)\) (\(\forall t,s>0\))であることと、以下の2条件が成立することは同値である。
-
\(P(N(t+h)-N(t)=1)=\lambda h+o(h)\) as \(h\to +0\) (\(\forall t>0\)),
-
\(P(N(t+h)-N(t)\geq 2)=o(h)\) as \(h\to +0\) (\(\forall t>0\)).
1つ目の条件は生起率が時間によらず一定値\(\lambda\)であること、2つ目の条件は微小時間では2回以上発生する確率が無視できる、すなわち偶発的で多重発生が起きにくいということを表しています。
Proof. \(N(t+s)-N(s)\sim \mathrm{Po}(\lambda t)\) (\(\forall t,s>0\))を仮定する。\(s=h\)として、 \[\begin{eqnarray*}
P(N(t+h)-N(t)=1) &= \frac{(\lambda h)^1}{1!}e^{-\lambda h}=\lambda h+O(h^2), \\
P(N(t+h)-N(t)\geq 2) &= \sum_{k=2}^{\infty}\frac{(\lambda h)^k}{k!}e^{-\lambda h}=O(h^2).
\end{eqnarray*}\] 逆を示す。\(s\)を固定し、\(p_n(t)=P(N(t+s)-N(s)=n)\)とおく。独立性から \[\begin{eqnarray*}
p_n (t + h)
&= \sum_{k=0}^{n} P(N(t + s) – N(s) = n – k, \, N(t + h + s) – N(t + s) = k) \\
&= \sum_{k=0}^{n} p_{n – k}(t) \cdot P(N(t + h + s) – N(t + s) = k) \\
&= p_n(t) \cdot P(N(t + h + s) – N(t + s) = 0) \\
&&\quad + p_{n – 1}(t) \cdot P(N(t + h + s) – N(t + s) = 1) \\
&\quad + \sum_{k=2}^{n} p_{n – k}(t) \cdot P(N(t + h + s) – N(t + s) = k) \\
=& p_n(t) (1 – \lambda h + o(h)) + p_{n – 1}(t) (\lambda h + o(h)) + o(h)
\end{eqnarray*}\] ここで、 \[\begin{eqnarray*}
& \sum_{k=2}^{n} p_{n – k}(t) \cdot P(N(t + h + s) – N(t + s) = k) \\
\leq & \sum_{k=2}^{n} P(N(t + h + s) – N(t + s) = k) \\
= & P(N(t + h + s) – N(t + s) \geq 2)=o(h)
\end{eqnarray*}\] を用いた。ここから、 \[\begin{equation*}
p_n(t + h) – p_n(t) = -\lambda h\, p_n(t) + \lambda h\, p_{n-1}(t) + o(h)
\end{equation*}\] を得る。両辺を\(h\)で割って\(h \to 0\)とすると、 \[\begin{eqnarray*}
\frac{d}{dt} p_n(t) =& -\lambda p_n(t) + \lambda p_{n-1}(t)\quad (n \geq 1) \\
\frac{d}{dt} p_0(t) =& -\lambda p_0(t)
\end{eqnarray*}\] 初期条件は、 \[\begin{equation*}
p_0(0) = 1, \quad p_n(0) = 0 \quad (n \geq 1)
\end{equation*}\] 上式において、変数変換 \[\begin{equation*}
q_n(t) \coloneqq e^{\lambda t} p_n(t)
\end{equation*}\] を行うと、\(q_n(t)\) に対して次の微分方程式が得られる: \[\begin{eqnarray*}
\frac{d}{dt} q_n(t) =& \lambda q_{n-1}(t), \quad n \geq 1 \\
\frac{d}{dt} q_0(t) =& 0
\end{eqnarray*}\] 初期条件は、 \[\begin{equation*}
q_0(0) = 1, \quad q_n(0) = 0 \quad (n \geq 1)
\end{equation*}\] 反復的に積分することで、 \[\begin{equation*}
q_n(t) = \frac{(\lambda t)^n}{n!}
\end{equation*}\] が得られる。したがって、 \[\begin{equation*}
p_n(t) = \frac{(\lambda t)^n}{n!} e^{-\lambda t}
\end{equation*}\] すなわち \[\begin{equation*}
N(t + s) – N(s) \sim \mathrm{Po}(\lambda t)
\end{equation*}\] が導かれた。 ◻
誤差の部分はステートメントでは\(o(h)\)と書いていますが、証明から分かるように実際には\(O(h^2)\)で置き換えられます。このような\(N(t)\)を生起率\(\lambda\)のポアソン過程と言います。ポアソン分布はポアソン過程で時間を\(t=1\)に固定したものです。
2 指数分布
一方、母数\(\mu\)の指数分布\(\mathrm{Ex}(\mu)\)は、「平均\(1/\mu\)の時間間隔で(つまり、平均的に単位時間当たり\(\mu\)回)起こるようなランダムな出来事」の発生する時間間隔が従う確率分布で、確率密度関数は \[f(x)=\mu e^{-\mu x}\] で表されます。期待値は \[\int_0^{\infty}\mu xe^{-\mu x}dx=\frac{1}{\mu}\] です。発生回数がポアソン過程に従うような出来事の発生時間間隔は指数分布に従います。数学的にまとめると次の命題になります。
Proposition 2. \(\{N(t)\}_{t\geq 0}\)を生起率\(\lambda>0\)のポアソン過程とする。 \[T_j=\inf\{t\geq 0\mid N(t)=j\}\] に対し、\(T_1,T_2-T_1,T_3-T_2,T_4-T_3,\ldots\)は独立同分布で\(\mathrm{Ex}(\lambda)\)に従う。
Proof. まず、生起率\(\lambda>0\)のポアソン過程であることを仮定する。このとき、 \[P(T_1>t)=P(N(t)=0)=e^{-\lambda t}=\int_{t}^{\infty}\lambda e^{-\lambda t}dt\] より、\(T_1\)の確率密度関数は\(f_{T_1}(t)=\lambda e^{-\lambda t}\)であり、\(T_1\sim \mathrm{Ex}(\lambda)\). よって、 \[\begin{eqnarray*}
&& P(T_1 > s, T_2 – T_1 > t) \\
&= \int_0^{\infty} P(T_1 > s, T_2 – T_1 > t \mid T_1 = u) f_{T_1}(u)\,du \\
&= \int_s^{\infty} P(T_2 – u > t \mid T_1 = u) f_{T_1}(u)\,du \\
&= \int_s^{\infty} P(T_2 > u + t \mid T_1 = u) f_{T_1}(u)\,du \\
&= \int_s^{\infty} P(N(u + t) – N(u) = 0 \mid N(r) = 0\ (\forall r < u),\ N(u) = 1) f_{T_1}(u)\,du \\
&= \int_s^{\infty} P(N(u + t) – N(u) = 0) f_{T_1}(u)\,du \\
&= \int_s^{\infty} e^{-\lambda t} \cdot \lambda e^{-\lambda u} \, du \\
&= e^{-\lambda t} \cdot \int_s^{\infty} \lambda e^{-\lambda u} \, du \\
&= e^{-\lambda t} \cdot e^{-\lambda s}
\end{eqnarray*}\] よって、 \[P(T_2 – T_1 > t \mid T_1 > s) = \frac{P(T_1 > s,\ T_2 – T_1 > t)}{P(T_1 > s)} = \frac{e^{-\lambda t} \cdot e^{-\lambda s}}{e^{-\lambda s}} = e^{-\lambda t}\] 右辺が\(s\)に依存しないことから、 \[T_2 – T_1 \sim \mathrm{Ex}(\lambda), \quad T_1 \perp\!\!\!\perp (T_2 – T_1)\] が得られた。これを繰り返すと、\(T_n-T_{n-1}\)についても同様の結果が得られる。 ◻
逆に、発生間隔が独立に指数分布に従う場合、一定時間に発生する回数はポアソン分布に従います。
Proposition 3. 非負整数全体を状態空間とする単調非減少な確率過程\(\{N(t)\}_{t\geq 0}\)に対し、 \[T_j=\inf\{t\geq 0\mid N(t)=j\}\] とおく。\(T_1, T_2 – T_1, T_3 – T_2, \dots\)が独立かつ同分布で\(\mathrm{Ex}(\lambda)\)に従うとすると、\(N(t)\sim \mathrm{Po}(\lambda t)\).
Proof. このとき、\(N(t)\) は時点 \(t\) までに発生したイベント数(すなわち、\(T_n \leq t\) を満たす \(n\) の個数)である: \[N(t) = \max\{n \in \mathbb{N}_0 \mid T_n \leq t\}\] ここで、\(T_n\)は指数分布\(\mathrm{Ex}(\lambda)\)に従う独立な確率変数の列の和であるため、アーラン分布に従う: \[T_n = \sum_{k=1}^{n} (T_k – T_{k-1}) \sim \Gamma(n, \lambda)\] すなわち、\(T_n\)の確率密度関数は以下で与えられる: \[f_{T_n}(s) = \frac{\lambda^n s^{n-1}}{(n-1)!} e^{-\lambda s}
\quad \text{for } s > 0\] これは\(n\)に関する帰納法で証明できるが、詳細は今回は省略する。
これを用いて\(N(t)\)が\(n\)である確率は次のように表される: \[P(N(t) = n) = P(T_n \leq t < T_{n+1}) = \int_0^t f_{T_n}(s) \cdot P(T_{n+1} – T_n > t – s) \, ds\] ここで、\(T_{n+1} – T_n \sim \mathrm{Ex}(\lambda)\) より、\(P(T_{n+1} – T_n > t – s) = e^{-\lambda (t – s)}\).
よって、 \[\begin{eqnarray*}
P(N(t) = n)
&= \int_0^t \frac{\lambda^n s^{n-1}}{(n-1)!} e^{-\lambda s} \cdot e^{-\lambda (t – s)} \, ds \\
&= e^{-\lambda t} \cdot \frac{\lambda^n}{(n – 1)!} \int_0^t s^{n-1} \, ds \\
&= e^{-\lambda t} \cdot \frac{\lambda^n t^n}{n!}.
\end{eqnarray*}\] したがって、 \[N(t) \sim \mathrm{Po}(\lambda t)\] が成り立つ。 ◻
つまり、前述の意味で偶発的な出来事について、単位時間当たりの発生回数はポアソン分布に従い、発生時間間隔は指数分布に従うということです。
3 無記憶性
任意の時点までの結果がそれ以降の結果の分布に影響を与えないことを無記憶性と言います。
実は無記憶性をもつ連続型確率分布は指数分布、無記憶性をもつ離散型確率分布は幾何分布に限られます。
Proposition 4. 任意の\(s,t>0\)に対して \[P(X>s+t\mid X>s)=P(X>t)\] が成り立つような正の実数に値をとる確率変数\(X\)は指数分布に従う。
Proof. 条件式を変形すると \[\begin{eqnarray*}
P(X>s+t)&=P(X>s+t,X>s)\\
&=P(X>s)P(X>s+t\mid X>s)=P(X>s)P(X>t).
\end{eqnarray*}\] \(p(t)=P(X>t)\)とおくと、\(s=1\)とした式を繰り返し適用することで、任意の自然数\(n,m\)に対し、 \[p(n)=p(1)p(n-1)=p(1)^2 p(n-2)=\cdots =p(1)^n.\] また、同様に\(s=1/m\)とした式から、 \[p(1)=p(m\cdot 1/m)=p(1/m)^m\quad \therefore p(1/m)=p(1)^{1/m},\] \[p(n/m)=p(1/m)^n=p(1)^{n/m}\] \(\alpha>0\)を任意の正の実数とする。\(q_n\to \alpha+\)なる有理数列\(q_n\)をとると、\(p\)の右連続性と指数関数の連続性より、 \[p(\alpha)=\lim_{n\to \infty}p(q_n)=\lim_{n\to \infty}p(1)^{q_n}=p(1)^{\alpha}.\] \(\lambda=-\log(p(1))\)とおくと、\(p(\alpha)=e^{-\lambda\alpha}\). \(\alpha\to +\infty\)としたときに\(p(\alpha)\to 0\)となるためには\(\lambda>0\)でなければならない。よって、\(X\)はパラメータ\(\lambda>0\)の指数分布に従う。 ◻
Proposition 5. 任意の自然数\(n,m\)に対して \[P(X>n+m\mid X>m)=P(X>n)\] が成り立つような\(\mathbb{N}\)値の確率変数\(X\)は幾何分布に従う。すなわち、ある\(p>1\)が存在して、 \[P(X=k)=(1-p)^{k-1}\quad (k=1,2,\ldots)\]
Proof. \(m=1\)とした式 \[P(X>n+1\mid X>1)=P(X>n)\] より、\(P(X>n+1)=P(X>1)P(X>n)\). これを反復適用すると、 \[P(X>n)=P(X>1)P(X>n-1)=P(X>1)^2 P(X>n-2)=\cdots =P(X>1)^n.\] よって、\(P(X>1)=1-p\)とおくと、 \[P(X=k)=P(X>k-1)-P(X>k)=(1-p)^{k-1}-(1-p)^{k}=(1-p)^{k-1} p.\] ◻
逆に、指数分布や幾何分布が無記憶性をもつことは直接計算により分かります。
幾何分布は指数分布と違って値が離散的なので、上の証明で\(m\)を無限に細かくするということはできません。\(m,n\)の取り得る値が離散的である一方、\(s,t\)が取り得る値が連続的であることから、指数分布と幾何分布の違いが生じます。
このように、単純な特性だけで分布の形が決まってしまうのは面白いですね。