混合ガウス分布の Expectation-Maximization (EM) アルゴリズムとは、尤度
$$ p(X|\pi, \mu, \lambda) = \prod_{n = 1}^N \sum_{k = 1}^K \pi_k \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) $$
をなるべく大きくするようなパラメータの組 $(\pi, \mu, \lambda)$ を計算するアルゴリズムである。 $N$ はデータ数、$K$ はクラス数である。 $\pi = [ \pi_1, \cdots, \pi_K ]$ は混合率、$\mu_k$, $\lambda_k$ は $k$ 番目のクラスの平均、精度(分散の逆数)をあらわす。

完全同時分布

モデルパラメータを探索する際、$k$ による和の微分の計算を避けるため、補助確率変数 $Z$ を導入する。
$$ p(X, Z|\pi, \mu, \lambda) = \prod_{n = 1}^N \prod_{k = 1}^K \left\{ \pi_k \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) \right\}^{z_{nk}} $$
完全同時分布から $Z$ を積分消去すると、もとの確率分布 $p(X|\pi, \mu, \lambda)$ に戻る。

$z_n$ は 1-hot ベクトルだから、特定の要素だけが 1 となるような $K$ 次元のベクトルである。 単位ベクトルの集合を $E = \{ e_1, \cdots, e_K \}$ とすると、
$$ \begin{align*} & \sum_Z p(X, Z|\pi, \mu, \lambda) \\ & = \sum_{z_1 \in E} \cdots \sum_{z_N \in E} p(X, Z|\pi, \mu, \lambda) \\ & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ p(X, Z|\pi, \mu, \lambda) \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} \\ & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ \prod_{n = 1}^N \prod_{k = 1}^K \left\{ \pi_k \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) \right\}^{z_{nk}} \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} \\ & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ \prod_{n = 1}^N \prod_{k = 1}^K \left\{ \pi_k \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) \right\}^{\delta_{kk_n}} \right] \\ & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ \prod_{n = 1}^N \pi_{k_n} \mathcal{N}(x_n | \mu_{k_n}, \lambda_{k_n}^{-1}) \right] \\ & = \sum_{k_1 = 1}^K \pi_{k_1} \mathcal{N}(x_1 | \mu_{k_1}, \lambda_{k_1}^{-1}) \cdots \sum_{k_N = 1}^K \pi_{k_N} \mathcal{N}(x_N | \mu_{k_N}, \lambda_{k_N}^{-1}) \\ & = \prod_{n = 1}^N \sum_{k_n = 1}^K \pi_{k_n} \mathcal{N}(x_n | \mu_{k_n}, \lambda_{k_n}^{-1}) \\ & = \prod_{n = 1}^N \sum_{k = 1}^K \pi_k \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) \\ & = p(X|\pi, \mu, \lambda) \end{align*} $$
$\delta_{ij}$ はクロネッカーのデルタとよばれる記号で、$i = j$ のときだけ 1 となる定数である。 $\sum_Z$ は $Z = \{ z_1, \cdots, z_N \}$ のすべての組み合わせについて和をとるという意味である。 項の右下に添えられた注釈は代入をあらわす。 $z_n = e_{k_n}$ は $z_{nk} = \delta_{kk_n}$ と同値である。

上式の最後で、単独であらわれる $\sum_{k_n}$ は for kn: の意味だから、記号を変えて $\sum_k$ (for k:) としてよい。

尤度の下限

次に、尤度の対数 $\ln p(X|\pi, \mu, \lambda)$ と同じ値をとり、より微分が簡単な表現を導出する。 この値は尤度の下限と呼ばれている。 本文では $L$ であらわす。

パラメータ $\gamma$ であらわされる補助分布 $q(Z)$ を
$$ \begin{align*} q(Z) = \prod_{n = 1}^N \prod_{k = 1}^K \gamma_{nk}^{z_{nk}} \end{align*} $$
とする。 また、$L$ を以下のように定義する。
$$ \begin{align*} L & = \sum_Z q(Z) \ln \frac{p(X, Z|\pi, \mu, \lambda)}{q(Z)} \\ & = \sum_Z q(Z) \ln p(X, Z|\pi, \mu, \lambda) - \sum_Z q(Z) \ln q(Z) \\ & = L_1 - L_2 \end{align*} $$

$\sum_Z$ は取り扱いが難しいため、すべて展開する。
$$ \begin{align*} L_1 & = \sum_Z q(Z) \ln p(X, Z|\pi, \mu, \lambda) \\ & = \sum_{z_1 \in E} \cdots \sum_{z_N \in E} q(Z) \ln p(X, Z|\pi, \mu, \lambda) \\ & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ q(Z) \ln p(X, Z|\pi, \mu, \lambda) \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} \\ \end{align*} $$
ここで、
$$ \begin{align*} \left[ q(Z) \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} & = \left[ \prod_{n = 1}^N \prod_{k = 1}^K \gamma_{nk}^{z_{nk}} \right] _{\{ z_n = e_{k_n} \}_{n = 1}^N} \\ & = \prod_{n = 1}^N \gamma_{nk_n} \end{align*} $$
$$ \begin{align*} & \left[ \ln p(X, Z|\pi, \mu, \lambda) \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} \\ & = \left[ \sum_{n = 1}^N \sum_{k = 1}^K z_{nk} \left\{ \ln \pi_k + \ln \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) \right\} \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} \\ & = \sum_{n = 1}^N \left\{ \ln \pi_{k_n} + \ln \mathcal{N}(x_n | \mu_{k_n}, \lambda_{k_n}^{-1}) \right\} \end{align*} $$
だから、
$$ \begin{align*} L_1 & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ \prod_{n = 1}^N \gamma_{nk_n} \right] \left[ \sum_{m = 1}^N \left\{ \ln \pi_{k_m} + \ln \mathcal{N}(x_m | \mu_{k_m}, \lambda_{k_m}^{-1}) \right\} \right] \end{align*} $$
となる。

次に、$L_2$ を計算する。
$$ \begin{align*} \left[ \ln q(Z) \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} & = \left[ \sum_{n = 1}^N \sum_{k = 1}^K z_{nk} \ln \gamma_{nk} \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} \\ & = \sum_{n = 1}^N \ln \gamma_{nk_n} \end{align*} $$
だから、
$$ \begin{align*} L_2 & = \sum_Z q(Z) \ln q(Z) \\ & = \sum_{z_1 \in E} \cdots \sum_{z_N \in E} q(Z) \ln q(Z) \\ & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ q(Z) \ln q(Z) \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} \\ & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ \prod_{n = 1}^N \gamma_{nk_n} \right] \left[ \sum_{m = 1}^N \ln \gamma_{mk_m} \right] \end{align*} $$
である。したがって、
$$ \begin{align*} L & = L_1 - L_2 \\ & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ \prod_{n = 1}^N \gamma_{nk_n} \right] \left[ \sum_{m = 1}^N \left\{ \ln \pi_{k_m} + \ln \mathcal{N}(x_m | \mu_{k_m}, \lambda_{k_m}^{-1}) - \ln \gamma_{mk_m} \right\} \right] \end{align*} $$
となる。

特に、すべての $n$ について
$$ \begin{align*} \sum_{k = 1}^K \gamma_{nk} = 1 \end{align*} $$
がなりたつとき、
$$ \begin{align*} L & = \sum_{m = 1}^N \left[ \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ \prod_{n = 1}^N \gamma_{nk_n} \right] \left\{ \ln \pi_{k_m} + \ln \mathcal{N}(x_m | \mu_{k_m}, \lambda_{k_m}^{-1}) - \ln \gamma_{mk_m} \right\} \right] \\ & = \sum_{m = 1}^M \left[ \sum_{k_1 = 1}^K \gamma_{1k_1} \cdots \sum_{k_N = 1}^K \gamma_{Nk_N} \left\{ \ln \pi_{k_m} + \ln \mathcal{N}(x_m | \mu_{k_m}, \lambda_{k_m}^{-1}) - \ln \gamma_{mk_m} \right\} \right] \\ & = \sum_{m = 1}^N \sum_{k_m = 1}^K \gamma_{mk_m} \left\{ \ln \pi_{k_m} + \ln \mathcal{N}(x_m | \mu_{k_m}, \lambda_{k_m}^{-1}) - \ln \gamma_{mk_m} \right\} \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \left\{ \ln \pi_k + \ln \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) - \ln \gamma_{nk} \right\} \end{align*} $$
である。

E-ステップ(負担率の計算)

$L$ と $\ln p(X|\pi, \mu, \lambda)$ はことなる式なので、一般に $L \neq \ln p(X|\pi, \mu, \lambda)$ である。 ところが
$$ \begin{align*} \gamma_{nk} = \frac{\pi_k \mathcal{N}(x_n | \mu_k, \lambda_k^{-1})}{\sum_{j = 1}^K \pi_j \mathcal{N}(x_n | \mu_j, \lambda_j^{-1})} \end{align*} $$
を代入すると、
$$ \begin{align*} L & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \left\{ \ln \pi_k + \ln \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) - \ln \gamma_{nk} \right\} \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \ln \left\{ \sum_{j = 1}^K \pi_j \mathcal{N}(x_n | \mu_j, \lambda_j^{-1}) \right\} \\ & = \sum_{n = 1}^N \ln \left\{ \sum_{j = 1}^K \pi_j \mathcal{N}(x_n | \mu_j, \lambda_j^{-1}) \right\} \\ & = \sum_{n = 1}^N \ln \left\{ \sum_{k = 1}^K \pi_k \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) \right\} \\ & = \ln p(X | \pi, \mu, \lambda) \end{align*} $$
となり、$\ln p(X | \pi, \mu, \lambda)$ に一致する。 $\gamma_{nk}$ は負担率 (responsibility) と呼ばれており、観測値 $X$ とパラメータ $(\pi, \mu, \lambda)$ から $\gamma_{nk}$ をすべて計算することを E-ステップ という。

M-ステップ(パラメータの更新)

M-ステップ の目標は、
$$ \begin{align*} \ln p(X|\pi, \mu, \lambda) < L(\pi^\ast, \mu^\ast, \lambda^\ast, \gamma) \end{align*} $$
となるような新しいパラメータの組 $(\pi^\ast, \mu^\ast, \lambda^\ast)$ を計算することである。 またこのとき、
$$ \begin{align*} L(\pi^\ast, \mu^\ast, \lambda^\ast, \gamma) < \ln p(X|\pi^\ast, \mu^\ast, \lambda^\ast) \end{align*} $$
となることが証明できる。

$L$ を $\mu_j$ で微分すると、
$$ \begin{align*} \frac{\partial L}{\partial \mu_j} & = \frac{\partial}{\partial \mu_j} \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \left\{ \ln \pi_k + \ln \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) - \ln \gamma_{nk} \right\} \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \frac{\partial}{\partial \mu_j} \ln \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \frac{\partial}{\partial \mu_j} \ln \left[ \left( \frac{\lambda_k}{2 \pi} \right)^{\frac{1}{2}} \exp \left\{ - \frac{\lambda_k}{2} (x_n - \mu_k)^2 \right\} \right] \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \frac{\partial}{\partial \mu_j} \left\{ - \frac{\lambda_k}{2} (x_n - \mu_k)^2 \right\} \\ & = - \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \delta_{jk} \lambda_k (\mu_k - x_n) \\ & = - \sum_{n = 1}^N \gamma_{nj} \lambda_j (\mu_j - x_n) \end{align*} $$
したがって、$\partial_{\mu_j} L = 0$ となるのは
$$ \begin{align*} \mu_j = \frac{\sum_{n = 1}^N \gamma_{nj} x_n}{\sum_{n = 1}^N \gamma_{nj}} \end{align*} $$
のときである。 また、
$$ \begin{align*} \frac{\partial^2 L}{\partial \mu_j^2} = - \sum_{n = 1}^N \gamma_{nj} \lambda_j < 0 \end{align*} $$
だから、このとき $L$ は $\mu_j$ に関して最大である。 この値を $\mu_j^\ast$ とする。

つぎに、$L$ を $\lambda_j$ で微分すると、
$$ \begin{align*} \frac{\partial L}{\partial \lambda_j} & = \frac{\partial}{\partial \lambda_j} \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \left\{ \ln \pi_k + \ln \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) - \ln \gamma_{nk} \right\} \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \frac{\partial}{\partial \lambda_j} \left\{ \frac{1}{2} \ln \lambda_k - \frac{\lambda_k}{2} (x_n - \mu_k)^2 \right\} \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \delta_{jk} \left\{ \frac{1}{2 \lambda_k} - \frac{1}{2} (x_n - \mu_k)^2 \right\} \\ & = \sum_{n = 1}^N \gamma_{nj} \left\{ \frac{1}{2 \lambda_j} - \frac{1}{2} (x_n - \mu_j)^2 \right\} \end{align*} $$
したがって、$\partial_{\lambda_j} L = 0$ となるのは
$$ \begin{align*} \frac{1}{\lambda_j} = \frac{\sum_{n = 1}^N \gamma_{nj} (x_n - \mu_j)^2}{\sum_{n = 1}^N \gamma_{nj}} \end{align*} $$
のときである。
$$ \begin{align*} \frac{\partial^2 L}{\partial \lambda_j^2} = - \frac{\sum_{n = 1}^N \gamma_{nj}}{2 \lambda_j^2} < 0 \end{align*} $$
だから、このとき $L$ は $\lambda_j$ に関して最大である。特に、
$$ \begin{align*} \frac{1}{\lambda_j^\ast} = \frac{\sum_{n = 1}^N \gamma_{nj} (x_n - \mu_j^\ast)^2}{\sum_{n = 1}^N \gamma_{nj}} \end{align*} $$
となるように $\lambda_j^\ast$ をえらぶと、$L$ を $\mu_j$, $\lambda_j$ に関して同時に最大化することができる。

クラス混合率の更新

$L$ を $\sum_{k = 1}^K \pi_k = 1$ という制約条件のもとで最大化するため、ラグランジュの未定乗数法を使う。 未定乗数法は停留点、すなわち関数の極大・極小・鞍点をすべて導出するための方程式である。
$$ \begin{align*} \Phi & = \sum_{k = 1}^K \pi_k - 1 \\ L' & = L + \alpha \Phi \end{align*} $$
とすると、$L'$ の $\pi_j$ による微分は
$$ \begin{align*} \frac{\partial L'}{\partial \pi_j} & = \frac{\partial}{\partial \pi_j} \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \left\{ \ln \pi_k + \ln \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) - \ln \gamma_{nk} \right\} + \alpha \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \frac{\partial}{\partial \pi_j} \ln \pi_k + \alpha \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \delta_{jk} \frac{1}{\pi_k} + \alpha \\ & = \frac{1}{\pi_j} \sum_{n = 1}^N \gamma_{nj} + \alpha \end{align*} $$
である。 停留点では、すべての $j$ について
$$ \begin{align*} \frac{\partial L'}{\partial \pi_j} = 0 \end{align*} $$
が成り立つから、
$$ \begin{align*} \sum_{j = 1}^K \pi_j \frac{\partial L'}{\partial \pi_j} = N + \alpha = 0 \end{align*} $$
である。 この式から、未定乗数 $\alpha = -N$ が求まる。

以上より、$L$ の停留点は
$$ \begin{align*} \pi^\ast = \left( \frac{\sum_{n = 1}^N \gamma_{n1}}{N}, \cdots, \frac{\sum_{n = 1}^N \gamma_{nK}}{N} \right) \end{align*} $$
の一点だけである。

つぎに、$L$ が $\pi^\ast$ で最大となることを証明する。任意の $\pi$ について
$$ \begin{align*} & L(\pi^\ast, \mu, \lambda, \gamma) - L(\pi, \mu, \lambda, \gamma) \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \{ \ln \pi_k^\ast - \ln \pi_k \} \\ & = N \sum_{k = 1}^K \frac{\sum_{n = 1}^N \gamma_{nk}}{N} \{ \ln \pi_k^\ast - \ln \pi_k \} \\ & = N \sum_{k = 1}^K \pi_k^\ast \ln \frac{\pi_k^\ast}{\pi_k} \end{align*} $$
であり、この式は Kullback-Leibler ダイバージェンスと同じ形だから常に 0 以上である。 したがって、実際に $L$ は $\pi^\ast$ で最大となる。

以上のすべての議論より、$(\pi^\ast, \mu^\ast, \lambda^\ast) \neq (\pi, \mu, \lambda)$ であれば
$$ \begin{align*} \ln p(X|\pi, \mu, \lambda) < L(\pi^\ast, \mu^\ast, \lambda^\ast, \gamma) \end{align*} $$
となる。

尤度の評価

更新されたパラメータ $(\pi^\ast, \mu^\ast, \lambda^\ast)$ が実際に尤度を上昇させることを証明する。
$$ \begin{align*} \gamma_{nk}^\ast = \frac{\pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1}))}{\sum_{j = 1}^K \pi_j^\ast \mathcal{N}(x_n | \mu_j^\ast, {\lambda_j^\ast}^{-1}))} \end{align*} $$
とおくと、
$$ \begin{align*} & \ln p(X | \pi^\ast, \mu^\ast, \lambda^\ast) - L(\pi^\ast, \mu^\ast, \lambda^\ast, \gamma) \\ & = \sum_{n = 1}^N \ln \left\{ \sum_{k = 1}^K \pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1}) \right\} - \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \left\{ \ln \pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1}) - \ln \gamma_{nk} \right\} \\ & = \sum_{n = 1}^N \left[ \ln \left\{ \sum_{k = 1}^K \pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1}) \right\} - \sum_{k = 1}^K \gamma_{nk} \left\{ \ln \pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1}) - \ln \gamma_{nk} \right\} \right] \\ & = \sum_{n = 1}^N \left[ \ln \left\{ \sum_{j = 1}^K \pi_j^\ast \mathcal{N}(x_n | \mu_j^\ast, {\lambda_j^\ast}^{-1}) \right\} + \sum_{k = 1}^K \gamma_{nk} \ln \frac{\gamma_{nk}}{\pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1})} \right] \\ & = \sum_{n = 1}^N \left[ \sum_{k = 1}^K \gamma_{nk} \ln \left\{ \sum_{j = 1}^K \pi_j^\ast \mathcal{N}(x_n | \mu_j^\ast, {\lambda_j^\ast}^{-1}) \right\} + \sum_{k = 1}^K \gamma_{nk} \ln \frac{\gamma_{nk}}{\pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1})} \right] \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \left[ \ln \left\{ \sum_{j = 1}^K \pi_j^\ast \mathcal{N}(x_n | \mu_j^\ast, {\lambda_j^\ast}^{-1}) \right\} + \ln \frac{\gamma_{nk}}{\pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1})} \right] \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \ln \frac{\gamma_{nk} \sum_{j = 1}^K \pi_j^\ast \mathcal{N}(x_n | \mu_j^\ast, {\lambda_j^\ast}^{-1})}{\pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1})} \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \ln \frac{\gamma_{nk}}{\gamma_{nk}^\ast} \end{align*} $$
である。この式もまた Kullback-Leibler ダイバージェンスと同じ形になるから、
$$ \begin{align*} L(\pi^\ast, \mu^\ast, \lambda^\ast, \gamma) \leq \ln p(X | \pi^\ast, \mu^\ast, \lambda^\ast) \end{align*} $$
である。特に、$(\pi^\ast, \mu^\ast, \lambda^\ast) \neq (\pi, \mu, \lambda)$ の場合には不等号が成立する。

上記の E-ステップ と M-ステップ を組み合わせることで、尤度を次々と増加させる点列 $(\pi^{(i)}, \mu^{(i)}, \lambda^{(i)})$ を計算することができる。 尤度の数列 $p(X | \pi^{(i)}, \mu^{(i)}, \lambda^{(i)})$ が一定の値に収束するとき、
$$ \begin{align*} \lim_{i \rightarrow \infty} (\pi^{(i)}, \mu^{(i)}, \lambda^{(i)}) \end{align*} $$
を EM アルゴリズムの局所解という。 初期値によって $p(X | \pi^{(i)}, \mu^{(i)}, \lambda^{(i)})$ は発散することがあり、この場合には無意味な解が得られる。 混合ガウス分布では $2 \leq K$ の場合、必ずこのような初期値が存在する。 探索空間の正則性については渡辺澄夫氏の著作に詳しい記述がある。

参考資料