混合ガウス分布の Expectation-Maximization (EM) アルゴリズムとは、尤度
$$ p(X|\pi, \mu, \lambda) = \prod_{n = 1}^N \sum_{k = 1}^K \pi_k \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) $$
をなるべく大きくするようなパラメータの組 $(\pi, \mu, \lambda)$ を計算するアルゴリズムである。 $N$ はデータ数、$K$ はクラス数である。 $\pi = [ \pi_1, \cdots, \pi_K ]$ は混合率、$\mu_k$, $\lambda_k$ は $k$ 番目のクラスの平均、精度(分散の逆数)をあらわす。
完全同時分布
モデルパラメータを探索する際、$k$ による和の微分の計算を避けるため、補助確率変数 $Z$ を導入する。
$$ p(X, Z|\pi, \mu, \lambda) = \prod_{n = 1}^N \prod_{k = 1}^K \left\{ \pi_k \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) \right\}^{z_{nk}} $$
完全同時分布から $Z$ を積分消去すると、もとの確率分布 $p(X|\pi, \mu, \lambda)$ に戻る。
$z_n$ は 1-hot ベクトルだから、特定の要素だけが 1 となるような $K$ 次元のベクトルである。 単位ベクトルの集合を $E = \{ e_1, \cdots, e_K \}$ とすると、
$$ \begin{align*} & \sum_Z p(X, Z|\pi, \mu, \lambda) \\ & = \sum_{z_1 \in E} \cdots \sum_{z_N \in E} p(X, Z|\pi, \mu, \lambda) \\ & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ p(X, Z|\pi, \mu, \lambda) \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} \\ & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ \prod_{n = 1}^N \prod_{k = 1}^K \left\{ \pi_k \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) \right\}^{z_{nk}} \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} \\ & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ \prod_{n = 1}^N \prod_{k = 1}^K \left\{ \pi_k \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) \right\}^{\delta_{kk_n}} \right] \\ & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ \prod_{n = 1}^N \pi_{k_n} \mathcal{N}(x_n | \mu_{k_n}, \lambda_{k_n}^{-1}) \right] \\ & = \sum_{k_1 = 1}^K \pi_{k_1} \mathcal{N}(x_1 | \mu_{k_1}, \lambda_{k_1}^{-1}) \cdots \sum_{k_N = 1}^K \pi_{k_N} \mathcal{N}(x_N | \mu_{k_N}, \lambda_{k_N}^{-1}) \\ & = \prod_{n = 1}^N \sum_{k_n = 1}^K \pi_{k_n} \mathcal{N}(x_n | \mu_{k_n}, \lambda_{k_n}^{-1}) \\ & = \prod_{n = 1}^N \sum_{k = 1}^K \pi_k \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) \\ & = p(X|\pi, \mu, \lambda) \end{align*} $$
$\delta_{ij}$ はクロネッカーのデルタとよばれる記号で、$i = j$ のときだけ 1 となる定数である。 $\sum_Z$ は $Z = \{ z_1, \cdots, z_N \}$ のすべての組み合わせについて和をとるという意味である。 項の右下に添えられた注釈は代入をあらわす。 $z_n = e_{k_n}$ は $z_{nk} = \delta_{kk_n}$ と同値である。
上式の最後で、単独であらわれる $\sum_{k_n}$ は for kn:
の意味だから、記号を変えて $\sum_k$ (for k:
) としてよい。
尤度の下限
次に、尤度の対数 $\ln p(X|\pi, \mu, \lambda)$ と同じ値をとり、より微分が簡単な表現を導出する。 この値は尤度の下限と呼ばれている。 本文では $L$ であらわす。
パラメータ $\gamma$ であらわされる補助分布 $q(Z)$ を
$$ \begin{align*} q(Z) = \prod_{n = 1}^N \prod_{k = 1}^K \gamma_{nk}^{z_{nk}} \end{align*} $$
とする。 また、$L$ を以下のように定義する。
$$ \begin{align*} L & = \sum_Z q(Z) \ln \frac{p(X, Z|\pi, \mu, \lambda)}{q(Z)} \\ & = \sum_Z q(Z) \ln p(X, Z|\pi, \mu, \lambda) - \sum_Z q(Z) \ln q(Z) \\ & = L_1 - L_2 \end{align*} $$
$\sum_Z$ は取り扱いが難しいため、すべて展開する。
$$ \begin{align*} L_1 & = \sum_Z q(Z) \ln p(X, Z|\pi, \mu, \lambda) \\ & = \sum_{z_1 \in E} \cdots \sum_{z_N \in E} q(Z) \ln p(X, Z|\pi, \mu, \lambda) \\ & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ q(Z) \ln p(X, Z|\pi, \mu, \lambda) \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} \\ \end{align*} $$
ここで、
$$ \begin{align*} \left[ q(Z) \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} & = \left[ \prod_{n = 1}^N \prod_{k = 1}^K \gamma_{nk}^{z_{nk}} \right] _{\{ z_n = e_{k_n} \}_{n = 1}^N} \\ & = \prod_{n = 1}^N \gamma_{nk_n} \end{align*} $$
$$ \begin{align*} & \left[ \ln p(X, Z|\pi, \mu, \lambda) \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} \\ & = \left[ \sum_{n = 1}^N \sum_{k = 1}^K z_{nk} \left\{ \ln \pi_k + \ln \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) \right\} \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} \\ & = \sum_{n = 1}^N \left\{ \ln \pi_{k_n} + \ln \mathcal{N}(x_n | \mu_{k_n}, \lambda_{k_n}^{-1}) \right\} \end{align*} $$
だから、
$$ \begin{align*} L_1 & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ \prod_{n = 1}^N \gamma_{nk_n} \right] \left[ \sum_{m = 1}^N \left\{ \ln \pi_{k_m} + \ln \mathcal{N}(x_m | \mu_{k_m}, \lambda_{k_m}^{-1}) \right\} \right] \end{align*} $$
となる。
次に、$L_2$ を計算する。
$$ \begin{align*} \left[ \ln q(Z) \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} & = \left[ \sum_{n = 1}^N \sum_{k = 1}^K z_{nk} \ln \gamma_{nk} \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} \\ & = \sum_{n = 1}^N \ln \gamma_{nk_n} \end{align*} $$
だから、
$$ \begin{align*} L_2 & = \sum_Z q(Z) \ln q(Z) \\ & = \sum_{z_1 \in E} \cdots \sum_{z_N \in E} q(Z) \ln q(Z) \\ & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ q(Z) \ln q(Z) \right]_{\{ z_n = e_{k_n} \}_{n = 1}^N} \\ & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ \prod_{n = 1}^N \gamma_{nk_n} \right] \left[ \sum_{m = 1}^N \ln \gamma_{mk_m} \right] \end{align*} $$
である。したがって、
$$ \begin{align*} L & = L_1 - L_2 \\ & = \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ \prod_{n = 1}^N \gamma_{nk_n} \right] \left[ \sum_{m = 1}^N \left\{ \ln \pi_{k_m} + \ln \mathcal{N}(x_m | \mu_{k_m}, \lambda_{k_m}^{-1}) - \ln \gamma_{mk_m} \right\} \right] \end{align*} $$
となる。
特に、すべての $n$ について
$$ \begin{align*} \sum_{k = 1}^K \gamma_{nk} = 1 \end{align*} $$
がなりたつとき、
$$ \begin{align*} L & = \sum_{m = 1}^N \left[ \sum_{k_1 = 1}^K \cdots \sum_{k_N = 1}^K \left[ \prod_{n = 1}^N \gamma_{nk_n} \right] \left\{ \ln \pi_{k_m} + \ln \mathcal{N}(x_m | \mu_{k_m}, \lambda_{k_m}^{-1}) - \ln \gamma_{mk_m} \right\} \right] \\ & = \sum_{m = 1}^M \left[ \sum_{k_1 = 1}^K \gamma_{1k_1} \cdots \sum_{k_N = 1}^K \gamma_{Nk_N} \left\{ \ln \pi_{k_m} + \ln \mathcal{N}(x_m | \mu_{k_m}, \lambda_{k_m}^{-1}) - \ln \gamma_{mk_m} \right\} \right] \\ & = \sum_{m = 1}^N \sum_{k_m = 1}^K \gamma_{mk_m} \left\{ \ln \pi_{k_m} + \ln \mathcal{N}(x_m | \mu_{k_m}, \lambda_{k_m}^{-1}) - \ln \gamma_{mk_m} \right\} \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \left\{ \ln \pi_k + \ln \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) - \ln \gamma_{nk} \right\} \end{align*} $$
である。
E-ステップ(負担率の計算)
$L$ と $\ln p(X|\pi, \mu, \lambda)$ はことなる式なので、一般に $L \neq \ln p(X|\pi, \mu, \lambda)$ である。 ところが
$$ \begin{align*} \gamma_{nk} = \frac{\pi_k \mathcal{N}(x_n | \mu_k, \lambda_k^{-1})}{\sum_{j = 1}^K \pi_j \mathcal{N}(x_n | \mu_j, \lambda_j^{-1})} \end{align*} $$
を代入すると、
$$ \begin{align*} L & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \left\{ \ln \pi_k + \ln \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) - \ln \gamma_{nk} \right\} \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \ln \left\{ \sum_{j = 1}^K \pi_j \mathcal{N}(x_n | \mu_j, \lambda_j^{-1}) \right\} \\ & = \sum_{n = 1}^N \ln \left\{ \sum_{j = 1}^K \pi_j \mathcal{N}(x_n | \mu_j, \lambda_j^{-1}) \right\} \\ & = \sum_{n = 1}^N \ln \left\{ \sum_{k = 1}^K \pi_k \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) \right\} \\ & = \ln p(X | \pi, \mu, \lambda) \end{align*} $$
となり、$\ln p(X | \pi, \mu, \lambda)$ に一致する。 $\gamma_{nk}$ は負担率 (responsibility) と呼ばれており、観測値 $X$ とパラメータ $(\pi, \mu, \lambda)$ から $\gamma_{nk}$ をすべて計算することを E-ステップ という。
M-ステップ(パラメータの更新)
M-ステップ の目標は、
$$ \begin{align*} \ln p(X|\pi, \mu, \lambda) < L(\pi^\ast, \mu^\ast, \lambda^\ast, \gamma) \end{align*} $$
となるような新しいパラメータの組 $(\pi^\ast, \mu^\ast, \lambda^\ast)$ を計算することである。 またこのとき、
$$ \begin{align*} L(\pi^\ast, \mu^\ast, \lambda^\ast, \gamma) < \ln p(X|\pi^\ast, \mu^\ast, \lambda^\ast) \end{align*} $$
となることが証明できる。
$L$ を $\mu_j$ で微分すると、
$$ \begin{align*} \frac{\partial L}{\partial \mu_j} & = \frac{\partial}{\partial \mu_j} \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \left\{ \ln \pi_k + \ln \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) - \ln \gamma_{nk} \right\} \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \frac{\partial}{\partial \mu_j} \ln \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \frac{\partial}{\partial \mu_j} \ln \left[ \left( \frac{\lambda_k}{2 \pi} \right)^{\frac{1}{2}} \exp \left\{ - \frac{\lambda_k}{2} (x_n - \mu_k)^2 \right\} \right] \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \frac{\partial}{\partial \mu_j} \left\{ - \frac{\lambda_k}{2} (x_n - \mu_k)^2 \right\} \\ & = - \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \delta_{jk} \lambda_k (\mu_k - x_n) \\ & = - \sum_{n = 1}^N \gamma_{nj} \lambda_j (\mu_j - x_n) \end{align*} $$
したがって、$\partial_{\mu_j} L = 0$ となるのは
$$ \begin{align*} \mu_j = \frac{\sum_{n = 1}^N \gamma_{nj} x_n}{\sum_{n = 1}^N \gamma_{nj}} \end{align*} $$
のときである。 また、
$$ \begin{align*} \frac{\partial^2 L}{\partial \mu_j^2} = - \sum_{n = 1}^N \gamma_{nj} \lambda_j < 0 \end{align*} $$
だから、このとき $L$ は $\mu_j$ に関して最大である。 この値を $\mu_j^\ast$ とする。
つぎに、$L$ を $\lambda_j$ で微分すると、
$$ \begin{align*} \frac{\partial L}{\partial \lambda_j} & = \frac{\partial}{\partial \lambda_j} \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \left\{ \ln \pi_k + \ln \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) - \ln \gamma_{nk} \right\} \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \frac{\partial}{\partial \lambda_j} \left\{ \frac{1}{2} \ln \lambda_k - \frac{\lambda_k}{2} (x_n - \mu_k)^2 \right\} \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \delta_{jk} \left\{ \frac{1}{2 \lambda_k} - \frac{1}{2} (x_n - \mu_k)^2 \right\} \\ & = \sum_{n = 1}^N \gamma_{nj} \left\{ \frac{1}{2 \lambda_j} - \frac{1}{2} (x_n - \mu_j)^2 \right\} \end{align*} $$
したがって、$\partial_{\lambda_j} L = 0$ となるのは
$$ \begin{align*} \frac{1}{\lambda_j} = \frac{\sum_{n = 1}^N \gamma_{nj} (x_n - \mu_j)^2}{\sum_{n = 1}^N \gamma_{nj}} \end{align*} $$
のときである。
$$ \begin{align*} \frac{\partial^2 L}{\partial \lambda_j^2} = - \frac{\sum_{n = 1}^N \gamma_{nj}}{2 \lambda_j^2} < 0 \end{align*} $$
だから、このとき $L$ は $\lambda_j$ に関して最大である。特に、
$$ \begin{align*} \frac{1}{\lambda_j^\ast} = \frac{\sum_{n = 1}^N \gamma_{nj} (x_n - \mu_j^\ast)^2}{\sum_{n = 1}^N \gamma_{nj}} \end{align*} $$
となるように $\lambda_j^\ast$ をえらぶと、$L$ を $\mu_j$, $\lambda_j$ に関して同時に最大化することができる。
クラス混合率の更新
$L$ を $\sum_{k = 1}^K \pi_k = 1$ という制約条件のもとで最大化するため、ラグランジュの未定乗数法を使う。 未定乗数法は停留点、すなわち関数の極大・極小・鞍点をすべて導出するための方程式である。
$$ \begin{align*} \Phi & = \sum_{k = 1}^K \pi_k - 1 \\ L' & = L + \alpha \Phi \end{align*} $$
とすると、$L'$ の $\pi_j$ による微分は
$$ \begin{align*} \frac{\partial L'}{\partial \pi_j} & = \frac{\partial}{\partial \pi_j} \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \left\{ \ln \pi_k + \ln \mathcal{N}(x_n | \mu_k, \lambda_k^{-1}) - \ln \gamma_{nk} \right\} + \alpha \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \frac{\partial}{\partial \pi_j} \ln \pi_k + \alpha \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \delta_{jk} \frac{1}{\pi_k} + \alpha \\ & = \frac{1}{\pi_j} \sum_{n = 1}^N \gamma_{nj} + \alpha \end{align*} $$
である。 停留点では、すべての $j$ について
$$ \begin{align*} \frac{\partial L'}{\partial \pi_j} = 0 \end{align*} $$
が成り立つから、
$$ \begin{align*} \sum_{j = 1}^K \pi_j \frac{\partial L'}{\partial \pi_j} = N + \alpha = 0 \end{align*} $$
である。 この式から、未定乗数 $\alpha = -N$ が求まる。
以上より、$L$ の停留点は
$$ \begin{align*} \pi^\ast = \left( \frac{\sum_{n = 1}^N \gamma_{n1}}{N}, \cdots, \frac{\sum_{n = 1}^N \gamma_{nK}}{N} \right) \end{align*} $$
の一点だけである。
つぎに、$L$ が $\pi^\ast$ で最大となることを証明する。任意の $\pi$ について
$$ \begin{align*} & L(\pi^\ast, \mu, \lambda, \gamma) - L(\pi, \mu, \lambda, \gamma) \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \{ \ln \pi_k^\ast - \ln \pi_k \} \\ & = N \sum_{k = 1}^K \frac{\sum_{n = 1}^N \gamma_{nk}}{N} \{ \ln \pi_k^\ast - \ln \pi_k \} \\ & = N \sum_{k = 1}^K \pi_k^\ast \ln \frac{\pi_k^\ast}{\pi_k} \end{align*} $$
であり、この式は Kullback-Leibler ダイバージェンスと同じ形だから常に 0 以上である。 したがって、実際に $L$ は $\pi^\ast$ で最大となる。
以上のすべての議論より、$(\pi^\ast, \mu^\ast, \lambda^\ast) \neq (\pi, \mu, \lambda)$ であれば
$$ \begin{align*} \ln p(X|\pi, \mu, \lambda) < L(\pi^\ast, \mu^\ast, \lambda^\ast, \gamma) \end{align*} $$
となる。
尤度の評価
更新されたパラメータ $(\pi^\ast, \mu^\ast, \lambda^\ast)$ が実際に尤度を上昇させることを証明する。
$$ \begin{align*} \gamma_{nk}^\ast = \frac{\pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1}))}{\sum_{j = 1}^K \pi_j^\ast \mathcal{N}(x_n | \mu_j^\ast, {\lambda_j^\ast}^{-1}))} \end{align*} $$
とおくと、
$$ \begin{align*} & \ln p(X | \pi^\ast, \mu^\ast, \lambda^\ast) - L(\pi^\ast, \mu^\ast, \lambda^\ast, \gamma) \\ & = \sum_{n = 1}^N \ln \left\{ \sum_{k = 1}^K \pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1}) \right\} - \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \left\{ \ln \pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1}) - \ln \gamma_{nk} \right\} \\ & = \sum_{n = 1}^N \left[ \ln \left\{ \sum_{k = 1}^K \pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1}) \right\} - \sum_{k = 1}^K \gamma_{nk} \left\{ \ln \pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1}) - \ln \gamma_{nk} \right\} \right] \\ & = \sum_{n = 1}^N \left[ \ln \left\{ \sum_{j = 1}^K \pi_j^\ast \mathcal{N}(x_n | \mu_j^\ast, {\lambda_j^\ast}^{-1}) \right\} + \sum_{k = 1}^K \gamma_{nk} \ln \frac{\gamma_{nk}}{\pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1})} \right] \\ & = \sum_{n = 1}^N \left[ \sum_{k = 1}^K \gamma_{nk} \ln \left\{ \sum_{j = 1}^K \pi_j^\ast \mathcal{N}(x_n | \mu_j^\ast, {\lambda_j^\ast}^{-1}) \right\} + \sum_{k = 1}^K \gamma_{nk} \ln \frac{\gamma_{nk}}{\pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1})} \right] \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \left[ \ln \left\{ \sum_{j = 1}^K \pi_j^\ast \mathcal{N}(x_n | \mu_j^\ast, {\lambda_j^\ast}^{-1}) \right\} + \ln \frac{\gamma_{nk}}{\pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1})} \right] \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \ln \frac{\gamma_{nk} \sum_{j = 1}^K \pi_j^\ast \mathcal{N}(x_n | \mu_j^\ast, {\lambda_j^\ast}^{-1})}{\pi_k^\ast \mathcal{N}(x_n | \mu_k^\ast, {\lambda_k^\ast}^{-1})} \\ & = \sum_{n = 1}^N \sum_{k = 1}^K \gamma_{nk} \ln \frac{\gamma_{nk}}{\gamma_{nk}^\ast} \end{align*} $$
である。この式もまた Kullback-Leibler ダイバージェンスと同じ形になるから、
$$ \begin{align*} L(\pi^\ast, \mu^\ast, \lambda^\ast, \gamma) \leq \ln p(X | \pi^\ast, \mu^\ast, \lambda^\ast) \end{align*} $$
である。特に、$(\pi^\ast, \mu^\ast, \lambda^\ast) \neq (\pi, \mu, \lambda)$ の場合には不等号が成立する。
上記の E-ステップ と M-ステップ を組み合わせることで、尤度を次々と増加させる点列 $(\pi^{(i)}, \mu^{(i)}, \lambda^{(i)})$ を計算することができる。 尤度の数列 $p(X | \pi^{(i)}, \mu^{(i)}, \lambda^{(i)})$ が一定の値に収束するとき、
$$ \begin{align*} \lim_{i \rightarrow \infty} (\pi^{(i)}, \mu^{(i)}, \lambda^{(i)}) \end{align*} $$
を EM アルゴリズムの局所解という。 初期値によって $p(X | \pi^{(i)}, \mu^{(i)}, \lambda^{(i)})$ は発散することがあり、この場合には無意味な解が得られる。 混合ガウス分布では $2 \leq K$ の場合、必ずこのような初期値が存在する。 探索空間の正則性については渡辺澄夫氏の著作に詳しい記述がある。
参考資料