問題絞り込み
日刊 GuestOS 障害情報。
(1) DNS / DHCP (OpenVPN停止)
(2) Apache2.2 / PHP / MySQL
(3) Postfix / SpamAssassin / Dovecot ← ホームディレクトリ (/home/*) を含む *障害発生
昨日の段階で3つの VM を上記のように分けたところ、2/4 14:00 ごろに (3) だけ固まった。
少なくとも Web 周りはシロ。Apache / MySQL もいずれも快調に動作しているため、WordPress (blog) サービスだけは問題なかった。ひょっとしたら Lighttpd +FastCGI でも問題なかったのかもしれない。blog が停止するとこういう記録も残せなくなるので、しばらくはこのまま運用することにする。
そうなると、メールの送受信にからむサービスが障害を引き起こしている可能性が高くなってきた。もっとも怪しいのは SpamAssassin だ。このサービスだけは、日本語の検知を正確に行わせるために独自 rpm パッケージを作成してインストールしている。VM に移行する前はいい感じで SPAM を捨ててくれていたので問題なかったのだが、たしかに純正ではないパッケージを使っていることは間違いない。
もう一つの疑いは、ホームディレクトリの整合性。OpenSUSE に移行してからは、データディレクトリは XFS フォーマットで利用している。もちろん OpenSUSE 10.3 (物理サーバ) までは数年間、全く問題が発生していなかったのでそれなりに信頼性はあるはずだ。ただ、物理サーバからデータをコピーする際に xfsdump / xfsrestore を使ったのを思い出した。通常通り tar なり scp なりを使えば良かったのかもしれないが、これが原因でデータディレクトリ (/home/*) のフォーマットがおかしくなり、カーネルがアクセスに行った瞬間におかしくなっている、という状況はあり得る。
そこで、HDD の残り容量に 100GB 程度の別 vmdk (VMFS 上の仮想ディスクイメージ) を作成し、こちらに /home 以外を丸ごとコピーして、最後に切り替えてみることにする。また spamassassin はしばらく利用を中止してみる。
ここまでやってダメならいよいよ本当にお手上げだ。OpenSUSE は見捨てて、CentOS 5.x に移行しよう。
でーびーあん!
でーびーあん!