会社のサーバが突如ハングアップ。そしてその後…悪夢のリスタート地獄が始まった。
リスタート地獄
ウチの会社のサーバが突如ハングアップした。
おそらく最初に気付いたのが私で、ファイルサーバにアクセスしようとしたらリンクが切れていると言われた為である。
ネットワークに問題があるかどうかをすぐに確認すべく、ブラウザを立ち上げていろいろなサイトを見てみるが普通に見る事が出来、さらに外部にサーバのあるメールに関しても普通に受け取る事が出来た。
であるなら、サーバがトラブっているのは間違いない。
というワケで、サーバを確認してみたところ、やはりハングアップしていた。
ウチの会社のサーバはDELLのPowerEdge2800という、もうお蔵入りしても良いぐらい古いサーバなのだが、その正面にインジケーターは普通に青色を示していたため、ハードウェアトラブルではないようだった。
ただ、何をしても操作を受け付けない。どう見てもハングアップ状態である。
仕方が無いので、リセットして再起動するしかないと判断。
実行したところ、ここから地獄が始まってしまった。
普通にBIOSを読み込み、必要なシークエンスを踏んでいった後、さぁ今から起動だ、という時に、こんなメッセージが出てきやがった。
STOP: c0000218 {Registry File Failure}
The registry cannot load the hive(file):
\systemRoot\System32\Config\SOFTWARE
or its log or alternate.
It is corrupt, abset, or not writable.
…これってサーバOSのブルースクリーンじゃねーのか?
レジストリファイルが壊れてる? そんな感じのメッセージである。
その後、物理メモリに読み込まれた状況を記録する為なのか、
Beginning dump of physical memory
Dumping physical memory to disk:○○
○○の部分は数字のカウントである。
おそらくダンプリストの事だろうと思う。
で、結局この後は勝手に再起動が始まり、同じ事を繰り返す状態になってしまった。
この時点で「こりゃヤバイ」と私自身は自分の手に負えない事を理解していて、社内に「サーバトラブルが発生し、すぐに復旧できる見込みなし」という事を全社に案内した。
専門家じゃないのよ…
ウチの会社には私以上のPCに詳しい人がいない。
これは年齢的な事を含めてもそうで、私以上に知っている人がいたとしても、それは単純にソフトウェアレベル、しかもWebベースの知識しかない。
ハードウェア含めた知識となると、完全にお手上げという状態で、私自身、今回の件を独自に修復できる自信がなかった。
というのは、ウチが今使用しているサーバOSは“Windows Server 2003”と、今年7月14日にマイクロソフトがサポートを打ち切ったサーバOSを使用していて、このWindows Server 2003はレジストリの自動バックアップ機能を持ち合わせてはいないという事を知っていたからだ。
もちろん、私が独自にレジストリをバックアップしていたという事実もない。
というか、私自身はハードウェア含めてサーバの切り替えをもう5年近く前から進言していたのである。まして、今年7月14日にマイクロソフトのサポートが切れる為、セキュリティとしても問題が出る事も伝えている。
それでもサーバの切り替え、或いはクラウド化を許可しなかったのは会社の経営側である。
イザとなれば私が何とかする…とでも思っていたのだろうか?
別に私はこうしたネットワークの学校に行っていたわけでもないし、ましてPCの知識だって独学である。ただ、長年扱ってきたため、基本的な所がある程度見えているというだけで有り、それ故に最近のPCの新技術が出てきたとしても、それが何をするものなのかの糸口が見えているに過ぎない。
だから基本的な所など解らないし、ましてトラブルが起きた時に正しい対処がとれるという事でもない。結局は専門家に頼まざるを得ない事実は変わらないのである。
そして今回のような事が起きてしまった。
その時にはもう手遅れなのである。
会社側が基幹システムと思っているならば、もっとそこに力を注がねばならない、という事を身をもって知る時が来てしまったのである。
結局丸投げ…
だが…その日の夕方、会社にこの件で残ったのはほぼ私一人であった。
いや、正確には製造部のちょっと電気系に詳しい人は残り、どうするか? という対策を打合せしたが、基幹であるサーバの復旧等に関しては、誰も「我関せず」であった。
実は…今日は会社の一部の人間で飲み会があったのである。
この飲み会の趣旨は先日行われたFDA査察を無事乗り切ったという事で行われるもので、当然ではあるが私もそこに呼ばれていた一人である。
だが、今そんな事してる場合か?
製造が止まるぞ?
業務が止まるぞ?
この危機感のなさは何?
感覚として「私にはわからないから後はよろしく」…とそんな感じである。
18:30から始まる飲み会に対し、19:00の段階で会社に残っていたのは、飲み会に呼ばれていない品質管理の人と私だけだった。
「業者を呼ぶしかないんだから、業者を探してよ」と、責任者はその言葉を残して去って行った。
その業者、心当たりがあるぐらいなら、今までだって苦労はしていないわ!
今まで業者とか専門家を使わせて欲しいと言っても許可が下りなかったから今こうなったんだろうが!
口からこの言葉がリアルに出そうになったが、そんな事を言っても始まらない。
仕方が無いので、知っているツテを辿っていろいろと紹介してもらう事にして、とりあえず専門家に相談できる状態にだけはしておこう…。もう今はそうするしかなかった。
結局、私は20:00過ぎまでツテを当たっていろいろ相談できる先を調査して、その報告を責任者にした。
「わかった。じゃあ今からコッチに来てくれ。今回の席(もちろん飲みの席である)はお前がいない事には始まらんからな」
査察の時、もっとも苦労したのは私だと自分でも自負しているから、そう言われるのは当然とは思うが、正直、そんな気分になれる訳が無い。
そもそも、始まらないといいつつ、18:30からもう飲み始めてて、そろそろ終盤じゃねーか。
だが…行かないワケにはいかなさそうだっため、とりあえず飲み会の席に行く事にした。飲めない人間の場合、こういう時がもっとも憂鬱になる瞬間である。
私に文句を言える人などいない
自分でも解っている。多分、私は全てにおいて真面目に物事に当たりすぎるのである。
だが、業務だったらそれが当たり前ではないのか?
だから仕事が間に合わない、となれば徹夜もするし、自分以外の仕事のバックアップもする。査察の時も、私一人が徹夜して他はさっさと帰宅し、次の日に間に合わせたのは私一人だったなんて事もあった。
でも間に合わせるのが業務でしょ? 物理的に間に合わない事だってあるかもしれないが、それにはそれ相応の理由があるハズである。
だが、ウチの会社はそこのネジが緩んでいる。いや、緩んでいるという言葉すら甘い。ネジがぶっ飛んでいやがる。
そんな事を考えて現地に向かうのだから、良い気分なワケがない。
幸いにして、飲み会の席はウチの自宅の近くだったため、一度自宅に帰って、それから歩いて向かった。
現地に着いたのは20:30を過ぎた頃。場は相応に盛り上がっていた。
私が現地入りした事で、仕切り直しとばかりに始まるカンパイ。
ああ、乾杯ね…どう考えても完敗だわ…と自爆ボケを心に思いながら、一言を求められたので、こう言ってやった。
「FDA査察を受け、ワーニングレター解除という超難関の査察を乗り越えることができたのは、皆さんの努力の結果であって、私は結局何もしていません(ここは謙虚に)。
でもそれを今終えて、改めて今後やっていかなければならない事を見直した時に、査察やQMSの構築はまだ序の口でしかなく、この体制を維持していく事の方が何倍も困難である事が見えてきました。正直、何もできなかった私ではそれを続けていける自信がありません。法の遵守をはじめ、医療はいい加減な事はできないんです。
医療機器を作るという事は、人の命を預かるという事です。目の前にある問題を常に監視し、その問題に取り組めないようでは、人が死ぬんです。医療のQMSを維持するという事は、そういう事に他ならないんです。私ではもうついて行く事はとても難しく、皆さんの努力にお願いするしかありません。ぜひ、宜しくお願いいたします」
このコメントをしている間、場はシーンと静まりかえっていたからひときわ強烈に聞こえたかも知れない。
それ相応に盛り上がっていた場を、一瞬にして盛り下げてやった。
これで心に何も思わないようなら、今後の医療への事業展開なんか辞めてしまえばいい。どうせ出来やしないんだから。
流石に私のコメントに何かしらの意図がある事を察した上長は、私が言ったコメントの重さは重さとして受け止め、それでも外部からは今できた事がスゴイ事だと言われているんだ、と、他の人を盛り上げる方向に話を振っていった。
流石だな…と思いつつも、この人がこんな事を言っているようだから、みんなが甘くなるんだな、と感じた。これではダメなのだが。
別に私だって場を盛り下げたかったわけではない。
今起きている問題を丸投げにしてしまう体質と、業務の時間を間に合わせるという事への自覚を持って貰えればそれでいいのである。
しかし、おそらくこれからもこの状況が直る事はないだろう。
結局、飲み会はその後21:40くらいまで続き、私が笑顔を見せる事はほぼなかった。
さて…今後どうするか?
医療のQMS整備もそうだが、まずは止まってしまったサーバをどうにかしなければならない。
専門家を探すのは良いとして、レジストリの破壊だけなら、何とか外部からレジストリの修復をしてやる事で復帰ではないだろうか?
ネットで同じ症状を検索してみると、こんなサイトがあった。
只今、サーバー止まっています・・ ~レジストリ破損か、STOP: c0000218
このサイトの状況が全くもって同じ症状だった。
これによるとWindowsPEなるブートCDを作成して、そこからレジストリの修復を試みるような記事になっているが、これと同じ手段が使えるのだろうか?
そこを含めて、専門家に相談してみる事にしよう。
ちなみに…。
ここまで読んでいて「サーバなんだからミラーリング等のRAID環境じゃないの?」とおもう人もいるかもしれない。
たしかにRAID環境ではある。
しかし、ウチは何故かRAID 1のミラーリング環境ではなく、RAID 0のストライピング環境なのである。
サーバなのに何故? と思うかもしれない。正直に言おう。私も不思議だ。
これは、私の前任者が構築したサーバで、ストレージ速度を稼ぎたいが故にストライピングにしていたようである。だったらRAID 10(ストライピング&ミラーリング)にするとか考えろよ…と思うワケだが。
とりあえず、もしこの記事を読んだ人で前述の問題への対策に心当たりがある方がいたら、アドバイスを貰えるとありがたい。
正直、会社に貢献しても意味あるのかな? と思いつつも、それでもやらねばならない事であるならば、解決しなければならないのだから…。
つくづく、損な役回りである。