< | >

インターネット回線障害で業務が止まる
  • (2009-08-01 11:10:56)


ネットワークをいじる際は稼働状況を事前に確認しておく



事情があり仕事机を替えた。昨日の早朝一番の仕事は仕事机の入れ替えだった。机に載っていたPCの電源を落としケーブルを外し、机を入れ替えて、ケーブルつなぎ直す。その際、NTTの回線終端装置(ONUとか書いてある)とルータの電源も落とした。

この作業によるトラブルは予想していなかった。PCに火を入れるとメールが動作しない。原因はネットワーク断。ネットワーク設定の変更をしたわけでないし、新しいネットワーク機器やPCを導入したわけでもない。ケーブルの付け違いもない。

何が起きたか原因がわからなかった。いつからトラブっているのかもわからなかった。作業前にネットワークが動作していることを確認していれば、作業前後でトラブルが発生したかどうかの切り分けが付くが、それはやっていない。

NTTサポートセンターの体制の充実度



NTTの故障担当に電話する。最初NTT支給の回線終端装置ONUのランプの確認を求められた。「4つのLEDがオンであれば回線問題の可能性は薄い」と言われた。同感だ。少なくと物理的に回線はOKだろう。

彼らはリモートでデータ折り返しテストができると言う。つまりNTT局からONUまでデータを送り正常に局まで戻ってくることで回線とONUの動作が確認できる。驚いたことはこのテストが技術部門ではなくコールセンターの一サポート担当者が行ったこと。しかもすぐにやってくれた。

昔ならこのようなテストは数時間後に技術担当者から別途電話をもらったものだが、NTTさんのサポート体制の強化が感じられる。折り返し試験は何ら問題がかなった。

次にNTTのテストサーバーへの接続(コネクションリンクの確立)を求められた。ONUとPCをLANケーブルで直結し、NTTのテスト用アカウント(ID、パスワード)でフレッツスクエアというサーバーに接続する。

テスト用アカウントを準備されていることもやや驚いた。

昔のNTTなら折り返し試験で問題なければあとはユーザーの問題と突き放されたものだが、担当者は「念のためテストしましょう」とテストアカウントを教えてくれた。親切だ。コールセンターの膨大な運用コストが逆に心配になる。

フレッツスクエアへのコネクションリンクの確立、これもOKである。これでNTT回線は物理的にもソフト的にも問題ないことが証明された。

「証明された」と結論づけたことが今から思えば伏線だったが、それはこの時点では誰も回線やその間にあるネットワーク機器などの問題は疑わなかった。

行き詰まり。「どこも何も悪くないように見える」



NTT回線が正常なら、あとはインターネットへのソフト的な接続手順を提供しているプロバイダーが怪しいことになる。プロバイダーの「ぷらら」に電話。エラー内容が「691認証エラー」だったのでID・パスワードの再確認を求められる。コピー&ぺイストで、手打ちはしていないので、それは問題ないと何度か言うが、彼らも次に試す手段がないようで無駄な繰り返しを求められた。

そのうち私のWindowsXPが英語版であることを知り「それが原因かも?」と言われた。内心「もっと他に何かアイデアはないのか」と思いつつ口に出さなかった。OSが英語版・日本語版は現行トラブルには無関係だろう。しかし、OSとは無関係に、私も自分のPCを疑う価値はあると考えた。そこで、もう一台の日本語版XPからテストすることで電話を切った。

しかし、日本語版XPでも同じ現象「認証エラー」が再現。実はぷらら以外のアカウント(複数のプロバイダーに契約している)を使用してテストを行った結果「認証エラー」は他のプロバイダーでも再現したので、ぷららにも問題がないことは確信していた。

つまり、どこにも問題がなさそうに見えるところが苦しかった。

NTT動く



すでに12時。9時半から始まったトラブルシューティングは午前中の業務を食いつぶす。もはやぷららに電話してもムダだったが、私も他に手段がないことと、話している内にサポートセンターの担当者と私の間で何かヒントがでてくるかもと期待して再度電話した。

別の担当者に当たったが、前担当者との通話内容の履歴が確認できるという。今時のコールセンターのすばらしいシステムにまたまた感動。新しい担当者からは驚くべき情報を得る。

「お客様の回線はフレッツ光ネクストですか?都内全域で認証エラーが発生している模様です。何をやってもダメだそうです」と。

しかもその情報を掴んだのはわずか10分前という。11時くらいにNTTさんのサポートセンターと話した時はNTTさんでさえ障害情報を把握していなかったので、今回のトラブルはかなり発見が遅い。

回線トラブルの発見が遅れたことはトラブル被害者が少なかったためではなかろうか。案外数千人のユーザーに影響があってコールセンターのトラフィックがは通常より「なんか違うぞ」という状況証拠的な推論から技術部隊が動くというのもあったかもしれない。いずれにしても内部の状況は私のような一ユーザーには伺い知ることができない。

ONUを落とさず、そのまま接続している人は問題がなく、私のように今日この日、運悪くトラブルが発生している時間帯にONUの電源を落として再度ネットワーク接続を試みた人だけにトラブルが発生した可能性がある。

推測しにくいトラブルの原因



それにしてもフレッツスクエアにログインできて、他のプロバイダーにはログインできない?どんな種類のトラブルだろうか?

認証エラーなら、プロバイダー側のログインサーバーからエラーコードが返されることからサーバーまでのリンクは確立していることになる。

IDやパスワードの入力ではじかれる?パケットデータの一部がクラッシュしているか、欠損しているか、途中のルータが余計なデータをパケットの頭に付与してしまうなどか?意味がわからないトラブルである。

過去半年で業務用のネットワークが止まった記憶はこれで2回目。前回は回線でなくプロバイダーに問題があった。

今回は回線である。切り分けは完全だと思われたが、実は検証方法にミスがあった。NTTのサポート担当者が「回線に問題ない」と判断したことは充分納得できる。

復旧と教訓



復旧したのは12時半。ようやく今日の業務が始められる。今回のトラブルもいろいろ教訓を残した。

・ネットワークインフラは必ず落ちる

・ネットワークインフラにトラブルが発生した場合、インフラを運営する参加プレイヤーは複数あるので発生源の特定には時間がかかる

・ネットワーク機器をさわる際、必ずネットワーク稼働の有無を事前に確認する

・ONUはなるべく電源を落とさない方が安全(後ろ向きの対策)

当社の場合、事務所用の回線断は一日続いても業務への影響は何とかなるが、一瞬のネットワーク切断も致命傷になるようなビジネス運営者、たとえば株式や外為のデイトレイダーやリアルタイムオンラインシステム運営者は複数回線準備しておいた方がよいだろう。

しかも常時パラレルに稼働させておく方が安全だと思う。プロバイダーも多重化したほうがよいしサーバーも多重化すしたい。しかし、お金の方はいくらあっても足りない。








<< Excel:セル内の改行コード Ctrl+J< | >HDDはテラ時代 >>
search
layout
admin

[▲page top]