計算科学の世界トップページ

「京」まめ知識 -vol.1-
故障したCPUの交換

K computer Newsletter No.6 : 「京」まめ知識

「京」は8万個以上のCPUからなるスパコンです。そのうちの1個が何らかの事情で故障したとき、どうやって交換するのでしょうか。

そもそもどのCPUが故障しているのか、見ただけではわかりません。CPUは4個ずつシステムボードに搭載され、そのボードが24枚ずつシステムラックに収められています。各ラックにはふだん緑色のランプがついていますが、中のCPUが故障すると、その隣にあるオレンジ色のランプが点灯します。同時に、関係者あてにメールが自動発信されます。

ラックの中のCPUが故障すると、緑色のランプの隣にあるオレンジ色のランプが点灯する。

担当のエンジニアは、まず故障したCPUの動作を止め、同じボードの残り3個のCPUの動作も止めます。そして、問題のラックに対処中の目印となる青色ランプを点灯させてから計算機室に入り、新しいボードや部品を作業台に乗せて青色ランプをめざします。1080台も並ぶラック群には、アルファベットと数字を組み合わせた「番地」がついているので、迷うことはありません。

ラックの「番地」を見ながら、問題のラックをめざす。

青色ランプのラックに到着したら、扉を開けて、ラック全体の動作を管理している中央部のサービス・プロセッサ・ボードに作業用パソコンをつなぎます。それから、チェックリストで手順を確認しつつ、故障したCPUが載ったボードを取り外します。ボードに接続されているCPU冷却用の冷水パイプも取り外します。パイプには栓があり、水が流れ出すことはありませんが、水滴でもこぼしたら大変! そのため、布をパイプにあてながら慎重に作業します。

チェックリストで手順を確認しつつ、故障したCPUが載ったボードを取り外す。

続いて、古いボードに搭載されていたメモリを新しいボードに移します。計算のときCPUの相棒を務めるメモリには、またがんばってもらうのです。この作業の大敵は静電気。作業台はアースし、エンジニアも静電気防止の手袋や靴を身につけます。メモリを移したら、新しいボードをラックに挿入。オレンジ色のランプが消えます。目印の青色ランプを消灯し、作業完了です。

所要時間は約2時間。息の詰まるような作業が、「京」の信頼性を支えているのですね。なお、古いボードは、故障したCPUを工場で交換し、また戻ってきます。

協力 : 富士通(株)、(株)富士通エフサス

古いボードに搭載されていたメモリを新しいボードに移す。

MENU