「京」まめ知識 -vol.1-
故障したCPUの交換
「京」まめ知識 -vol.1-
故障したCPUの交換
「京」は8万個以上のCPUからなるスパコンです。そのうちの1個が何らかの事情で故障したとき、どうやって交換するのでしょうか。
そもそもどのCPUが故障しているのか、見ただけではわかりません。CPUは4個ずつシステムボードに搭載され、そのボードが24枚ずつシステムラックに収められています。各ラックにはふだん緑色のランプがついていますが、中のCPUが故障すると、その隣にあるオレンジ色のランプが点灯します。同時に、関係者あてにメールが自動発信されます。
担当のエンジニアは、まず故障したCPUの動作を止め、同じボードの残り3個のCPUの動作も止めます。そして、問題のラックに対処中の目印となる青色ランプを点灯させてから計算機室に入り、新しいボードや部品を作業台に乗せて青色ランプをめざします。1080台も並ぶラック群には、アルファベットと数字を組み合わせた「番地」がついているので、迷うことはありません。
青色ランプのラックに到着したら、扉を開けて、ラック全体の動作を管理している中央部のサービス・プロセッサ・ボードに作業用パソコンをつなぎます。それから、チェックリストで手順を確認しつつ、故障したCPUが載ったボードを取り外します。ボードに接続されているCPU冷却用の冷水パイプも取り外します。パイプには栓があり、水が流れ出すことはありませんが、水滴でもこぼしたら大変! そのため、布をパイプにあてながら慎重に作業します。