Googleのシステム管理と再稼働問題

Googleを支えている大規模なサーバシステム。その管理方法は従来のシステム管理の方法とは大きく異なっているらしい。つまり、1台1台のサーバの状態を監視するのではなく、ある一定時間が過ぎたものから順次廃棄し、新しいものに入れ替えるそうである。

機械システムを信頼性の高いものにするためのこれまでの方法は、堅牢に作る、ということである。負荷やリスクを見積もり、投資対効果を判断して(経営リテラシーの高い経営者であれば)最大限の丈夫なシステムを作る。しかし、エントロピーが増大しないシステムはない。すべてのシステムは、摩耗し、酸化し、劣化し、運用ミスが蓄積され、さらに(経営視点からすると)”想定外”のトラブルに見舞われる。

一方で、生物は、エントロピー増大によってシステムが修復できない状態になるよりも先回りして自らを能動的に壊し、再構築を繰り返すことによって、38億年もの間、環境に順応し進化を遂げてきた。生物が採用しているこの戦略を、Googleのシステム管理は採用しているのである。

壊れるまで使い、壊れたら修復する。そして、再稼働するという対処方法は、短期的な視野からすると低コストであるように思える(そもそも、「コスト」という考えかた自体が、短期的ライフサイクル視点であるが)。しかし、システムが次の世代へもわたる継続性を得るためには、生物が採用しているような、長期的視野に立ったシステムのエントロピーをコントロールする戦略を考えるべきである。そのような視点を持っていたのであれば、「千年に一度の」未曾有のアクシデントによって取り返しのつかない事態に陥いる、という事態にはならかったのではないだろうか。

 

yasushi_tanaka

有限会社ケイプラス・ソリューションズ代表,東京工業大学 特任准教授,大阪芸術大学 客員教授,奈良先端科学技術大学院大学 非常勤講師,博士(工学),CMM正式リードアセッサー(非更新 笑)

Facebook Twitter