クラウドインフラ構築記

現在AWSの構築支援に携わっております。今注視しているのは、GKE、BigQuery、Google Dataflowなどサービスを展開しているGoolge Cloud Platformです。

Autorecoveryの致命的な仕様


インスタンスの自動復旧機能として、Auto recoveryが用意されています。一時的な障害、インスタンスストアがアタッチしている、1日3度のリカバリのリトライに失敗する際、Auto recoveryを諦めるという運用上致命的な仕様があります。諦めたインスタンスの復旧は手動でstop/startを行えること。Autorecoveryを復旧手段に頼るのはやめるのがいいかもしれません。

screencapture-docs-aws-amazon-com-AWSEC2-latest-UserGuide-TroubleshootingInstanceRecovery-html-1453810845891

上記仕様については、トラブルシューティングで記載されております。(トラブルシューティングは英語版ドキュメントのみです。)

http://docs.aws.amazon.com/AWSEC2/latest/UserGuide/TroubleshootingInstanceRecovery.html

この一方、GCEは稼働中のVMを0.5sでパケロスなしで別の仮想サーバーに移動してくれる。(http://qiita.com/kazunori279/items/41520689337a644a87b4 にGoogleの中の人が詳しく書いています。)

本ブログ稼働中のGCEインスタンスは100day連続稼働中です。instance template差し替え後止まっていないじゃないかと。

コメントは受け付けていません。