消灯, システムがオン: Windows の即時電源喪失への対応の検証 7,8,10,11

瞬間的停電ストームを導入します, データセンターの瞬間的または予期せぬ停電を管理および軽減するためのメタインフラストラクチャ内の新しいテストパラダイム.
共有します: 徹底した防御戦略を使用して、既存システムの即時障害を許容する準備をどのように構築したか; 実装中にどのような妥協が行われたか、またその意思をどのように確認したか.

災害への備えはオプションではありません. ハリケーン, 山火事, 電力とネットワークの中断, その他数え切れないほどの災害シナリオがデータセンターにリスクをもたらします (直流) インフラストラクチャー.

早期警告システムと実証済みの緩和戦略は、事前警告に数時間以上かかる状況ですでに有効に機能しています。. これらの戦略は、DC の拠点を拡大するにつれて時間の経過とともに成熟してきました。, インフラの規模と多様性はますます増大しており、予測不可能な災害に対するより高いレベルの備えが必要です (警告なしに発生するもの), のような: 瞬間的な電力損失とフリート全体の可用性への影響は最小限に抑えられます.

Instantaneous PowerLoss Storm は、長年確立されているメタメソッド内の新しいテストパラダイムです災害への備え (DR)」嵐」プログラムは、既知の原因による即時または予期せぬ停電を管理および軽減するための最後の防御線と究極のセーフティネットを提供します。, 新たなリスクと未知のリスク.

多層防御戦略を使用して、既存システムの即時障害を許容する準備をどのように構築したか.

瞬間的な停電に対処する機能を DC スタックに最初から組み込む必要がありました。, 機械、電気からサーバーラックまで, ストレージからコンピューティング、コアまでコードコンテナオーケストレーター. 幸いなことに, これらの各アーキテクチャは、統合コンポーネントとして停電耐性を備えてすでに設計されています。.

ラックの電源が切れた場合でも、バッテリおよび充電式バッテリを使用してメモリ内データを保持する機能を提供します。停電時のサイレン (お願いします) そうした機能の 1 つです. もう 1 つの利点は、Twine サービスに対する DC リージョン全体の堅牢な非同期シグナリングメカニズムを、利用不可イベントの形式で備えていることです。 (UE). (DC 領域 – 以下、 “地域” – 複数の DC 建物が隣接して配置され、共通のネットワークと電力接続を共有する地域です。)

これらの機能は、個々の DC 内の個々の障害ドメインで徹底的にテストされ強化されていますが、, 地域全体にわたるシナリオで顕著な脆弱性を特定しました. さらに, 領域をテストするとき, 対処しなければならなかったのはスケーリングの問題だけではありませんでした (一般的なリージョンは、一般的なフォールトドメインの 50 ～ 60 倍のサイズです。) そしてレプリカの配置, 自律的なブートストラップの問題もある.

ブートストラッピング 電源がオフになっているリージョンをキックスタートすることを指し、数百万のサービスを一度に開始し、自律的に相互に検出する必要があります。. 以下では、ブートストラップ中に遭遇した、 ベルト＆サスペンダーのアプローチ 起こり得るすべての事態や不測の事態に対応するため.

当初から私たちを悩ませてきた顕著な問題は、依存関係、特に恐ろしい依存関係の問題です。 循環依存関係, 「ウロボロス“リスク! Twine オーケストレーターには多数のコントロールプレーンサービスがあります – プランナーアロケータ, ブローカ, 熱心な (コーディネーター) 等. – これがなければ、地域内で他のサービスを運営したり開始したりすることはできません. 通常の操作では循環依存関係のリスクは低いですが、, リージョン全体をブートストラップする場合、リスクと影響ははるかに高くなります。. それはまさに鶏が先か卵が先かの問題です.

私たちは識別によってこの問題を解決しました 起動時の重要な依存関係 コントロールプレーンサービスの中には, そして私たちはこれらを継続的に検出します 早くて頻繁に とベルジャーテスト CI/CD パイプライン内. これらは、ほとんどのことを発見して排除するのに役立ちました, 全部ではないにしても, 運用環境にデプロイする前に依存関係のリスクを回避する. インフラストラクチャの急速な発展を考慮し、ベルトとサスペンダーのソリューションとして, 私たちにもこれが必要でした能力に すべての循環依存関係を解消する これは予期せぬ出来事だったかもしれない. 特別に設計された Twine リカバリキットは、Twine 自体を操作する Twine サービスを復元する「ジャンプスタート」機能を提供します。. ベルジャーとトゥルコと一緒に, 私たちは循環依存関係の恐怖をなんとか終わらせることに成功しました。.

私たちも「」に取り組んでいます。ブーメラン” 同じ環境での問題 – の同じ信号の影響を受ける重要な信号の生成者. サービスのシャットダウンと回復を調整するために使用されていた UE は、最終的に Orchestrator コントロールプレーンサービス自体をシャットダウンしてしまいました。, その結果、孤立したサービスが実行できなくなります.収穫した」 (なぜなら、彼らはUEを受け取ったことがないからです。) この問題は、事前に設定されたサービスのセットを UE ディスパッチリストから除外するなどの複雑な解決策で解決できた可能性がありますが、, 私たちは、コントロールプレーンサービスが電力関連の UE に関連するシャットダウン信号を単純に「無視」できるようにすることで、よりシンプルで持続可能なアプローチを選択しました。.

信頼性と成長速度の間の適切なバランスを見つける際のトレードオフ.

当面の損失に対する万全の耐性を構築することは可能ですが、, そうすることで、インフラストラクチャの機会費用やシステムのオーバーエンジニアリングのリスクが生じる可能性があります。. 後者には、誤報が通常の業務に影響を与えるリスクさえあります。. したがって, 信頼性とテクノロジーの適切なバランスを見つけるために、ある程度の妥協をする必要がありました.

私たちはまず、衝撃を避けなければならない線を引くことから始めました。. ストレージおよびデータベースシステムからのデータ損失, 直流設備への永久的な損害 (機械的/電気的), 単一の地域を超えて持続する影響などは、当社が必須要件として明確に述べているものです。. 一時的なサービス障害, ラックの障害 (事前に定義されたしきい値内で), サービスルーティングテーブルまたはリージョンの利用不可検出における限定的な古さ (これは問題です). 非同期システムにとって難しい問題) 許容可能なリスクとみなされていた. 一般的に, 許容可能な影響の範囲を超え、インシデント後の是正措置によって軽減することができず、合理的な平均応答時間内に発生した問題のみ (MTTR).

瞬間的電力損失ストーム演習を通じてどのように準備ができているかを確認し、これによってどのように限界をさらに押し上げることができるのか.

上記の予想を検証し、大規模な生産地域を閉鎖して準備するには、既知および未知のいくつかの重大なリスクが伴います。. リスクに対処するためにリスクを負うという鶏が先か卵が先かという問題を解決するには, 新しいリージョン/実稼働前リージョンが出現したときに依存関係などの自己完結型の問題を検証し、実稼働リージョンを複製する「シャドウリージョン」でテストを実行する増分アプローチを開発しました。. その後、最新のバージョンでテストを成功させることができました。 (したがって最小の) 爆発半径が制限された生産地域. ついに, 重要なストレージを収容する大規模な生産地域を閉鎖します, AI, データウェアハウスのワークロード. 現時点で、私たちはこれらの攻撃訓練に名前を付けました 突然の暴風雨と停電.

の高度から 10,000 足, ストームは、注入された電源障害で構成され、その結果、リージョン全体が即時にシャットダウンされ、短い MTTR の後に発生します。, 影響を受けた地域を世界的な管理者/計画者から遮断するための是正措置が取られます. また、実際に予期せぬ停電が発生する可能性があるテスト前に予防措置を講じることも避けたいと考えていました。. テスト用に選択された MTTR は、実際のインシデントシナリオで観察された典型的な MTTR を反映しています。.

これらの各演習は、サブリージョンの障害ドメインの損失と同じくらいシームレスにリージョンの損失を管理するという長期目標に向かって、インフラストラクチャとエンジニアを反復的にトレーニングするのに役立ちました。.

未来への踏み台: ゆっくりは優しい. スムーズは速い

あらゆる予防策にもかかわらず, これは完全にスムーズな旅ではありませんでした, しかし、この旅には学習と改善の機会が数多くあります, これにより、テスト機能が向上しただけでなく、, しかし、これはインフラストラクチャ全体にも反映され、既存のシステムにいくつかのアーキテクチャ上の改善がもたらされました。.

私たちのタンデムインフラは急速に進化し、容量と AI の無数のユースケースをカバー. 迅速な行動は、強力な基盤がある場合にのみ可能です. 信頼性 そして スピード 同じコインの二つの面です. どちらか一方がなければもう一方を持つことはできません. 突然の停止後にリージョンを復元できる機能により、DC 設計の革新と検証を可能にする強力な基盤が築かれました。, 迅速な容量導入により、確実に信頼性を構築, そして私たちが許容できるリスクの限界を押し広げ続けます.

以前の嵐では主にストレージとデータベースのバックエンドが検証されましたが、, 同じ増分戦略に従って、ライブクライアントトラフィックのあるリージョンを即時の障害に対して検証します。. (これについては今後の投稿で詳しく説明します!) また、この成長段階で生じる新たな課題を考慮して、トレードオフを常に見直し、再検討しています。.