メタでの容量効率: 統合 AI エージェントが Windows 7、8、10、11 のハイパースケールでパフォーマンスを最適化する方法

Meta の容量効率化プログラムに関する洞察を提供します, そこでは、インフラストラクチャ全体のパフォーマンスの問題を自動的に検出して解決するのに役立つ AI エージェントプラットフォームを開発しました。.
統合されたドメインを通じて暗号化されたドメインの専門知識を活用することで、, 標準化されたツールインターフェイス, これらのエージェントは電力を節約し、エンジニアがパフォーマンスの問題のトラブルシューティングや新しい製品イノベーションの開発に多くの時間を費やすことができます。.

私たちは、経験豊富な効率化エンジニアの専門知識を再利用可能なデータにエンコードする統合 AI エージェントプラットフォームを構築しました。, コンポーザブル機能. これらのエージェントは、パフォーマンスの問題の検索と解決の両方を自動化するようになりました。, 数百メガワットを回復 (MW) 電力を大幅に削減し、何時間もかかる手動回帰調査を数分に凝縮, 人員を比例的に増やすことなく、増加する製品分野に向けて MW の展開をプログラムで拡大できるようにする.

守備時, FBディテクトMeta の社内回帰検出ツール, 毎週何千もの回帰をキャプチャします; より高速な自動化ソリューションにより、フリート全体での蓄積に浪費されるメガワットが削減されます。. 攻撃面では, AI を活用した機会ソリューションは、半年ごとに追加の製品分野に拡大しています, エンジニアが手作業では決して達成できない、増大する注文の処理. 一緒に撮った, これが、Meta の容量効率化プログラムが、チームを比例的に成長させることなく、MW の供給量を増やし続ける方法です。. 最終目標は、AI がロングテールを引き継ぐ自立した効率エンジンです。.

その仕組みと今後の方向性は次のとおりです:

ハイパースケールの効率化には両方の攻撃が必要です (最適化を積極的に模索する) そして守備 (本番環境に影響を与える回帰を阻止し、軽減する); AI は両方を加速できる.
標準化されたツールインターフェイスと暗号化された専門知識を組み合わせて、双方の調査を自動化する統合プラットフォームを構築しました。.
これらの AI システムは現在、容量効率化プログラムのインフラストラクチャを形成しています。, 数百メガワットの電力を回収しました, アメリカの数十万世帯に1年間電力を供給するのに十分な量.
診断を自動化すると、約 10 約何時間もの人手調査 30 分, 一方、AI エージェントは効率化の機会からレビュー準備が整ったプルリクエストまでのパスを完全に自動化します。.

容量効率化プログラムのプレゼンテーション

デプロイしたコードがそれ以上の役割を果たす場合、 3 十億人, たとえ 0.1% パフォーマンスの低下により、消費電力が大幅に増加する可能性があります.

Meta の容量効率化組織内, 私たちは効率を双方向の努力として捉えています:

攻撃: 機会を見つけて展開する (プロアクティブなコード変更) 既存のシステムをより効率的にするため.
防衛: 実稼働環境でのリソース使用状況を監視してリグレッションを検出する, プルリクエストまで追跡する, そして修復を提供する.

これらのシステムはうまく機能し、長年にわたって Meta の効率化の取り組みにおいて重要な役割を果たしました。. しかし, 発生した問題を実際に解決すると、新たなボトルネックが発生する: 人間工学の時間.

この人間工学の時間は、次のいずれかのアクティビティに費やすことができます。:

プロファイリングデータをクエリして、注目の機能を最適化する機会を見つける.
説明を確認してください, ドキュメント, 最適化を実装するための最良のアプローチを理解するための効率化の機会に関するこれまでの例.
リソース使用量の大幅な変化をもたらした可能性がある現在のコードと構成のデプロイメントを確認します。.
回帰に関連する可能性のある発売に関する現在の社内議論を確認する.

Meta の多くのエンジニアは効率化ツールを使用して毎日これらの問題に取り組んでいます. しかし、どんなに高品質なツールであっても、, 新製品の革新が最優先事項である場合、エンジニアがパフォーマンスの問題に対処する時間は限られています。.

私たちは尋ね始めました: AIが調査と解決を行ってくれたらどうなるか?

攻撃と防御は同じ構造です

画期的な点は、両方の問題が同じ構造を持っているという認識でした:

これは、2 つの別々の AI システムが必要ないことを意味します. 両方に対応できるプラットフォームが必要でした.

2つのレベルで構築しました:

MCPツール: これらは、LLM がコードを呼び出すための標準化されたインターフェイスです. 各ツールは 1 つの仕事を実行します: クエリプロファイリングデータ, 実験結果を取得する, 構成履歴を取得する, 検索コード, またはドキュメントを抽出する.
スキル: これらはパフォーマンス効率に関する専門知識をエンコードしています. スキルは、LLM に使用するツールと結果の解釈方法を指示できます。. 経験豊富なエンジニアが長年にわたって開発してきた推論パターンをキャプチャします。, のような “エンドポイントのレイテンシー回帰については、上位の GraphQL エンドポイントを参照してください。” または “影響を受ける関数がシリアル化を採用する場合は、最近のスキーマ変更を探します。”

一緒に, ツールと機能は、一般化された言語モデルを、上級エンジニアが通常持っている分野の専門知識を適用できるものに進化させます。. 同じ ツール 攻撃力と防御力の両方を強化できる. スキルが違うだけ.

防衛: 悪化する前に回帰を検出

FBディテクト Meta の社内回帰検出ツールで、次のような小さなパフォーマンス低下を検出できます。 0.005% 騒々しい実稼働環境で. 時系列データを次のように分析します:

FBDetect が回帰を検出した場合, 私たちはすぐにそれがコードまたは構成の変更によるものであると考えます. これは何が起こったのかを理解するための重要な第一歩です. これは主に、回帰関数と現在のプルリクエストを相関させるなどの従来の手法を使用して行われます。. 根本原因が特定された後, 通常、エンジニアは通知され、行動を起こすことが期待されます。, 最後のコード変更の最適化など. これを高速化するには, 追加機能を追加しました:

AI回帰ソルバー

当社の AI 回帰ソルバーは、回帰を自動的に転送するプルリクエストを生成する FBDetect の最新かつ最も有望なコンポーネントです。. 伝統的に, 根本原因 (プルリクエスト) パフォーマンスの低下につながるものはロールバックされたか、 (それにより開発スピードが遅くなる) または無視されました (その結果、インフラストラクチャリソースの使用量が不必要に増加します).

これで、社内のエンコードエージェントがアクティブになり、次のことを実行できるようになりました。:

ツールを使用してコンテキストを収集する: 退行の症状を見つける, 例えば. B. 退化した機能. 根本原因を見つける (プルリクエスト) 回帰の, 変更された正確なファイルと行を含む.
以下のスキルを備えた専門知識を活用する: 特定のコードベースに対する回帰緩和の知識を活用する, 言語, または回帰タイプ. 例えば, ロギングの回帰は、サンプル収集を増やすことで軽減できます。.
ソリューションを作成する: 新しいプルリクエストを作成し、レビューのために元の原因の作成者に送信します。.

犯罪: 機会を提供されたコードに変える

攻撃面では, 「効率化の機会」とは、既存のコードのパフォーマンスを向上させると考えられる、提案された概念的なコード変更です。. エンジニアが案件を表示し、それを実装する AI 生成のプルリクエストをリクエストできるシステムを構築しました。. かつては数時間の調査が必要でしたが、今ではレビューと展開に数分しかかかりません.

パイプラインは防御的な AI 回帰ソルバーを反映しています:

ツールを使用してコンテキストを収集する: AIエージェントが検索するのは、:
1. 機会メタデータ.
2. 最適化パターンを説明するドキュメント.
3. 同様の機会がどのように解決されたかを示す例.
4. 関連する特定のファイルと関数.
5. 修正が機能することを確認するための検証基準.
以下のスキルを備えた専門知識を活用する: 特定の種類の効率化の機会に関して経験豊富なエンジニアの知識を活用する, スキルにエンコードされている. 例えば, 特定の関数を記憶して CPU 使用率を削減する.
解像度の作成: ガードレールを使用して修正候補を作成する, 構文とスタイルを確認する, 正しい問題に対処していることを確認します. 生成されたコードをエンジニアのエディターで表示し、ワンクリックで適用します.

重要なのは同じものを使うということです ツール 防御として: プロファイリングデータ, ドキュメント, コード検索. 何が違うのかというと、 スキル.

1つのプラットフォーム, 収益の増加

共有ツールとデータソースを備えた統合アーキテクチャは、クリーンな抽象化でした. 既存および新規のすべてのエージェントは、私たちが構築したインターフェースを使って車輪を再発明することなく、パフォーマンスのコンテキストを簡単にキャプチャする方法を備えています。.

この投稿では初期のユースケースに焦点を当てました: パフォーマンスの低下とチャンス. 1年以内, 同じ基盤で追加のアプリケーションをサポート: 会話効率化アシスタント, キャパシティプランニングエージェント, パーソナライズされた機会の推奨事項, ガイド付き調査ワークフロー, AI を活用した検証. それぞれの新機能は、既存のツールに新しい機能を組み込むだけで済むため、新たなデータ統合はほとんど必要ありません。.

効果

容量効率化プログラムの成果は顕著です: 私たちは数百メガワットの電力を回収しました. 攻守のAIシステムがこうした取り組みをサポート.

しかし、より根本的な変化は、攻撃と防御がどのようにお互いを強化するかです。: 午前中を防御的なトリアージに費やしていたエンジニアは、現在では AI が生成した分析を数分でレビューしています。. 当社の効率化ツールを使用するエンジニアは、ゼロから始めるのではなく、AI を活用したコードを入手できるようになりました。. 気が遠くなるような質問: 「どこから始めればいいの？」?」は、影響の大きい修正をレビューして展開することで置き換えられました。.