- Fornecemos insights sobre o Programa de Eficiência de Capacidade da Meta, onde desenvolvemos uma plataforma de agente de IA que ajuda a encontrar e resolver automaticamente problemas de desempenho em nossa infraestrutura.
- Ao aproveitar a experiência em domínios criptografados por meio de um sistema unificado, interface de ferramenta padronizada, esses agentes ajudam a economizar energia e dão aos engenheiros mais tempo para solucionar problemas de desempenho e desenvolver novas inovações de produtos.
Construímos uma plataforma unificada de agentes de IA que codifica a experiência de engenheiros de eficiência experientes em recursos reutilizáveis, recursos combináveis. Esses agentes agora automatizam a busca e a resolução de problemas de desempenho, restaurando centenas de megawatts (PM) de energia e condensando horas de investigações de regressão manual em minutos, permitindo que o programa dimensione a implantação de MW para um número crescente de áreas de produtos sem aumentar proporcionalmente o número de funcionários.
Em defesa, FBDetectarFerramenta interna de detecção de regressão da Meta, captura milhares de regressões semanalmente; Uma solução automatizada mais rápida significa menos megawatts desperdiçados na acumulação em toda a frota. Do lado ofensivo, a solução de oportunidade alimentada por IA está se expandindo para áreas de produtos adicionais semestralmente, lidar com um volume crescente de pedidos que os engenheiros nunca conseguiriam atender manualmente. Tomados em conjunto, é assim que o programa de eficiência de capacidade da Meta continua a aumentar a entrega de MW sem aumentar proporcionalmente a equipe. O objetivo final é um mecanismo de eficiência autossustentável com a IA assumindo o controle da cauda longa.
Veja como funciona e para onde estamos indo:
- A eficiência da hiperescala requer ataque (buscando otimizações proativamente) e defesa (interceptando e mitigando regressões que chegam à produção); A IA pode acelerar ambos.
- Construímos uma plataforma unificada que combina interfaces de ferramentas padronizadas com experiência criptografada para automatizar investigações de ambos os lados.
- Estes sistemas de IA formam agora a infraestrutura para o programa de Eficiência de Capacidade, que recuperou centenas de megawatts de eletricidade, o suficiente para abastecer centenas de milhares de lares americanos durante um ano.
- Automatizar diagnósticos pode comprimir cerca de 10 horas de investigação manual sobre cerca de 30 minutos, enquanto os agentes de IA automatizam totalmente o caminho desde a oportunidade de eficiência até a solicitação pull pronta para revisão.
Apresentação do programa de eficiência de capacidade
Se o código que você implantar servir mais do que 3 bilhão de pessoas, até mesmo um 0.1% regressão de desempenho pode resultar em consumo de energia adicional significativo.
Na organização de Eficiência de Capacidade da Meta, vemos a eficiência como um esforço bidirecional:
- Ataque: Encontrar e implantar oportunidades (alterações proativas de código) para tornar nossos sistemas existentes mais eficientes.
- Defesa: Monitore o uso de recursos na produção para detectar regressões, rastreá-los até uma solicitação pull, e fornecer remediação.
Esses sistemas funcionaram bem e desempenharam um papel importante nos esforços de eficiência da Meta durante anos. No entanto, realmente resolver os problemas que surgiram leva a um novo gargalo: tempo de engenharia humana.
Este tempo de engenharia humana pode ser gasto em qualquer uma das seguintes atividades:
- Consulte dados de perfil para encontrar oportunidades de otimizar recursos importantes.
- Revise a descrição, documentação, e exemplos anteriores de uma oportunidade de eficiência para entender a melhor abordagem para implementar uma otimização.
- Revise as implantações atuais de código e configuração que podem ter resultado em uma mudança drástica no uso de recursos.
- Revise as discussões internas atuais sobre lançamentos que podem estar relacionados à regressão.
Muitos engenheiros da Meta usam nossas ferramentas de eficiência para resolver esses problemas todos os dias. Mas não importa quão de alta qualidade sejam as ferramentas, os engenheiros têm tempo limitado para resolver problemas de desempenho quando inovar em novos produtos é nossa principal prioridade.
Começamos a perguntar: E se a IA pudesse fazer a investigação e resolução?
Ataque e defesa têm a mesma estrutura
O avanço foi a constatação de que ambos os problemas têm a mesma estrutura:
Isso significava que não precisávamos de dois sistemas de IA separados. Precisávamos de uma plataforma que pudesse servir tanto.
Nós construímos isso em dois níveis:
- Ferramentas MCP: Estas são interfaces padronizadas para LLMs chamarem código. Cada ferramenta faz um trabalho: consultar dados de perfil, recuperar resultados do experimento, recuperar histórico de configuração, código de pesquisa, ou extrair documentação.
- habilidades: Eles codificam experiência sobre eficiência de desempenho. Uma habilidade pode dizer a um LLM quais ferramentas usar e como interpretar os resultados. Ele captura padrões de raciocínio que engenheiros experientes desenvolveram ao longo dos anos, como “Consulte os principais endpoints GraphQL para regressões de latência de endpoint” ou “Procure alterações recentes no esquema quando a função afetada adotar a serialização.”
Junto, ferramentas e capacidades transformam um modelo de linguagem generalizado em algo que pode aplicar o conhecimento de domínio que os engenheiros seniores normalmente possuem. O mesmo Ferramentas pode fortalecer o ataque e a defesa. Apenas as habilidades diferem.
Defesa: Detecte regressões antes que piorem
FBDetectar é a ferramenta interna de detecção de regressão da Meta que pode detectar degradações de desempenho tão pequenas quanto 0.005% em ambientes de produção barulhentos. Ele analisa dados de séries temporais da seguinte forma:
![foto[2]-Eficiência de capacidade na Meta: Como os agentes de IA unificados otimizam o desempenho em hiperescala para Windows 7,8,10,11-Winpcsoft.com](https://winpcsoft.com/wp-content/plugins/wp-fastest-cache-premium/pro/images/blank.gif)
Quando o FBDetect encontra uma regressão, tentamos imediatamente atribuí-lo a uma alteração de código ou configuração. Este é um primeiro passo importante para entender o que aconteceu. Isso é feito principalmente usando técnicas tradicionais, como correlacionar funções de regressão com solicitações pull atuais.. Depois que uma causa raiz é identificada, os engenheiros normalmente são notificados e espera-se que tomem medidas, como otimizar a última alteração de código. Para acelerar isso, adicionamos um recurso adicional:
Solucionador de regressão de IA
Nosso AI Regression Solver é o componente mais novo e promissor do FBDetect que gera uma solicitação pull para encaminhar automaticamente a regressão. Tradicionalmente, causas raízes (solicitações pull) que levaram à degradação do desempenho foram revertidos (diminuindo assim a velocidade de desenvolvimento) ou ignorado (aumentando assim desnecessariamente o uso de recursos de infraestrutura).
Agora nosso agente de codificação interno está ativado para fazer o seguinte:
- Reúna contexto com ferramentas: Encontre os sintomas da regressão, por exemplo. B. as funções que regrediram. Encontre a causa raiz (uma solicitação pull) da regressão, incluindo os arquivos e linhas exatos que foram alterados.
- Aplique conhecimentos com as seguintes habilidades: Aproveite o conhecimento de mitigação de regressão para a base de código específica, linguagem, ou tipo de regressão. Por exemplo, regressões no registro podem ser atenuadas aumentando a coleta de amostras.
- Crie uma solução: Crie uma nova solicitação pull e envie-a ao autor da causa original para revisão.
Crime: Transformando oportunidades em código entregue
Do lado ofensivo, “oportunidades de eficiência” são propostas de mudanças conceituais no código que se acredita melhorarem o desempenho do código existente. Construímos um sistema que permite aos engenheiros visualizar uma oportunidade e solicitar uma solicitação pull gerada por IA que a implemente. O que antes exigia horas de investigação agora leva apenas alguns minutos para ser revisado e implementado.
O pipeline reflete o solucionador de regressão de IA defensivo:
- Reúna contexto com ferramentas: O agente de IA procura:
- Metadados de oportunidade.
- Documentação explicando o padrão de otimização.
- Exemplos que mostram como oportunidades semelhantes foram resolvidas.
- Os arquivos e funções específicas envolvidas.
- Critérios de validação para confirmar que a correção funciona.
- Aplique conhecimentos com as seguintes habilidades: Aproveite o conhecimento de engenheiros experientes sobre um tipo específico de oportunidade de eficiência, codificado em uma habilidade. Por exemplo, memorizando uma função específica para reduzir o uso da CPU.
- Criar resolução: Crie uma correção candidata com proteções, revisar sintaxe e estilo, e confirme se ele resolve o problema correto. Visualize o código gerado no editor do engenheiro e aplique-o com um clique.
O importante é que usemos a mesma coisa Ferramentas como defesa: dados de perfil, documentação, pesquisa de código. O que é diferente é que habilidades.
Uma plataforma, retornos crescentes
Nossa arquitetura unificada com ferramentas e fontes de dados compartilhadas era uma abstração limpa. Cada agente existente e novo tem uma maneira fácil de capturar o contexto de desempenho sem ter que reinventar a roda com as interfaces que construímos.
Esta postagem se concentrou em nossos casos de uso iniciais: declínios de desempenho e oportunidades. Dentro de um ano, a mesma base suportava aplicações adicionais: assistentes de eficiência conversacional, agentes de planejamento de capacidade, recomendações de oportunidades personalizadas, fluxos de trabalho de investigação guiada, e validação alimentada por IA. Cada novo recurso requer pouca ou nenhuma nova integração de dados, pois eles podem simplesmente compor ferramentas existentes com novos recursos.
Efeitos
Os resultados do Programa de Eficiência de Capacidade são notáveis: recuperamos centenas de megawatts de eletricidade. Os sistemas de IA para ataque e defesa ajudam a apoiar esses esforços.
Mas a mudança mais profunda está na forma como o ataque e a defesa se reforçam mutuamente: Engenheiros que passaram a manhã fazendo triagem defensiva agora estão revisando análises geradas por IA em minutos. Os engenheiros que usam nossas ferramentas de eficiência agora podem obter código baseado em IA em vez de começar do zero. A pergunta assustadora: “Por onde eu começo?”foi substituído pela revisão e implantação de correções de alto impacto.
