Modernizing the Facebook Groups Search to Unlock the Power of Community Knowledge For Windows 7,8,10,11

Nós temos mudou fundamentalmente as pesquisas de grupos do Facebook para ajudar as pessoas a descobrirem de forma mais confiável, classificar e validar o conteúdo da comunidade que é mais relevante para eles.
Introduzimos uma nova arquitetura de recuperação híbrida e implementamos uma avaliação automatizada baseada em modelos para eliminar os maiores pontos de atrito que as pessoas enfrentam ao pesquisar conteúdo da comunidade.
Sob este novo quadro, alcançamos melhorias visíveis no envolvimento e na relevância da pesquisa sem aumentar as taxas de erro.

Pessoas em todo o mundo confiam em grupos do Facebook todos os dias para encontrar informações valiosas. Devido à quantidade de informações disponíveis, a jornada do usuário nem sempre é fácil. À medida que ajudamos a conectar pessoas com interesses comuns, também é importante encontrar um caminho através da ampla gama de conversas para descobrir com a maior precisão possível o conteúdo que uma pessoa está procurando. Publicamos um artigo discutindo isso como resolvemos esse problema redesenhando a pesquisa com escopo de grupo do Facebook. Ao ir além do mapeamento tradicional de palavras-chave para um Arquitetura de recuperação híbrida e implementar avaliação automatizada baseada em modeloEstamos inovando fundamentalmente a maneira como as pessoas descobrem, consumir e validar o conteúdo da comunidade.

Abordando pontos de atrito no conhecimento da comunidade

Ao procurar respostas no conteúdo da comunidade, as pessoas lutam com três fricções: descoberta, consumo, e validação.

Descoberta: Perdido na tradução

No passado, descoberta baseada em palavras-chave (lexical) sistemas. Esses sistemas procuram palavras exatas, criando uma lacuna entre a intenção de linguagem natural de uma pessoa e o conteúdo disponível. Por exemplo, imagine uma pessoa pesquisando “pequenos bolos individuais com cobertura”. Um sistema tradicional de palavras-chave pode não retornar resultados se a comunidade usar a palavra “cupcakes”. Porque o texto específico não corresponde, esta pessoa está perdendo conselhos extremamente relevantes.

Precisávamos de um sistema onde uma pesquisa por “bebida de café italiana” correspondesse efetivamente a uma postagem sobre “cappuccino,”mesmo que a palavra “café” nunca tenha sido mencionada explicitamente.

Consumo: O imposto sobre despesas

Mesmo quando as pessoas encontram o conteúdo certo, eles enfrentam uma “imposição sobre o esforço”. Freqüentemente, eles precisam rolar e classificar muitos comentários antes de chegar a um consenso. Imagine que alguém pesquise “dicas para cuidar de plantas cobra”. Para obter uma resposta clara, eles têm que ler dezenas de comentários e elaborar um plano de irrigação.

Validação: Tomada de decisões com conhecimento da comunidade

Muitas vezes, as pessoas precisam verificar uma decisão ou validar uma compra potencial usando conhecimentos confiáveis da comunidade. Por exemplo, imagine um comprador visualizando uma listagem no Facebook Marketplace de um item de alto valor, como um Corvette vintage. Você deseja obter opiniões e conselhos autênticos sobre o produto antes de comprar, mas essa sabedoria geralmente é deixada em discussões isoladas em grupos. A pessoa deve aproveitar a sabedoria coletiva de grupos especializados para avaliar eficazmente o produto. No entanto, não é fácil procurar manualmente esses sinais de validação.

A solução: Uma arquitetura de recuperação híbrida modernizada

Nós desenvolvemos um Arquitetura de recuperação híbrida que suporta um módulo de discussão na pesquisa do Facebook. Este sistema executa pipelines paralelos para combinar a precisão de índices invertidos com a compreensão conceitual de representações vetoriais densas. Abordamos as limitações da pesquisa legada reestruturando três componentes principais da nossa infraestrutura.

O fluxo de trabalho a seguir demonstra como modernizamos a pilha para processar a intenção em linguagem natural:

Estratégia de recuperação paralela

Modernizamos a fase de recuperação desacoplando o processamento de consultas em dois caminhos paralelos para garantir a captura de termos precisos e conceitos amplos:

Pré-processamento de consulta: Antes da recuperação, consultas do usuário passam por tokenização, normalização, e reescrevendo. Isso é importante para garantir entradas limpas tanto para o índice invertido quanto para o modelo de incorporação.

O caminho lexical (unicórnio): Nós usamos Índice invertido do Facebook Unicorn para recuperar postagens que contenham termos exatos ou muito semelhantes. Isso garante alta precisão para consultas com nomes próprios ou aspas específicas.

Ao mesmo tempo, a solicitação é repassada ao nosso Search Semantic Retriever (RSS). Isso é um 12-modelo de camada com 200 milhões de parâmetros que codifica a entrada de linguagem natural do usuário em uma representação vetorial densa. Em seguida, realizamos um vizinho mais próximo aproximado (ANN) pesquisar sobre um valor pré-computado Faiss Índice vetorial de contribuições do grupo. Isso permite a recuperação de conteúdo com base na similaridade conceitual de alta dimensão, independentemente da sobreposição de palavras-chave.

Classificação L2 com arquitetura multi-rótulo multitarefa (MTML).

A fusão de resultados de dois paradigmas fundamentalmente diferentes – características lexicais esparsas e características semânticas densas – exigiu uma estratégia de classificação sofisticada. Os candidatos identificados a partir da palavra-chave e do sistema de incorporação são reunidos na fase de classificação. Aqui, além de recursos semânticos (valores de similaridade de cosseno), o modelo também captura características lexicais (como valores TF-IDF e BM25).

Em seguida, passamos de modelos de alvo único para um MTML Arquitetura de supermodelo. Isso permite que o sistema seja otimizado em conjunto para vários objetivos de engajamento – em particular Cliques, compartilhamentos e comentários – mantendo a modularidade plug-and-play. Ao ponderar esses sinais, o modelo garante que os resultados que descobrimos não sejam apenas teoricamente relevantes, mas também é provável que gere interação comunitária significativa.

Avaliação off-line automatizada

Usar a pesquisa semântica traz consigo um desafio de validação: os valores de similaridade nem sempre são intuitivos no espaço vetorial de alta dimensão. Para validar a qualidade em escala sem o gargalo da rotulagem humana, integramos uma estrutura de avaliação automatizada em nosso teste de verificação de construção (BVT) processo.

Usamos Lhama 3 com recursos multimodais como um juiz automatizado para avaliar os resultados da pesquisa com base nas consultas de pesquisa. Ao contrário dos rótulos binários “bom/ruim”, nossos prompts de classificação são projetados para reconhecer nuances. Programamos explicitamente o sistema para reconhecer uma categoria “um pouco relevante”, definidos como casos em que a consulta e o resultado compartilham um domínio ou tópico comum (por exemplo, diferentes esportes ainda são relevantes no contexto esportivo geral). Isso nos permite medir melhorias na diversidade de resultados e na consistência conceitual.

Implicações e trabalho futuro

O uso dessa arquitetura híbrida levou a melhorias mensuráveis em nossas métricas de qualidade e confirma que a combinação de precisão lexical e compreensão neural é superior aos métodos somente de palavras-chave. De acordo com nossos resultados de avaliação off-line, o novo Modelo L2 + EBR (híbrido) O sistema superou a linha de base geral Engajamento de pesquisa com o número diário de usuários que pesquisam no Facebook em comparação com a linha de base.

Esses números confirmam que, ao incorporar a recuperação semântica, podemos descobrir com sucesso conteúdo mais relevante sem sacrificar a precisão que os usuários esperam. Embora a modernização da pilha de recuperação seja um marco importante, é apenas o começo para desbloquear o conhecimento da comunidade. Nosso roteiro se concentra em aprofundar a integração de modelos avançados na experiência de pesquisa:

LLMs no ranking: Planejamos aplicar LLMs diretamente na fase de classificação. Processando o conteúdo das postagens durante a classificação, pretendemos refinar ainda mais a pontuação de relevância além da similaridade vetorial.
Recuperação adaptativa: Exploramos estratégias de recuperação adaptativa orientadas por LLM que podem ajustar dinamicamente os parâmetros de recuperação com base na complexidade da consulta do usuário.

Leia o jornal

Modernizando a pesquisa de escopo do Facebook: Palavra-chave e incorporação de recuperação híbrida com avaliação LLM