Données projetées par Google Glass. Gemini Generates Reality For Windows 7,8,10,11

Construire une partie de la ville invisible #3. Comment les agents d'IA événementiels créent des interfaces spatiales qui n'existent que lorsque vous en avez besoin

Il s'agit du troisième d'une série d'articles sur mes agents distribués basés sur A2A en tant que maillage de services dans les applications utilisant Gemini, voir le partie 1 et partie 2 pour une plongée technique approfondie.

https://medium.com/media/fe023eefd7015e97be1d27ad8fdf22f5/href

"Papa! Je vois un tuyau bleu brillant sous la bouche d'incendie. Pouvons-nous ajouter des chatons là-bas ??»

Ce fut la première réaction de mes filles en voyant notre rue en réalité augmentée. Pas les trois agents IA travaillant de concert. Ce n'est pas le modèle Gemini qui génère une superposition spatiale. Chatons. Elle a vu un trottoir ennuyeux recouvert d'informations, j'ai regardé un monde caché apparaître en dessous, et j'ai immédiatement voulu le peupler d'objets de collection. En fait, je pense que c'est une idée amusante.

Souviens-toi du skateboard qui a commencé tout ça? Celui qui est tombé dans les égouts pluviaux l'été dernier? Elle a enfin eu sa vision aux rayons X. Mais ce qu'elle voit maintenant est plus grand que ce que j'imaginais quand je suis descendu de cette plaque d'égout.. Elle voit une toile.

Et cela a changé ma façon de penser la RA.

De la projection des données au traitement de la réalité

De retour 2014 J'ai pris l'avion pour le camp de base de Google à New York pour le hackathon de pré-lancement de Glass.. C'est là que j'ai obtenu le cristal Pioneer qui se trouve toujours sur l'étagère de mon bureau à côté du matériel Glass d'origine.. J'ai construit LynxFit, une application de fitness AR qui a intégré vos statistiques d'entraînement dans votre vision périphérique. Nous pensions être les pionniers de l'avenir. On découvrait effectivement ses limites.

Voici ce que j'ai retenu de ces jours Glass, et il m'a fallu des années pour l'articuler: nous avons traité la RA comme un problème d'affichage. Afficher les notifications. Métriques du projet. Placez une interface utilisateur allégée pour smartphone sur un petit prisme et appelez-la informatique spatiale.. Je faisais une démonstration de LynxFit aux coureurs et ils seraient ravis de voir leur rythme flotter dans les airs, mais nous n'avons jamais obtenu d'artefacts numériques vraiment ancrés spatialement dans le monde réel.. Nous étions tellement occupés à diffuser des informations DANS le monde que nous n'avons jamais cessé de nous demander ce que le monde nous disait..

Avance rapide jusqu’aux années dernières Annonce d'Android XR.

Dans ce monde d'agents IA, le concept de création d'applications pour XR est en train de mourir. Le travail ne consiste plus à créer des applications pour les écrans. Le travail consiste à orchestrer des agents d'IA qui comprennent la géométrie physique, contexte, et l'intention de l'endroit où vous vous trouvez.

https://medium.com/media/25cef304b503ed18a5e81ac55c441f9c/href

J'avais prédit ça depuis plus d'une décennie, consultez mon haut-parleur parle sur XR. Nous sommes passés de la projection de données au traitement de la réalité. C'est tout le changement.

L'événement qui a tout changé

L'ajout de la RA mobile à The Invisible City était le déverrouillage. Quand les boîtes englobantes ont commencé à se verrouiller sur une vraie bouche d'incendie et à suivre pendant que je la contournais, quelque chose a cliqué. C'était une intelligence ambiante répondant au monde.

Voici ce qui fonctionne actuellement en mode direct:

La caméra bouge. L'événement de mouvement se déclenche à 30 ips depuis le téléphone.
Surface Eye détecte automatiquement. De nouveaux marqueurs sont diffusés via WebSocket.
Pattern Oracle remarque l'anomalie. "Cette conduite de gaz n'est qu'un 18 pouces de profondeur. C’est superficiel.
Depth Renderer peint une superposition d'avertissement rouge.
Gemini Live prend la parole. "Conduite de gaz prévue à la position actuelle."

Personne n'a dit "Hey AI, analysez cela. Le système voit, comprend, et te dit. De manière autonome.

J'ai testé ça en marchant dans ma rue. Au moment où j'ai traversé un groupe de marqueurs utilitaires, la voix s'est déclenchée avec quelque chose qui ressemblait à: *trois utilitaires convergent ici, conduite d'eau à profondeur standard, un conduit de télécommunications semble passer au-dessus, configuration inhabituelle.* (Celui-là illustre ce que raconte le système, pas un journal textuel. Les vraies transcriptions sont plus compliquées.) Le point demeure. je n'ai pas demandé. Je savais juste que cela valait la peine d'être mentionné.

C'est un type de RA différent de tout ce que j'ai construit sur Glass.

Rendre les rues transparentes

Voici le moment où les développeurs interviennent. Nous disons aux Gémeaux de rendre la rue transparente, et il comprend ce que cela signifie spatialement.

config = types.GenerateContentConfig(
 réponse_modalités=["IMAGE", "TEXT"],
)
réponse = attendre client.aio.models.generate_content(
 model="gemini-3.1-flash-image-preview",
 contenu=[
 types.Part.from_bytes(données = image_data, mime_type="image/jpeg"),
 rapide
 ],
 config=config
)

Cette ligne de configuration fait beaucoup de travail. Nous demandons à Gemini de générer une image ET d'expliquer son raisonnement dans le même appel. Cela crée la visualisation, pas seulement classer les pixels.

L'invite est d'où vient le comportement:

"transparent": """
CRITIQUE: Vous devez PRÉSERVER exactement l’image originale, seulement en modifiant le
la surface du sol doit être semi-transparente.
Instructions:
1. Conserver tous les bâtiments, voitures, les gens EXACTEMENT tels qu'ils sont
2. Apply "frosted glass" effet UNIQUEMENT sur la chaussée/la route
3. Montrez les services publics souterrains qui brillent sous cette surface
4. Utilisez les couleurs APWA pour les lignes (Rouge: Électrique, Bleu: Eau…)
5. N'ajoutez AUCUN texte, étiquettes, ou des éléments d'interface utilisateur
"""

Les Gémeaux déterminent ce qui est valable et ce qui ne l’est pas., applique la transparence de manière sélective, intègre des utilitaires pour qu'ils aient l'air d'être DANS la terre plutôt que de flotter au-dessus, et préserve la perspective tout en révélant la profondeur. Rappelez-vous dans le premier message lorsque Surface Eye confondait les plaques d'égout avec les frisbees.? Cette même famille de modèles comprend désormais suffisamment bien les propriétés des matériaux et l'espace 3D pour rendre l'asphalte sélectivement transparent tout en laissant chaque voiture et piéton intact..

Modèle mathématique d'espacement de 350 pieds d'Oracle à partir du deuxième poste? Il apparaît sous la forme de tuyaux lumineux à la bonne profondeur sous cette couche transparente.. Les trois agents apparaissent enfin ensemble dans un seul cadre.

Interface utilisateur générative: des interfaces qui n'existent que lorsque vous en avez besoin

La demande de chaton de ma fille faisait ressortir quelque chose sur lequel je n’avais pas encore mis de mots..

Dans les logiciels traditionnels, les développeurs codent en dur chaque bouton, menu, et tableau de bord à l'avance. L'interface utilisateur vous attend. Il est toujours là, que vous en ayez besoin ou non.

Dans notre système AR, l'interface est éphémère. Il n'existe pas jusqu'à ce que vous en ayez besoin. Quand elle a demandé des chatons, elle ne demandait pas de fonctionnalité dans un backlog. Elle décrivait une interface qui devrait se générer à la demande.

Voici une version simplifiée de la façon dont nous branchons le contexte. Le système réel est plus complexe et le classificateur de contexte est lui-même un appel de modèle. C'est le squelette illustratif:

# Illustration simplifiée, pas la mise en œuvre complète
async def generate_contextual_interface(
 contexte_utilisateur: str, # "construction_worker" | "child" | "city_planner"
 live_markers: liste, # diffusion depuis Surface Eye
 inférence_actuelle: dicter, # du modèle Oracle
):
 if user_context == "child":
 prompt = f"""
 Créer une interface de chasse au trésor AR:
 - Cacher les objets virtuels à proximité {len(live_markers)} marqueurs détectés
 - Faites-les briller et vibrer pour attirer l'attention
 - Ajouter des effets de particules une fois découverts
 """
 elif user_context == "construction_worker":
 prompt = f"""
 Créer une superposition de sécurité des services publics:
 - Mettez en surbrillance les conduites de gaz peu profondes en rouge
 - Afficher les dégagements de fouille requis
 - Afficher 811 état de l'appel pour cet emplacement
 """
retour attendre gemini.generate_spatial_ui(rapide, scène_actuelle)

Même rue physique, réalité générée complètement différente. j'ai testé les deux. Le travailleur de la construction voit les mesures de profondeur et les zones de sécurité. Ma fille voit des objets de collection lumineux près des bouches d'incendie.

Maintenant, étendez cela aux visiocasques. Vous portez des lunettes Android XR, vous regardez une boîte de jonction au niveau de la rue, et l'IA ne se contente pas de l'identifier. Basé sur la durée du regard (est-ce que tu l'étudies?), votre rôle (électricien de garde?), et le contexte (panne de courant signalée sur ce bloc?), il génère une interface personnalisée: un panneau de diagnostic avec relevés de tension, flèches pointant vers le disjoncteur principal, instructions de réinitialisation étape par étape positionnées spatialement, une voix vous demandant s'il doit appeler l'utilitaire pour vous.

L'interface n'existe qu'au moment où vous en avez besoin. Détourne le regard et c'est parti. Aucun menu à fermer. Aucune fenêtre à minimiser.

C'est la chose que je ne pouvais pas faire 2014. Sur Glass, nous avons dû pré-construire toutes les interfaces possibles. Désormais, Gemini les génère à la demande.

Ce que j'ai expédié (et ce qui nous a surpris)

Voici ce qui se passe réellement lorsque vous ouvrez l'application aujourd'hui.

Mode caméra en direct avec narration en temps réel. Appuyez sur « Démarrer en direct » et le flux de votre caméra génère un effet de ligne de balayage.. Surface Eye traite une vidéo à 30 ips, marqueurs de streaming sur WebSocket. Gemini Live écoute tout le temps et raconte ce qu'il voit: *Je vois une bouche d'incendie à midi, à environ dix pieds devant moi, la peinture en aérosol bleue indique la conduite d'eau en dessous, des marques orange suggèrent un passage à niveau télécom à cette intersection.* Vous n'avez pas demandé. J'ai supposé que tu voulais savoir.

Une mise en garde honnête ici. Gémeaux 2.5 L'outil de Flash Native Audio Preview appelant pendant les sessions Live API n'est pas fiable environ une fois sur chaque 20 appels. C'est Problème GitHub #843 si tu veux suivre. Je contourne ce problème grâce également à CLI Gémeaux il a implémenté un minuteur back-end parallèle de 15 secondes qui détecte les invocations d'outils abandonnées et les rejoue. Pas sexy. Absolument nécessaire. Production AR vit et meurt avec ces correctifs de fiabilité « ennuyeux ».

Quatre styles de visualisation, chacun rendu à partir de la même image de caméra:

Transparent. Le trottoir se transforme en verre dépoli. Les conduites d'eau bleues brillent en dessous, impulsion de lignes électriques rouges. Tout ce qui se trouve au-dessus du sol reste exactement tel que photographié.

Radiographie. La scène entière devient sombre. Seule l'infrastructure brille. On dirait un peu Blade Runner, généré en direct depuis un téléphone.

Coupe. Mon préféré. Comme si quelqu'un avait posé une énorme scie sur la terre et en avait coupé une section transversale.. Vous voyez des couches de sol, lits de gravier, tuyaux à leur profondeur réelle. Les équipes de construction l'obtiennent immédiatement.

Superposition AR. Le mode conçu pour se promener. Les boîtes holographiques se verrouillent sur de vrais marqueurs, des lignes lumineuses relient les chemins souterrains, les distances flottent dans les airs. Le tout mis à jour à 30 ips.

Et parce que j'ai promis l'honnêteté: au début, Les Gémeaux généreraient une belle rue transparente… avec une girafe aléatoire debout dedans. Ou ça rendrait la route transparente ET les voitures transparentes. Une production particulièrement spéciale que je ne peux décrire que comme « des tuyaux en crise existentielle dans le vide ». Nous avons donc construit un chemin de repli déterministe:

sinon visualisation_base64:
 enregistreur.info("Falling back to deterministic compositing")
 # Les Gémeaux ont échoué? Aucun problème. Dessine-le nous-mêmes.
 visualisation_base64 = attendre create_visualization(
 surface_image_base64,
 analyse_de surface,
 réseau_inférence,
 style=style
 )

Lorsque le modèle se comporte mal, nous composons la visualisation avec des graphiques traditionnels. L'utilisateur ne voit jamais l'échec. Ce modèle hybride, IA quand elle fonctionne et déterministe quand elle ne fonctionne pas, est ce qui différencie une démo de quelque chose avec lequel les gens se promènent réellement.

Anti-chatbot: agents événementiels

Permettez-moi d'être direct sur quelque chose. Ce n’est pas un chatbot avec une caméra attachée.

J'ai notoirement divagué sur la façon dont Les chatbots sont une interface paresseuse (mais c'était utile pour montrer ce que les LLM pouvaient faire à l'époque 2022). Ils fonctionnent tous de la même manière: tu demandes, ils répondent. Même les plus sophistiqués attendent que vous téléchargiez une image et que vous tapiez une question.

Nos agents sont événementiels. Ils répondent au monde, ne pas inviter. Voici le véritable gestionnaire WebSocket en mode direct:

surAppelOutil: ({ nom, arguments }) => {
 si (name === "surface_eye_analysis") {
 // Les agents ont détecté quelque chose, aucune invite utilisateur n'est nécessaire
 marqueurs const = args.markers;
 mise à jourAROverlay(marqueurs);
si (aAnomalie(marqueurs)) {
 parlerAvertissement("Unusual configuration detected");
 }
 }
}

L'utilisateur ne demande pas « que voyez-vous ??« Les agents traitent en permanence, déduire, et alerter.

Où ça va

Ma fille veut le mode chaton. Son idée ludique pointe vers quelque chose de sérieux.

Ce que je construis en ce moment, pas un jour. Sessions AR multi-utilisateurs où deux téléphones pointés vers la même rue voient les mêmes superpositions générées, soutenu par un état spatial partagé du même cluster d'agents. Interaction vocale d'abord via Gemini Live afin que le modèle d'interaction soit une simple conversation. Inférence Oracle de modèle sur l'appareil pour les visiocasques, parce que les allers-retours dans le cloud tuent la présence en moins de 100 ms.

La partie qui m'a fait repenser toute la prémisse. Nous continuons à considérer la RA comme un « ajout à la réalité ». Et si on l'avait eu à l'envers tout le temps? Et si la réalité n'était que l'interface utilisateur par défaut, et la RA nous permet d'en générer de meilleurs en plus?

Une rue est une interface utilisateur pour le transport. Un mur est une interface utilisateur pour la division spatiale. Une porte est une interface utilisateur pour le contrôle d'accès. Les architectes et les ingénieurs ont conçu ces interfaces il y a des décennies ou des siècles et nous sommes restés coincés avec elles.. Nous pouvons désormais générer de nouvelles interfaces sur les anciennes en temps réel, personnalisé pour celui qui cherche.

Un chirurgien voit des signes vitaux flotter au-dessus des organes, déduit du changement de couleur de la peau et des mouvements de la poitrine plutôt que des capteurs filaires. Un chef voit les minuteries sur les casseroles et les gradients de température sur les poêles, généré à partir des ingrédients et des outils sur le comptoir. Ma fille voit une chasse au trésor où des chatons virtuels se cachent près de vraies bouches d'incendie, et le jeu génère différemment à chaque fois en fonction de la météo, heure de la journée, et quels marqueurs Surface Eye trouve. Le jeu n'est pas quelque chose que nous avons construit. C'est quelque chose que le système construit, à la volée, contre le monde physique comme toile.

La pile

Cela continue:

API Gemini Live pour une interaction AR axée sur la voix (Esprit profond)
– Moteur d'agent Vertex AI orchestrer les trois agents à grande échelle
– Google Cloud Exécuter pour un déploiement périphérique à faible latence
À l'avenir…
– Android XR comme fondement de l'informatique spatiale

Le même modèle Gemini qui écrit de la poésie génère des superpositions AR spatialement conscientes. Le même moteur d'agent qui alimente les chatbots orchestre les systèmes de vision en temps réel. Nous sommes passés des API qui traitent aux agents qui perçoivent.

A ton tour

La Ville Invisible a commencé avec un skateboard dans un égout pluvial. C'est devenu un système qui rend les rues transparentes. C'est le début, pas la fin.

Ma fille veut cacher des chatons virtuels dans les tuyaux pour que d'autres enfants les trouvent. Elle conçoit déjà des power-ups et se demande si les chatons devraient briller de différentes couleurs en fonction de l'utilitaire à proximité duquel ils se trouvent.. (Ils devraient.)

Les équipes de construction ne veulent pas seulement voir ce qui peut être creusé en toute sécurité. Ils veulent que l'IA les prévienne avant de ramasser une pelle: en fonction de votre proximité avec la conduite de gaz marquée et des conditions de vent actuelles, approche par le nord.

Les urbanistes ne veulent pas seulement des tableaux de bord sur la capacité des infrastructures. Ils veulent des modèles qui échappent aux humains: la consommation d’eau de ce quartier culmine 30 minutes plus tôt que les zones environnantes, les indicateurs de contrainte des canalisations suggèrent de mettre à niveau cette section avant la défaillance prévue dans 18 mois.

Alors voici ma vraie question. Que construirez-vous lorsque l'interface se générera d'elle-même en fonction de qui recherche? Quel est ton mode chaton… le ludique, pratique, ou une superposition profonde que vous mettriez sur la réalité si le modèle faisait simplement le dessin pour vous?

Le code est réel. La plateforme est ici. Les modèles sont prêts. Ma fille a déjà une liste de fonctionnalités.

Construisons quelque chose de différent… quelque chose qui compte.

— –

La suite de la série sera déterminée par ce à quoi j'aurai accès en mai, mais j'espère que c'est mon cheminement vers le déploiement de cela sur de vraies lunettes AI., restez à l'écoute.

Noble est un expert en développement Google pour l'IA/ML et un pionnier du verre du 2014 Hackathon du camp de base de New York, actuellement obsédé par ce qui se passe lorsque les agents IA peuvent voir, raison à propos de, et générer des interfaces spatiales en temps réel. Je teste probablement les fonctionnalités AR dans sa rue en ce moment, à la grande confusion de ses voisins.

Messages un et deux de la série: Création d'un agent de détection d'infrastructure basé sur la vision avec Gemini 3 · Création d'un agent de raisonnement découvrable A2A avec une connaissance du domaine

Suivez le voyage: YouTube: Noble Ackerson

Données projetées par Google Glass. Gemini Generates Reality a été initialement publié dans Google Developer Experts sur Medium, où les gens poursuivent la conversation en soulignant et en répondant à cette histoire.