Von Google Glass projizierte Daten. Gemini Generates Reality For Windows 7,8,10,11

Gebäude unsichtbarer Stadtteil #3. Wie ereignisgesteuerte KI-Agenten räumliche Schnittstellen schaffen, die erst dann existieren, wenn Sie sie brauchen

Dies ist der dritte in einer Reihe von Beiträgen zu meinen verteilten A2A-basierten Agenten als Service Mesh innerhalb von Apps, die Gemini verwenden Teil 1 Und Teil 2 für einen technischen Tieftauchgang.

https://medium.com/media/fe023eefd7015e97be1d27ad8fdf22f5/href

"Papa! Ich sehe ein leuchtend blaues Rohr unter dem Hydranten. Können wir dort unten Kätzchen hinzufügen??”

Das war die erste Reaktion meiner Tochter, als sie unsere Straße in Augmented Reality sah. Nicht die drei KI-Agenten, die zusammenarbeiten. Nicht das Gemini-Modell, das eine räumlich bewusste Überlagerung erzeugt. Kätzchen. Sie sah langweiliges, mit Informationen übersätes Pflaster, beobachtete, wie darunter eine verborgene Welt auftauchte, und wollte es sofort mit Sammlerstücken bestücken. Eigentlich denke ich, dass das eine lustige Idee ist.

Erinnern Sie sich an das Skateboard, mit dem das alles begann? Derjenige, der letzten Sommer den Abfluss hinunterging? Endlich bekam sie ihre Röntgensicht. Aber was sie jetzt sieht, ist größer als das, was ich mir vorgestellt habe, als ich den Gullydeckel hinuntergeklettert bin. Sie sieht eine Leinwand.

Und das hat meine Einstellung zu AR verändert.“

Von der Projektion von Daten bis zur Verarbeitung der Realität

Wieder rein 2014 Ich bin zum Glass-Pre-Launch-Hackathon zum Basislager von Google in New York geflogen. Von dort habe ich das Pioneer-Kristall erhalten, das immer noch in meinem Büroregal neben der Original-Glashardware steht. Ich habe LynxFit gebaut, eine AR-Fitness-App, die Ihre Trainingsstatistiken in Ihr peripheres Sichtfeld überträgt. Wir dachten, wir seien Pioniere der Zukunft. Wir entdeckten tatsächlich seine Grenzen.

Hier ist, was ich aus diesen Glass-Tagen mitgenommen habe, und ich habe Jahre gebraucht, um es zu artikulieren: Wir haben AR als Anzeigeproblem behandelt. Benachrichtigungen anzeigen. Projektmetriken. Packen Sie eine abgespeckte Smartphone-Benutzeroberfläche auf ein winziges Prisma und nennen Sie es Spatial Computing. Ich würde LynxFit den Läufern vorführen und sie waren begeistert, wenn sie sahen, wie ihr Tempo in der Luft schwebte, aber wir bekamen nie digitale Artefakte, die wirklich räumlich in der realen Welt verankert wären. Wir waren so damit beschäftigt, Informationen in die Welt zu bringen, dass wir nie aufgehört haben zu fragen, was die Welt uns erzählt.

Schneller Vorlauf zu den letzten Jahren Ankündigung für Android XR.

In dieser Welt der KI-Agenten, Das Konzept, Apps für XR zu entwickeln, liegt im Sterben. Der Job besteht nicht mehr darin, Apps für Bildschirme zu erstellen. Die Aufgabe besteht darin, KI-Agenten zu orchestrieren, die die physische Geometrie verstehen, Kontext, und Absicht, wo auch immer Sie stehen.

https://medium.com/media/25cef304b503ed18a5e81ac55c441f9c/href

Ich habe das vorhergesagt Schauen Sie sich seit über einem Jahrzehnt meine Speakerdeck-Vorträge auf XR an. Wir sind von der Projektion von Daten zur Verarbeitung der Realität übergegangen. Das ist der ganze Wandel.

Das Ereignis, das alles veränderte

Das Hinzufügen mobiler AR zu The Invisible City war der Schlüssel dazu. Als die Bounding Boxes anfingen, einen echten Hydranten zu erfassen und zu verfolgen, wie ich um ihn herumging, Etwas hat Klick gemacht. Das war Umgebungsintelligenz, die auf die Welt reagierte.

Hier sehen Sie, was derzeit tatsächlich im Live-Modus läuft:

Kamera bewegt sich. Das Bewegungsereignis wird vom Telefon aus mit 30 Bildern pro Sekunde ausgelöst.
Surface Eye erkennt automatisch. Neue Markierungen strömen über WebSocket ein.
Muster Oracle bemerkt die Anomalie. „Diese Gasleitung ist nur 18 Zoll tief. Das ist oberflächlich.“
Der Tiefenrenderer malt eine rote Warnüberlagerung.
Gemini Live meldet sich zu Wort. „Gasleitung an aktueller Position vorhergesagt.“

Niemand sagte „Hey KI, Analysiere das.“ Das System sieht, versteht, und sagt es dir. Autonom.

Ich habe es auf meiner Straße getestet. In dem Moment, als ich eine Ansammlung von Versorgungsmarkierungen überquerte, Die Stimme ertönte mit etwas Ähnlichem: *Hier laufen drei Versorgungsunternehmen zusammen, Hauptwasserleitung in Standardtiefe, Die Telekommunikationsleitung scheint sich darüber zu kreuzen, ungewöhnliche Konfiguration.* (Das veranschaulicht, was das System erzählt, kein wörtliches Protokoll. Die echten Transkripte sind chaotischer.) Der Punkt steht. Ich habe nicht gefragt. Es wusste einfach, dass dies erwähnenswert war.

Das ist eine andere Art von AR als alles, was ich auf Glass gebaut habe.

Straßen transparent machen

Hier ist der Moment, in dem sich Entwickler zu Wort melden. Wir sagen den Zwillingen, sie sollen die Straße transparent machen, und es versteht, was das räumlich bedeutet.

config =types.GenerateContentConfig(
 Response_modalities=["IMAGE", "TEXT"],
)
Antwort = Warten auf client.aio.models.generate_content(
 model="gemini-3.1-flash-image-preview",
 Inhalt=[
 Typen.Part.from_bytes(data=image_data, mime_type="image/jpeg"),
 prompt
 ],
 config=config
)

Diese Konfigurationszeile macht eine Menge Arbeit. Wir bitten Gemini, im selben Aufruf ein Bild zu erstellen UND dessen Begründung zu erläutern. Es erstellt die Visualisierung, nicht nur Pixel klassifizieren.

Die Eingabeaufforderung gibt an, woher das Verhalten kommt:

"transparent": """
KRITISCH: Sie müssen das Originalbild genau ERHALTEN, nur das Ändern der
Bodenoberfläche halbtransparent sein.
Anweisungen:
1. Behalten Sie alle Gebäude, Autos, Menschen GENAU so, wie sie sind
2. Apply "frosted glass" Wirkung NUR auf Gehweg/Straße
3. Zeigen Sie unterirdische Versorgungsleitungen, die unter dieser Oberfläche leuchten
4. Verwenden Sie APWA-Farben für die Linien (Rot: Elektrisch, Blau: Wasser…)
5. Fügen Sie KEINEN Text hinzu, Etiketten, oder UI-Elemente
"""

Zwillinge finden heraus, was geerdet ist und was nicht, wendet Transparenz selektiv an, bettet Versorgungsleitungen ein, so dass sie aussehen, als wären sie IN der Erde, anstatt oben zu schweben, und bewahrt die Perspektive und offenbart gleichzeitig Tiefe. Erinnern Sie sich an Beitrag eins, als Surface Eye immer wieder Schachtdeckel mit Frisbees verwechselte? Dieselbe Modellfamilie versteht nun die Materialeigenschaften und den 3D-Raum gut genug, um Asphalt selektiv durchsichtig zu machen, während jedes Auto und jeder Fußgänger unberührt bleibt.

Mustern Sie die 350-Fuß-Abstandsberechnung von Oracle aus Beitrag zwei? Es wird als leuchtende Röhre in der richtigen Tiefe unter dieser transparenten Schicht gerendert. Die drei Agenten tauchen schließlich gemeinsam in einem Bild auf.

Generative Benutzeroberfläche: Schnittstellen, die nur dann vorhanden sind, wenn Sie sie benötigen

Der Wunsch meiner Tochter nach einem Kätzchen deutete auf etwas hin, das ich noch nicht in Worte fassen konnte.

In traditioneller Software, Entwickler codieren jede Schaltfläche fest, Speisekarte, und Dashboard im Voraus. Die Benutzeroberfläche wartet auf Sie. Es ist immer da, ob Sie es brauchen oder nicht.

In unserem AR-System ist die Schnittstelle vergänglich. Es existiert erst, wenn Sie es brauchen. Als sie nach Kätzchen fragte, Sie hat kein Feature in einem Backlog angefordert. Sie beschrieb eine Schnittstelle, die sich bei Bedarf selbst generieren sollte.

Hier ist eine vereinfachte Version, wie wir den Kontext verzweigen. Das reale System ist komplexer und der Kontextklassifizierer selbst ist ein Modellaufruf. Dies ist das illustrative Skelett:

# Vereinfachte Darstellung, nicht die vollständige Umsetzung
async def generic_contextual_interface(
 user_context: str, # "construction_worker" | "child" | "city_planner"
 live_markers: Liste, # Streaming von Surface Eye
 current_inference: dict, # von Pattern Oracle
):
 if user_context == "child":
 prompt = f"""
 Erstellen Sie eine AR-Schatzsuche-Schnittstelle:
 - Verstecken Sie virtuelle Objekte in der Nähe {len(live_markers)} erkannte Marker
 - Bringen Sie sie zum Leuchten und Pulsieren, um Aufmerksamkeit zu erregen
 - Füge Partikeleffekte hinzu, wenn sie entdeckt werden
 """
 elif user_context == "construction_worker":
 prompt = f"""
 Erstellen Sie ein Overlay für die Versorgungssicherheit:
 - Markieren Sie flache Gasleitungen rot
 - Zeigen Sie die erforderlichen Grababstände an
 - Anzeige 811 Anrufstatus für diesen Standort
 """
Rückkehr warte auf gemini.generate_spatial_ui(prompt, aktuelle_Szene)

Dieselbe physische Straße, völlig anders erzeugte Realität. Ich habe beide getestet. Der Bauarbeiter sieht Tiefenmessungen und Sicherheitszonen. Meine Tochter sieht leuchtende Sammlerstücke in der Nähe der Hydranten.

Erweitern Sie dies nun auf Head-Mounted-Displays. Sie tragen eine Android-XR-Brille, Sie sehen einen Anschlusskasten auf Straßenniveau, und die KI identifiziert es nicht nur. Basierend auf der Blickdauer (studierst du es??), Deine Rolle (Elektriker auf Abruf?), und Kontext (In diesem Block wurde ein Stromausfall gemeldet?), Es generiert eine benutzerdefinierte Schnittstelle: ein Diagnosepanel mit Spannungswerten, Pfeile zeigen auf den Hauptschalter, Schritt-für-Schritt-Reset-Anleitung räumlich positioniert, eine Stimme fragt, ob das Telefon für Sie angewählt werden soll.

Die Schnittstelle existiert erst in dem Moment, in dem Sie sie benötigen. Schau weg und es ist weg. Keine Menüs zum Schließen. Keine zu minimierenden Fenster.

Das ist es, was ich nicht tun konnte 2014. Auf Glass mussten wir jede mögliche Schnittstelle vorab erstellen. Jetzt generiert Gemini sie auf Anfrage.

Was ich verschickt habe (und was uns überrascht hat)

Folgendes passiert tatsächlich, wenn Sie heute die App aufrufen.

Live-Kameramodus mit Echtzeit-Kommentar. Klicken Sie auf „Live starten“ und Ihr Kamera-Feed zeigt einen Scan-Line-Effekt an. Surface Eye verarbeitet Videos mit 30 Bildern pro Sekunde, Streaming-Marker über WebSocket. Gemini Live hört die ganze Zeit zu und erzählt, was es sieht: *Ich sehe einen Hydranten um zwölf Uhr, etwa drei Meter weiter, Die blaue Sprühfarbe weist auf die Wasserleitung unten hin, Orangefarbene Markierungen deuten auf eine Kreuzung der Telekommunikation an dieser Kreuzung hin.* Sie haben nicht gefragt. Es wurde davon ausgegangen, dass Sie es wissen wollten.

Eine ehrliche Einschränkung hier. Zwillinge 2.5 Der Toolaufruf von Flash Native Audio Preview während Live-API-Sitzungen ist ungefähr einmal pro Woche unzuverlässig 20 Anrufe. Das ist GitHub-Problem #843 wenn du mitmachen willst. Ich arbeite auch daran, dank Gemini-CLI Es wurde ein paralleler 15-Sekunden-Backend-Timer implementiert, der abgebrochene Tool-Aufrufe abfängt und wiedergibt. Nicht sexy. Absolut notwendig. Produktions-AR lebt und stirbt von diesen „langweiligen“ Zuverlässigkeitspatches.

Vier Visualisierungsstile, jeweils aus demselben Kamerabild gerendert:

Transparent. Der Bürgersteig verwandelt sich in Milchglas. Darunter leuchten blaue Wasserleitungen, Rote elektrische Leitungen pulsieren. Alles über der Erde bleibt genau so, wie es aufgenommen wurde.

Röntgen. Die ganze Szene wird zur dunklen Blaupause. Nur die Infrastruktur strahlt. Sieht ein wenig aus wie Blade Runner, live von einem Telefon generiert.

Cutaway. Mein Favorit. Als ob jemand mit einer riesigen Säge in die Erde schnitte und einen Querschnitt aufschnitt. Sie sehen Bodenschichten, Kiesbetten, Rohre in ihrer tatsächlichen Tiefe. Bautrupps haben es sofort verstanden.

AR-Overlay. Der Modus zum Herumlaufen. Holografische Boxen rasten auf echten Markierungen ein, Leuchtende Linien verbinden unterirdische Wege, Entfernungen schweben in der Luft. Alles wird mit 30 Bildern pro Sekunde aktualisiert.

Und weil ich Ehrlichkeit versprochen habe: schon früh, Zwillinge würden eine wunderschöne transparente Straße erzeugen … mit einer zufälligen Giraffe darin. Oder es würde die Straße transparent machen UND die Autos transparent machen. Ein besonders besonderes Ergebnis kann ich nur als „Pfeifen mit einer existenziellen Krise im Nichts“ bezeichnen. Deshalb haben wir einen deterministischen Fallback-Pfad erstellt:

wenn nicht visualisierung_base64:
 logger.info("Falling back to deterministic compositing")
 # Zwillinge haben versagt? Kein Problem. Zeichnen Sie es selbst.
 visualisierung_base64 = warte auf create_visualization(
 surface_image_base64,
 surface_analysis,
 network_inference,
 Stil=Stil
 )

Wenn sich das Modell schlecht verhält, kombinieren wir die Visualisierung mit herkömmlichen Grafiken. Der Benutzer sieht den Fehler nie. Dieses Hybridmuster, KI, wenn sie funktioniert, und deterministisch, wenn sie nicht funktioniert, ist es, was eine Demo von etwas unterscheidet, mit dem die Leute tatsächlich herumlaufen.

Anti-Chatbot: ereignisgesteuerte Agenten

Lassen Sie mich etwas direkt ansprechen. Dies ist kein Chatbot mit angeschnallter Kamera.

Ich habe notorisch darüber geschimpft, wie Chatbots sind eine faule Schnittstelle (war jedoch nützlich, um zu zeigen, was LLMs damals leisten konnten 2022). Sie funktionieren alle auf die gleiche Weise: du fragst, sie antworten. Sogar die Ausgefalleneren warten darauf, dass Sie ein Bild hochladen und eine Frage eingeben.

Unsere Agenten sind ereignisgesteuert. Sie reagieren auf die Welt, nicht auf Eingabeaufforderungen. Hier ist der eigentliche WebSocket-Handler aus dem Live-Modus:

onToolCall: ({ Name, args }) => {
 Wenn (name === "surface_eye_analysis") {
 // Agenten haben etwas entdeckt, Keine Benutzeraufforderung erforderlich
 const markers = args.markers;
 updateAROverlay(Markierungen);
Wenn (hasAnomaly(Markierungen)) {
 speakWarnung("Unusual configuration detected");
 }
 }
}

Der Benutzer fragt nicht: „Was sehen Sie?“.?„Die Agenten bearbeiten kontinuierlich, schlussfolgern, und alarmierend.

Wohin das führt

Meine Tochter möchte den Kätzchenmodus. Ihre spielerische Idee deutet auf etwas Ernstes hin.

Was ich gerade baue, nicht eines Tages. Mehrbenutzer-AR-Sitzungen, bei denen zwei auf dieselbe Straße gerichtete Telefone dieselben generierten Overlays sehen, unterstützt durch einen gemeinsamen räumlichen Zustand aus demselben Agentencluster. Voice-First-Interaktion über Gemini Live, sodass das Interaktionsmodell eine einfache Konversation ist. Muster-Oracle-Inferenz auf dem Gerät für Head-Mounted-Displays, weil Cloud-Roundtrips die Präsenz in weniger als 100 ms töten.

Der Teil, der mich dazu brachte, die ganze Prämisse zu überdenken. Wir bezeichnen AR weiterhin als „zur Realität beitragen“. Was wäre, wenn wir es die ganze Zeit verkehrt herum gehabt hätten? Was wäre, wenn die Realität nur die Standard-Benutzeroberfläche wäre?, und AR ermöglicht es uns, darüber hinaus bessere zu generieren?

Eine Straße ist eine Benutzeroberfläche für den Transport. Eine Wand ist eine Benutzeroberfläche zur räumlichen Aufteilung. Eine Tür ist eine Benutzeroberfläche für die Zugangskontrolle. Architekten und Ingenieure haben diese Schnittstellen vor Jahrzehnten oder Jahrhunderten entworfen und wir sind dabei geblieben. Jetzt können wir in Echtzeit neue Schnittstellen über die alten generieren, personalisiert für jeden, der sucht.

Ein Chirurg sieht, wie lebenswichtige Organe über Organen schweben, Dies wird eher aus der Veränderung der Hautfarbe und der Bewegung der Brust als aus kabelgebundenen Sensoren abgeleitet. Ein Koch sieht Zeitschaltuhren über Töpfen und Temperaturgradienten über Pfannen, erzeugt aus den Zutaten und den Werkzeugen auf der Theke. Meine Tochter sieht eine Schatzsuche, bei der sich virtuelle Kätzchen in der Nähe echter Hydranten verstecken, und das Spiel generiert sich je nach Wetterlage jedes Mal anders, Uhrzeit, und welche Markierungen Surface Eye findet. Das Spiel ist nicht etwas, das wir entwickelt haben. Es ist etwas, das das System aufbaut, im laufenden Betrieb, gegen die physische Welt als Leinwand.

Der Stapel

Das läuft weiter:

Gemini Live-API für Voice-First-AR-Interaktion (DeepMind)
– Vertex AI Agent Engine Orchestrierung der drei Agenten im großen Maßstab
– Google Cloud Run für die Edge-Bereitstellung mit geringer Latenz
In Zukunft…
– Android XR als Grundlage für räumliches Rechnen

Dasselbe Gemini-Modell, das Gedichte schreibt, generiert räumlich bewusste AR-Overlays. Dieselbe Agent Engine, die Chatbots antreibt, orchestriert Echtzeit-Vision-Systeme. Wir sind von APIs, die verarbeiten, zu Agenten übergegangen, die wahrnehmen.

Du bist dran

Die unsichtbare Stadt begann mit einem Skateboard in einem Gully. Es wurde ein System, das Straßen transparent macht. Das ist der Anfang, nicht das Ende.

Meine Tochter möchte virtuelle Kätzchen in den Rohren verstecken, damit andere Kinder sie finden können. Sie entwirft bereits Power-Ups und überlegt, ob Kätzchen in verschiedenen Farben leuchten sollten, je nachdem, in welcher Nähe sie sich befinden. (Das sollten sie.)

Bautrupps wollen nicht nur sehen, was sicher gegraben werden kann. Sie möchten, dass die KI sie warnt, bevor sie eine Schaufel in die Hand nehmen: basierend auf Ihrer Nähe zur markierten Gasleitung und den aktuellen Windbedingungen, Anfahrt von Norden.

Stadtplaner wollen nicht nur Dashboards zur Infrastrukturkapazität. Sie wollen Muster, die Menschen übersehen: Der Wasserverbrauch dieses Viertels erreicht seinen Höhepunkt 30 Minuten früher als die umliegenden Gebiete, Rohrspannungsindikatoren legen nahe, diesen Abschnitt vor dem vorhergesagten Ausfall zu modernisieren 18 Monate.

Hier ist also meine eigentliche Frage. Was werden Sie erstellen, wenn sich die Benutzeroberfläche basierend auf den Betrachtern selbst generiert?? Was ist dein Kätzchenmodus? Der verspielte, praktisch, oder eine tiefgreifende Überlagerung, die Sie über die Realität legen würden, wenn das Modell nur die Zeichnung für Sie erledigen würde?

Der Code ist echt. Die Plattform ist da. Die Modelle sind fertig. Meine Tochter hat bereits eine Feature-Liste.

Lasst uns etwas anderes aufbauen … etwas, das zählt.

— –

Der nächste Teil der Serie wird davon abhängen, worauf ich im Mai Zugriff bekomme, aber ich hoffe, dass es mein Weg ist, dies auf echten KI-Brillen einzusetzen, bleiben Sie dran.

Noble ist ein Google-Entwicklerexperte für KI/ML und ein Glass-Pionier der 2014 NYC Base Camp-Hackathon, Ich bin derzeit besessen davon, was passiert, wenn KI-Agenten sehen können, Grund über, und räumliche Schnittstellen in Echtzeit generieren. Wahrscheinlich testet er gerade AR-Funktionen auf seiner Straße, Sehr zur Verwirrung seiner Nachbarn.

Beiträge eins und zwei in der Serie: Aufbau eines visionsgestützten Infrastrukturerkennungsagenten mit Gemini 3 · Aufbau eines A2A Discoverable Reasoning Agent mit Domänenwissen

Folgen Sie der Reise: YouTube: Edler Ackerson

Von Google Glass projizierte Daten. Gemini Generates Reality wurde ursprünglich in Google Developer Experts auf Medium veröffentlicht, wo die Leute das Gespräch fortsetzen, indem sie diese Geschichte hervorheben und darauf reagieren.