Datos proyectados de Google Glass. Gemini genera realidad para Windows 7,8,10,11

Construyendo parte de la ciudad invisible #3. Cómo los agentes de IA basados en eventos crean interfaces espaciales que no existen hasta que las necesitas

Esta es la tercera de una serie de publicaciones sobre mis agentes distribuidos basados en A2A como malla de servicios dentro de aplicaciones usando Gemini. parte 1 y parte 2 para una inmersión técnica profunda.

https://medium.com/media/fe023eefd7015e97be1d27ad8fdf22f5/href

"Papá! Veo una tubería azul brillante debajo de la boca de incendios.. ¿Podemos agregar gatitos ahí abajo??"

Así fue la primera reacción de mis hijas al ver nuestra calle en Realidad Aumentada. No los tres agentes de IA trabajando en conjunto. No es el modelo Gemini que genera una superposición con conciencia espacial. gatitos. Vio un aburrido pavimento cubierto de información., Vi aparecer un mundo oculto debajo, e inmediatamente quiso poblarlo con objetos coleccionables. En realidad creo que es una idea divertida..

Recuerda la patineta que empezó todo esto.? El que se fue al desagüe el verano pasado? Finalmente consiguió su visión de rayos X.. Pero lo que está viendo ahora es más grande de lo que imaginé cuando bajé por la tapa de la alcantarilla.. Ella está viendo un lienzo..

Y eso cambió mi forma de pensar sobre la RA”.

De proyectar datos a procesar la realidad

Allá por 2014 Volé al campamento base de Google en Nueva York para el hackathon previo al lanzamiento de Glass.. Ahí es donde conseguí el cristal Pioneer que todavía se encuentra en el estante de mi oficina junto al hardware Glass original.. Construí LynxFit, una aplicación de fitness AR que hacía flotar las estadísticas de tu entrenamiento en tu visión periférica. Pensábamos que éramos pioneros en el futuro. En realidad estábamos descubriendo sus límites..

Esto es lo que saqué de esos días de Glass, y me tomó años articularlo: tratamos AR como un problema de visualización. Mostrar notificaciones. Métricas del proyecto. Coloque una interfaz de usuario simplificada de un teléfono inteligente en un prisma diminuto y llámelo computación espacial. Hacía una demostración de LynxFit a los corredores y ellos se entusiasmaban al ver su ritmo flotando en el aire, pero nunca conseguimos artefactos digitales que realmente se anclaran espacialmente en el mundo real.. Estábamos tan ocupados poniendo información EN el mundo que nunca nos detuvimos a preguntar qué nos decía el mundo..

Avance rápido hasta los últimos años Anuncio de Android XR.

En este mundo de agentes de IA, el concepto de crear aplicaciones para XR está muriendo. El trabajo ya no consiste en crear aplicaciones para pantallas.. El trabajo consiste en orquestar agentes de IA que comprendan la geometría física., contexto, y la intención de dondequiera que estés parado.

https://medium.com/media/25cef304b503ed18a5e81ac55c441f9c/href

He estado prediciendo esto durante más de una década, consulte mis charlas en el altavoz sobre XR. Pasamos de proyectar datos a procesar la realidad. Ese es todo el turno.

El evento que lo cambió todo

Agregar AR móvil a The Invisible City fue el desbloqueo. Cuando los cuadros delimitadores comenzaron a fijarse en una boca de incendios real y seguirla mientras caminaba alrededor de ella, algo hizo clic. Esta era la inteligencia ambiental respondiendo al mundo..

Esto es lo que realmente se ejecuta en modo en vivo ahora mismo:

Movimientos de cámara. El evento de movimiento se dispara a 30 fps desde el teléfono.
Surface Eye detecta automáticamente. Nuevos marcadores se transmiten a través de WebSocket.
Patrón Oracle nota la anomalía. “Esa línea de gas es sólo 18 pulgadas de profundidad. Eso es superficial”.
Depth Renderer pinta una superposición de advertencia roja.
Gemini Live habla. "Línea de gas prevista en la posición actual".

Nadie dijo "hola IA, analiza esto”. El sistema ve, entiende, y te dice. De forma autónoma.

Probé esto caminando por mi calle.. En el momento en que crucé un grupo de marcadores de servicios públicos, La voz sonó con algo cercano a: *Tres utilidades convergen aquí., tubería de agua a profundidad estándar, El conducto de telecomunicaciones parece cruzar por encima., configuración inusual.* (Ese es ilustrativo de lo que narra el sistema., no es un registro textual. Las transcripciones reales son más confusas.) El punto es. no pregunté. Simplemente sabía que valía la pena mencionarlo..

Este es un tipo de AR diferente a cualquier cosa que haya creado en Glass..

Hacer las calles transparentes

Este es el momento en que los desarrolladores se inclinan. Le decimos a Géminis que haga transparente la calle, y entiende lo que eso significa espacialmente.

config = tipos.GenerateContentConfig(
 modalidades_respuesta=["IMAGE", "TEXT"],
)
respuesta = espera client.aio.models.generate_content(
 model="gemini-3.1-flash-image-preview",
 contenido =[
 tipos.Parte.de_bytes(datos=imagen_datos, mime_type="image/jpeg"),
 inmediato
 ],
 configuración=configuración
)

Esa línea de configuración está haciendo mucho trabajo.. Le pedimos a Gemini que genere una imagen Y explique su razonamiento en la misma llamada.. Está creando la visualización., no solo clasificar píxeles.

El mensaje es de dónde viene el comportamiento.:

"transparent": """
CRÍTICO: Debes CONSERVAR la imagen original exactamente, sólo modificando el
la superficie del suelo debe ser semitransparente.
Instrucciones:
1. Mantenga todos los edificios, carros, personas EXACTAMENTE como son
2. Apply "frosted glass" efecto SÓLO al pavimento/carretera
3. Muestre los servicios subterráneos brillando debajo de esta superficie.
4. Usa colores APWA para las líneas. (Rojo: Eléctrico, Azul: Agua…)
5. NO agregues ningún texto, etiquetas, o elementos de la interfaz de usuario
"""

Géminis descubre qué es terreno y qué no lo es, aplica la transparencia de forma selectiva, incorpora servicios públicos para que parezcan estar DENTRO de la tierra en lugar de flotar encima, y preserva la perspectiva mientras revela la profundidad.. Recuerde en la publicación uno cuando Surface Eye seguía confundiendo tapas de alcantarilla con frisbees.? Esa misma familia de modelos ahora comprende las propiedades de los materiales y el espacio 3D lo suficientemente bien como para hacer que el asfalto sea transparente de manera selectiva, sin tocar a ningún automóvil ni peatón..

Patrón matemático de espaciado de 350 pies de Oracle desde el puesto dos? Se presenta como tubos brillantes a la profundidad correcta debajo de esa capa transparente.. Los tres agentes finalmente aparecen juntos en un cuadro..

IU generativa: Interfaces que existen sólo cuando las necesitas.

La petición de un gatito de mi hija apuntaba a algo que aún no había explicado con palabras.

En software tradicional, los desarrolladores codifican cada botón, menú, y panel de control con anticipación. La interfaz de usuario te espera. Siempre está ahí, lo necesites o no..

En nuestro sistema AR la interfaz es efímera. No existe hasta que lo necesitas. Cuando ella pidió gatitos, ella no estaba solicitando una función en un trabajo pendiente. Ella estaba describiendo una interfaz que debería generarse a pedido..

Aquí hay una versión simplificada de cómo ramificamos el contexto.. El sistema real es más complejo y el clasificador de contexto es en sí mismo una llamada de modelo.. Este es el esqueleto ilustrativo.:

# Ilustración simplificada, no la implementación completa
asíncrono def generar_contextual_interfaz(
 contexto_usuario: cadena, # "construction_worker" | "child" | "city_planner"
 marcadores_vivos: lista, # transmitiendo desde Surface Eye
 inferencia_actual: dictar, # del patrón oráculo
):
 if user_context == "child":
 prompt = f"""
 Crea una interfaz de búsqueda del tesoro AR:
 - Ocultar objetos virtuales cerca {len(marcadores_vivos)} marcadores detectados
 - Haz que brillen y palpiten para atraer la atención.
 - Añadir efectos de partículas cuando se descubra
 """
 elif user_context == "construction_worker":
 prompt = f"""
 Crear superposición de seguridad de servicios públicos:
 - Resalte las líneas de gas poco profundas en rojo.
 - Mostrar las distancias de excavación requeridas
 - Mostrar 811 estado de llamada para esta ubicación
 """
regreso aguarda gemini.generate_spatial_ui(inmediato, escena_actual)

Misma calle fisica, realidad generada completamente diferente. He probado ambos. El trabajador de la construcción ve medidas de profundidad y zonas de seguridad.. Mi hija ve objetos coleccionables brillantes cerca de los hidrantes.

Ahora extiéndalo a las pantallas montadas en la cabeza. Llevas gafas Android XR, Miras una caja de conexiones a nivel de calle., y la IA no solo lo identifica. Según la duración de la mirada (¿lo estás estudiando??), tu papel (electricista de guardia?), y contexto (corte de energía reportado en este bloque?), genera una interfaz personalizada: un panel de diagnóstico con lecturas de voltaje, Flechas que apuntan al interruptor principal., instrucciones de reinicio paso a paso ubicadas espacialmente, una voz que le pregunta si debe marcar la utilidad por usted.

La interfaz no existe hasta el momento en que la necesitas. Mira hacia otro lado y se ha ido. No hay menús para cerrar. No hay ventanas para minimizar.

Esto es lo que no pude hacer en 2014. En Glass tuvimos que preconstruir todas las interfaces posibles.. Ahora Gemini los genera bajo demanda.

lo que envié (y lo que nos sorprendió)

Esto es lo que realmente sucede cuando abres la aplicación hoy.

Modo cámara en vivo con narración en tiempo real. Presione "Iniciar en vivo" y la transmisión de su cámara mostrará un efecto de línea de escaneo. Surface Eye procesa vídeo a 30 fps, marcadores de transmisión a través de WebSocket. Gemini Live está escuchando todo el tiempo y narra lo que ve.: *Veo una boca de incendios a las doce en punto, a unos tres metros más adelante., pintura en aerosol azul indica tubería de agua debajo, Las marcas naranjas sugieren un cruce de telecomunicaciones en esta intersección.* No preguntaste. Supuso que querrías saber.

Una advertencia honesta aquí. Géminis 2.5 La herramienta de llamada de Flash Native Audio Preview durante las sesiones de Live API no es confiable aproximadamente una vez cada 20 llamadas. Eso es Problema de GitHub #843 si quieres seguirme. Lo soluciono gracias también a CLI de Géminis implementó un temporizador de backend paralelo de 15 segundos que detecta las invocaciones de herramientas caídas y las reproduce. no sexy. Absolutamente necesario. La producción AR vive y muere en estos parches de confiabilidad "aburridos".

Cuatro estilos de visualización, cada uno renderizado desde el mismo fotograma de la cámara:

Transparente. El pavimento se convierte en vidrio esmerilado. Las tuberías de agua azules brillan debajo, pulso de líneas eléctricas rojas. Todo lo que está sobre el suelo permanece exactamente como se filmó..

Radiografía. Toda la escena se vuelve oscura.. Sólo la infraestructura brilla. Se parece un poco a Blade Runner, generado en vivo desde un teléfono.

corte. mi favorito. Como si alguien tomara una enorme sierra en la tierra y cortara una sección transversal. Ves capas de suelo., lechos de grava, tuberías en sus profundidades reales. Los equipos de construcción lo obtienen de inmediato.

Superposición de realidad aumentada. El modo creado para caminar. Las cajas holográficas se fijan en marcadores reales., líneas brillantes conectan caminos subterráneos, las distancias flotan en el aire. Todo actualizado a 30 fps..

Y porque prometí honestidad: temprano, Géminis generaría una hermosa calle transparente… con una jirafa al azar parada en ella. O haría que la carretera fuera transparente Y los coches fueran transparentes.. Un resultado particularmente especial que sólo puedo describir como “tuberías que tienen una crisis existencial en el vacío”. Así que construimos un camino alternativo determinista:

si no visualización_base64:
 registrador.info("Falling back to deterministic compositing")
 # Géminis falló? Ningún problema. dibujarlo nosotros mismos.
 visualización_base64 = espera crear_visualización(
 superficie_imagen_base64,
 análisis_de_superficie,
 inferencia_red,
 estilo = estilo
 )

Cuando el modelo se comporta mal, componemos la visualización con gráficos tradicionales.. El usuario nunca ve el fallo.. Este patrón híbrido, IA cuando funciona y determinista cuando no funciona, es lo que separa una demostración de algo con lo que la gente realmente camina.

Anti-chatbot: agentes impulsados por eventos

Déjame ser directo sobre algo. Este no es un chatbot con una cámara atada.

He despotricado notoriamente sobre cómo Los chatbots son una interfaz perezosa (aunque fue útil para mostrar lo que los LLM podían hacer en 2022). Todos funcionan de la misma manera: tu preguntas, ellos responden. Incluso los más elegantes esperan que subas una imagen y escribas una pregunta..

Nuestros agentes están impulsados por eventos.. Ellos responden al mundo, no a indicaciones. Aquí está el controlador WebSocket real desde el modo en vivo:

onToolCall: ({ nombre, argumentos }) => {
 si (name === "surface_eye_analysis") {
 // Los agentes detectaron algo., no se necesita ningún mensaje de usuario
 marcadores constantes = args.marcadores;
 actualizarARSuperposición(marcadores);
si (tiene anomalía(marcadores)) {
 hablarAdvertencia("Unusual configuration detected");
 }
 }
}

El usuario no pregunta "¿qué ves?"?“Los agentes están procesando continuamente, infiriendo, y alertando.

a donde va esto

Mi hija quiere modo gatito. Su idea lúdica apunta a algo serio..

Lo que estoy construyendo ahora mismo, algún día no. Sesiones de AR multiusuario en las que dos teléfonos apuntados a la misma calle ven las mismas superposiciones generadas, respaldado por un estado espacial compartido del mismo grupo de agentes. Interacción de voz primero a través de Gemini Live para que el modelo de interacción sea una simple conversación.. Inferencia de patrón de Oracle en el dispositivo para pantallas montadas en la cabeza, porque los viajes de ida y vuelta a la nube matan la presencia en menos de 100 ms.

La parte que me hizo repensar toda la premisa.. Seguimos enmarcando la RA como "un complemento a la realidad". ¿Qué pasa si lo hemos tenido al revés todo el tiempo?? ¿Qué pasa si la realidad es solo la interfaz de usuario predeterminada?, y AR nos permite generar mejores además?

Una calle es una interfaz de usuario para el transporte.. Una pared es una interfaz de usuario para la división espacial. Una puerta es una interfaz de usuario para el control de acceso. Arquitectos e ingenieros diseñaron esas interfaces hace décadas o siglos y nos hemos quedado atrapados con ellas.. Ahora podemos generar nuevas interfaces sobre las antiguas en tiempo real, personalizado para quien esté buscando.

Un cirujano ve signos vitales flotando sobre los órganos, inferido del cambio de color de la piel y del movimiento del pecho en lugar de sensores cableados. Un chef ve temporizadores sobre ollas y gradientes de temperatura sobre sartenes., generado a partir de los ingredientes y las herramientas en el mostrador. Mi hija ve una búsqueda del tesoro donde gatitos virtuales se esconden cerca de bocas de incendio reales, y el juego genera de manera diferente cada vez dependiendo del clima, hora del día, y qué marcadores encuentra Surface Eye. El juego no es algo que construimos. Es algo que el sistema construye., sobre la marcha, contra el mundo físico como lienzo.

la pila

Esto continúa:

API en vivo de Géminis para interacción AR con voz primero (mente profunda)
– Motor de agente Vertex AI Orquestando los tres agentes a escala.
– Ejecución de Google Cloud para implementación perimetral de baja latencia
En el futuro…
– Android XR como base de la computación espacial

El mismo modelo Gemini que escribe poesía está generando superposiciones de realidad aumentada con conciencia espacial. El mismo Agent Engine que impulsa los chatbots está orquestando sistemas de visión en tiempo real. Hemos pasado de API que procesan a agentes que perciben.

tu turno

La Ciudad Invisible comenzó con una patineta en un desagüe pluvial. Se convirtió en un sistema que transparenta las calles. ese es el comienzo, no es el final.

Mi hija quiere esconder gatitos virtuales en las tuberías para que otros niños los encuentren. Ella ya está diseñando potenciadores y debatiendo si los gatitos deberían brillar con diferentes colores según la utilidad a la que se encuentren cerca.. (Deberían hacerlo.)

Los equipos de construcción no solo quieren ver qué es seguro excavar. Quieren que la IA les avise antes de coger una pala: según su proximidad a la línea de gas marcada y las condiciones actuales del viento, acercamiento desde el norte.

Los urbanistas no solo quieren paneles de control de la capacidad de infraestructura. Quieren patrones que los humanos pasan por alto: el consumo de agua en este vecindario alcanza su punto máximo 30 minutos antes que las áreas circundantes, Los indicadores de tensión de la tubería sugieren actualizar esta sección antes de la falla prevista en 18 meses.

Así que aquí está mi verdadera pregunta.. ¿Qué construirás cuando la interfaz se genere según quién esté mirando?? ¿Cuál es tu modo gatito… el juguetón?, práctico, o una superposición profunda que pondrías encima de la realidad si el modelo simplemente hiciera el dibujo por ti?

El código es real.. La plataforma está aquí.. Los modelos están listos.. Mi hija ya tiene una lista de funciones..

Construyamos algo diferente... algo que importe.

— –

Lo siguiente en la serie estará determinado por a qué tendré acceso en mayo, pero espero que sea mi viaje para implementar esto en gafas AI reales., Manténganse al tanto.

Noble es un desarrollador experto de Google para IA/ML y un pionero del vidrio de la 2014 Hackathon del campamento base de Nueva York, Actualmente obsesionado con lo que sucede cuando los agentes de IA pueden ver, razonar sobre, y generar interfaces espaciales en tiempo real. Probablemente esté probando funciones AR en su calle ahora mismo., para gran confusión de sus vecinos.

Publicaciones uno y dos de la serie.: Creación de un agente de detección de infraestructura basado en visión con Gemini 3 · Creación de un agente de razonamiento detectable A2A con conocimiento del dominio

Sigue el viaje: YouTube: Noble Ackerson

Datos proyectados de Google Glass. Gemini genera realidad se publicó originalmente en Google Developer Experts en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.

Construyendo parte de la ciudad invisible #3. Cómo los agentes de IA basados ​​en eventos crean interfaces espaciales que no existen hasta que las necesitas