El problema con el Rabbit R1

El Rabbit R1 tiene una propuesta de valor que amenaza a muchos negocios con los que se pretende integrar.

El Rabbit R1 es un dispositivo que contiene un asistente que se usa por voz y que incluye para ello un modelo extenso de lenguaje natural (LLM – Large Language Model). El dispositivo en cuestión está recibiendo las primeras revisiones por parte de diferentes publicaciones y, en general, está recibiendo críticas bastante duras. La batería dura apenas dos horas, el poco interfaz de usuario que no está basado en voz podría ser táctil, porque lo es, pero no te deja hacer nada de forma táctil para obligarte a usar una ruedecilla, la pantalla utiliza tecnología obsoleta,... y toda una serie de problemas técnicos que hablan por sí mismos. Le están dando por la izquierda, por la derecha, por arriba y por abajo. Basta hacer una búsqueda básica en YouTube; todos los canales son, en general, unánimes.

A pesar de que es cuestionable sacar al mercado un producto así, todo eso son cosas que se pueden arreglar. Lo que no creo que funcione, y veo difícil arreglo, es la propuesta de valor del dispositivo, en sí.

El Rabbit R1 no sólo incorpora un LLM que hace las veces de interfaz del usuario, sino que han desarrollado lo que ellos llaman un LAM: Large Action Model, que se podría traducir como un "modelo extenso de acciones". Es un modelo de aprendizaje máquina que tiene como objetivo usar aplicaciones web y móviles. A grandes rasgos, y tal y como se ha entendido hasta el momento, el chisme aprende a reconocer elementos de interfaz gráfico y flujos de trabajo básicos para pedir comida, un taxi, la reproducción de una lista de música, etc., a partir de una pregunta sencilla y natural, y sin que tú tengas que hacerlo por ti mismo. El dispositivo envía tu orden a sus servidores "cómprame un kebab del Bar Tolo en DoorDash", y mediante técnicas similares a los que hacen posible las pruebas automáticas de interfaz web y móvil en la nube, Rabbit R1 pulsa botones y menús, introduce texto, paga, y lo que haga falta, en algún sistema en la nube, para conseguir tu objetivo.

Es un asistente digital que usa aplicaciones por ti. Sin que tú tengas que ver nada. Es muy interesante.

Pero ahí es donde yo veo el problema: la mayoría de los servicios web que usamos han definido su interfaz de usuario, en mayor o menor medida, en base a criteros de economía de la atención:

  • Un servicio de música quiere que escuches música nueva todo el tiempo. De otro modo, podrías llegar a la conclusión de que te es más rentable comporar los 2, 3, 10 discos que estás reproduciendo en bucle, y abandonar una suscripción. ¿Cómo te sugieren nuevos álbumes y artistas? Mediante su propio interfaz gráfico, diseñado para capturar tu atención. Estos asistentes le quitan la salsa.
  • Cualquier red social comercial quiere controlar lo que los usuarios ven, en qué orden, qué contenido se les posiciona delante, y maximizar el tiempo de exposición a todo esto para maximizar sus ingresos. ¿Leerte las notificaciones, sin más, sin introducir contenido posicionado en tu rango de visión y de atención? Sería casi como un bloqueador de anuncios perfecto.
  • Servicios de comida a domicilio, como DoorDash, tienen un diálogo orientado a venderte extras para subir el precio de compra final. "Pídeme un kebab al restaurante XYZ y que me lo entregen a las 20:30". En última instancia, este tipo de servicios posicionan nuevos restaurantes, crean cupones de descuento, te sugieren añadir extras al carrito de la compra, y toda una serie de cosas que intentan generar más gasto. ¿Qué pasa si Rabbit R1 se limita a pedir el kebab? Por el contrario, ¿te va a estar dando la paliza con todos esos extras y esas opciones, creando una conversación larguísima, y arriesgándose a que la próxima vez uses el teléfono, porque tardas menos?

La propuesta de valor del dispositivo pasa por capturar la relación con el cliente de las cuatro aplicaciones que, por el momento, el Rabbit R1 soporta. Spotify, DoorDash, Uber y MidJourney ven retirados sus interfaces de usuario, específicamente diseñados para mantener al cliente dentro, en el carrusel de ofertas y de publicidad mostrada (allá en donde tenga sentido, claro; no conozco MidJourney). Es decir: la propuesta de valor del Rabbit R1 pasa por negar a esos servicios la atención del usuario.

Estas cosas no suelen gustar.

O bien Rabbit llega a acuerdos de compensación por el coste de oportunidad que supone perder el control sobre lo que el usuario ve, y por cuánto tiempo, o mucho me temo que el LAM no va a terminar por cuajar. Por mucho que me guste. No quiero engañar a nadie: a mí me encantaría poder tener una cabecita de conejo, o de otro animalito, rebotando en mi PC y que yo le pudiese decir "procesa todas las mágenes de la carpeta XYZ para publicación en web, con un ancho máximo de 900 píxeles, y súbelas a mi librería de medios en Ghost" y que el chisme se las arreglara para decirme "hecho; la imagen más pesada ocupa 230 kB". O "descarga la última imagen de Fedora Server, crea una máquina virtual con ella con 16 GB de RAM, 80 GB de almacenamiento y 4 CPU y crea un usuario test sin contraseña. Y luego haz una copia de seguridad de todo. Cuando acabes, envíame un correo y apaga el ordenador". Y mientras, yo me voy a dar un paseo. Pero cuando intento razonar cómo aplicar este tipo de mecanismo a un servicio donde la relación con el cliente, el control de lo que el cliente ve, y el tiempo que el cliente está expuesto a un determinado contenido son tan cruciales, veo un conflicto difícil de resolver. Y al final, ese conflicto se acabará trasladando a los inversores de los servicios operados mediante LAM y del Rabbit R1.

Mi predicción, ya puestos: una de las empresas afectadas, la más grande, probablemetne con su propio departamento de desarrollo de modelos extensos del tipo que sea, comprará Rabbit. O bien para desmantelarla, o bien para desfigurar el producto tal y como está ideado, y convertirlo en parte de su estrategia de captura de atención.

Espero equivocarme. Creo que el LAM es una buena idea. Me gustaría tener un modelo bien entrenado, que funcionase en local, para poder encargar flujos de trabajo completos por voz. Pero tal y como está el panorama, no lo veo despegando con este tipo de servicios de terceros.