Inteligencia Artificial on gvisoc.com

¿Recuerdas Recuerdos?

gabriel@gvisoc.com (Gabriel Viso Carrera) — Sat, 15 Jun 2024 21:35:29 +0000

Escribí hace unas semanas acerca de Recuerdos de Microsoft Windows, y cómo la cosa pintaba muy mal. El caso es que desde entonces estuve ocupado montando un ataque de denegación de servicio distribuido a mi casa, reencontrándome con algunos de mis videojuegos y, en fin, ocupado en diversos menesteres.

Desde los primeros anuncios de Recuerdos / Recall, la cosa ha estado muy movida y muy loca. Escribo este artículo a modo de cronología, en parte para darle un poco de seguimiento a lo que escribí en su día, pero sobre todo para poder aparcar este tema.

Microsoft anuncia recuerdos
Numerosos expertos en ciberseguridad y derechos humanos critican este mecanismo porque no ofrece la seguridad y privacidad que cabría esperar.
¿Derechos humanos? Sí: un PC con Recuerdos activado es muy atractivo en regímenes autoritarios y estados policiales, además de otras situaciones como violencia doméstica donde un usuario pueda ser coaccionado o torturado para dar acceso al contenido de recuerdos.
Microsoft y sus seguidores dentro de la prensa tratan de quitar hierro al asunto, interpretando este rechazo como un error de comunicación de Microsoft, haciendo énfasis en las premisas que deberían hacer seguro a Recuerdos: las capturas de pantalla se almacenan cifradas mediante Bitlocker, un atacante debería ganar acceso a tu ordenador, etcétera.
Numerosos analistas consiguen reventar el chisme por todas partes, siendo el más notorio dentro del grupo al que yo sigo, Kevin Beaumont.
Al parecer, la información de las capturas de pantalla se procesa mediante reconocimiento óptico de caracteres (OCR) y se guarda en una base de datos SQLite sin cifrar.
Un usuario que sepa dónde está guardado el fichero SQLite puede acceder a él símplemente aceptando un diálogo de control de acceso de usuarios (UAC) de Windows. El usuario no tiene que tener permisos de administrador.
Al estar la información dentro de SQLite en texto claro, si se tiene acceso a ésta, no importa que la máquina tenga activado Bitlocker o no. Accediendo localmente a este fichero o copiándolo a otra máquina, la actividad del usuario estaría completamente expuesta.
Programando es incluso más fácil
Más o menos al mismo tiempo, Microsoft empieza a darse cuenta del fiasco y a cambiar el enfoque añadiendo medidas adicionales que pasan por esperar a que el usuario lo active (en lugar de activarlo por defecto), y por proteger el acceso a Recuerdos mediante Windows Hello (un autenticador FIDO2 basado en biometría).
Empieza a haber preocupación acerca de tener activado recuerdos en un entorno profesional que maneje datos personales y datos sensibles de sus clientes, ya que la falta de seguridad de este mecanismo hace que un atacante ni siquiera tenga que esforzarse en buscar los datos en diferentes documentos: toda la información de interés estaría contenida en un único punto.
Al final el impacto es tan negativo que Recuerdos se retrasa oficialmente y no estará disponible en los primeros PC Copilot+.

¿En qué quedará la cosa? Personalmente espero que sepan encontrar un equilibrio entre seguridad y comodidad, porque por muy atractivo que Recuerdos pueda parecer a usuarios privilegiados (esto es, sin problemas) del primer mundo, la cosa está muy verde.

Recuerdos de Windows (Recall)

gabriel@gvisoc.com (Gabriel Viso Carrera) — Wed, 22 May 2024 07:28:01 +0000

Recuerdos (Recall) es una funcionalidad de Windows 11 en los PC Copilot+ que se basa en capturar tu pantalla cada pocos segundos y alimentar un modelo de aprendizaje máquina (“IA” 😒) local. Con ese modelo y mediante búsquedas, Windows puede proporcionarte información acerca de todo el trabajo productivo de los últimos meses, y opciones para interactuar con los resultados. Microsoft asegura que todo el contenido se almacena localmente y bajo las medidas de seguridad de Windows 11, como por ejemplo Bitlocker, pero los comentarios airados en contra no han tardado en llegar.

En lugar de hacerme eco de comentarios de otros, he estado leyendo información acerca de Recuerdos en la web de Microsoft, partiendo de la base de que un usuario que se compre un PC “Copilot+” quiereusar Recuerdos. Los comentarios a continuación son mis propias dudas acerca de este producto y sus implicaciones.

Aunque no está cubierto en la página de Microsoft, Recuerdos se puede desactivar en las versiones de vista previa “Insider Preview”, según varias fuentes en inglés (ejemplo). Nada se sabe de las versiones finales, pero es de suponer que se puede desactivar completamente.
Permite excluir aplicaciones, webs visitadas en un navegador soportado. La coletilla de “navegador soportado” es preocupante, porque esto puede ser un incentivo impuesto más por parte de Microsoft para empujarte hacerte más cómodo y conveniente cambiarte a Edge. Esperemos que los demás navegadores se soporten también, si no desde el primer día, pronto.
Permite pausar las capturas. Bien.
No captura las sesiones InPrivate de Edge. Mal. Debería soportar las sesiones privadas / anónimas de otros navegadores.
No captura el contenido con DRM. Irrelevante para el usuario final, entiendo que esto se ha aclarado para evitar la oposición de las productoras que producen este tipo de contenido cautivo. Una muestra, sin embargo, del control que tiene Microsoft para hacer ajuste fino de estas capturas.
No realiza moderación de contenido. Como la propia Microsoft aclara, Recuerdos captura indiscriminadamente información sensible como contraseñas y números de tarjeta de crédito. Esto es fundamentalmente malo, pero por lo menos Microsoft es transparente con ello.
Las capturas no se comparten entre perfiles de usuario ni con Microsoft. Esto es una configuración de mínimos: no ofrece unas medidas de seguridad que no tuviésemos con otro material cualquiera (a no ser que los memes que te descargas de la web se estén enviando a Microsoft, claro). De hecho, no ofrece ninguna seguridad contra acceso coercitivo, como la negación plausible que soportan otros esquemas de cifrado de datos para proteger a víctimas de casos de violencia doméstica u opresión por parte de gobiernos autoritarios.

💡 Ya que el enlace anterior es a una definición en inglés, en resumen: la negación plausible en sistemas de criptografía hace el contenido cifrado indetectable a no ser que se sepa que está ahí, además de conocer la clave correcta.

Por ejemplo, si introduces una clave, el acceso es parcial, y si introduces una segunda clave, el acceso a la información es completo.

La idea es que, si no se conoce la existencia de esta segunda clave, el contenido cifrado está almacenado de una forma que no se puede probar que existe; por ejemplo, camuflado como residuos de información borrada, u oculto en otras partes del sistema de almacenamiento mediante técnicas esteganográficas.

Tengo muchas preguntas, no ya desde el punto de vista del propio usuario de Windows 11: asumo que quien se compra un PC Copilot+ lo hace porque quiere usar Recuerdos, entre otras funcionalidades extra. Pero, ¿y qué pasa con los demás? ¿Cómo, las decisiones de esos usuarios, pueden afectarnos?

Por ejemplo, yo no soy usuario de Microsoft Windows, ni lo seré fuera de mi horario laboral. Pero, de ahora en adelante, siempre tengo que sospechar que cuando me comunico con alguien, de cualquier forma, voy a dejar una huella grabada en el ordenador de alguien. Esto incluye cualquier aplicación de comunicaciones mediante texto o imagen: correo electrónico, video llamadas, o cualquier comunicación por voz que soporte transcripciones automáticas o extensiones de accesibilidad y se estén mostrando en pantalla. ¿Tengo que estar pidiendo en cada llamada que se pause Recuerdos?, ¿tengo que creerme que los han pausado?

Quitando datos financieros y contraseñas, que nunca deberías decir de viva voz a nadie, puede que no nos preocupe por la parte del uso que mis amigos, familiares, o compañeros de trabajo hagan de esas capturas de pantalla. Puede que a mí no me afecte demasiado en mi pequeña esquina privilegiada del mundo, de hombre blanco occidental heterosexual ciudadano de dos democracias, pero eleva el riesgo al que se expone mucha gente si sus contactos están usando Recuerdos.

Una mujer que está discutiendo tratamientos de fertilidad o abortivos en Estados Unidos, en ciertos estados hoy por hoy, y probablemente en cualquiera en un futuro no tan improbable, puede estar dejando comentarios incriminatorios en las capturas de Recuerdos de otras personas.
Un activista de un país oprimido se comunica con gente de fuera, utilizando cuantas precauciones pueda para que el contenido de sus comunicaciones no se intercepten, y todo para que acabe en las capturas de Recuerdos de alguien, por puro descuido.

Las reservas que podemos tener acerca de funcionalidades como Recuerdos, muchas veces, no van tanto del usuario del *chisme *en sí. Van de cómo nuestras decisiones pueden estar afectando a la privacidad de nuestro círculo de contactos, a los datos de las personas de nuestro entorno, y a comunicaciones que todos deberíamos proteger.

El problema con el Rabbit R1

gabriel@gvisoc.com (Gabriel Viso Carrera) — Thu, 02 May 2024 11:08:04 +0000

El Rabbit R1 es un dispositivo que contiene un asistente que se usa por voz y que incluye para ello un modelo extenso de lenguaje natural (LLM – Large Language Model). El dispositivo en cuestión está recibiendo las primeras revisiones por parte de diferentes publicaciones y, en general, está recibiendo críticas bastante duras. La batería dura apenas dos horas, el poco interfaz de usuario que no está basado en voz podría ser táctil, porque lo es, pero no te deja hacer nada de forma táctil para obligarte a usar una ruedecilla, la pantalla utiliza tecnología obsoleta,… y toda una serie de problemas técnicos que hablan por sí mismos. Le están dando por la izquierda, por la derecha, por arriba y por abajo. Basta hacer una búsqueda básica en YouTube; todos los canales son, en general, unánimes.

A pesar de que es cuestionable sacar al mercado un producto así, todo eso son cosas que se pueden arreglar. Lo que no creo que funcione, y veo difícil arreglo, es la propuesta de valor del dispositivo, en sí.

El Rabbit R1 no sólo incorpora un LLM que hace las veces de interfaz del usuario, sino que han desarrollado lo que ellos llaman un LAM: Large Action Model, que se podría traducir como un “modelo extenso de acciones”. Es un modelo de aprendizaje máquina que tiene como objetivo usar aplicaciones web y móviles. A grandes rasgos, y tal y como se ha entendido hasta el momento, el chisme aprende a reconocer elementos de interfaz gráfico y flujos de trabajo básicos para pedir comida, un taxi, la reproducción de una lista de música, etc., a partir de una pregunta sencilla y natural, y sin que tú tengas que hacerlo por ti mismo. El dispositivo envía tu orden a sus servidores “cómprame un kebab del Bar Tolo en DoorDash”, y mediante técnicas similares a los que hacen posible las pruebas automáticas de interfaz web y móvil en la nube, Rabbit R1 *pulsabotones y menús, introduce texto, paga*, y lo que haga falta, en algún sistema en la nube, para conseguir tu objetivo**.

Es un asistente digital que usa aplicaciones por ti.* Sin que tú tengas que**ver nada*. Es muy interesante.

Pero ahí es donde yo veo el problema: la mayoría de los servicios web que usamos han definido su interfaz de usuario, en mayor o menor medida, en base a criteros de economía de la atención:

Un servicio de música quiere que escuches música nueva todo el tiempo. De otro modo, podrías llegar a la conclusión de que te es más rentable comporar los 2, 3, 10 discos que estás reproduciendo en bucle, y abandonar una suscripción. ¿Cómo te sugieren nuevos álbumes y artistas? Mediante su propio interfaz gráfico, diseñado para capturar tu atención. Estos asistentes le quitan la salsa.
Cualquier red social comercial quiere controlar lo que los usuarios ven, en qué orden, qué contenido se les posiciona delante, y maximizar el tiempo de exposición a todo esto para maximizar sus ingresos. ¿Leerte las notificaciones, sin más, sin introducir contenido posicionado en tu rango de visión y de atención? Sería casi como un bloqueador de anuncios perfecto.
Servicios de comida a domicilio, como DoorDash, tienen un diálogo orientado a venderte extras para subir el precio de compra final. “Pídeme un kebab al restaurante XYZ y que me lo entregen a las 20:30”. En última instancia, este tipo de servicios posicionan nuevos restaurantes, crean cupones de descuento, te sugieren añadir extras al carrito de la compra, y toda una serie de cosas que intentan generar más gasto. ¿Qué pasa si Rabbit R1 se limita a pedir el kebab? Por el contrario, ¿te va a estar dando la paliza con todos esos extras y esas opciones, creando una conversación larguísima, y arriesgándose a que la próxima vez uses el teléfono, porque tardas menos?

La propuesta de valor del dispositivo pasa por capturar la relación con el cliente de las cuatro aplicaciones que, por el momento, el Rabbit R1 soporta. Spotify, DoorDash, Uber y MidJourney ven retirados sus interfaces de usuario, específicamente diseñados para mantener al cliente dentro, en el carrusel de ofertas y de publicidad mostrada (allá en donde tenga sentido, claro; no conozco MidJourney). Es decir: la propuesta de valor del Rabbit R1 pasa por negar a esos servicios la atención del usuario.

Estas cosas no suelen gustar.

O bien Rabbit llega a acuerdos de compensación por el coste de oportunidad que supone perder el control sobre lo que el usuario ve, y por cuánto tiempo, o mucho me temo que el LAM no va a terminar por cuajar. Por mucho que me guste. No quiero engañar a nadie: a mí me encantaría poder tener una cabecita de conejo, o de otro animalito, rebotando en mi PC y que yo le pudiese decir “procesa todas las mágenes de la carpeta XYZ para publicación en web, con un ancho máximo de 900 píxeles, y súbelas a mi librería de medios en Ghost” y que el chisme se las arreglara para decirme “hecho; la imagen más pesada ocupa 230 kB”. O “descarga la última imagen de Fedora Server, crea una máquina virtual con ella con 16 GB de RAM, 80 GB de almacenamiento y 4 CPU y crea un usuario test sin contraseña. Y luego haz una copia de seguridad de todo. Cuando acabes, envíame un correo y apaga el ordenador”. Y mientras, yo me voy a dar un paseo. Pero cuando intento razonar cómo aplicar este tipo de mecanismo a un servicio donde la relación con el cliente, el control de lo que el cliente ve, y el tiempo que el cliente está expuesto a un determinado contenido son tan cruciales, veo un conflicto difícil de resolver. Y al final, ese conflicto se acabará trasladando a los inversores de los servicios operados mediante LAM y del Rabbit R1.

Mi predicción, ya puestos: una de las empresas afectadas, la más grande, probablemetne con su propio departamento de desarrollo de modelos extensos del tipo que sea, comprará Rabbit. O bien para desmantelarla, o bien para desfigurar el producto tal y como está ideado, y convertirlo en parte de su estrategia de captura de atención.

Espero equivocarme. Creo que el LAM es una buena idea. Me gustaría tener un modelo bien entrenado, que funcionase en local, para poder encargar flujos de trabajo completos por voz. Pero tal y como está el panorama, no lo veo despegando con este tipo de servicios de terceros.

Enmierdificar la IA parece fácil

gabriel@gvisoc.com (Gabriel Viso Carrera) — Tue, 30 Apr 2024 10:55:10 +0000

En los últimos 30 años estamos pasando de resolver problemas a, simplemente, plantear preguntas y pedir cosas a través de una conexión permanente con algo que sepa por nosotros, o parezca saber por nosotros. Si nos dejamos llevar, ¿cómo vamos a poder detectar manipulaciones? Detectar la manipulación siempre fue complicado, pero se vuelve tanto más complicado cuanto más nos movemos en esa dirección.

Si tienes 30 años o más, probablemente recuerdes una época en la que usar un ordenador personal era personal; nadie más allá de ti mismo y tu ordenador tenía ni parte ni intereses en lo que estuvieses haciendo. Probablemente sí había interés en con qué lo estabas haciendo, porque siempre hubo competencia: con qué tipo o marca de ordenador, con qué sistema operativo, con qué programa. Pero más allá de eso, estabas tú solo, con tu tarea. A tus cosas. A tu suerte. Tu éxito dependía de tu capacidad de aprender, habilidad de análisis, de tu criterio y de ti mismo

Cuando yo estaba en educación primaria, en los años 1980 y principios de los 1990, todo se hacía en total desconexión; si acaso, consultando un libro o, más frecuentemente, una revista. Más tarde, cuando estaba estudiando en la Universidad entre 1998 y 2004, las conexiones a internet empezaban a extenderse por los hogares españoles, pero aún no había muchos hogares conectados permanentemente a internet. Los equipos conectados a internet en la Escuela Técnica Superior de Ingenieros de Telecomunicación de Vigo, aún siendo la pera limonera de las telecomunicaciones del Campus, eran bastante limitados. Había que hacer cola. Aprender a programar se hacía con un libro al lado, y las prácticas se hacían consultando manuales de referencia, hojas de características del fabricante, y estándares. Pilas de páginas áridas como pocas otras cosas: era la norma y lo que había. ¿Necesitabas la documentación de las librerías de Java? ¿Un manual de referencia de ensamblador de Motorola 68000? ¿Lenguaje C? Ve a reprografía, toma prestado un libro de la biblioteca, o descarga y copia todo a disquetes para consultar en casa. Sin conexión.

Y una de las cosas más valiosas que ganabas con eso es que, con el tiempo, tenías criterio suficiente, incluso, para atribuir calidad y fiabilidad a los libros y fuentes que consultabas. Priorizabas y valorabas unos autores sobre otros. Enviabas correcciones a la editorial, incluso.

La era de la información instantánea, los buscadores, y Stack Overflow, esta época en la que no hay que anotar nada porque todo está en Google o en el historial de navegación, tardaría algo más en llegar. Pero cuando llegó, empezamos a depender del buscador en lugar de nuestra propia colección de referencias, y en lugar de consumir documentación empezamos a depender de algo que nos devolviese la información en un formato de pregunta y respuesta. Esto elimina un montón de contexto, y hace que no tengamos que esforzarnos en ver más allá del siguiente escollo particular. Y lo que es peor, nos hace susceptibles a que se nos tire información sesgada a la cara, sin nosotros pedirla, distrayéndonos de nuestro trabajo, limitando los ángulos de análisis del problema que estuviéramos intentando resolver y, probablemente, dándonos una visión parcial y polarizada de muchas cosas. Añádele posicionamiento pagado, y ya tenemos un buen lío montado: nos puede sugerir una solución que no es la mejor para nuestro propósito, y nos lo podemos creer.

Este modelo funciona, y cuando es muy sutil, pasa desapercibido. Por eso se llama manipulación. Cuando no es sutil, en cambio, la cosa revienta, se destapa un escándalo, y se acaba en un juicio y en una condena, como ya pasó con el escándalo de Cambridge Analytica. Cuando este modelo se lleva a un extremo, se crean burbujas de realidad, cámaras de resonancia, y la realidad se distorsiona. Se pierde la capacidad de criticar a la fuente, y se asume que la realidad es lo que se nos muestra.

La situación sigue avanzando en ese mismo sentido y el siguiente paso, según parece, es envolver el conocimiento dentro de modelos extensos de lenguaje que hacen las veces de “el listo de la clase”, o “el listo del equipo”, a quien preguntarle cómo resolver un cierto problema. “ey, copilot, ¿cómo tengo que configurar un cliente HTTPS para poder usar certificados auto-firmados?” y te escupe un código que pinta razonable y que probablemente funcione, o lo haga con mínimos cambios. Probablemente ni siquiera tenemos que ir más allá, con preguntas más elaboradas que requieren más conocimiento, tipo “¿dónde tengo que configurar la cadena de confianza, y qué herramientas necesito para ello?”. Y no hablemos ya del “¿por qué?”. El conocimiento ya no se tiene, se delega y se consume.

No me considero un ludita ni un neoludita, pero hay cosas para las que no basta con preguntar y saber seguir instrucciones. Ni con copiar y pegar. El conocimiento adquirido, en lugar del que se delega a una base de preguntas y respuestas ajena, nos puede evitar errores muy graves. Hay errores técnicos, errores de ejecución, y errores de concepto, y estos últimos se evitan con conocimiento propio, construido sobre una base que hemos adquirido estudiando, y luego refinado a base de experimentar y equivocarnos en un entorno controlado hasta que tenemos los conceptos claros. Una vez se tienen los conceptos claros, no veo problemas en el asistente en sí, en el modelo de lenguaje o, si lo queremos llamar así, en la IA (😒). Yo mismo, probablemente, empiece en algún momento a usar este tipo de herramientas para tareas sencillas, repetitivas, tediosas y de bajo riesgo. Aún tengo mis reservas, claro, que es de lo que va este artículo, pero no pienso darle la espalda por completo a las posibilidades que tiene la tecnología en sí.

En donde primero veo un problema es que no todas las tareas son de bajo riesgo, y cuando hay riesgos altos para la salud, las finanzas personales o del común, o procesos industriales sensibles, es mejor no preguntar a un chisme, y que el trabajo lo haga alguien a quien se le puedan exigir responsabilidades. Hay una cita que se ha hecho famosa en los últimos años, atribuida a una presentación de IBM en 1979 (cuyo origen no he podido comprobar totalmente), que lo plantea ya entonces: “A computer can never be held accountable; therefore a computer must never make a management decision”: “A una computadora nunca se le puede hacer responsable, por lo tanto, una computadora no debe nunca tomar una decisión de gestión”. No podemos atribuir responsabilidad sobre las consecuencias de una decisión a una máquina. No podemos llevar a juicio a un secador de pelo por una electrocución en una bañera.

Imagen atribuida a una presentación de IBM de 1979 que plantea el principio de no encargar decisiones a un ordenador cuando no se le puede hacer responsable de sus consecuencias.

En segundo lugar, hay intereses ajenos detrás de los modelos. Estos desarrollos, visto lo visto, no se hacen poniendo tus objetivos o los míos, o el bien común, como primera prioridad. Por ejemplo, hay quienes sugieren que los niños no necesitan aprender a programar, y que se pueden centrar en usar este tipo de modelos, como el CEO de Nvidia. Claramente. Si yo fuese el consejero delegado de la plataforma de hardware que más se usa y mejor se usa para entrenar y ejecutar modelos de lenguaje y aprendizaje automático de todo tipo, también me gustaría que la gente los usase en vez de programar. Si cada vez menos gente usa o depende más de proveedores cuyos modelos, a su vez, dependen de mis sistemas, y por lo tanto me los compran, ¡mejor! Si yo fuese el CEO de Nvidia, de hecho, me encantaría que los únicos programadores sobre la faz de la Tierra fuesen los empleados de Nvidia. Es como cuando salieron las calculadoras; el primer defensor de usar las calculadoras en lugar de aprender aritmética probablemente sería el que las vendía. Pero, intepretaciones mías aparte, la idea es que va a haber que seguir sabiendo programar aunque en la práctica y en el día a día sea menos necesario que hoy. Aprender a programar no se trata de aprender a escribir programas, sino a descomponer una solución en pasos sencillos, automatizables y repetibles –y eso va a seguir formando parte del día a día para muchísimos profesionales.

❓ ¿Quién decide si el conjunto de datos con el que se ha entrenado un modelo extenso de lenguaje, como Chat GPT, es fiel a los hechos?, ¿qué garantías hay?, ¿cómo se mide la *imparcialidad *o la equidad de una respuesta?

En tercer lugar, no me gusta que seleccionen información, en general, de acuerdo a cómo una empresa me percibe. Al hilo de lo que comentaba en La economía de tu atención, la información que se nos coloca delante no está sujeta a nuestros intereses, sino a los de quien cobra por posicionarla. Nos van a devolver primero la información que ofrezca mejores resultados correlacionando el dinero que el autor haya pagado y la probabilidad de que nosotros la leamos, de acuerdo al perfil que han ido construyendo a base de espiarnos. De todos los contenidos por los que la plataforma de turno recibe ingresos, se nos coloca delante el subconjunto de enlaces en lo que podríamos a hacer click, y ahí es donde vamos a entrar y a quedarnos más tiempo. Y da igual si hacemos nuestro trabajo, porque si lo piensas, en una sesión de estudio o de trabajo, si se nos pone delante contenido más divertido, nos vamos a ir por el terraplén de la carnaza, los vídeos de gatitos, artículos escritos para polarizarnos y que van a conseguir una respuesta más rentable para la plataforma. Van a cobrar lo mismo, y probablemente mucho más, que si estamos trabajando; el tiempo invertido en escribir un informe o programar es tiempo perdido para ellos porque no estamos viendo anuncios. No pueden monetizar nuestro tiempo productivo. Tu productividad es coste de oportunidad.

💡 Tu atención no tiene por qué ser productiva. Salvo a ti y a tu empleador, a nadie le importa si tú aprendes, o si haces tu trabajo, con tal de ingresar dinero por publicidad.

¿Cómo se traslada esto al uso y al consumo de información a través de un modelo extenso de lenguaje? ¿Se podría estar explotando económicamente la fase de aprendizaje de los modelos para hacer unas respuestas más probables que otras?

Tampoco me gusta el hecho de que nos estamos moviendo a un modelo en el que los modelos de lenguaje van a estar definiendo cómo accedemos a la información, y cuál es la información a nuestro alcance. No me gusta la perspectiva de hacer depender el conocimiento disponible, el rango posible de respuestas, de mi habilidad a la hora de formular preguntas. Leer un libro te plantea preguntas en las que no habías pensado, sobre todo si eres un neófito en la materia en cuestión. Plantéate, por ejemplo, lo difícil que es encontrar la solución a un problema, o saber si en realidad tienes un problema, si ni siquiera sabes cómo articular una pregunta. Qué tienes que introducir en el cajón de texto del buscador. Por ejemplo, en mi caso, en el ámbito de lo legal: hay veces que ni sé formular una búsqueda básica en la web. Sin embargo, tras algo de lectura en una enciclopedia cualquiera, incluso en la Wikipedia, tras adquirir ciertos conceptos básicos, ya tengo la competencia suficiente como para distinguir un problema de otro, y puedo pensar en qué tengo que preguntar.

El problema de los modelos extensos de lenguaje que se están desarrollando a día de hoy es que ni siquiera ves los resultados de una búsqueda para ver varias fuentes o para ver qué tiene sentido y qué no. Ni siquiera podemos juzgar si la búsqueda era la adecuada para la serie de resultados que hemos obtenido, porque obtenemos una única respuesta, totalmente procesada. En una búsqueda web tradicional, a veces ves resultados tan dispares en la primera página que, de una forma más o menos intuitiva, decides refinar la búsqueda. Abres un par de resultados y no te ves reflejado, vuelves a buscar. Un modelo de lenguaje es como si el bibliotecario, experto en clasificar información y recuperarla, de repente dice haberse**leído toda la biblioteca, te asegura que lo ha entendido todo, y te da la información en viva voz, pero en realidad sin entender de qué leches está hablando. “No te preocupes por esos tochos de libros, hazme caso a mí, que ya te lo explico yo”. En casos concretos y superficiales, eso está bien. Pero si el riesgo es alto, ¿confiarías en esos resultados?, ¿en qué casos te gustaría tener acceso a los libros y dedicarle un par de horas a contrastar un poco la información y tomar tus propias notas? Y, lo que es peor, ¿qué ocurre y de quién es la responsabilidad, en general, si un modelo empieza a dar prioridad sobre ideas, soluciones, productos o servicios de un determinado proveedor?, ¿cómo puede esto afectar a la competencia? ¿Qué ocurre si estos modelos empiezan a sesgar y a ponderar interpretaciones ideológicas en sus respuestas?, ¿de quién es la responsabilidad y a quién o en qué grado afecta a nuestra sociedad?

Imagínate que, hojeando el libro de texto de tu hijo, ves algo extraño y te das cuenta de que el libro de ciencias naturales quita importancia al cambio climático. Rascas un poco, y ves que el principal accionista de la editorial de turno es un lobby de los combustibles fósiles. Es un ejemplo muy extremo, pero una metáfora bastante clara de lo que me preocupa, que puede ser mucho más sutil y difícil de detectar si se hace diseñando el conjunto de material con el que se entrenaría un modelo. No hay que entrar en terrenos muy obvios, símplemente que un modelo sugiera que “en general, la interpretación más aceptada es X”, cuando se aplica a ámbitos socio-políticos, ideológicos o a la interpretación de hechos históricos, en sí es bastante serio. El trabajo de contrastar semejantes aseveraciones puede ser inmenso.

Mi opinión es que, en general, estos modelos reducen la independencia a la hora de tomar decisiones, aprender y llegar a conclusiones, o directamente avanzar el propio conocimiento. Abusar de ellos o utilizarlos como atajo puede mejorar la productividad cuando se utiliza para tareas que no aportan mucho valor para el tiempo que consumen, pero en ciertos casos puede convertirnos muy rápidamente en prisioneros de intereses ajenos a los nuestros, sin nosotros ser conscientes. Personalmente, creo que si no tenemos un mecanismo claro para garantizar que las respuestas son neutras, equilibradas, y que ponen nuestros intereses en primer lugar y no los de terceros, creo que es un sistema increíblemente fácil de manipular y enmierdificar, y podemos estar siendo cómplices.