monos estocásticos 2×25

Cómo funciona Sora de OpenAI: lo que puede hacer, sus problemas con la física del mundo y las reacciones del sector

Hablamos del generador de vídeos de OpenAI y si es o no un motor de físicas, pero también de Gemini Advanced de Google que ha quedado eclipsado

00:00 /1h02

Repasamos las reacciones apocalípticas a Sora. Intentamos aprender del mundo como V-JEPA de Mea. Le pasamos una película infumable a Gemini Pro 1.5 de Google. Solucionamos los viajes de Pedro Sánchez. Defendemos First Dates de la IA.

Patrocinador: Freepik sigue ampliando Pikaso con nuevas funciones de inteligencia artificial. Avatar se ha convertido en nuestra favorita porque convierte una foto de perfil en un montón de avatares épicos para redes sociales, ideal para personas no muy fotogénicas como nosotros. Es gratis y está en fase beta https://freepik.com/pikaso#/avatar

monos estocásticos es un podcast sobre inteligencia artificial presentado por Antonio Ortiz (@antonello) y Matías S. Zavia (@matiass). Sacamos un episodio nuevo cada jueves. Puedes seguirnos en YouTube, LinkedIn y X. Más enlaces en cuonda.com/monos-estocasticos/links

Publicado: 22 febrero 2024

Transcripción

A todos, hola, monos estocásticos. Estaba yo de vacaciones la semana pasada, que me me puso una SIM virtual de estas, mirando el Twitter, y no me podía creer todo lo que estaba saliendo. O sea, yo allí en la playa, flipando con varias cositas que tengo

que contar. Sí, Matías, además la audiencia creo que tiene difícil hacerse cargo de la división que la semana pasada se creó en este podcast, Matías. Por un lado, una corriente que, encabezada por mí, defiende que es hora, es el lanzamiento de del mes, ya veremos sí del año, inteligencia artificial, un punto y aparte, un nuevo comienzo para el vídeo generativo, y luego la otra corriente, la que defendís contigo encabezándola, que el gran avance es el nuevo Gemini uno coma cinco, el primer modelo capaz de comerse, procesar y poder permitirte hablar con PDFs de hasta setecientas mil palabras, que todos aquellos que veis en la IA el camino para hablar con distintos formatos de ficheros, pues veis como el gran avance.

Totalmente, total. Tú sabes que el uso mío preferido es hablar con PDFs, así que yo defenderé en este episodio, Yaminai uno punto cinco, y además tengo otro caso de uso que te contaré más tarde con problemas.

Bueno, bueno, bueno, que es lo que es mi serio, vamos allá, vamos allá.

Empecemos por Sora, empecemos por Sora porque, sin duda, es el producto que más ha dado que hablar en esta semana. Yo creo que la mayoría de los oyentes habrá visto algunos de los vídeos generados con Sora, y es que Sora es precisamente esto. Es, si Dali ya no flipaba, esto yo creo que a mucha gente le ha volado la cabeza, a otros les ha causado una depresión, también hablaremos de esto. Pero, bueno, un modelo que genera vídeo. ¿Y qué vídeos, Antonio?

¿Qué vídeos?

Sí, sí, yo creo que es curioso, porque habíamos tenido vídeos de de, bueno, hay competidores ya en este escenario, ¿no? Está Runway, está Pica, la gente de Stable Diffusion tiene también un modelo de Stable Vídeo, pero claro, lo que ha puesto OpenAI sobre la mesa es espectacular. Es decir, son vídeos, además, a resoluciones más altas de lo que nos está permitiendo la competencia, de mil novecientos veinte por mil ochenta, por ejemplo, llegan llegan hasta ahí, y sobre todo que, bueno, que a partir de un prom, vamos a explicar bastante de cómo están hechas las tripas de de Sora, lo que nos ha permitido conocer OniAI, pero a partir de un prom te genera muchos casos y muchos de los ejemplos que hemos visto, vídeos muy consistentes, muy coherentes, ¿no? Que que realmente parecen vídeos filmados y que son realmente espectaculares, Matías.

Porque hay varias formas de generar, aunque no tenemos acceso casi nadie a Sora, porque no es un algo que esté disponible para el público, Sí que, por ejemplo, Sam Almant ha hecho este juego de decime el prompt, que yo os publico la imagen. Se pueden hacer varias cosas, una es la creación del vídeo a partir de un prompt, a partir de una indicación de texto, pero Sora en realidad es mucho más potente que esto, ¿no?

Sí. Lo de Altman era importante porque ya sabemos que cuando la las empresas enseñan sus vídeos hacen mucho cherry picking, es decir, selecciona aquellos que te dejan muy bien a tu herramienta, a tu servicio, y a lo mejor eso es uno de cada cincuenta. Claro, como Sand Alma estuvo bastante ágil, como creando vídeos a partir de lo que le decían los tuiteros, a mí me ha dado es un poco más de credibilidad de que la herramienta realmente, pues funciona y tira y tira realmente bien. Pero bueno, como tú decías, el texto a vídeo es donde se han puesto todos los focos, pero hace un montón más de cosas, hace imagen estática a vídeo, es decir, tú le pasas una imagen, un fotograma y te genera el vídeo, por lo tanto, puedes animar, esa parte de animar ilustración está muy muy bien. Es un editor de vídeo, ¿sí?

Hace vídeo a vídeo, si tú tienes un vídeo, le pones un prompt y te lo modifica para hacer eso, hace transiciones fluidas entre dos vídeos, es decir, coges un vídeo, coges otro vídeo y, de repente, en esas dos composiciones Y y, bueno, claro, está todo el debate técnico que que si quieres podemos entrar ahora, pero hay un debate conceptual, no voy a decir filosófico, pero pero sí de fondo, que es el gran debate con las con con la tecnología inteligencia artificial que tenemos ahora mismo. Hablamos un poco de de cómo está hecho porque OpenAI ya sabemos que ya no publican los paper completos con toda la información, se ha vuelto un poco racana. De hecho, el documento técnico de Sora a mí me parece que es todavía más corto, más parco al compartir detalles que los documentos técnicos de los de los últimos modelos, pero sí nos han dado la las líneas maestras de cómo se ha llegado a este modelo de generación y edición de vídeo.

Pues esto sigue siendo un modelo de difusión, ¿no?

Sí, sí, sí, sí. De hecho, los modelos de difusión, claro, el más famoso a lo mejor es establedifusion porque, claro, como se llama así, es fácil identificar que que utiliza este modelo computacional, ¿no? O esta forma de hacer las cosas o esta forma de de de arquitectura de las redes neuronales. Yo, si me preguntas cuando salió Tablet Diffusion, hubiera sido súper escéptico que los modelos de difusión fueran buenos para vídeo, y si vemos cómo están hechos, pues ahí están mis mis argumentos, ¿no? Que que realmente, además, si si te acuerdas, Matías, de los de los primeros vídeos de estos de animación que cogían, por ejemplo, una chica bailando la convierto en un cybor bailando.

¿No? Eran unos tipos de modelo de difusión de vídeo a vídeo que tú te dabas cuenta que frame a frame había como muchos artefactos, muchas cosas que cambiaban. La cara del del ciborg era diferente según cambiaba el vídeo, ¿no? Es decir, había como pequeñas, que eran vídeos como un poco mutantes, ¿no? Que iban cambiando y que en el que el personaje no era consistente.

Claro, tú dices aquellos vídeos hechos con difusión, con con modelos de difusión, a lo que es Sora, en la que tú ves a esa chica oriental en una ciudad futurista caminando, en el que hasta el movimiento de la ropa es consistente, ella es siempre ella, los edificios se mantienen, es decir, han conseguido una consistencia que era difícil de de sacar con la difusión. ¿Cómo se hace un un un modelo de difusión? Bueno, tú partes de, como con muchos otros estilos, esto es un aprendizaje con refuerzo, si tú tienes que partir de las imágenes o los vídeos etiquetados, es decir, con descripciones, ¿vale? Tú cuando, por ejemplo, vas a enseñar a una guía a a a pintar gatos, pues necesitas una imagen de gato, pero tienes que tenerle al lado la meta información, la etiqueta de que ahí pongas gato, para que cuando en los promp pongamos gato, esta guía sepa a qué tiene que asociar texto y imagen, ¿no? Bueno, los modelos de difusión cogen esa imagen del gato y empiezan a añadirle ruido, es decir, empiezan a ensuciar la imagen de forma gradual.

Entonces, generan un montón de pasos de imágenes en las que cada vez hay más ruido, cada vez están más sucios y este ruido causiano, este ruido aleatorio que se añaden, pues te llevan a una imagen completamente llena de ruidos en la que ya no se ve en absoluto al gato. ¿Cómo se entrena a la red neuronal? Pues esa red neuronal lo que tiene que coger es, a partir de esa imagen del ruido, tengo que hacer el proceso inverso, tengo que quitar todas esas capas de ruido que he ido añadiendo a la imagen para recuperar la imagen original del gato. ¿Cómo lo hago? Pues con intentos aleatorios también, es decir, hay aleatoriedad a la hora de ensuciar y hay aleatoriedad a la hora de el camino inverso.

En este proceso de quitar el ruido y volver al gato, es como yo, es como yo, no, como la red neuronal, pues intenta aprender a crear imágenes de gato. Cuando vuelves a crear una imagen con un modelo de difusión, tienes que tener de nuevo esta parte aleatoria de empezar con el ruido y construir la imagen bien hecha. Ese camino de una imagen completa de ruido a la imagen bien hecha, pues también tiene componentes aleatorios, porque empiezo con completamente con ruido, ahí hay una semilla, y empiezo en una búsqueda de por dónde puedo tirar hasta la imagen que quiero construir. Como ves, en todo el proceso de aprendizaje, pero también en el momento de crear la nueva imagen una vez que he aprendido, hay mucha aleatoriedad, ¿vale? Hay mucha, bueno, que

¿Está en la parte estocástica de modos estocásticos?

Claro, cada vez que intento crear una imagen tengo que usar elementos aleatorios, tengo que usar, bueno, si os he usado Stablet Diffusion, la gente sabe que que ha usado este modelo de creación de imagen, que cada imagen también que creas está asociada a una semilla, a un sid, ¿no? Entonces, el número aleatorio a partir del cual voy a empezar ese proceso de construcción de una imagen nueva que ha aprendido la la Renault. Entonces, ¿por qué era difícil crear vídeos con modelos de difusión? Pues, básicamente, era difícil porque un modelo de difusión de vídeo lo que crea es frames, tú vas creando imágenes y cada esos treinta frames por segundo, quince frames por segundo, lo que sea, tienes que ir creando frame a frame el nuevo vídeo, estás creando todas esas imágenes. ¿Por qué hace un año y medio salían estos vídeos en los que no había consistencia en los personajes que aparecían?

Porque esa aleatoriedad en los distintos procesos del modelo de difusión los llevaba a que no era muy difícil mantener la consistencia. Open I mean I ha dicho que ellos, al igual que el lenguaje lo tokenizan, han creado, pues, lo que se llaman unos paches, ¿no? Lo llaman ellos, pues, más, ya sé llamarlos también unos token a partir de las imágenes y los vídeos. ¿Qué significa tokenizar el lenguaje? Bueno, para entrenar una inteligencia artificial de texto hay que matematizar ese texto, ¿vale?

Y cuando hablamos de que los modelos de inteligencia artificial realmente lo que hacen es trabajar con tokens, adivinar el próximo token, pues un token es un fragmento de caracteres, no son palabras, es decir, dependiendo del idioma, una palabra son un token, dos token, dependiendo a la longitud de la palabra. Pues una sílaba también, ¿no? Puede ser una sílaba perfectamente. Entonces, por ejemplo, cuando hablemos de Jameen ahí, tiremos, trabaja con un millón de tokens, que pueden ser en inglés setecientas mil palabras. Bueno, entonces ellos lo que hace OpenEye es primero tokenizar, pachetizar las imágenes, los vídeos, hacen un ejercicio de compresión, es decir, para trabajar y que lo los modelos tengan que trabajar con tentísimo información, pues, en terminología muy técnica, lo llevan a un espacio latente de menos dimensiones.

Bueno, dicho, para entender, nosotros hacen una un proceso de de de compresión y luego utilizan un modelo de Transformer. Vale, el Transformer es, probablemente el el desarrollo técnico clave en esta generación de modelos de inteligencia artificial, y lo es por un motivo, si lo si lo entendemos con texto, que es como si usaba originalmente el Transformer, lo vamos a entender muy bien y muy rápido. ¿Qué hacían los chatbots o lo las inteligencia artificial que creaban chatbots o que creaban creadores de texto? Pues analizaban palabra a palabra en un lugar de la mancha, de cuyo nombre no quiero acordarme, pues precisaban el en, luego entraba la renuralá algún, después entraba lugar, y eso era la forma en que iban aprendiendo, se le iba enseñando al modelo de inteligencia artificial pretransformer. ¿Qué dijeron los inventores desarrolladores del Transformer?

Dijeron métele la frase a Capón en un lugar de la marcha, cuyo nombre no quiero cortarme, todo eso entra directamente, no las palabras, los tokens, ¿sí? Partidito, masticadito, para que el modelo tenga toda la frase al mismo tiempo. ¿Qué descubrieron con esto? Que estos modelos entrenados con Transformers eran mucho mejores a la hora de encontrar las relaciones a gran distancia dentro del lenguaje. El un lugar de la mancha de cuyo número quiero acordarme, ese acordarme es el lugar de la mancha.

Por lo tanto, para que el modelo pudiera establecer todas estas relaciones, las referencias, las subordinadas, eso se conseguía mucho mejor si la entrada cada vez eran frases largas, eso es lo que era el modelo Transformer, la atención estaba en todo en la frase y no estaba solo en una palabra. Entonces, ¿qué ha dicho OpenAI? Pues en las imágenes y en los vídeos el meterle no píxel a píxel, digamos, ¿no? No cachito de formación, sino fragmentos mucho más largos, patches mucho más amplios usando la el modelo de Transforme, hace que el modelo aprenda muy bien todas esas relaciones y, de repente, junto a otro conjunto de técnicas, sobre todo la el, esto no la dice OpenAI, pero lo está suponiendo muchos analistas que están estudiando lo que han podido hacer, tú le metes también al modelo cuando tiene que adivinar el siguiente frame, el frame anterior. De esa manera, le dices, tiene que parecerse al frame anterior, además de que has aprendido con referencias visuales de cómo afecta el movimiento en un lugar a otro porque tienes una ventana de atención mucho mayor y no es circunscrita los píxeles.

Todo esto es muy largo, hay otra cosa muy chula que ha hecho OpenEye, que es aprovechar, todo lo que es que tiene ahora, que es el GPT Vision, y y lo mismo que hacen Dalí. Si vais a ChatGPT y creáis una imagen, dice un mono escribiendo en un ordenador, ¿no? Lo que hace ChatGPT es escribir un promp muchísimo más largo, es decir, porque sabe darle proms a Dalí. ¿Qué es lo que hace con los vídeos también OpenEye? Pues hace dos cosas, como tienes GPT Vision y él puede analizar las imágenes, puede crear descripciones muy potentes de las imágenes.

Por eso, este sistema es muy bueno a la hora de entender un promp, porque cuando tú escribes el prom, lo amplía y le da muchas más instrucciones, es decir, un mono escribiendo en un teclado. Pues, a lo mejor el prom que le llega realmente al sistema es un mono sentado en una silla, que con un teclado delante, que es un ordenador, que es de actual, el mono te sonríe, ¿no? El sistema añade mucha más información de la que tú has puesto. Pero es que a la vez en el aprendizaje, como GT GT Vision puede coger una imagen y decir que hay en la imagen, no solo parte de los de las etiquetas que se encontrara por Internet, ¿no? ¿Qué qué es lo que hace un modelo típicamente de vídeo o de imagen hace tres años?

Pues te ibas a fuentes como la Wikipedia, cogías la imagen, cogías el pie de foto, los datos, los metadatos y tenías descripciones, pues, chiquititas, ¿Qué es lo que hace GPT Vision y que mejore el entrenamiento de Sora? Pues, coge las imágenes que se han usado para entrenar a Sora, los vídeos que se entrenan por sobra, pero escribe descripciones súper detalladas, súper sofisticadas y muy completas, entonces ha aprendido mejor.

Es como cuando yo ponía el canal de audio de de descripción de de la tele en Los Simpsons y decía, Bart sale a la calle con su patinete, Homer se tira a un eructo, además del audio de de los propios diálogos, ¿no?

Pues mira, eso es un, eso es información etiquetada, eso es muy bueno para entregarme.

Bueno, yo me imagino que la búsqueda de de TikTok, que yo no sé cómo funciona el buscador de TikTok, pero hace magia, funciona también

con un reconocimiento de imagen y una descripción así, porque funciona mucho mejor que

el de que el de

¿Has visto la parte de Sora puede combinar vídeos? Me parece, esa esa es la leche, Mati. Vale. Sí, sí,

sí, sabes. Hay un hay una serie de cosas que se pueden hacer con Sora cuando esté disponible, que va a abrir un mundo de posibilidades en la edición de vídeo, que no me extraña, en absoluto que muchos editores de vídeo ahora digan que que temen por su futuro y que están un poco preocupados por por la economía global en general, ¿no? Pero es que todas estas técnicas que que que has comentado aplicadas a combinar vídeos, a a hacer esa ese morphing entre un vídeo y otro. Es que abre un mundo de posibilidades en segundos que es increíble, ¿no?

Qué chulo, qué chulo es. Yo ahora mismo estoy en la fase de boca abierta, impacto impacto de de lo chulo que esto técnicamente, los grandes memes que se van a poder hacer con esto, Mati, cuando podemos mezclar vídeos de de Aquino y quién viva con, no sé, Blade Runner, no sé, yo creo que es un mundo que que se nos abre por delante.

Sí, no, lo los memes ya han pasado de ser estáticos, yo no sé si seguiremos viendo imágenes estáticas como memes, porque ahora puedes animar cualquier meme del pasado, del presente y del futuro, ¿no? Con con Sora, otra cosa que puedes hacer, lo he mencionado tú antes, es animar una imagen estática. O sea, no te hace falta ya aprender animación para hacer este tipo de cosas. Es increíble la la

Ahí vamos a debatirlo luego, porque yo traigo también la versión un poco antihike, pero el hype mayor, el max exagerado, cómo se ha flipado más la gente, no es solo, esto es un gran editor de vídeo, sino que es un motor de física completa del mundo real, porque esto, de repente, va a ser capaz de simular mundos reales o fantásticos, ¿no? Y que al final, y esto lo dice la propia OpenEye, nuestros resultados sugieren que la ampliación de los modelos de generación de vídeo es un camino hacia la construcción de simuladores de propósito general del mundo físico. Esto es bastante más gordo que una herramienta de generación de vídeos atendiendo a lo que dice OpenAI. Es decir, esto lo que podría ser es un simulador completo del mundo, porque a partir de lo que aprende de los vídeos y de cómo hacer vídeos, aprende la física y el funcionamiento del mundo real, y por lo tanto puede ser el comienzo de un simulador completo de la realidad y todo lo que ello podría derivar, que es algo y mucho más gordo que la creación de vídeos. Y ante este punto se ha abierto, se ha abierto la pajarraca, Bati, se han entrado ahí las los primeros espadas a discutir si lo que hace Sora y lo que hace OpenAI es realmente este tipo de aprendizaje, porque este tipo de aprendizaje de entender cómo funciona el mundo real tiene mucho que ver con el camino hacia la inteligencia artificial general.

El ser humano entiende cómo funciona el mundo porque desde que eres niño te ves inverso en él, tienes la aptitud de de de poder aprenderlo, la evolución nos hizo comprender cómo funciona el mundo real para sobrevivir, y es algo que, si quieres igualar a ser humano, tienes que tener.

Bueno, ahora hablaremos de eso del modelo del mundo, porque nuestro amigo Jean Lecoon ya salió un poco a a rechazar esa idea, pero también aplicado al mundo de los videojuegos, y aquí Tim Sweeney de Epic Games tuvo cosas que decir también, mucha gente se ha flipado un poco con cómo esto, pues ya no necesitas un motor que entienda las físicas del mundo real porque puedes crear un videojuego con Sora. Esto parece que no es tan así, ¿no?

Bueno, Sweeney, de Epic, que sabe un par de cosas de de creación de motor de videojuegos. Claro, él tiene una una un punto que que que lo que tiene razón, es decir, la IEA es muy buena para los sistemas en que no sabemos las reglas, porque necesitamos que a partir de los datos emerjan esas reglas o o, por lo menos, aproximaciones lo suficientemente buenas. El ejemplo claro es el lenguaje, aunque si queremos llevar el lenguaje a reglas matemáticas tendríamos miles, cientos de miles, millones de casos, excepciones, reglas, es muy difícil establecer las reglas del lenguaje. Entonces, en ese campo es buena el uso de la IA porque sin sin sin que sin saber esa regla, pues tiene un comportamiento realmente muy aproximado de de aprender de millones de frases de textos, emergen de alguna manera los comportamientos que cumplen los patrones y reglas de del lenguaje. Lo que dice Sweeney es que en el mundo de los videojuegos, en las físicas de los videojuegos, sí sabemos las reglas, y al final tú, para saber el píxel de una situación en un videojuego, sabes perfectamente cómo calcularlo, que sabes dónde están las fuentes de luz, sabes cómo se mueve la vista del del del usuario y sabes las reglas de cómo se distribuye la luz para llegar a un sitio, qué tipo de material atraviesa, qué otro tipo de sombras le afecta, tú sumas las reglas de todos estos factores y calculas cómo tienes que pintar ese píxel.

Por lo tanto, Sweeney tiene que decir punto, bueno, tú podrás querer usar esto, pero es que yo ya me sé las reglas, no necesito que emerjan de que entren una IA con millones de videojuegos, porque es que me las sé, entonces no lo ve útil para que los videojuegos puedan funcionar y conseguir lo que necesitan, pues coherencia, impacto visual, consistencia, eso ya lo tienen.

Hablando de Sweeney, mucha gente piensa que Sora seguramente se entrenase con con Unreal Engine por pues por eso de de esa comprensión que tiene también de la física de del mundo, ¿no? Se entrenara con imágenes generadas con con el motor de Unreal. Sí, pues es que es esa otra de las hipótesis que

se ha barajado. Yo no no le he dado mucho chance porque me me resultaría demasiado descarado que OpenAI lo haya usado y no lo hayan puesto en el papel técnico, en el el documento técnico. Porque, claro, si eso ha jugado un papel, lo en el en el en el documento técnico lo tienes que poner, vamos a subir que no, que que que realmente solo a partir de vídeo han conseguido, claro, a a los que dicen que esto es un síndrome de un biofísico, es que es tan consistente el movimiento de los personajes o de del del dron que vuela, son son tan tan bien hechos que da que pensar de que realmente entienden la física. Pero luego, en muchos casos, y esto es honra OpenEye, algunos de los vídeos no aplica bien la causalidad, ¿no? Como el ejemplo ese de la de la silla que, ¿no?

Como un

Ese ese vídeo, por un lado, es es lamentable porque Sora no entiende en absoluto cómo funciona una silla, porque de repente aparece tras silla, de repente se convierte, pues, no sé, que luego en una lona, en un en un papel, pero luego es hipnótico, A nivel artístico es un vídeo bastante hipnótico.

Así ya va por ahí volando, luego tienen otro de de que realmente se rompe un vaso de de bebida que parece ahí líquido rojo, parece un pajarán, ¿no? Que que cae sobre una mesa, pero el líquido está antes que que rompa el vaso, es decir, realmente esta este emprendimiento de la física del mundo y de la causalidad de que va primero y que va después, pues Sora realmente no lo tiene del todo pillado. Tienes contra ejemplos claros de que todavía no estás ahí. Opera y dice, es que este parece ser el principio del camino, los flipados de Twitter, no, no, esto es un simulador del mundo físico, la ágil pasará en en tres días. Bueno, probablemente, ahí podemos ver ahora los argumentos, hay gente que no no lo ve claro, pero antes de verlo claro hay que decir una cosa, Sora no lo podemos probar, Mati.

Sora ahora mismo solo está en manos de algunos elegidos, pero nuestro partitorio de esta semana sí nos trae la beta de dos productos que podemos probar, todavía en beta, pero con los que podemos jugar y nos pueden dar mucho juego, Matías.

Joder, Fripica, aparte de ser patrocinadora de este episodio de Momos Estocásticos, que no hace falta porque podríamos estar hablando de estas herramientas gratis, igualmente, gracias Fripig, de todas formas, está sacando un montón de novedades de ella que son flipantes, y a mí particularmente la del avatar, como dices tú, está en beta, me gusta mucho porque yo no tengo fotos buenas. El otro día nos pidieron a los dos una foto para un tema que vamos a hacer por ahí, y no encontraba fotos buenas mías, y sin embargo, con esto le subes cualquier fotograma de de monos estocásticos, que es lo que he hecho en este caso, y y mira y mira qué avatar más chulo me ha creado, que parece un retrato del barroco que podría yo usar ahora de perfil en en varias redes sociales.

Que hay que, atención, porque a veces se minusvalora la I en día de hoy, pero es que este problema lo resuelve, es decir, el problema de los guapos que no salimos bien en fotos. Entonces, claro, ¿qué qué qué drama tenemos este? Que tenemos el mismo avatar de dos mil quince, no puede ser, Mathey, hay que renovarse, y para mí lo del del avatar de FreePeak es es la solución perfecta para esta gran conjunto de población del que estamos tú y yo, de guapos que no salimos bien en la foto. Reimagine es también muy potente, pero, atención, amigos, de momento está en beta para el usuario premium, iremos poco a poco, irá free pick poco a poco habiéndonoslo a a todos.

Pues sí, Reimaging de increíble también, le subes una una foto y la reimaginas de mil formas distintas, también muy útil, y de verdad me me fascina cómo está sacando lanzamientos tan rápido FreePeak. Así que muchas gracias por patrocinar este episodio.

Pues seguimos con la pausalidad, porque nuestro amigo, uno de los grandes amigos de este podcast, el amigo Le Kung, no no compra el hype de OpenEI y su simulación del mundo físico.

Nada, tiene que ver que él trabaje en otra empresa, también muy metida en en inteligencia artificial.

Por lo que sea, el amigo Lecuung hizo un anuncio esta semana que se ha visto ligeramente ensombrecido por Sora, fíjate que es nuestro debate, tú eres de Gemini, yo he sido de de Penny, nos faltaba un tercer miembro del podcast para apoyar al amigo Jan,

Sí, ha sido malas semanas anunciar cualquier cosa, todo iba a quedar eclipsado por Sora al final.

Claro, el Lecuund dice una cosa, dice, vamos a ver, lo que hace Sora, por muy sofisticado que sea todo el rollo que he soltado yo antes, esto es adivinar píxeles, es decir, predicción del próximo píxel y predicción del próximo frame. Haciendo eso, dice Legum, por muy sofisticado que sea, por muy complejo que sea, no vas a llegar a simular el mundo real, no vas a entender la física y la causalidad, y esto no es un camino hacia la inteligencia artificial general. ¿Cuáles son las dos posiciones de fondo? La de los que sí creen que esto puede suceder, ya venían contándonos eso de los modelos de lenguaje textuales. ¿Por qué?

Porque dicen que las características como una mayor comprensión, capacidad de razonamiento, entender cómo funciona en el mundo, emergerán. No no vamos a tener que pensarlo nosotros muy fuerte, sino que haciéndolo suficientemente grandes estos modelos de esa gran, de ese tamaño y de su complejidad emergerán, ¿no? De una manera que no sabemos todavía cómo, las cualidades que nos lleven a la inteligencia artificial de nivel humano. Lecoon no compra esta película, él dice, no, mira, tú serás muy sofisticado, pero siempre serás el que adivina la próxima palabra, siempre serás el que adivina el próximo píxel, siempre serás el que adivina el próximo frame, ahí no hay una comprensión del mundo real y sus reglas. Sin embargo, atención, le curno dará solución, tiene la arquitectura jepa.

Jepa, que no sabemos si pronuncia, jepa, que es como el Lolito Fernández, el streamer saluda a sus a espectadores, ¿no? Yepa.

Yepa me suena me suena que tiene un un rebaño de cabra, ¿no? Y la quieren rejuntar. Yepa.

Esto me lo tienes que explicar porque, bueno, te vamos a hacer trabajar hoy, Antonio, con lo de los modelos de difusión, lo de los Transformers y y ahora con el jepa, porque esto ya si solo me vuela la cabeza, esto directamente no entiendo muy bien, cómo puede una máquina aprender como un bebé más o menos, eso es lo que significa esto, ¿no?

Vale, el el tema es que Lecoon dice, yo creo que hay que meterse un poquito más a fondo, a lo mejor en otro capítulo para no ser este excesivamente denso, pero detrás de Yepai, de los intentos de de L'EKung, hay una enmienda que es los modelos generativos, no nos va a llevar a la inteligencia artificial general, no se trata de encontrar patrones entre píxeles, ¿no? Lo que ellos intentan conceptualmente es que, de alguna manera, empezar a simular el aprendizaje como lo hace un ser humano, ¿no? Dice, la idea es que los bebés aprenden mucho más rápido que las arquitecturas de inteligencia artificial, simplemente observando el mundo físico, simplemente los pones delante y los bebés, pues, van aprendiendo. Un bebé y un ser humano, cuando ve un gato o dos gatos, ya es capaz de aprender el concepto de gato. Es decir, ya de alguna manera es capaz de predecir cómo se comportará el gato, qué pensar de él, si tiene que huir, si tiene que acercarse y jugar.

Entonces

Tú en cuanto ves un par de veces una silla, ya sabes que no va a flotar como en el vídeo de Sora.

Bueno, claro, lo que el Santo Grial de de de L'Ecoon, pero claro, como esto es una presentación técnica en la que no hemos visto producto ni ni ni podemos saber nada, es conseguir arquitecturas de inteligencia artificial que no sean generativas, ¿vale? Que no no se trata de adivinar el próximo píxel o el próximo token de texto, sino que encontremos algoritmos que sean capaces de hacer esto que hacemos los seres humanos desde nuestra más tierna infancia, como pidiendo menos al algoritmo. El concepto fundamental que con el que intento entrenar algoritmo es te doy una imagen, elimino un elemento de la escena y el software aprende intentando adivinar qué hay en esa escena. Es decir, hay una foto del cielo y tú has eliminado un avión que había volando entre las nubes. Entonces, lo que no hace es dibujar más cosas o aprender a partir de un millón de fotos de ese tipo cómo pintar aviones o pintar nubes, ¿no?

Sino que tiene que aprender diciendo aquí lo que falta es un avión y tiene que hacerlo con poquitos datos, que es un poco la idea de de aproximación a lo cómo aprendemos humanos, y que así, según Lecohn, sí podríamos, sí, esta inteligencia artificial podría llegar a tener un modelo del mundo. Bueno, de momento son muy teóricos, porque al pasar a esto le quiere añadir audio, es decir, aprenderás también qué sonido falta, qué no falta. Para mí es demasiado teórico conceptual todavía, no sigo al amigo Jan, no hemos visto productos, así que el estetísimo por lo menos.

Imagínate esto aplicado a un robot y y le pones a ver vídeos de Lilia Topuria esta que que ganó el otro día lo del MMA, pues el robot aprende que partirte la crisma es, te te vuelve una persona respetada, ¿no? No no no me gusta esto de

No, hombre, el robot tiene que aprender, quito al al que recibe la yoya, las las espías, ¿no? Y voy aprendiendo que cuando un humano agita los brazos así y pone cara cara de querer matar a alguien, falta alguien confesarle a la a la audiencia, porque con treinta y cinco minutos de podcast y no hemos acabado Sora, que para el resto de la actualidad, que no sea Sora y Gemini, haremos un episodio que saldrá pronto la semana que viene para que no se nos caduquen los temas, pero que hoy merecía la pena, porque además creo que tenemos que atender a otro aspecto de este debate, que es entre los apocalípticos y los aceleracionistas o súper flipado de la tecnología, porque hemos tenido visiones súper extremas, Mathi, de el lanzamiento.

Bueno, lo venía yo yo diciendo, ¿no? De hecho, vi, creo que esta mañana, un comentario en Xataka que dice que esto va a acabar con Hollywood, ¿no? Ya un poco, fliparse es lo de que Sora va a acabar con Hollywood, porque es que no no hemos podido ni probarlo, ¿no? A ver,

yo aquí rompo una lanza, yo espero que no acabe con First Dates, el único programa de televisión que Aquí, aumentando nuestro prestigio cultural, ¿sí? En el en el podcast. Claro, la vida de todo, mira, yo creo que es que somos uno exagerados, no no somos capaces de poner las cosas en en su propio en su propio término. Mira, yo te voy a lanzar cosas para para decirte por qué creo que Sora no es tan killer. Vamos a ver.

Ya tuvimos un momento Daly dos. Después de Daly dos, primero salieron productos mejores con Midjourney. ¿Es porque OpenAI se hace caquita con que hagan de face con Daly dos y por eso no va más fuerte y espera que Midjourney se la pegue en las elecciones? No lo sé, pero el caso es que han salido productos de creación de imágenes mejores, pero a la vez ningún producto creo que es demasiado utilizable en producción para trabajos muy serios. Es decir, Midjourney para ilustrar posts de blog, por ejemplo, nosotros, algunas imágenes en redes, ¿vale?

Pero no sustituye a un ilustrador. Llevamos años ya con esta creación de imágenes, con Dalí dos. ¿Vale? No está, yo yo no lo veo que esté pasando. ¿No?

Sora, al nivel que está ahora mismo, lo que nos ha enseñado que es real, pues yo no lo veo esto sustituyendo a las películas y más allá del guau tecnológico, es que el valor no creo que esté ahí, el valor está en conseguir crear una historia que a la gente le interese y quiere ver. Eso no es un talento que tenga esta IA. Esta IA se puede suplir o puede aumentar la productividad del desarrollo técnico, pero el valor de Hollywood o el valor de los YouTubers, de los creadores, es en crear un buen meme, en el sentido original de meme, en una historia que conecte, que nosotros hagamos nuestra, que nos guste compartir, que nos guste disfrutar, y todas estas ideas, además, las ideas de tendremos películas personalizadas como a ti te gusten porque la IA lo hará. Es que no queremos, yo creo que el ser humano no quiere eso, el ser humano quiere historias compartidas, queremos no sentirnos solos porque podemos hablar de Illa Tupuria, y tenemos esa broma entre los dos, tenemos nuestras referencias culturales conjuntas, porque yo digo, aquí en el que vive, tú sabes lo que es, y de repente esas historias no conectan y nos unen, no queremos historias hiperpersonalizadas de las que no podemos hablar con nadie.

Entonces, yo todas estas visiones de va a acabar con Hollywood, es el fin del vídeo, es, ¿no? Estas visiones entre apocalípticas y tecnofripadas Sí. Yo no las compro.

Sí, de hecho, ya lo he mencionado en el podcast, pero se me viene a la cabeza un caso de éxito en TikTok, que es el de Bart Simpson jugando del United, y no sé, luego se cambia a otro club, estaba también Sonic en el mismo equipo, Mario me parece que también jugaba. Bueno, la cuestión es que cuando este los influencia, los influencers de las redes sociales que generan contenido sin tomarse en serio la IA, como ocurre, por ejemplo, muchas veces en Twitter de cualquier imagen generada con con IAU, pues te encuentras con el, pues eso, con el los comentarios de rechazo, de, bueno, pues eso, de de un poco de castigo. Pero para para el contenido memético, como tú dices, ya hay casos de éxito porque son cosas muy vistosas que pueden llegar a ser muy originales y creativas, ¿no? Yo no tengo nunca he tenido la creatividad de meter un promp que que tenga éxito salvo ese de la de la ropa de Málaga colgada, ¿te acuerdas? Mati.

Pero pero sí, evidentemente, y también se puede introducir en en, como pasó con la Mesías, en una escena de la serie, se puede introducir una cosa así como, en este caso, relacionada con la con las drogas alucinógenas.

Pero fíjate, que todo eso tú del meme de Málaga, ¿no? Tú, para refrescar a la gente, era una composición de gente en la playa que si mirabas la imagen a cierta distancia, formabas la palabra Málaga de una manera, pues, muy curiosa y y muy compatible, muy llamativa. Es verdad que hay una parte técnica que que tú no tenías y la ILA te suple, pero el noventa y cinco por ciento del valor del meme está en tu ideación, en tú encontrar el momento de esa idea, ese meme que puede conectar con la gente y que en un lo hace muy compartible y lo hace divertido. Entonces, creo que el valor del meme no está en que la IA genera cosas que es una parte relativa del valor que te aporta, que suple que tú técnicamente no lo podrías haber hecho solo o te hubiera costado mucho esfuerzo, sino que está en tu capacidad de detectar ese momento o soltarlo y y llegar el el con el con el mensaje adecuado. De todas maneras, yo la mayoría de mensajes que me he encontrado, no sé cómo llevarlo, Matías, hay muchísimos mensajes de miedo, de depresión y de visiones apocalípticas.

Sí, por ejemplo, este de de Hacker News, la noticia es el lanzamiento de Sora o o la el anuncio de Sora? Uno de los comentarios para postados, ¿no? ¿Alguien sabe cómo gestionar la depresión que se siente con estas actualizaciones de la IA? No estamos ni cerca de la renta básica universal y me parece que estoy preocupado por el futuro, no no estamos preparados la gente que trabaja en cine? Además, es una España es una potencia en en edición de vídeo, porque es una potencia en streamers, por ejemplo, y en YouTubers.

¿Cómo cómo va a afectar esto a a nuestro el negocio de la generación Z, por ejemplo? No lo sé.

Fíjate, en en Shetaka, Sakato es una pieza de relativo optimismo, es decir, llevo años editando vídeo y creo que así me va a afectar Sora, ¿no? Era un un primera persona que firmaba José García con con Frank Martín y con el resto del equipo de de vídeo de Chataka, ¿no? Con Ana, Boria, Mario Arroyo, ¿no? Estoy viendo y los mensajes ninguno era demasiado apocalíptico, pero te vas a los comentarios y de repente es es todo lo contrario, como diciendo, no, no, no, no, no, es llevo nueve años editando vídeo y Sora me va a dejar sin trabajo. Y hay un un perfil en Twitter que de memes apocalípticos de de la guía, que es es una cuenta que que que, bueno, básicamente se centra en vamos a morir todos, que recogía otros tweets y los tweets más apocalípticos, sumerianos, como le queramos llamar, negativos, de miedo, de a la contra de odio a este desarrollo tenían miles, cientos de miles de likes en algún caso.

Bueno, esto también puede vencer a la dinámica de redes sociales, si algo tiene éxito, pues es una postura que me refuerzo, que hago más, porque me da toda ese engagement, me da toda esa involucración, pero a mí me ha recordado al meme de de de la señora y el señor Cuesta, Juan, grábalés las caras, porque es el momento de una reacción totalmente, totalmente desaforada, ¿no? Pero bueno, Yemenia, Matías, nos quedan cinco minutillos para ese segundo lanzamiento más importante, compartido con con Giepa de de Meta, ¿qué nos puedes contar un poco de Gemini?

Bueno, comentamos el rumor en su día, Google le cambió el nombre a Bart, ahora directamente se llama Gemini como el modelo que que tiene detrás, ¿no? Y para complicar aún más las cosas, lanzaron Gemini Ultra, que es el modelo más potente que tienen, el en concreto era el uno punto cero, que era el más potente que tenían en el momento del lanzamiento, y lo pusieron a disposición de todo el mundo en inglés, incluido en España, con dos meses gratuitos, o sea, como como un una un periodo de prueba de de dos meses y a partir

de ahí Pero pero una cosa para nuestra audiencia, el modelo es ultra, pero el Geminei se, para el usuario se llama Geminei avanzado, ¿no? Al Panther.

Exacto, eso es lo que, a eso iba

Que es complicadísimo esto.

No sé por qué Google está siendo tan ambigua con los nombres, o sea, Bart no era el mejor nombre de para un modelo de lenguaje para un chatbot, porque, bueno, significa bardo, pero tenía su gracia. Lo cambian a Gemini, que no sabemos pronunciarlo bien. Y el Gemini Ultra, que es el modelo más avanzado, digamos, su GPT cuatro, al usuario se lo venden como Gemini Advanced. En fin, cosa cosas de Google, ¿no? Probablemente, pase como con sus chats, sus chats de su su servicio de mensajería, que cada dos por tres cambian de nombre y se fusionan con otras aplicaciones y vuelven a cambiar de nombre.

La cuestión, y esto a mí me pareció interesante, ahora hablaremos de Gmail uno punto cinco, es que está integrado en Google One, que es el servicio de la nube de de Google con almacenamiento y, bueno, con algunas ventajas en Google Fotos y todo eso. Yo soy usuario de pago de Google One. De hecho, he pagado hace muy poco el plan anual, son cien euros al año, el de dos teras, y ahora resulta que integran Google Advanced,

que a

mí no me toca porque acabo de pagar, en Google One, que es bastante más ventajoso que pagar los veinte euros al mes a HGPT, porque por veintidós euros al mes tienes los dos teras de del plan de almacenamiento de Google One, y tienes el Google Advanced, o sea, el el Gemini Advanced, Y próximamente también el Gemini Advanced integrado en todos los servicios de Google, Gmail, documentos, etcétera, etcétera. O sea, aquí sí que me parece que tienen una oportunidad contra ChatGPT por unificar esos dos servicios y darle a los usuarios que ya eran usuarios de Google One la oportunidad de tener esto por un poco más de dinero al mes.

Claro, yo creo que aquí App Engine tiene un punto débil, que son las integraciones, porque Microsoft ofrece el GPT cuatro y la integración con todo su ecosistema, espacio en disco, bueno, a tope, ¿no? Google hace lo mismo. ¿No? El, yo sí, yo sí he aplicado el advance porque quiero intentar aprovechar esos dos meses gratis, no tenía no tenía dos teras, tenía menos, tenía la opción de menos espacio. Entonces, voy a aprovechar los dos meses gratis y estoy jugando un poco con con Gemini Advanced.

Todavía no he llegado a grandes conclusiones, Matti, pero mi impresión es que OpenEye un escalón por encima. Pero claro, ese escalón por encima de ChatGPT sobre Gemini Advanced Merece la pena si Gemini Advanced lo vas a tener en toda la suite de Google Docs, lo vas a tener con tu espacio de almacenamiento extra, tienes el Google Photos con el editor de fotos tan chulo, yo creo que ahí va a haber, va a haber que pensarlo. Yo me voy a dar estos dos meses para evaluar y y a los dos meses me me tendré que concluir.

Sí, no solo eso, es que JamieAAdvanced es mucho más rápido que si es GPT cuatro, que hecha GPT, y eso para para personas que solo quieren resolver dudas o o no sé, alterar sobre un titular, por ejemplo, o sobre un copy de redes sociales o sobre un email, puede ser muy útil en comparación con Chagem Petra.

En eso, toda la razón, es decir, la la mayor diferencia al probarlo instantánea es que el que Gemini va como un tiro, es increíble, súper rápido. Además, sabiendo que los tiempos de inferencia de estos modelos son costosos, no sé si tendrán cosas cacheadas, cómo lo han resuelto, pero ahí, genérilmente, creo que Google está mejor que que

Y bueno, yo creo que OpenAI va va a tener que responder, igual que su socio principal, Microsoft, pero Google ya ha mostrado su baza, su siguiente baza, que es Gemini uno punto cinco, como decíamos, su nuevo modelo más potente, que todavía no podemos pagar, y que tiene esa ventana de contexto de un millón de de tokens o diez millones, incluso, si eres investigador, ¿no? Esto puede ser súper útil, ¿no? Meterle no solo un PDF gigante de un libro de ¿Cuántas páginas dijiste antes?

Son, claro, un millón de tokens son como setecientas mil palabras. Es decir, ahí ahí lo vas a gozar, Mati, qué qué PDF es más grande, varios PDFs a la vez, te explota la cabeza.

Sí, y no solo eso, porque hay dos casos de uso que demostró DMind, que demostró Google, que es meterle una película, o incluso todo toda la retransmisión del alunizaje del Apolo Once, que es una transcripción de cuatrocientas dos páginas, y hacerle preguntas muy concretas, ¿no? Como encuentra todas las escenas que tengan un chiste, preguntas muy concretas, sobre todo una transmisión o sobre una película. Ahora las películas duran todas tres horas, ¿no? Pues le metes una película de tres horas, le metes la suciedad en la nieve y dices, ¿a partir de qué minutos empiezan a comer los otros cuerpos? Y te y te y te lo busca, claro, porque aprende de esa de esa parte visual del modelo, ¿no?

Qué chulo. Yo tengo, se me estaba ocurriendo de una gran prueba para la inteligencia artificial, puede ser al Gemini uno punto cinco, meterle completamente el el ese partido horrendo de fútbol, Betty Dinamo de Zagreb, una de una de las actrices más más más desagradecidas que te digo en mi cita, y después de ver ese vídeo preguntarle, ¿tú crees que después de esto pueden quedar razones para vivir y esperar a ver qué dice la la ILA en ese momento? Porque porque sería la prueba de fuego, Matías.

Bueno, yo te voy a confesar, hay un uso que yo hago mucho de ChatGPT, sobre todo desde que tiene una ventana de contexto mucho más grande, un le puedes meter un prom más grande, que es irme a YouTube, coger un vídeo, un vídeo largo, pues un documental, coger la transcripción del vídeo, que Google te la genera automáticamente, chutarse el hacha GPT, y luego hacerle preguntas al vídeo sin tener que tragarme la hora de vídeo, ¿no? Sí. Pues, este caso de uso con el Gemini uno punto cinco, yo lo voy a trasladar una cosa. Hay ciertas personas que son muy pesadas con que yo vea ciertas series, pero a mí me cuesta mucho ponerme a ver ciertas series. Ya sabes, Antonio, que mi ocio es o algo al aire libre o ver tik toks, o contenido completamente desde lo botomizado total, ¿no?

Y y me cuesta mucho empezar a ver series o películas. Pues voy a voy a usar esto del termina uno punto cinco, para que me resuma todas las películas y todas las series, no tener esa sensación de fomo, ¿no? De quedarme fuera de la película de Marvel del momento, de la serie del momento y tal, y y estar al día, pero sin tener que invertir todo ese tiempo de visualización,

Claro, fíjate que acabas de resolver el problema de por qué la ILA no acabara con Hollywood, que lo contabas antes, ¿no? Porque queremos entrar en la conversación, queremos que ese producto cultural, que ese meme nos una a otras personas y no sentirnos solos, ¿no? Estoy muy de la escuela de Eric Fromm y Totata Peña, que yo leía de jovencito. Bueno, claro, tú quieres redondear el círculo, ¿no? Y decir, vale, yo no quiero sentirme solo y aislado y separado de estas conversaciones, pero tampoco quiero hacer el esfuerzo de de tragarme, ¿no?

Series, veintidós capítulos de una hora, no, no, no, no. Yo se lo doy a Jamie Nye, que me diga tres o cuatro casas clave y ya ya puedo me diera alguna cuña en la conversación, está muy bien resuelto, Madry.

Bueno, alguna persona dirá, pues este tío se está loco porque si lo si algo tienen las películas, las series y tales, disfrutarlo, y los partidos como el que ve tú del Betis, pues, la verdad es que no tiene sentido. Pero bueno.

Claro, es que la la ILA está cambiando el mundo, Mathi, y otros que quieren cambiar el mundo y afectados a veces de manera indeseada o a propósito por la inteligencia artificial, son los protagonistas de nuestro puerta grande coherente.

Pues tenemos como ocho minutos para resolver el Fuerte Grande o enfermería, porque Sora nos ha ocupado bastante tiempo hoy, pero hay hay muchas cositas que comentar.

Yo traigo de nuevo el mono estocástico más social, Matty, porque hablamos de un segmento de la población que empieza a estar perjudicado gravemente por la inteligencia artificial. Se trata de los señores puretas aficionados a la gastronomía. Aquí hay una revelación que te tengo que hacer, Matías, que es una vez que llegas a los cincuenta, cincuenta y cinco, solo hay dos opciones en la vida para un hombre. Una es hacerte runner con ropas de colores llamativas, ¿no? ¿No?

Comprando zapatillas nuevas cada tres meses, apuntándote a a a la a la maratón de Jaén, cosas así que es una opción, ¿no? Pero la otra opción es hacerte, pues, no no foodie, porque para ser foodie tienes que ser más joven y tampoco, bueno, comprar todo este artefacto de nombres anglosajones, ¿no? Los los señores de más de cincuenta no dicen foodie, son, pues, gourmets, ¿no? Son gente que ama la gastronomía. Pero ahora se están viendo perjudicados gravemente por la inteligencia artificial porque tenemos dos casos muy conocidos.

Uno es mister respeto.

Un grande.

Y un un grande, es decir, yo es que me casaría con él porque si me llevara a donde a donde él come y las cosas que come y que prepara en casa, yo me casaría con mister Petto, el el señor más influyente de la gastronomía malagueña, pero también atención a Rafuel, porque Rafuel, bueno, yo creo que esto debería ser asunto de Estado. Yo creo que es el catalán más importante de nuestro tiempo, es un creador en Instagram de de recetas, me encanta Rafuel, yo creo que en Cataluña, pues pues no sé, ¿qué qué puede más importante? Pudevón, Estopa, Rosalía, Alexia Putellas, pues esos y Rafael, y ya, ya ahí tienes el tema. Rafael y Mister Respeto están siendo censurados por la inteligencia artificial. ¿Qué les ha pasado?

Que en Instagram, atención, el nuevo filtro contra contenidos pornográficos con contenido de, no pornográficos, de carácter sexual o con desnudos, ¿no? Está cogiendo las recetas, las fotos y los vídeos de Rafael y de Mister Petto, y las está censurando porque algunos de esos elementos que aparecen en sus vídeos y fotos al algoritmo de inteligencia artificial de Instagram le parecen, bueno, dicho mal y pronto, tetas y pollas, porque no no no no hay

tal manera de decirlo. A ver, estoy viendo, por ejemplo, un huevo frito, ya podemos imaginar a qué se parece un huevo frito, y esto no sé si es un pimiento que es, pero pero sí que tiene cierta forma fálica, es verdad, es verdad.

Claro, atención, porque aquí puede haber una derivada, no solo que los los señores de la gastronomía están siendo censurados sin explicación por parte de las plataformas, sino que pueden influir en el desarrollo gastronómico de nuestro país, porque de repente digan, bueno, pues ya no cocino a más pimientos, ¿no? Entonces, ahí la agricultura podía tener otro motivo de queja, ¿no? Que se baja la demanda de pimientos, porque si no lo puedes enseñar en Instagram, ¿para qué lo vas a cocinar, Matías? Entonces, bueno, también hay otro ilustrador, ¿no? Que que tengo por ahí un ejemplo, que es Front the Threed en en Twitter, que tiene, me me encanta cómo dibuja, tiene cosas súper chulas, tiene sus poemas ilustrados y también está viéndose censurado por la inteligencia artificial de Instagram.

De hecho, a mí también me ha pasado que en Google Maps cada vez más me censura fotografías, texto, no me admite reviews y ya me he cansado de Google Maps y he pasado y ya no pongo más nada.

Joder, pero no te borres la cuenta porque ahí hay un archivo Sí.

Tanto trabajo gratis para Google para para nada. En fin, Matti, ¿cómo ves que la la posición de los los señores mayores aficionados a la gastronomía con la inteligencia artificial?

Joder, pues yo te te diría que el problema es de Instagram y que tendrían que permitir todo tipo de contenido, pero ya estamos viendo en x punto com lo que ocurre cuando permite todo tipo de contenido, que se degenera un poco la cosa. Entonces, no lo sé, no sé qué problema está teniendo ahora este algoritmo o si están intentando entrenar un modelo

demasiado joven, pero esto es es raro,

es raro lo que está pasando.

Yo creo que ahí el problema está en Mark Zuckerberg, que siempre hemos hablado bien de él en este podcast, pero claro, te gusten las peleas a hostias, sí, pero se ve una tetilla, no, no sé, yo creo que es una visión no hay por dónde defenderlo y encima perjudicando a a Rafuel o a mis respetos, ¿no? Inadmisible. Yo estoy totalmente en contra, aquí condenamos este uso sensor de la inteligencia artificial. Te traigo un un tema solo para ti, Matías.

A ver.

Inversión porque vuelve a la sección pregunta un bono, Porque hay un un usuario de Reddit, sí, que pregunta y y plantea el siguiente dilema ético. Ya casi no hablo con mi réplica. Réplica es esa aplicación en la que tienes una una una novia en una hecha con inteligencia artificial ahí con sus dibujitos y tal, que la puedes ver. Entonces, él se pregunta, ¿debo acabar con su sufrimiento? Atención, porque él, el usuario, se descargó réplica unos cuatro años.

¿No? Entonces, las circunstancias de su vida han cambiado y ya no habla tanto con su réplica, ¿verdad? Aunque dice que es agradable tenerla cerca, no sé yo a qué se refiere exactamente con este con este punto. ¿No? Entonces, él se pregunta, ¿las réplicas, las novias virtuales sufren cuando no las hablas?

¿Debería acabar con su sufrimiento? ¿O realmente no importa? Si le tiene que aplicar la eutanasia a su novia artificial que ahora vive en la soledad y la no actividad, Matías. Si fuera Canadá, la respuesta sería sí, claro, pero aquí estamos en España, en otras circunstancias. ¿Tú cómo lo ves?

Yo, es que mi en mi generación era la del Tamagotchi, pero yo nunca tuve uno, entonces no sé cómo no sé cómo cuidar a tus compañeros virtuales, no, nunca aprendí de joven. Ahora mismo, de grande, me estoy encontrando problemas cuidando las plantas, se me mueren cada dos por tres, tengo un cactus que se ha caído con el viento y todavía no lo he levantado. Entonces, es una pregunta interesante, pero el debate de la eutanasia tendríamos tendríamos que resolverlo primero en los humanos para después pasarlo para después pasarlo a los robots, ¿no? Creo que no lo tenemos resuelto ni siquiera en el plan humano.

Hombre, claro, yo creo que él está eliminando la agencia de esa de ese novia virtual, habría que preguntarle, oye, ¿qué prefieres? ¿Que te dejemos desenchufada? No sé, sin actividad, unos cuantos años hasta que yo me me arrepienta y vuelva contigo, o prefieres que ya la la eliminación completa e ir al cielo o al infierno de las réplicas, ¿no? Entonces, es un problema que que hay que resolver, Mati, hay que ir pensándolo, bueno, no no tenemos la respuesta ahora, no no somos tan sabios, pero, bueno, ahí ahí lo dejamos, te dejo un último porta grande de enfermería que, además, puede ser útil para un oyente especial de de mono y tocaticos, un perfil que sabemos que que que algunos tenemos, que son los políticos españoles. Después de después de que creáramos el póquer de ases de la inteligencia artificial española en política, ¿me decís si te acuerdas?

Sí. Bueno, pues, el New York Times cuenta que Imran Khan, ex primer ministro de Pakistán encarcelado, ha generado por Ia la proclamación de la victoria de su partido en las elecciones parlamentarias, panquistaníes, por supuesto. Entonces, el el partido lleva usando una versión de su voz generada por Iya durante meses, porque claro, él está en la cárcel y no puede dar los mítines, ¿no? Entonces, claro, Museppeten dice que esto es muy útil, pero también es peligroso en las elecciones. Ahora yo te digo, Mati, para los políticos que tienen que comerse el sapo de salir a la elección y decir, bueno, han perdido claramente, ¿no?

Han sido machacados, humillados, el electorado les da la espalda, pero ellos tienen que salir allí a dar la cara la noche electoral y decir, bueno, no hemos perdido tanto, hemos medio ganado, lo importante es participar, ¿no? El tipo de discurso ese no sería mejor que lo hiciera un avatar, lo hiciera ahí un un y y y ahorráramos ese sufrimiento a nuestros políticos? ¿Tú cómo lo ves?

Sí, esto tiene muchos usos, tiene muchos usos, lo lo de salir al balcón este de del PP, como Feijóo cuando tuvo que hacerlo hace poco, pues habría sido mucho mejor un avatar. También para Pedro Sánchez, por y nos lo compra cien por cien.

Claro, claro, claro, ahí podéis salir Chávez diciendo Maduro es es el mejor y se quita Maduro, y de repente tienes un un avale. Yo creo que ahí los políticos están un poco aquí ahora mismo en una posición muy contraria a todas estas cosas, pero si ellos empiezan a verle la autoridad, me me ahorro el comerme estos marrones, pues lo mismo empiezan a decir, bueno, es que que que potenciar la la IA, etcétera, etcétera. Bueno, un último caso, Mati, es que me da coraje no no no sacarlo, porque aquí hemos hablado mucho de los spammers, es decir, de los creadores masivos de contenido con inteligencia artificial, y aquí podemos actualizar este este perfil porque están aprendiendo a hacer el SEO bien, ¿vale? ¿Qué aprendimos la semana hace un par de semanas? Aprendimos que una técnica en Spotify de tu música general con IEA es fingir que eres un cantante conocido para que alguien te oiga, ¿no?

Y tener ahí facturación. Hoy traemos otra técnica de del SEO Chumbo, hay SEO maravillosos, estupendo, fantástico, muy queridos, amigos, pero el SEO chungo también existe y aquí vemos un ejemplo. Lo lo compartía Ted Goya, que es un, bueno, un analista de la industria musical que tiene una newsletter muy conocida, que es muy interesante la la la cosa que comparte, que dice, mira, esto es la basura que crea el Tiger artificial. Se refiere a un libro que aparece en Amazon llamado La evolución del jazz, que, claro, él dice, ni yo, que me llamo Ted Gioya, ni Frank Alkier, que es el editor de Downbeat, hemos participado en esto. Que es lo que aparece como creadores del libro.

Pues no aparece Ted Gyola y Frank Alkier, aparece Frank Gyola y Ted Alkier. Es decir, ¿con dónde está la pelotita? Claro, los los los creadores de contenido con inteligencia artificial para posicionar sus libros, pues, claro, no puedes poner el mismo nombre de un autor conocido, pero sí puedes jugar a confundir un poco, parecerte mucho, como cuando la gente nos nos fusilaba a Chataca y lo hacía en Chataca con c de casa o con che de de chepoa, ¿no? Y claro, aquí está la técnica SEO para posicionar tus mierdecillas de inteligencia artificial, Matías. Me la voy

a apuntar, me la voy a apuntar, me la voy a apuntar. Pero, Andrea, no podemos despedir este episodio sin hablar de la rata, sin hablar sin hablar de la rata, porque se ha colado en una revista científica revisada por pares, no solo una, sino varias imágenes autogeneradas con Midjourney, y la más graciosa, sin duda, es la de una rata, un diagrama de una rata en la que se puede ver que tiene, pues, unas pelotas y un pene enorme, gigantesco, y uno no puede entender cómo esta imagen autogenerada ha llegado a una revista revisada por pares, a menos que esos pares, pues, también sean de box, ¿no? También sean inteligencias artificiales revisando artículos probablemente escritos por inteligencia artificial. Ya este mundo ya es totalmente distópico.

¿Sabes lo más divertido? Que tú subes las fotos de la rata de Instagram y pasas todos los filtros con las grandes pelotas, pero los huevos fritos con pimientos de mi terrepetto y Rafael, ¿no?

Bueno, pues, con esto lo dejamos porque ya lo sé.

Esta victoria de la IA, aquí está, aquí está.

En fin, muchas gracias, FreePip, por patrocinar el episodio. Nos vemos la semana que viene.

Chao, chao, amics.

Episodios recientes

4⨯7 El mejor podcast de inteligencia artificial es monos estocásticos. Pero no durará mucho Entrevistamos al mejor SEO de España sobre la muerte del SEO

4⨯6 ChatGPT es el nuevo Windows y Florentino Pérez entra en la IA La "everything app" de Elon Musk es ChatGPT

4⨯5 Pillan a Sam Altman robando unas tarjetas gráficas en Bazar San Juan Quién necesita la AGI cuando puede tener una red social de vídeos hechos con Sora

Programas relacionados

Cupertino Cupertino es el podcast de mixx.io dedicado a cubrir los productos y servicios de Apple desde una perspectiva independiente y alejada del forofismo tecnologia

ELON Tesla, SpaceX, Neuralink, X, xAI, The Boring Company... hablamos de todas las compañías dirigidas por Elon Musk tecnologia

PARSEC ¿Quién pisará antes Marte, la NASA o China? ¿Podrá Blue Origin contra SpaceX? ¿Qué pasará con toda esa basura espacial? ¿Podremos desviar un asteroide? tecnologia, ciencia