Apple Coding Daily 6×15

Modelos de Difusión Matryoshka, el primer paso de Apple hacia la IA generativa

Descubre el primer paso que Apple ha dado hacia la integración de IA generativa en sus sistemas con Matryoshka.

00:00 /31:40

6.976 oyentes

Analizamos técnicamente los Modelos de Difusión Matryoshka (MDM) de Apple, un avance en la generación de imágenes impulsada por IA y el primer paso de Apple hacia su proyecto AJAX y su motor de contenido generativo basado en inteligencia artificial para la próxima versión mayor de todos sus sistemas como iOS, iPadOS, tvOS, macOS, watchOS y, por supuesto, visionOS para Vision Pro.

Exploramos la arquitectura distintiva de MDM, enfatizando su uso innovador de NestedUNet y el enfoque end-to-end para optimizar la generación de imágenes de alta resolución.

Profundizamos en las técnicas de entrenamiento y procesos de difusión, resaltando cómo MDM aborda y supera desafíos clave en el campo de la inteligencia artificial.

Un estudio detallado para aquellos interesados en la intersección de la tecnología avanzada y la creatividad digital.

Descubre toda la información de la IV Edición del Swift Full Stack Bootcamp en acoding.academy/bootcamp.

Puedes leer el paper completo del Matryoshka Difussion Model en ARVIX pulsando aquí: Paper de MDM de Apple.

El desarrollo ha cambiado para siempre con la llegada de los agentes de IA, y para poder sacarle el mayor provecho y ser un desarrollador de los que buscan las empresas por su ultra-productividad, tienes que ser un Maestro: consígue la Maestría con el Swift Mastery Program 2026.

Descárgala ya desde el App Store: Be Native y escúchanos desde ahí.

Suscríbete a nuestro canal de Youtube: Apple Coding en YouTube

Descubre nuestro canal de Twitch: Apple Coding en Twitch.

Descubre nuestras ofertas para oyentes:

Cursos en Udemy (con código de oferta)
Apple Coding Academy
Suscríbete a Apple Coding en nuestro Patreon.
Canal de Telegram de Swift. Acceso al canal.

---------------

Consigue las camisetas oficiales de Apple Coding con los logos de Swift y Apple Coding así como todo tipo de merchadising como tazas o fundas.

Tienda de merchandising de Apple Coding.

Publicado: 16 noviembre 2023

Transcripción

Wanda, la comunidad de podcast independientes en español. Hola y bienvenidos a un nuevo episodio de Apple Coding Daily. Hoy va a ser un episodio un poco Intensito, ¿por qué? Porque vamos a tratar de explicar algo que, de por sí, es bastante complejo de Explicar, porque en sí mismo es bastante complejo. Vamos a hablar de uno de los primeros pasos que se han hecho públicos por Parte de Apple sobre los nuevos modelos generativos que llegarán en las próximas versiones de los sistemas operativos De Apple, a saber, iOS dieciocho, Mac OS dieciséis, etcétera.

Los que llegarían, presentarían en la WWDC Del próximo año dos mil veinticuatro. En esas versiones parece ser, según Nos ha comentado Mark Gourman en sus rumores, rumores no rumores, porque yo estoy convencido que esos son, Digamos, rumores controlados, información que Apple le brinda para, digamos, mover el gallinero y dar salseillo, ¿no? Un poco en ese sentido. Entonces, una de las cosas que Gourman comenta es que, para Apple, la próxima gran versión de sistemas operativos va a ser una de las más Importantes de las más radicales de las que van a suponer un cambio más grande en el usuario, incluso los desarrolladores, De toda su historia, o sea que ojito con eso, y el principal responsable va a ser la inteligencia artificial generativa. La La inteligencia artificial como la que hoy día estamos utilizando con modelos como GPT, con el cual podemos usar El servicio chat GPT o modelos como Dalí, que también se puede usar dentro de GPT, modelos como Midjourney o muchos otros Servicios o modelos de inteligencia artificial generativa capaces de crear música, sonidos, Texto, imágenes, vídeo, modificarla para hacer auténticas virguerías, como que Hablemos otros idiomas, etcétera.

Pues bien, por fin, Apple, a través de su página web machine learning punto Apple punto com, Nos ha hecho público el primer paso, el primer modelo, lo primero que hemos podido saber Con respecto a lo que se nos viene para el próximo año, y es lo que vamos a intentar explicar en este programa. Seguro que estás de acuerdo conmigo que el tiempo es lo más valioso que tenemos, Ya que una vez que pasa, no vuelve. Los últimos estudios dicen que los developers, los desarrolladores, invierten entre sesenta y noventa minutos Diarios en buscar soluciones para sus proyectos en vez de estar programando. Abrir Stablever Flow, teclear preguntas en ChatGPT O buscar innumerables tutoriales y cursos online hasta volverte loco. Da igual si es Swift, UIKit, Swift UI, y entonces te preguntas, ¿Estoy tomando las decisiones correctas?

¿Estoy utilizando las herramientas adecuadas? La información es fragmentada, Las opiniones diversas, no sabes a quién creer y no hay una guía coherente que seguir. Como nos decía hace poco un alumno, Pierdo veinte horas a la semana en búsqueda de soluciones. Hagamos unos números rápidos. Veinte horas perdidas a la semana Implica perder novecientas sesenta al año.

Si hablamos de un coste de un desarrollador de cuarenta euros la hora, que tampoco es demasiado Para un senior, esto implica perder treinta y ocho mil cuatrocientos euros. Sí, has oído bien, treinta y ocho mil cuatrocientos, ¿y sabes qué? Que eso realmente no es lo importante. Lo que realmente importa es que esas horas perdidas eran para sí mismo, Para su familia, para sus sueños, para sus proyectos personales. Esta puede ser tu historia, o tal vez no, Pero esta historia nos enseña que debes reclamar tu tiempo si lo valoras, consolidar tu confianza si la necesitas, Y pulir tu talento si buscas tranquilidad.

No será un camino fácil ni rápido, pero será transformador para ser dueño de tu tiempo Y no al revés. En Apple Coding Academy no somos héroes ni queremos serlo, solo hemos conseguido dibujar el mapa Punto por punto, que ni siquiera Apple ha podido terminar. Hay dos formas de hacer apps, como las hace la mayoría, o como dice Apple, Y esta última es la que nosotros te enseñamos. Steve Jobs dijo una vez, la única manera de hacer un trabajo genial es amar lo que haces. Si quieres amar, si quieres saber, si quieres ser el mejor senior, descubre tu nueva visión.

Visítanos en acoding punto academy barra bootcamp, y comienza el cambio. Apple Coding Academy. Si os dijera que la inteligencia artificial generativa va a cambiar el mundo, estaría mintiéndoos, porque ya lo ha cambiado, No es algo de futuro, es algo de presente. Por eso, además, yo como formador y desarrollador, lo que he hecho y lo que, De hecho, llevo haciendo durante años, y diréis, bueno, es que ChatGPT salió hace, todavía no cumplido un año. No, no, es que yo llevo usando inteligencia artificial generativa desde hace bastante más, porque he estado trabajando con ella como herramienta a través de Github Copilot, que sí tiene más de un año, a través de los modelos GPT, yo trabajé e implementé, hice una aplicación, de hecho, Ahí tenemos, por ejemplo, en diciembre del año dos mil veintiuno, un año antes, prácticamente, del lanzamiento de ChatGPT, como en nuestro podcast Caneiser junto a nuestro amigo Libernavani, hicimos una entrevista a GPT, y esa entrevista fue posible porque yo creé una aplicación De iOS que integraba la API de OpenAI y creaba ese modelo de conversación, es decir, hacía lo que ChatGPT hizo Casi un año después, que es montar una completado de texto en un formato de conversación para crear, para generar Una conversación donde no existía ese programa, la verdad que gustó muchísimo y, pues, como digo, fue prácticamente un año antes del lanzamiento de GPT.

Yo Yo llevo ya mucho tiempo trabajando con inteligencia artificial en Apple Coding Academy, en nuestra academia. Yo llevo enseñando inteligencia artificial desde el año dos mil diecisiete con el lanzamiento de la librería de Apple Core ML. En ese momento, Vi que Apple tenía una un especial interés en esta tecnología, igual que también ese mismo año apareció la librería ARKIT De realidad aumentada, y también viendo esa doble vertiente, comencé a estudiar y fuimos la primera academia de formación Tornos Apple en ofrecer ese tipo de formaciones en el mundo, porque, en fin, no todo el mundo vio el potencial y, desde luego, aquí están las pruebas. Con CoreML fijamos dónde hemos llegado con la inteligencia artificial y con ARKI, pues, en fin, si queréis os cuento lo que son La lo que es él, ¿vale? Que siempre tenemos ese lapso, porque siempre pensamos que son unas gafas, no lo son.

Es un ordenador de computación espacial, ya sabemos que Apple pone nombres, por lo tanto, sería él Apple Vision Pro. Así que, en fin, eso nos ha dado una posición muy interesante y muy importante, y por lo tanto, como yo llevo muchísimo tiempo trabajando en esto, Ya no solo es cuestión de usarlo o no, es que a mí me gusta saber las tripas, me gusta saber la magia, me gusta saber cuál es el truco que hay detrás para que esto Funcione. Pues bien, Apple ha presentado hace unas pocas semanas de manera pública, A través de la web de Arbix punto r g, que es una página web donde todos los científicos de De tecnología, de investigación, etcétera, pues publican sus trabajos de investigación al respecto de, pues lo que sea, ¿no? Lo que se llaman Los papers científicos, ¿de acuerdo? De todo tipo, no solo tecnológicos, en fin, de cualquier tipo de rama.

Pues bien, en Arbix Los varios ingenieros de Apple han publicado lo que es el modelo de difusión de generación de imágenes de Apple, Llamado el Matryoska Diffusion Model. Apple le ha puesto este este nombre como el de las Muñecas rusas, las muñecas matrioska, que sabemos que son muñequitas que puedes abrir y dentro de una muñequita grande hay una un poquito más chica y dentro de esta otra Más chica y otra más chica y otra más chica, bien, pues han utilizado ese esa definición por un motivo muy importante que vamos a explicar en este Programa a continuación. En fin. Entonces, ¿qué es este Matrioska Diffusion Model que Apple ha presentado y que En los resultados que hay en el paper es absolutamente espectacular, espectacular, porque genera una calidad de imagen que, Digamos, muchas de ellas parecen fotografías, una calidad que, según dice Apple, gracias a una serie de cambios en cómo funcionan los modelos de difusión Y cómo se entrenan, han conseguido ir un paso más allá de lo que hasta ahora se utiliza, de las de lo Lo que hasta ahora es la forma de que funcionen los modelos de difusión. Primer paso, ¿qué es un modelo de difusión?

Bien, Vamos a intentar explicarlo de la manera más clara y no ser excesivamente técnicos, ¿vale? Por lo que, En fin, a lo mejor, a la hora de explicarlo, no somos absolutamente precisos de manera científica, pero no es ese El propósito, el propósito es que ustedes lo entiendan, ese es el propósito. Bien, un modelo de difusión sería algo parecido A la forma en la que el ser humano tiene de aprender a dibujar o aprender a representar cosas de la nada. ¿Qué significa esto? Estoy convencido que muchos de ustedes saben lo que es un ruido gaussiano.

Cuando yo tengo Una imagen y le aplico un filtro de ruido gaussiano, lo que hago es desenfocarla, ¿vale? Entonces, Cuanto más ruido gaussiano le voy aplicando a la imagen, más desenfocada se ve, con más, Pues eso, como como si estuviera mal enfocado un objetivo, ¿de acuerdo? Se ve cada vez más y más y más y más hasta que llega un momento cuando le aplicas Montón de ruido gaussiano en el que no eres capaz de distinguir qué es lo que hay ahí, casi como cuando te llega una imagen Al Apple Watch enviada por WhatsApp, ¿vale? Que aquello no sabes qué es. Bien, pues algo parecido, ¿de acuerdo?

Por lo tanto, sabemos lo que es el ruido gaussiano o el filtro gaussiano, como queramos llamarlo, ¿vale? El gaussian blur, que es, Insisto, aplicar un ruido a la imagen para crear un nivel más alto de, lo que podemos llamar, entre muchas comillas, desenfoque. Pues bien, un modelo de difusión lo que hace es el proceso contrario a este aplicar ruido gaussiano A una imagen. Lo que hace es coger una imagen de un tamaño determinado, que es su salida final, y Provocar crear una imagen completamente aleatoria de ruido gaussiano al máximo nivel, Y lo que va haciendo es en sucesivos pasos aclarando, quitando ese ruido gaussiano, Intentando buscar el parecido con componentes que él ha aprendido cómo tienen que ser dibujados. Y entonces dirán ustedes, bueno, ¿pero cómo un modelo de difusión puede ser capaz de aprender cómo se dibuja algo?

Pues porque en su entrenamiento lo que ha hecho ha sido coger Una imagen, y lo que ha hecho ha sido identificar no solo todos los elementos que hay en esa imagen. Si Si yo tengo una imagen de un atardecer con una imagen en la playa que se ve un faro en el fondo, un barquito, una gaviota, el sol, Esa imagen, con un estilo, por ejemplo, pictórico, no una imagen fotográfica, lo que se hace es que se aplica un algoritmo llamado de De Unet, ¿vale? Que es un algoritmo que lo que hace es coger la imagen y reducirla en tamaño, De acuerdo, coge una imagen grande, en alta resolución, y la va reduciendo en tamaño. Cada vez que la reduce en tamaño, lo que hace es Comprobar cómo ha cambiado aquellos elementos que él ha reconocido. Porque de esa manera es como el sistema aprende a distinguir los distintos Los elementos que aparecen en una imagen y, sobre todo, cómo se fusionan o cómo se interrelacionan los unos con los otros, De forma que al conseguir que una imagen a una alta resolución se vaya reduciendo, el sistema va aprendiendo cómo esa reducción Se, digamos, influye, ¿no?

En cómo la imagen está representada para ir entendiendo cada una de las partes de la misma, Cómo es el barco y cómo se fusiona con el mar, cómo es el faro, de qué manera aparece, cómo se fusiona con la tierra, Cómo es la iluminación que tiene la propia escena, los colores que está utilizando la escena, reconoce los patrones que forman El mar, el faro, la gaviota, etcétera. Hace una disección completa y va viendo cómo, al ir reduciendo las imágenes de tamaño, Puede ir viendo cómo los distintos elementos se van mezclando y eso le ayuda a aprender a cómo la imagen es. Él va aprendiendo cómo es cada paso de esa reducción de la imagen, ¿vale? De una resolución alta hacia baja, baja, baja, baja, Y cuando ya tiene una imagen muy pequeñita que, prácticamente, no sé, distinguen los distintos elementos que hay en esa imagen, Con lo que él ha aprendido de cómo se reduce esa imagen, intenta restaurarla Para volverla a la imagen original, para entender, para poder comprobar que aquello que aprendió, que era un barco, un faro, etcétera, Puede volver a dibujarlo, ¿ok? De esa manera es como él aprende los distintos elementos que hay en la imagen.

Cuando ya tiene hecha esa fase, lo que hace es aplicarle el filtro gaussiano, le aplica el ruido. Aprende cómo ha pasado la imagen nítida Al ruido gaussiano, al primer nivel de ruido gaussiano, aprende cómo de una imagen nítida ha pasado a la imagen desenfocada de primer nivel Y vuelve a aplicar otra vez la red Unet para volver a aprender los distintos elementos y cómo han cambiado en ese proceso. Mezclando los dos entrenamientos, haciendo que cada imagen se vaya reduciendo en tamaño, se vaya volviendo a restaurar, Él la vuelve a recrear de una manera completa cuando la vuelve a hacer grande, y haciendo cada paso más desenfocado, más desenfocado, más desenfocado, Él aprende dos cosas. Primero, cómo es cada elemento que ha reconocido en la imagen, y segundo, cómo, desde ruido, Puede obtener una imagen que no tenga ruido, porque va aprendiendo y entrenando cómo una imagen sin ruido Llega un momento en el que es tiene tanto ruido que al final, pues, no es reconocible, ¿ok? Cuando ya tienes entrenamiento hecho, que estés El entrenamiento que tiene para lo que es este modelo de difusión, cuando yo le pido al sistema, dibújame una imagen que aparezca una gaviota en el fondo con Una playa tal, un faro, no sé qué, y le describo una imagen que él ya entendió, o incluso una imagen donde de pronto le digamos que aparezca, Pues no lo sé, un delfín, cosa que no estaba en esa imagen de manera original, pero que él también ha aprendido, porque Todas las imágenes que han servido para entrenarse son millones y millones y millones, todas han tenido un etiquetado correcto Que les ha dicho qué es cada cosa de las que hay en la imagen, ¿de acuerdo?

Bien porque alguien los ha etiquetado, bien porque el propio sistema ha usado un Modelo de entrenamiento por etiquetado de imágenes que ha ido reconociendo por deep learning qué es lo que hay en cada elemento. Perfecto, entonces, A partir de ahí, ¿qué es lo que sucede? Que cuando yo le pido que me dibujo una imagen, que a lo mejor tiene cosas que la imagen original no tenía, él genera un lienzo Con ruido aleatorio gaussiano y, gracias al entrenamiento que ha tenido, lo que hace es intentar reconstruir Una imagen que tenga todos los detalles que aprendió con la red UNED haciendo que sea grande y pequeño, Para luego también ir aclarando esa imagen cada vez más, cada vez más, cada vez más, y con la unión de Los dos procesos lo que hace es generar una imagen nueva que, como ha aprendido a cómo integrar distintos elementos o cómo se integran distintos elementos Dentro de una misma imagen, pues hace que pueda hacerlo, ¿vale? Si yo le pido, por ejemplo, que me dibuje un Koala montando en moto, Él me lo pone y él entendió cómo era un Koala y cómo era una moto. ¿Por qué es capaz de hacerme una imagen que mezcle los dos conceptos?

Porque él aprendió cómo es una persona en una moto porque la vio en una imagen, y por lo tanto, lo único que ha hecho ha sido Aprender cómo sustituir a la persona por un Koala. Koala a partir de lo que él entendió que era un Koala en cada una de sus partes. Por eso, en muchas ocasiones, cuando las partes, por ejemplo, de las manos no se entrenan correctamente o no se etiquetan correctamente, por eso nos salen esas manos raras con un montón Dedos y hacen cosas extrañas, ¿vale? Esto, insisto, en esencia es cómo funciona el entrenamiento y la generación De un modelo de difusión, como el que puede ser Stable Diffusion o Midjourney, Dalí, etcétera, ¿vale? Que cada uno de ellos Utiliza ciertas modificaciones de lo que es un modelo de difusión para hacer lo que es su trabajo, pero si yo, por ejemplo, trabajo Hoy he utilizado Midjourney, veré que cuando le pido una imagen parte de una imagen completamente desenfocada, y mientras me va dando el porcentaje Vemos como la imagen se va aclarando, por lo tanto, es un modelo de difusión, que luego por detrás también utiliza otras Formas de Transformers y tal para optimizar el funcionamiento, etcétera, eso ya es irse a cosas más complejas.

Pues bien, Apple lo que ha hecho es esto, es crear su propio modelo de difusión, pero Apple ha ido un poco más allá, ha mejorado el proceso Haciendo que esto sea aún mejor. ¿En qué? Pues bien, uno de los cambios que ha hecho es implementar una red UNED De forma embebida, una necested unet, ¿vale? Es decir, una red unet, donde dentro de ese unet que hace toda la imagen, En vez de hacer un UNED de la imagen completa e ir reduciéndola para ir captando distintos elementos, lo que hace es Realizar una UNED dentro de una UNED, ¿vale? Lo que hace es coger las imágenes, cortarlas en trozos Y hacerle el UNED a cada trozo, para así poder aprender de una manera mucho más precisa cuáles son los cambios que hay, cuál es la, Más que los cambios entender mejor cómo los distintos componentes funcionan y se unen dentro de fotografías, imágenes, Dibujos, etcétera, ¿de acuerdo?

Por lo tanto, en vez de hacer una sola reducción de resolución para detectar todos los detalles de una imagen, Lo que hace es un montón de pequeñas reducciones dentro de cada elemento detectado para aprender con mucha más precisión lo que es cada elemento, Para ser capaz de reproducirlo cuando se le pida cierto elemento de una manera mucho mejor y con una con un mayor detalle, ¿de acuerdo? A esto se le mezcla, también, un proceso de, a la hora de estar trabajando con los modelos de difusión, En el que, normalmente, los modelos de difusión se generan sobre una resolución fija, es decir, yo tengo imágenes de un tamaño que son las que yo quiero obtener, Y en los entrenamientos voy haciendo que esas imágenes se vayan difuminando, ¿vale? Desde la imagen real la voy difuminando con ruido gaussiano hasta que ya es posible y luego intento, el entrenamiento intento volver a la imagen original para ver cómo soy capaz de Difuminar y y desdifuminar, si se puede decir así. Perfecto, pues bien, ¿qué es lo que sucede? Sucede que cuando Apple hace esto, no lo hace solo en la resolución que quieren conseguir esos modelos de difusión, que Que normalmente últimamente es de mil veinticuatro por mil veinticuatro.

No, lo que hace Apple es generar un modelo de difusión a varios niveles, Por lo que los entrenamientos no solo se hacen a mil veinticuatro, se hacen también a quinientos doce, a doscientos cincuenta y seis, a ciento veintiocho, Se hacen en distintas resoluciones. Cuando yo hago el mismo entrenamiento de difusión, es decir, es como si él mezclara El proceso de UNED, que va reduciendo la imagen completa y le hace un entrenamiento de difusión A cada imagen, en cada una de esas resoluciones, ¿qué va reduciendo? Por lo que intenta reconstruir las imágenes, No solo en la máxima resolución, sino también en las resoluciones inferiores. Esto al modelo le ayuda a entender mucho mejor cuál es la Información que hay ahí y, sobre todo, le ayuda a que el resultado final en la alta resolución sea mucho más De de mucha más calidad, ¿de acuerdo? Porque va a ser mucho más realista, ¿vale?

Haciendo este proceso, Apple se ha dado cuenta De que los resultados son mucho mejores, y por eso también el modelo de Matrioska Division Models no solo es capaz de hacer generación de imágenes, También es capaz de generar vídeo, pequeños vídeos cortos, en el que podemos tener, pues, una pequeña animación tipo GIF, Donde podamos, pues eso, tener una imagen en movimiento, ¿de acuerdo? Por lo tanto, ese es el nivel que tiene. Por eso es el Matrioska Diffusion Model, Porque está utilizando no solo la aproximación de una imagen grande, sino muchas imágenes a distinta resolución para conseguir ese Objetivo. Por eso es como las muñecas Matrioska, porque de una grande tiene dentro otra y otra y otra y otra porque está utilizando Distintas imágenes a distinta resolución, entrenando la red con distintas imágenes, con la misma imagen, a distintas resoluciones, para conseguir mejor calidad, por eso lo de la matriosca. Y, por último, otra mejora que ha hecho Por eso lo de la matriosca.

Y por último, otra mejora que ha hecho Apple es incluir todo este procesado en un único modelo end to end, es decir, Un único modelo al que yo le pido la entrada y el mismo modelo es el que genera la salida. Esto quiere decir que no tiene modelos secundarios que trabajan con esto. Por ejemplo, en el caso de Dalí podemos tener un modelo de GPT, que es el que traduce la parte de texto y empieza a buscar los distintos elementos a partir del promp para poder generar las imágenes, y, a lo mejor, está mezclando distintos tipos de redes sociales, Crear las imágenes y, a lo mejor, está mezclando distintos tipos de redes neuronales para conseguir el resultado final. Apple ha conseguido, en una optimización, Que la misma red sea capaz de procesar todo, desde la entrada de texto hasta la salida de una imagen o de un vídeo. ¿Esto qué es lo que proporciona?

Pues la capacidad de que el modelo sea más rápido, sea más eficiente, Y sus resultados sean mejores que lo que se ha hecho hasta ahora, ¿de acuerdo? Toda esta información está, como digo, en Arbix punto ORG, y de hecho, pues en las notas del podcast les dejaré el enlace para que puedan leer este este paper, ¿vale? Y bueno, ya Ya les advierto que es un paper muy complejo, ¿vale? Pero ahí también tienen una serie de resultados que la verdad que son bastante interesantes. Por lo tanto, resumiendo, Apple ha creado estos modelos de difusión para Integrarlos dentro de sus sistemas operativos.

Modelos que Apple podría cargarlos completamente en los sistemas Sin necesidad de tirar de nube, cosa que es lo que a hoy día lo que hoy día hace Dalí, Midjourney, etcétera. Ahora mismo, solo modelos como Stable Diffusion, por ejemplo, que el modelo viene a ocupar unos cinco gigas, más o menos, el modelo grande, ¿vale? El modelo Completo de Stable Diffusion con toda la calidad, de Stable Diffusion dos punto uno, que es el último que estuve mirando en cuanto a Lo que era su tamaño, no sé cuánto ocupa ahora mismo el XL, pero el dos punto uno de Stable Diffusion, que es otro modelo de generación de imágenes a través de modelos de difusión, Viene a ocupar unos cinco gigas y pico, más o menos, el modelo entrenado. Cinco gigas y pico en un móvil, pues hombre, Ya es algo que me está quitando mucho espacio, pero en un ordenador tampoco es algo que sea muy grave. No obstante, Apple lo que va a intentar es poner ciertos modelos en local dentro de nuestro ordenador, por lo que Vamos a poder utilizarlo con total privacidad, y ninguna nube ni ningún ordenador, porque recordemos aquello que suelen decir de que la nube es el ordenador de otro, Por lo que, en vez de ejecutar esto en la nube de alguien, lo que hacemos es ejecutarlo en nuestro ordenador aprovechando los motores neurales que tienen los El Silicon, iOS, los iPhones, iPad, etcétera.

Por lo tanto, también a partir de cuantización de modelos, que es un proceso a partir del cual, Como el MP tres, ¿vale? Un MP tres, ¿qué es lo que hace? Pues elimina partes del sonido que, teóricamente, el oído humano no escucha, Por lo tanto, reduce la cantidad de datos necesarios y hace que el sonido ocupe menos, ¿vale? Pierde información, pero El resultado, digamos que permanece, más o menos, proporcionando una calidad que, entre comillas, No se no se ve como algo que realmente afecte al resultado final, a pesar de la pérdida de datos. Pues bien, esto se puede hacer también con los modelos entrenados.

Apple podría hacer un modelo entrenado de este modelo generativo de matriz kdifusion model, que a lo mejor ocupara ochocientos megas, novecientos, un giga. Si yo lo quiero incluir en mi iPad o en mi Mac funcionaría perfectamente y eso permitiría, por ejemplo, que yo pudiera entrar en Preview y decirle que me haga una imagen y me la haga, o por ejemplo, usar Spotlight, el buscador del sistema que es donde va a estar El futuro Siri basado en un modelo de lenguaje como ChatGPT, y podremos hablar con ese futuro Siri Directamente ahí, pedirle cosas, y sabrá todo de nosotros, porque podrá entrenarse con toda la información que tenemos de archivos, ¿vale? Y además, pues ahí podremos pedirle imágenes, etcétera, o por ejemplo, abrir un pages o un key note y decirle que nos genere imágenes Y que nos rellene incluso diapositivas o nos haga una presentación completa como, en fin, como ya hace Lo que es tres seis cinco Copilot de Microsoft, ¿vale? No me estoy inventando nada. Esto, vean ustedes la presentación de tres seis cinco Copilot y Ya lo está haciendo el modelo actual, por lo tanto, esto Apple, obviamente, también lo va a hacer, y una de las herramientas principales para poder hacerlo va a ser Este Matryoska Diffusion Model, que es el primero de los pasos de la inteligencia artificial generativa que Apple nos muestra A todos los usuarios para que veamos lo que está por llegar, y poco más.

Y poco más yo les he avisado, le he dicho que iba a ser intensito. He intentado explicarlo de la manera más clara posible. Obviamente, no es cien por cien, o sea, si nos metemos ya a capa loca científica, pues, obviamente, Habrá detalles que no he contado, pero he intentado hacer el símil más fácil de entender para que puedan comprenderlo, ¿vale? Porque todo Todo lo que tiene que ver con la inteligencia artificial, sobre todo la generativa, es muy complejo, obviamente. Así que, bueno, ese sería un poco el tema.

Lógicamente, todo esto, pues, como hemos comentado, es decir, yo todo esto, ¿por qué me interesa? ¿Por qué lo sé? ¿Por qué me gusta? Pues porque ya está dentro de nuestras formaciones, ya forma parte de mi trabajo, porque el mensaje que va a unir todas las formaciones A partir de ahora, en Apple Codeen Academy es la inteligencia artificial y la IA generativa, porque como desarrolladores, si no incorporamos la IA generativa y todas sus Posibilidades de texto, vídeo, imagen, etcétera, sonidos y tal, pues, en fin, nos vamos a quedar atrás. Lo digo en todas mis charlas, ¿vale?

Como una que di el otro día en el SIMO de educación con la gente, con los amigos de Roser y Mac que saludo desde aquí, Pues, lo dije muy claramente, la IA no nos va a quitar el trabajo, nos lo va a quitar la persona Que use la IA para ser mejor profesional que nosotros. Así que ese es el tema. Si les ha gustado el programa, por favor, compártanlo, Como en redes sociales, denos un like, suscríbanse a nuestro canal que siempre nos ayuda, y nos oímos pronto si dios quiere. Hasta entonces, Un saludo, e Got Apple Code.

Episodios recientes

4.052 8⨯13 Mark Gurman cuenta todo de Siri y de la futura IA de Apple Intelligence ¿Por qué Apple va por detrás del resto en IA para usuario? ¿Quién será el próximo CEO? ¿Con qué IA trabaja Apple internamente? Mark Gurman cuenta todo esto y más en una entrevista que comentamos aquí.

4.546 8⨯12 Así será la nueva Siri que usaremos en 2026, 100% de Apple ¿Siri va a usar ChatGPT? ¿Apple depende de Google? Desmontamos los mitos con datos y papers científicos. Descubre MANZANO, FERRET-UI, SHARP y los modelos de Apple que nadie conoce. La verdad sobre iOS 26.4, iOS 27 y por qué el modelo de tu iPhone sigue siendo 100% Apple.

4.555 8⨯11 Apple presenta su nuevo modelo de imagen y visión computerizada: MANZANO El equipo de Machine Learning de Apple ha lanzado un nuevo paper del modelo destinado a ser el motor de visión computerizada y generación de imágenes de la futura Apple Intelligence: MANZANO. Os hablamos de él en detalle.