
﻿WEBVTT
Kind: captions
Language: es

00:00:00.000 --> 00:00:08.000
Wanda, la comunidad de podcast independientes en español.

00:00:09.000 --> 00:00:14.000
Hola y bienvenidos a un nuevo episodio de Apple Coding Daily.

00:00:15.000 --> 00:00:20.000
Hoy va a ser un episodio un poco Intensito, ¿por qué?

00:00:20.000 --> 00:00:29.000
Porque vamos a tratar de explicar algo que, de por sí, es bastante complejo de Explicar, porque en sí mismo es bastante complejo.

00:00:30.000 --> 00:00:34.000
Vamos a hablar de uno de los primeros pasos que se han hecho públicos por

00:00:34.000 --> 00:00:38.000
Parte de Apple sobre los nuevos modelos generativos que llegarán en las

00:00:38.000 --> 00:00:42.000
próximas versiones de los sistemas operativos De Apple, a saber, iOS

00:00:42.000 --> 00:00:49.000
dieciocho, Mac OS dieciséis, etcétera.

00:00:50.000 --> 00:00:56.000
Los que llegarían, presentarían en la WWDC Del próximo año dos mil veinticuatro.

00:00:57.000 --> 00:01:02.000
En esas versiones parece ser, según Nos ha comentado Mark Gourman en sus

00:01:02.000 --> 00:01:07.000
rumores, rumores no rumores, porque yo estoy convencido que esos son,

00:01:07.000 --> 00:01:12.000
Digamos, rumores controlados, información que Apple le brinda para,

00:01:12.000 --> 00:01:17.000
digamos, mover el gallinero y dar salseillo, ¿no?

00:01:17.000 --> 00:01:18.000
Un poco en ese sentido.

00:01:19.000 --> 00:01:23.000
Entonces, una de las cosas que Gourman comenta es que, para Apple, la

00:01:23.000 --> 00:01:27.000
próxima gran versión de sistemas operativos va a ser una de las más

00:01:27.000 --> 00:01:31.000
Importantes de las más radicales de las que van a suponer un cambio más

00:01:31.000 --> 00:01:35.000
grande en el usuario, incluso los desarrolladores, De toda su historia, o

00:01:35.000 --> 00:01:39.000
sea que ojito con eso, y el principal responsable va a ser la inteligencia

00:01:39.000 --> 00:01:44.000
artificial generativa.

00:01:45.000 --> 00:01:49.000
La La inteligencia artificial como la que hoy día estamos utilizando con

00:01:49.000 --> 00:01:53.000
modelos como GPT, con el cual podemos usar El servicio chat GPT o modelos

00:01:53.000 --> 00:01:57.000
como Dalí, que también se puede usar dentro de GPT, modelos como

00:01:57.000 --> 00:02:01.000
Midjourney o muchos otros Servicios o modelos de inteligencia artificial

00:02:01.000 --> 00:02:05.000
generativa capaces de crear música, sonidos, Texto, imágenes, vídeo,

00:02:05.000 --> 00:02:09.000
modificarla para hacer auténticas virguerías, como que Hablemos otros

00:02:09.000 --> 00:02:19.000
idiomas, etcétera.

00:02:19.000 --> 00:02:24.000
Pues bien, por fin, Apple, a través de su página web machine learning

00:02:24.000 --> 00:02:29.000
punto Apple punto com, Nos ha hecho público el primer paso, el primer

00:02:29.000 --> 00:02:34.000
modelo, lo primero que hemos podido saber Con respecto a lo que se nos

00:02:34.000 --> 00:02:40.000
viene para el próximo año, y es lo que vamos a intentar explicar en este programa.

00:02:55.000 --> 00:03:02.000
Seguro que estás de acuerdo conmigo que el tiempo es lo más valioso que tenemos, Ya que una vez que pasa, no vuelve.

00:03:02.000 --> 00:03:06.000
Los últimos estudios dicen que los developers, los desarrolladores,

00:03:06.000 --> 00:03:10.000
invierten entre sesenta y noventa minutos Diarios en buscar soluciones

00:03:10.000 --> 00:03:14.000
para sus proyectos en vez de estar programando.

00:03:15.000 --> 00:03:24.000
Abrir Stablever Flow, teclear preguntas en ChatGPT O buscar innumerables tutoriales y cursos online hasta volverte loco.

00:03:25.000 --> 00:03:31.000
Da igual si es Swift, UIKit, Swift UI, y entonces te preguntas, ¿Estoy tomando las decisiones correctas?

00:03:32.000 --> 00:03:34.000
¿Estoy utilizando las herramientas adecuadas?

00:03:35.000 --> 00:03:43.000
La información es fragmentada, Las opiniones diversas, no sabes a quién creer y no hay una guía coherente que seguir.

00:03:43.000 --> 00:03:49.000
Como nos decía hace poco un alumno, Pierdo veinte horas a la semana en búsqueda de soluciones.

00:03:50.000 --> 00:03:51.000
Hagamos unos números rápidos.

00:03:51.000 --> 00:03:56.000
Veinte horas perdidas a la semana Implica perder novecientas sesenta al año.

00:03:57.000 --> 00:04:00.000
Si hablamos de un coste de un desarrollador de cuarenta euros la hora, que

00:04:00.000 --> 00:04:03.000
tampoco es demasiado Para un senior, esto implica perder treinta y ocho

00:04:03.000 --> 00:04:07.000
mil cuatrocientos euros.

00:04:07.000 --> 00:04:11.000
Sí, has oído bien, treinta y ocho mil cuatrocientos, ¿y sabes qué?

00:04:11.000 --> 00:04:13.000
Que eso realmente no es lo importante.

00:04:13.000 --> 00:04:23.000
Lo que realmente importa es que esas horas perdidas eran para sí mismo, Para su familia, para sus sueños, para sus proyectos personales.

00:04:24.000 --> 00:04:28.000
Esta puede ser tu historia, o tal vez no, Pero esta historia nos enseña

00:04:28.000 --> 00:04:32.000
que debes reclamar tu tiempo si lo valoras, consolidar tu confianza si la

00:04:32.000 --> 00:04:37.000
necesitas, Y pulir tu talento si buscas tranquilidad.

00:04:37.000 --> 00:04:45.000
No será un camino fácil ni rápido, pero será transformador para ser dueño de tu tiempo Y no al revés.

00:04:45.000 --> 00:04:48.000
En Apple Coding Academy no somos héroes ni queremos serlo, solo hemos

00:04:48.000 --> 00:04:51.000
conseguido dibujar el mapa Punto por punto, que ni siquiera Apple ha

00:04:51.000 --> 00:04:56.000
podido terminar.

00:04:57.000 --> 00:05:05.000
Hay dos formas de hacer apps, como las hace la mayoría, o como dice Apple, Y esta última es la que nosotros te enseñamos.

00:05:06.000 --> 00:05:12.000
Steve Jobs dijo una vez, la única manera de hacer un trabajo genial es amar lo que haces.

00:05:12.000 --> 00:05:20.000
Si quieres amar, si quieres saber, si quieres ser el mejor senior, descubre tu nueva visión.

00:05:21.000 --> 00:05:28.000
Visítanos en acoding punto academy barra bootcamp, y comienza el cambio.

00:05:29.000 --> 00:05:30.000
Apple Coding Academy.

00:05:51.000 --> 00:05:54.000
Si os dijera que la inteligencia artificial generativa va a cambiar el

00:05:54.000 --> 00:05:57.000
mundo, estaría mintiéndoos, porque ya lo ha cambiado, No es algo de

00:05:57.000 --> 00:06:01.000
futuro, es algo de presente.

00:06:02.000 --> 00:06:06.000
Por eso, además, yo como formador y desarrollador, lo que he hecho y lo

00:06:06.000 --> 00:06:10.000
que, De hecho, llevo haciendo durante años, y diréis, bueno, es que

00:06:10.000 --> 00:06:14.000
ChatGPT salió hace, todavía no cumplido un año.

00:06:15.000 --> 00:06:19.000
No, no, es que yo llevo usando inteligencia artificial generativa desde

00:06:19.000 --> 00:06:23.000
hace bastante más, porque he estado trabajando con ella como herramienta

00:06:23.000 --> 00:06:27.000
a través de Github Copilot, que sí tiene más de un año, a través de

00:06:27.000 --> 00:06:31.000
los modelos GPT, yo trabajé e implementé, hice una aplicación, de

00:06:31.000 --> 00:06:35.000
hecho, Ahí tenemos, por ejemplo, en diciembre del año dos mil veintiuno,

00:06:35.000 --> 00:06:39.000
un año antes, prácticamente, del lanzamiento de ChatGPT, como en nuestro

00:06:39.000 --> 00:06:43.000
podcast Caneiser junto a nuestro amigo Libernavani, hicimos una entrevista

00:06:43.000 --> 00:06:47.000
a GPT, y esa entrevista fue posible porque yo creé una aplicación De iOS

00:06:47.000 --> 00:06:51.000
que integraba la API de OpenAI y creaba ese modelo de conversación, es

00:06:51.000 --> 00:06:55.000
decir, hacía lo que ChatGPT hizo Casi un año después, que es montar una

00:06:55.000 --> 00:06:59.000
completado de texto en un formato de conversación para crear, para

00:06:59.000 --> 00:07:03.000
generar Una conversación donde no existía ese programa, la verdad que

00:07:03.000 --> 00:07:07.000
gustó muchísimo y, pues, como digo, fue prácticamente un año antes del

00:07:07.000 --> 00:07:20.000
lanzamiento de GPT.

00:07:20.000 --> 00:07:27.000
Yo Yo llevo ya mucho tiempo trabajando con inteligencia artificial en Apple Coding Academy, en nuestra academia.

00:07:28.000 --> 00:07:36.000
Yo llevo enseñando inteligencia artificial desde el año dos mil diecisiete con el lanzamiento de la librería de Apple Core ML.

00:07:36.000 --> 00:07:40.000
En ese momento, Vi que Apple tenía una un especial interés en esta

00:07:40.000 --> 00:07:44.000
tecnología, igual que también ese mismo año apareció la librería

00:07:44.000 --> 00:07:48.000
ARKIT De realidad aumentada, y también viendo esa doble vertiente,

00:07:48.000 --> 00:07:52.000
comencé a estudiar y fuimos la primera academia de formación Tornos

00:07:52.000 --> 00:07:56.000
Apple en ofrecer ese tipo de formaciones en el mundo, porque, en fin, no

00:07:56.000 --> 00:08:05.000
todo el mundo vio el potencial y, desde luego, aquí están las pruebas.

00:08:06.000 --> 00:08:11.000
Con CoreML fijamos dónde hemos llegado con la inteligencia artificial y

00:08:11.000 --> 00:08:16.000
con ARKI, pues, en fin, si queréis os cuento lo que son La lo que es él, ¿vale?

00:08:16.000 --> 00:08:21.000
Que siempre tenemos ese lapso, porque siempre pensamos que son unas gafas, no lo son.

00:08:21.000 --> 00:08:29.000
Es un ordenador de computación espacial, ya sabemos que Apple pone nombres, por lo tanto, sería él Apple Vision Pro.

00:08:29.000 --> 00:08:33.000
Así que, en fin, eso nos ha dado una posición muy interesante y muy

00:08:33.000 --> 00:08:37.000
importante, y por lo tanto, como yo llevo muchísimo tiempo trabajando en

00:08:37.000 --> 00:08:41.000
esto, Ya no solo es cuestión de usarlo o no, es que a mí me gusta saber

00:08:41.000 --> 00:08:45.000
las tripas, me gusta saber la magia, me gusta saber cuál es el truco que

00:08:45.000 --> 00:08:49.000
hay detrás para que esto Funcione.

00:08:49.000 --> 00:08:54.000
Pues bien, Apple ha presentado hace unas pocas semanas de manera pública,

00:08:54.000 --> 00:08:59.000
A través de la web de Arbix punto r g, que es una página web donde todos

00:08:59.000 --> 00:09:04.000
los científicos de De tecnología, de investigación, etcétera, pues

00:09:04.000 --> 00:09:10.000
publican sus trabajos de investigación al respecto de, pues lo que sea, ¿no?

00:09:10.000 --> 00:09:13.000
Lo que se llaman Los papers científicos, ¿de acuerdo?

00:09:13.000 --> 00:09:16.000
De todo tipo, no solo tecnológicos, en fin, de cualquier tipo de rama.

00:09:17.000 --> 00:09:22.000
Pues bien, en Arbix Los varios ingenieros de Apple han publicado lo que es

00:09:22.000 --> 00:09:27.000
el modelo de difusión de generación de imágenes de Apple, Llamado el

00:09:27.000 --> 00:09:32.000
Matryoska Diffusion Model.

00:09:33.000 --> 00:09:37.000
Apple le ha puesto este este nombre como el de las Muñecas rusas, las

00:09:37.000 --> 00:09:41.000
muñecas matrioska, que sabemos que son muñequitas que puedes abrir y

00:09:41.000 --> 00:09:45.000
dentro de una muñequita grande hay una un poquito más chica y dentro de

00:09:45.000 --> 00:09:49.000
esta otra Más chica y otra más chica y otra más chica, bien, pues han

00:09:49.000 --> 00:09:53.000
utilizado ese esa definición por un motivo muy importante que vamos a

00:09:53.000 --> 00:09:57.000
explicar en este Programa a continuación.

00:09:59.000 --> 00:10:03.000
Entonces, ¿qué es este Matrioska Diffusion Model que Apple ha presentado

00:10:03.000 --> 00:10:07.000
y que En los resultados que hay en el paper es absolutamente espectacular,

00:10:07.000 --> 00:10:11.000
espectacular, porque genera una calidad de imagen que, Digamos, muchas de

00:10:11.000 --> 00:10:15.000
ellas parecen fotografías, una calidad que, según dice Apple, gracias a

00:10:15.000 --> 00:10:19.000
una serie de cambios en cómo funcionan los modelos de difusión Y cómo

00:10:19.000 --> 00:10:23.000
se entrenan, han conseguido ir un paso más allá de lo que hasta ahora se

00:10:23.000 --> 00:10:27.000
utiliza, de las de lo Lo que hasta ahora es la forma de que funcionen los

00:10:27.000 --> 00:10:35.000
modelos de difusión.

00:10:36.000 --> 00:10:39.000
Primer paso, ¿qué es un modelo de difusión?

00:10:40.000 --> 00:10:47.000
Bien, Vamos a intentar explicarlo de la manera más clara y no ser excesivamente técnicos, ¿vale?

00:10:47.000 --> 00:10:51.000
Por lo que, En fin, a lo mejor, a la hora de explicarlo, no somos

00:10:51.000 --> 00:10:55.000
absolutamente precisos de manera científica, pero no es ese El

00:10:55.000 --> 00:11:01.000
propósito, el propósito es que ustedes lo entiendan, ese es el propósito.

00:11:01.000 --> 00:11:07.000
Bien, un modelo de difusión sería algo parecido A la forma en la que el

00:11:07.000 --> 00:11:14.000
ser humano tiene de aprender a dibujar o aprender a representar cosas de la nada.

00:11:14.000 --> 00:11:16.000
¿Qué significa esto?

00:11:16.000 --> 00:11:21.000
Estoy convencido que muchos de ustedes saben lo que es un ruido gaussiano.

00:11:22.000 --> 00:11:30.000
Cuando yo tengo Una imagen y le aplico un filtro de ruido gaussiano, lo que hago es desenfocarla, ¿vale?

00:11:30.000 --> 00:11:34.000
Entonces, Cuanto más ruido gaussiano le voy aplicando a la imagen, más

00:11:34.000 --> 00:11:38.000
desenfocada se ve, con más, Pues eso, como como si estuviera mal enfocado

00:11:38.000 --> 00:11:42.000
un objetivo, ¿de acuerdo?

00:11:42.000 --> 00:11:46.000
Se ve cada vez más y más y más y más hasta que llega un momento cuando

00:11:46.000 --> 00:11:50.000
le aplicas Montón de ruido gaussiano en el que no eres capaz de

00:11:50.000 --> 00:11:54.000
distinguir qué es lo que hay ahí, casi como cuando te llega una imagen

00:11:54.000 --> 00:11:58.000
Al Apple Watch enviada por WhatsApp, ¿vale?

00:11:58.000 --> 00:11:59.000
Que aquello no sabes qué es.

00:11:59.000 --> 00:12:02.000
Bien, pues algo parecido, ¿de acuerdo?

00:12:02.000 --> 00:12:07.000
Por lo tanto, sabemos lo que es el ruido gaussiano o el filtro gaussiano, como queramos llamarlo, ¿vale?

00:12:07.000 --> 00:12:12.000
El gaussian blur, que es, Insisto, aplicar un ruido a la imagen para crear

00:12:12.000 --> 00:12:18.000
un nivel más alto de, lo que podemos llamar, entre muchas comillas, desenfoque.

00:12:19.000 --> 00:12:30.000
Pues bien, un modelo de difusión lo que hace es el proceso contrario a este aplicar ruido gaussiano A una imagen.

00:12:30.000 --> 00:12:35.000
Lo que hace es coger una imagen de un tamaño determinado, que es su salida

00:12:35.000 --> 00:12:40.000
final, y Provocar crear una imagen completamente aleatoria de ruido

00:12:40.000 --> 00:12:45.000
gaussiano al máximo nivel, Y lo que va haciendo es en sucesivos pasos

00:12:45.000 --> 00:12:50.000
aclarando, quitando ese ruido gaussiano, Intentando buscar el parecido con

00:12:50.000 --> 00:12:58.000
componentes que él ha aprendido cómo tienen que ser dibujados.

00:12:59.000 --> 00:13:05.000
Y entonces dirán ustedes, bueno, ¿pero cómo un modelo de difusión puede ser capaz de aprender cómo se dibuja algo?

00:13:06.000 --> 00:13:11.000
Pues porque en su entrenamiento lo que ha hecho ha sido coger Una imagen, y

00:13:11.000 --> 00:13:16.000
lo que ha hecho ha sido identificar no solo todos los elementos que hay en esa imagen.

00:13:16.000 --> 00:13:21.000
Si Si yo tengo una imagen de un atardecer con una imagen en la playa que se

00:13:21.000 --> 00:13:26.000
ve un faro en el fondo, un barquito, una gaviota, el sol, Esa imagen, con

00:13:26.000 --> 00:13:31.000
un estilo, por ejemplo, pictórico, no una imagen fotográfica, lo que se

00:13:31.000 --> 00:13:36.000
hace es que se aplica un algoritmo llamado de De Unet, ¿vale?

00:13:36.000 --> 00:13:40.000
Que es un algoritmo que lo que hace es coger la imagen y reducirla en

00:13:40.000 --> 00:13:44.000
tamaño, De acuerdo, coge una imagen grande, en alta resolución, y la va

00:13:44.000 --> 00:13:48.000
reduciendo en tamaño.

00:13:48.000 --> 00:13:56.000
Cada vez que la reduce en tamaño, lo que hace es Comprobar cómo ha cambiado aquellos elementos que él ha reconocido.

00:13:56.000 --> 00:14:01.000
Porque de esa manera es como el sistema aprende a distinguir los distintos

00:14:01.000 --> 00:14:06.000
Los elementos que aparecen en una imagen y, sobre todo, cómo se fusionan

00:14:06.000 --> 00:14:11.000
o cómo se interrelacionan los unos con los otros, De forma que al

00:14:11.000 --> 00:14:16.000
conseguir que una imagen a una alta resolución se vaya reduciendo, el

00:14:16.000 --> 00:14:21.000
sistema va aprendiendo cómo esa reducción Se, digamos, influye, ¿no?

00:14:21.000 --> 00:14:25.000
En cómo la imagen está representada para ir entendiendo cada una de las

00:14:25.000 --> 00:14:29.000
partes de la misma, Cómo es el barco y cómo se fusiona con el mar, cómo

00:14:29.000 --> 00:14:33.000
es el faro, de qué manera aparece, cómo se fusiona con la tierra, Cómo

00:14:33.000 --> 00:14:37.000
es la iluminación que tiene la propia escena, los colores que está

00:14:37.000 --> 00:14:41.000
utilizando la escena, reconoce los patrones que forman El mar, el faro, la

00:14:41.000 --> 00:14:45.000
gaviota, etcétera.

00:14:45.000 --> 00:14:49.000
Hace una disección completa y va viendo cómo, al ir reduciendo las

00:14:49.000 --> 00:14:53.000
imágenes de tamaño, Puede ir viendo cómo los distintos elementos se van

00:14:53.000 --> 00:14:58.000
mezclando y eso le ayuda a aprender a cómo la imagen es.

00:14:58.000 --> 00:15:02.000
Él va aprendiendo cómo es cada paso de esa reducción de la imagen, ¿vale?

00:15:02.000 --> 00:15:06.000
De una resolución alta hacia baja, baja, baja, baja, Y cuando ya tiene una

00:15:06.000 --> 00:15:10.000
imagen muy pequeñita que, prácticamente, no sé, distinguen los

00:15:10.000 --> 00:15:14.000
distintos elementos que hay en esa imagen, Con lo que él ha aprendido de

00:15:14.000 --> 00:15:18.000
cómo se reduce esa imagen, intenta restaurarla Para volverla a la imagen

00:15:18.000 --> 00:15:22.000
original, para entender, para poder comprobar que aquello que aprendió,

00:15:22.000 --> 00:15:31.000
que era un barco, un faro, etcétera, Puede volver a dibujarlo, ¿ok?

00:15:31.000 --> 00:15:35.000
De esa manera es como él aprende los distintos elementos que hay en la imagen.

00:15:36.000 --> 00:15:42.000
Cuando ya tiene hecha esa fase, lo que hace es aplicarle el filtro gaussiano, le aplica el ruido.

00:15:42.000 --> 00:15:45.000
Aprende cómo ha pasado la imagen nítida Al ruido gaussiano, al primer

00:15:45.000 --> 00:15:48.000
nivel de ruido gaussiano, aprende cómo de una imagen nítida ha pasado a

00:15:48.000 --> 00:15:51.000
la imagen desenfocada de primer nivel Y vuelve a aplicar otra vez la red

00:15:51.000 --> 00:15:54.000
Unet para volver a aprender los distintos elementos y cómo han cambiado

00:15:54.000 --> 00:16:01.000
en ese proceso.

00:16:02.000 --> 00:16:05.000
Mezclando los dos entrenamientos, haciendo que cada imagen se vaya

00:16:05.000 --> 00:16:08.000
reduciendo en tamaño, se vaya volviendo a restaurar, Él la vuelve a

00:16:08.000 --> 00:16:11.000
recrear de una manera completa cuando la vuelve a hacer grande, y haciendo

00:16:11.000 --> 00:16:14.000
cada paso más desenfocado, más desenfocado, más desenfocado, Él

00:16:14.000 --> 00:16:19.000
aprende dos cosas.

00:16:20.000 --> 00:16:25.000
Primero, cómo es cada elemento que ha reconocido en la imagen, y segundo,

00:16:25.000 --> 00:16:30.000
cómo, desde ruido, Puede obtener una imagen que no tenga ruido, porque va

00:16:30.000 --> 00:16:35.000
aprendiendo y entrenando cómo una imagen sin ruido Llega un momento en el

00:16:35.000 --> 00:16:40.000
que es tiene tanto ruido que al final, pues, no es reconocible, ¿ok?

00:16:40.000 --> 00:16:44.000
Cuando ya tienes entrenamiento hecho, que estés El entrenamiento que tiene

00:16:44.000 --> 00:16:48.000
para lo que es este modelo de difusión, cuando yo le pido al sistema,

00:16:48.000 --> 00:16:52.000
dibújame una imagen que aparezca una gaviota en el fondo con Una playa

00:16:52.000 --> 00:16:56.000
tal, un faro, no sé qué, y le describo una imagen que él ya entendió,

00:16:56.000 --> 00:17:00.000
o incluso una imagen donde de pronto le digamos que aparezca, Pues no lo

00:17:00.000 --> 00:17:04.000
sé, un delfín, cosa que no estaba en esa imagen de manera original, pero

00:17:04.000 --> 00:17:08.000
que él también ha aprendido, porque Todas las imágenes que han servido

00:17:08.000 --> 00:17:12.000
para entrenarse son millones y millones y millones, todas han tenido un

00:17:12.000 --> 00:17:16.000
etiquetado correcto Que les ha dicho qué es cada cosa de las que hay en

00:17:16.000 --> 00:17:21.000
la imagen, ¿de acuerdo?

00:17:21.000 --> 00:17:24.000
Bien porque alguien los ha etiquetado, bien porque el propio sistema ha

00:17:24.000 --> 00:17:27.000
usado un Modelo de entrenamiento por etiquetado de imágenes que ha ido

00:17:27.000 --> 00:17:32.000
reconociendo por deep learning qué es lo que hay en cada elemento.

00:17:32.000 --> 00:17:35.000
Perfecto, entonces, A partir de ahí, ¿qué es lo que sucede?

00:17:36.000 --> 00:17:40.000
Que cuando yo le pido que me dibujo una imagen, que a lo mejor tiene cosas

00:17:40.000 --> 00:17:44.000
que la imagen original no tenía, él genera un lienzo Con ruido aleatorio

00:17:44.000 --> 00:17:48.000
gaussiano y, gracias al entrenamiento que ha tenido, lo que hace es

00:17:48.000 --> 00:17:52.000
intentar reconstruir Una imagen que tenga todos los detalles que aprendió

00:17:52.000 --> 00:17:56.000
con la red UNED haciendo que sea grande y pequeño, Para luego también ir

00:17:56.000 --> 00:18:00.000
aclarando esa imagen cada vez más, cada vez más, cada vez más, y con la

00:18:00.000 --> 00:18:04.000
unión de Los dos procesos lo que hace es generar una imagen nueva que,

00:18:04.000 --> 00:18:08.000
como ha aprendido a cómo integrar distintos elementos o cómo se integran

00:18:08.000 --> 00:18:12.000
distintos elementos Dentro de una misma imagen, pues hace que pueda

00:18:12.000 --> 00:18:22.000
hacerlo, ¿vale?

00:18:22.000 --> 00:18:31.000
Si yo le pido, por ejemplo, que me dibuje un Koala montando en moto, Él me lo pone y él entendió cómo era un Koala y cómo era una moto.

00:18:31.000 --> 00:18:35.000
¿Por qué es capaz de hacerme una imagen que mezcle los dos conceptos?

00:18:35.000 --> 00:18:39.000
Porque él aprendió cómo es una persona en una moto porque la vio en una

00:18:39.000 --> 00:18:43.000
imagen, y por lo tanto, lo único que ha hecho ha sido Aprender cómo

00:18:43.000 --> 00:18:47.000
sustituir a la persona por un Koala.

00:18:47.000 --> 00:18:50.000
Koala a partir de lo que él entendió que era un Koala en cada una de sus partes.

00:18:50.000 --> 00:18:54.000
Por eso, en muchas ocasiones, cuando las partes, por ejemplo, de las manos

00:18:54.000 --> 00:18:58.000
no se entrenan correctamente o no se etiquetan correctamente, por eso nos

00:18:58.000 --> 00:19:02.000
salen esas manos raras con un montón Dedos y hacen cosas extrañas, ¿vale?

00:19:02.000 --> 00:19:06.000
Esto, insisto, en esencia es cómo funciona el entrenamiento y la

00:19:06.000 --> 00:19:10.000
generación De un modelo de difusión, como el que puede ser Stable

00:19:10.000 --> 00:19:14.000
Diffusion o Midjourney, Dalí, etcétera, ¿vale?

00:19:14.000 --> 00:19:18.000
Que cada uno de ellos Utiliza ciertas modificaciones de lo que es un modelo

00:19:18.000 --> 00:19:22.000
de difusión para hacer lo que es su trabajo, pero si yo, por ejemplo,

00:19:22.000 --> 00:19:26.000
trabajo Hoy he utilizado Midjourney, veré que cuando le pido una imagen

00:19:26.000 --> 00:19:30.000
parte de una imagen completamente desenfocada, y mientras me va dando el

00:19:30.000 --> 00:19:34.000
porcentaje Vemos como la imagen se va aclarando, por lo tanto, es un

00:19:34.000 --> 00:19:38.000
modelo de difusión, que luego por detrás también utiliza otras Formas

00:19:38.000 --> 00:19:42.000
de Transformers y tal para optimizar el funcionamiento, etcétera, eso ya

00:19:42.000 --> 00:19:47.000
es irse a cosas más complejas.

00:19:47.000 --> 00:19:50.000
Pues bien, Apple lo que ha hecho es esto, es crear su propio modelo de

00:19:50.000 --> 00:19:53.000
difusión, pero Apple ha ido un poco más allá, ha mejorado el proceso

00:19:53.000 --> 00:19:58.000
Haciendo que esto sea aún mejor.

00:19:58.000 --> 00:19:59.000
¿En qué?

00:19:59.000 --> 00:20:09.000
Pues bien, uno de los cambios que ha hecho es implementar una red UNED De forma embebida, una necested unet, ¿vale?

00:20:09.000 --> 00:20:13.000
Es decir, una red unet, donde dentro de ese unet que hace toda la imagen,

00:20:13.000 --> 00:20:17.000
En vez de hacer un UNED de la imagen completa e ir reduciéndola para ir

00:20:17.000 --> 00:20:21.000
captando distintos elementos, lo que hace es Realizar una UNED dentro de

00:20:21.000 --> 00:20:25.000
una UNED, ¿vale?

00:20:25.000 --> 00:20:30.000
Lo que hace es coger las imágenes, cortarlas en trozos Y hacerle el UNED a

00:20:30.000 --> 00:20:35.000
cada trozo, para así poder aprender de una manera mucho más precisa

00:20:35.000 --> 00:20:40.000
cuáles son los cambios que hay, cuál es la, Más que los cambios

00:20:40.000 --> 00:20:45.000
entender mejor cómo los distintos componentes funcionan y se unen dentro

00:20:45.000 --> 00:20:50.000
de fotografías, imágenes, Dibujos, etcétera, ¿de acuerdo?

00:20:50.000 --> 00:20:54.000
Por lo tanto, en vez de hacer una sola reducción de resolución para

00:20:54.000 --> 00:20:58.000
detectar todos los detalles de una imagen, Lo que hace es un montón de

00:20:58.000 --> 00:21:02.000
pequeñas reducciones dentro de cada elemento detectado para aprender con

00:21:02.000 --> 00:21:06.000
mucha más precisión lo que es cada elemento, Para ser capaz de

00:21:06.000 --> 00:21:10.000
reproducirlo cuando se le pida cierto elemento de una manera mucho mejor y

00:21:10.000 --> 00:21:15.000
con una con un mayor detalle, ¿de acuerdo?

00:21:15.000 --> 00:21:19.000
A esto se le mezcla, también, un proceso de, a la hora de estar trabajando

00:21:19.000 --> 00:21:23.000
con los modelos de difusión, En el que, normalmente, los modelos de

00:21:23.000 --> 00:21:27.000
difusión se generan sobre una resolución fija, es decir, yo tengo

00:21:27.000 --> 00:21:31.000
imágenes de un tamaño que son las que yo quiero obtener, Y en los

00:21:31.000 --> 00:21:37.000
entrenamientos voy haciendo que esas imágenes se vayan difuminando, ¿vale?

00:21:37.000 --> 00:21:41.000
Desde la imagen real la voy difuminando con ruido gaussiano hasta que ya es

00:21:41.000 --> 00:21:45.000
posible y luego intento, el entrenamiento intento volver a la imagen

00:21:45.000 --> 00:21:49.000
original para ver cómo soy capaz de Difuminar y y desdifuminar, si se

00:21:49.000 --> 00:21:53.000
puede decir así.

00:21:53.000 --> 00:21:56.000
Perfecto, pues bien, ¿qué es lo que sucede?

00:21:57.000 --> 00:22:01.000
Sucede que cuando Apple hace esto, no lo hace solo en la resolución que

00:22:01.000 --> 00:22:05.000
quieren conseguir esos modelos de difusión, que Que normalmente

00:22:05.000 --> 00:22:10.000
últimamente es de mil veinticuatro por mil veinticuatro.

00:22:10.000 --> 00:22:14.000
No, lo que hace Apple es generar un modelo de difusión a varios niveles,

00:22:14.000 --> 00:22:18.000
Por lo que los entrenamientos no solo se hacen a mil veinticuatro, se

00:22:18.000 --> 00:22:22.000
hacen también a quinientos doce, a doscientos cincuenta y seis, a ciento

00:22:22.000 --> 00:22:27.000
veintiocho, Se hacen en distintas resoluciones.

00:22:28.000 --> 00:22:32.000
Cuando yo hago el mismo entrenamiento de difusión, es decir, es como si

00:22:32.000 --> 00:22:36.000
él mezclara El proceso de UNED, que va reduciendo la imagen completa y le

00:22:36.000 --> 00:22:40.000
hace un entrenamiento de difusión A cada imagen, en cada una de esas

00:22:40.000 --> 00:22:45.000
resoluciones, ¿qué va reduciendo?

00:22:45.000 --> 00:22:52.000
Por lo que intenta reconstruir las imágenes, No solo en la máxima resolución, sino también en las resoluciones inferiores.

00:22:53.000 --> 00:22:57.000
Esto al modelo le ayuda a entender mucho mejor cuál es la Información que

00:22:57.000 --> 00:23:01.000
hay ahí y, sobre todo, le ayuda a que el resultado final en la alta

00:23:01.000 --> 00:23:06.000
resolución sea mucho más De de mucha más calidad, ¿de acuerdo?

00:23:06.000 --> 00:23:10.000
Porque va a ser mucho más realista, ¿vale?

00:23:10.000 --> 00:23:13.000
Haciendo este proceso, Apple se ha dado cuenta De que los resultados son

00:23:13.000 --> 00:23:16.000
mucho mejores, y por eso también el modelo de Matrioska Division Models

00:23:16.000 --> 00:23:19.000
no solo es capaz de hacer generación de imágenes, También es capaz de

00:23:19.000 --> 00:23:22.000
generar vídeo, pequeños vídeos cortos, en el que podemos tener, pues,

00:23:22.000 --> 00:23:25.000
una pequeña animación tipo GIF, Donde podamos, pues eso, tener una

00:23:25.000 --> 00:23:33.000
imagen en movimiento, ¿de acuerdo?

00:23:33.000 --> 00:23:35.000
Por lo tanto, ese es el nivel que tiene.

00:23:35.000 --> 00:23:39.000
Por eso es el Matrioska Diffusion Model, Porque está utilizando no solo la

00:23:39.000 --> 00:23:43.000
aproximación de una imagen grande, sino muchas imágenes a distinta

00:23:43.000 --> 00:23:49.000
resolución para conseguir ese Objetivo.

00:23:49.000 --> 00:23:52.000
Por eso es como las muñecas Matrioska, porque de una grande tiene dentro

00:23:52.000 --> 00:23:55.000
otra y otra y otra y otra porque está utilizando Distintas imágenes a

00:23:55.000 --> 00:23:58.000
distinta resolución, entrenando la red con distintas imágenes, con la

00:23:58.000 --> 00:24:01.000
misma imagen, a distintas resoluciones, para conseguir mejor calidad, por

00:24:01.000 --> 00:24:04.000
eso lo de la matriosca.

00:24:04.000 --> 00:24:08.000
Y, por último, otra mejora que ha hecho Por eso lo de la matriosca.

00:24:08.000 --> 00:24:13.000
Y por último, otra mejora que ha hecho Apple es incluir todo este

00:24:13.000 --> 00:24:18.000
procesado en un único modelo end to end, es decir, Un único modelo al

00:24:18.000 --> 00:24:23.000
que yo le pido la entrada y el mismo modelo es el que genera la salida.

00:24:23.000 --> 00:24:28.000
Esto quiere decir que no tiene modelos secundarios que trabajan con esto.

00:24:28.000 --> 00:24:31.000
Por ejemplo, en el caso de Dalí podemos tener un modelo de GPT, que es el

00:24:31.000 --> 00:24:34.000
que traduce la parte de texto y empieza a buscar los distintos elementos a

00:24:34.000 --> 00:24:37.000
partir del promp para poder generar las imágenes, y, a lo mejor, está

00:24:37.000 --> 00:24:40.000
mezclando distintos tipos de redes sociales, Crear las imágenes y, a lo

00:24:40.000 --> 00:24:43.000
mejor, está mezclando distintos tipos de redes neuronales para conseguir

00:24:43.000 --> 00:24:48.000
el resultado final.

00:24:48.000 --> 00:24:53.000
Apple ha conseguido, en una optimización, Que la misma red sea capaz de

00:24:53.000 --> 00:24:59.000
procesar todo, desde la entrada de texto hasta la salida de una imagen o de un vídeo.

00:24:59.000 --> 00:25:00.000
¿Esto qué es lo que proporciona?

00:25:01.000 --> 00:25:06.000
Pues la capacidad de que el modelo sea más rápido, sea más eficiente, Y

00:25:06.000 --> 00:25:12.000
sus resultados sean mejores que lo que se ha hecho hasta ahora, ¿de acuerdo?

00:25:12.000 --> 00:25:15.000
Toda esta información está, como digo, en Arbix punto ORG, y de hecho,

00:25:15.000 --> 00:25:18.000
pues en las notas del podcast les dejaré el enlace para que puedan leer

00:25:18.000 --> 00:25:23.000
este este paper, ¿vale?

00:25:23.000 --> 00:25:26.000
Y bueno, ya Ya les advierto que es un paper muy complejo, ¿vale?

00:25:26.000 --> 00:25:31.000
Pero ahí también tienen una serie de resultados que la verdad que son bastante interesantes.

00:25:32.000 --> 00:25:42.000
Por lo tanto, resumiendo, Apple ha creado estos modelos de difusión para Integrarlos dentro de sus sistemas operativos.

00:25:42.000 --> 00:25:46.000
Modelos que Apple podría cargarlos completamente en los sistemas Sin

00:25:46.000 --> 00:25:50.000
necesidad de tirar de nube, cosa que es lo que a hoy día lo que hoy día

00:25:50.000 --> 00:25:55.000
hace Dalí, Midjourney, etcétera.

00:25:56.000 --> 00:26:03.000
Ahora mismo, solo modelos como Stable Diffusion, por ejemplo, que el modelo viene a ocupar unos cinco gigas, más o menos, el modelo grande, ¿vale?

00:26:03.000 --> 00:26:06.000
El modelo Completo de Stable Diffusion con toda la calidad, de Stable

00:26:06.000 --> 00:26:09.000
Diffusion dos punto uno, que es el último que estuve mirando en cuanto a

00:26:09.000 --> 00:26:12.000
Lo que era su tamaño, no sé cuánto ocupa ahora mismo el XL, pero el dos

00:26:12.000 --> 00:26:15.000
punto uno de Stable Diffusion, que es otro modelo de generación de

00:26:15.000 --> 00:26:18.000
imágenes a través de modelos de difusión, Viene a ocupar unos cinco

00:26:18.000 --> 00:26:25.000
gigas y pico, más o menos, el modelo entrenado.

00:26:26.000 --> 00:26:35.000
Cinco gigas y pico en un móvil, pues hombre, Ya es algo que me está quitando mucho espacio, pero en un ordenador tampoco es algo que sea muy grave.

00:26:36.000 --> 00:26:40.000
No obstante, Apple lo que va a intentar es poner ciertos modelos en local

00:26:40.000 --> 00:26:44.000
dentro de nuestro ordenador, por lo que Vamos a poder utilizarlo con total

00:26:44.000 --> 00:26:48.000
privacidad, y ninguna nube ni ningún ordenador, porque recordemos aquello

00:26:48.000 --> 00:26:52.000
que suelen decir de que la nube es el ordenador de otro, Por lo que, en

00:26:52.000 --> 00:26:56.000
vez de ejecutar esto en la nube de alguien, lo que hacemos es ejecutarlo

00:26:56.000 --> 00:27:00.000
en nuestro ordenador aprovechando los motores neurales que tienen los El

00:27:00.000 --> 00:27:08.000
Silicon, iOS, los iPhones, iPad, etcétera.

00:27:08.000 --> 00:27:15.000
Por lo tanto, también a partir de cuantización de modelos, que es un proceso a partir del cual, Como el MP tres, ¿vale?

00:27:15.000 --> 00:27:17.000
Un MP tres, ¿qué es lo que hace?

00:27:17.000 --> 00:27:20.000
Pues elimina partes del sonido que, teóricamente, el oído humano no

00:27:20.000 --> 00:27:23.000
escucha, Por lo tanto, reduce la cantidad de datos necesarios y hace que

00:27:23.000 --> 00:27:28.000
el sonido ocupe menos, ¿vale?

00:27:28.000 --> 00:27:33.000
Pierde información, pero El resultado, digamos que permanece, más o

00:27:33.000 --> 00:27:38.000
menos, proporcionando una calidad que, entre comillas, No se no se ve como

00:27:38.000 --> 00:27:43.000
algo que realmente afecte al resultado final, a pesar de la pérdida de datos.

00:27:43.000 --> 00:27:46.000
Pues bien, esto se puede hacer también con los modelos entrenados.

00:27:47.000 --> 00:27:51.000
Apple podría hacer un modelo entrenado de este modelo generativo de matriz

00:27:51.000 --> 00:27:55.000
kdifusion model, que a lo mejor ocupara ochocientos megas, novecientos, un giga.

00:27:56.000 --> 00:28:00.000
Si yo lo quiero incluir en mi iPad o en mi Mac funcionaría perfectamente y

00:28:00.000 --> 00:28:04.000
eso permitiría, por ejemplo, que yo pudiera entrar en Preview y decirle

00:28:04.000 --> 00:28:08.000
que me haga una imagen y me la haga, o por ejemplo, usar Spotlight, el

00:28:08.000 --> 00:28:12.000
buscador del sistema que es donde va a estar El futuro Siri basado en un

00:28:12.000 --> 00:28:16.000
modelo de lenguaje como ChatGPT, y podremos hablar con ese futuro Siri

00:28:16.000 --> 00:28:20.000
Directamente ahí, pedirle cosas, y sabrá todo de nosotros, porque podrá

00:28:20.000 --> 00:28:27.000
entrenarse con toda la información que tenemos de archivos, ¿vale?

00:28:27.000 --> 00:28:31.000
Y además, pues ahí podremos pedirle imágenes, etcétera, o por ejemplo,

00:28:31.000 --> 00:28:35.000
abrir un pages o un key note y decirle que nos genere imágenes Y que nos

00:28:35.000 --> 00:28:39.000
rellene incluso diapositivas o nos haga una presentación completa como,

00:28:39.000 --> 00:28:46.000
en fin, como ya hace Lo que es tres seis cinco Copilot de Microsoft, ¿vale?

00:28:46.000 --> 00:28:47.000
No me estoy inventando nada.

00:28:47.000 --> 00:28:51.000
Esto, vean ustedes la presentación de tres seis cinco Copilot y Ya lo

00:28:51.000 --> 00:28:55.000
está haciendo el modelo actual, por lo tanto, esto Apple, obviamente,

00:28:55.000 --> 00:28:59.000
también lo va a hacer, y una de las herramientas principales para poder

00:28:59.000 --> 00:29:03.000
hacerlo va a ser Este Matryoska Diffusion Model, que es el primero de los

00:29:03.000 --> 00:29:07.000
pasos de la inteligencia artificial generativa que Apple nos muestra A

00:29:07.000 --> 00:29:14.000
todos los usuarios para que veamos lo que está por llegar, y poco más.

00:29:27.000 --> 00:29:30.000
Y poco más yo les he avisado, le he dicho que iba a ser intensito.

00:29:31.000 --> 00:29:34.000
He intentado explicarlo de la manera más clara posible.

00:29:34.000 --> 00:29:37.000
Obviamente, no es cien por cien, o sea, si nos metemos ya a capa loca

00:29:37.000 --> 00:29:40.000
científica, pues, obviamente, Habrá detalles que no he contado, pero he

00:29:40.000 --> 00:29:43.000
intentado hacer el símil más fácil de entender para que puedan

00:29:43.000 --> 00:29:49.000
comprenderlo, ¿vale?

00:29:49.000 --> 00:29:55.000
Porque todo Todo lo que tiene que ver con la inteligencia artificial, sobre todo la generativa, es muy complejo, obviamente.

00:29:56.000 --> 00:29:58.000
Así que, bueno, ese sería un poco el tema.

00:29:59.000 --> 00:30:05.000
Lógicamente, todo esto, pues, como hemos comentado, es decir, yo todo esto, ¿por qué me interesa?

00:30:05.000 --> 00:30:06.000
¿Por qué me gusta?

00:30:06.000 --> 00:30:10.000
Pues porque ya está dentro de nuestras formaciones, ya forma parte de mi

00:30:10.000 --> 00:30:14.000
trabajo, porque el mensaje que va a unir todas las formaciones A partir de

00:30:14.000 --> 00:30:18.000
ahora, en Apple Codeen Academy es la inteligencia artificial y la IA

00:30:18.000 --> 00:30:22.000
generativa, porque como desarrolladores, si no incorporamos la IA

00:30:22.000 --> 00:30:26.000
generativa y todas sus Posibilidades de texto, vídeo, imagen, etcétera,

00:30:26.000 --> 00:30:33.000
sonidos y tal, pues, en fin, nos vamos a quedar atrás.

00:30:34.000 --> 00:30:35.000
Lo digo en todas mis charlas, ¿vale?

00:30:35.000 --> 00:30:40.000
Como una que di el otro día en el SIMO de educación con la gente, con los

00:30:40.000 --> 00:30:45.000
amigos de Roser y Mac que saludo desde aquí, Pues, lo dije muy

00:30:45.000 --> 00:30:50.000
claramente, la IA no nos va a quitar el trabajo, nos lo va a quitar la

00:30:50.000 --> 00:30:55.000
persona Que use la IA para ser mejor profesional que nosotros.

00:30:55.000 --> 00:30:57.000
Así que ese es el tema.

00:30:57.000 --> 00:31:00.000
Si les ha gustado el programa, por favor, compártanlo, Como en redes

00:31:00.000 --> 00:31:03.000
sociales, denos un like, suscríbanse a nuestro canal que siempre nos

00:31:03.000 --> 00:31:07.000
ayuda, y nos oímos pronto si dios quiere.

00:31:08.000 --> 00:31:12.000
Hasta entonces, Un saludo, e Got Apple Code.