MM1, el modelo de IA generativa de Apple para rivalizar con GPT de OpenAI

00:00 /27:52

Episodio patrocinado por Apple Coding Academy:

Descubre la formación Swift Developer Program 2024 que te enseñará a cómo tener la mejor base para iniciar tu carrera como desarrollador en entornos Apple. A partir del 1 de abril. Toda la información en: acoding.academy/sdp24.

------------------

Apple presenta la que parece su apuesta final como base de todo su proyecto de IA generativa para las próximas versiones de sus sistemas operativos: MM1.

Este modelo multimodal de lenguaje (MMLLM) está basado en una estructura de mezcla de expertos (Mixture of Experts) pero con la peculiaridad que ofrece 3 versiones: en 30B, 7B y 3B en cuanto a miles de millones de parámetros para su entrenamiento.

Muy por debajo de sus competidores en cuanto a número de parámetros, parece que Apple habría decidido optimizar la calidad de los datos para conseguir con menos parámetros resultados más eficientes: os explicamos qué supondría y cómo se integraría en las próximas versiones de los sistemas Apple y para qué servirían.

Convierte en un Senior iOS Developer con el Swift Full Stack Bootcamp. Encuentra toda la información aquí: IV Swift Full Stack Bootcamp 2024.

Descubre nuestro canal de Twitch en: twitch.tv/applecoding.

Descubre nuestras ofertas para oyentes:

---------------

Consigue las camisetas oficiales de Apple Coding con los logos de Swift y Apple Coding así como todo tipo de merchadising como tazas o fundas.

---------------

    Tema musical: "For the Win" de "Two Steps from Hell", compuesto por Thomas Bergensen. Usado con permisos de fair use. Escúchalo en Apple Music o Spotify.

    Transcripción


    Wanda, la comunidad de podcast independientes en español.

    Hola y bienvenidos a un nuevo episodio de Apple Coding Daily. Hemos vuelto. En los los pasados días ha habido una serie de noticias bastante interesantes con respecto a la próxima inteligencia artificial, los próximos algoritmos de inteligencia artificial generativa que Apple supuestamente lanzaría para la próxima WWDC, que debería de ser anunciada en breve y que, teóricamente, sería el primer lunes del mes de junio. En esta WWEWC, según lo que los, incluso, hasta el propio Tim Cook ha ido adelantando, habría un cambio bastante importante en la forma en la que se controlan, en la forma en la que usamos los dispositivos Apple, aparte de un rumoreado rediseño de el propio sistema tirando hacia un estilo más de lenguaje de diseño neomórfico, un lenguaje que es más aproximado al tipo de lenguaje de diseño que utiliza Apple Vision Pro. Por lo tanto, en esta, en una supuesta primera fase, tanto iOS como iPad, iPadOS tendrían un rediseño a nivel de imagen, pero no solo eso, también tendrían la incorporación de nuevos modelos de inteligencia artificial generativa que cambiarían de una manera bastante importante, según algunos algunas personas de Apple sería uno de los cambios más importantes en el uso del sistema operativo de los últimos años, pues, digamos que eso que cambiarían por completo.

    Todo esto se une a una noticia que ha habido, como digo, en las últimas semanas de el lanzamiento de un nuevo modelo LLM, un modelo multimodal, un MMLLM, que Apple ha lanzado llamado uno, que parece ser sería el modelo definitivo que vendría en estos dispositivos. Y además, también Mark Gourman ha sacado la noticia de que parece ser que Apple estaría en conversaciones con OpenAI y con la propia Google para ver la posibilidad de poder utilizar sus modelos, en el caso de OpenAI GPT, en el caso de que sería Google de Gemini, para poder complementar todo lo que quiere hacer en sus sistemas, insistimos, a partir de junio, tal vez para algo que pueda utilizarse posteriormente. En fin, para poner un poco de orden en todas estas noticias y realidad, vamos a analizarlo y vamos a ver este tema. Pero antes vamos a hablar de nuestro patrocinador, que no es otro que Apple Coding Academy, y la nueva formación que comenzará el próximo uno de abril, SWIFT Developer Program dos mil veinticuatro. Si quieres aprender a programar en entornos Apple, aunque no sepas nada, aunque partas desde cero, tienes un lugar donde encontrar todo lo que necesitas para formarte como desarrollador.

    Ojo, para formarte en el sentido de conseguir las bases para que a partir de ahí puedas empezar a avanzar en tu carrera. Porque, obviamente, nadie puede prometerte, porque te estaría engañando, que en dos meses de formación vas a ser un programador top, porque es mentira. Para ser un programador primero necesitas muchos no meses, años de trabajo, pero sobre todo lo que necesitas es una buena base, saber de dónde partir, y eso es lo que el Swift Developer Program te va a proporcionar. Con el Swift Developer Program lo que vas a tener es todo lo que necesitas de conocimiento en el lenguaje Swift, en la librería Swift UI, en concurrencia, sincronía, uso de red, incluso una master class sobre cómo se desarrolla para Apple Vision Pro, y todo esto será la base, más un proyecto de otros dos meses, que podrás utilizar para empezar tu carrera como programador. Esta formación no solo está pensada para gente que empieza desde cero, también para gente que ya es desarrolladora en entornos Apple y lo que quiere es ponerse al día, conocer las últimas novedades en Swift, en Swift UI, la nueva versión cinco punto diez de Swift o las nuevas tendencias, la nueva arquitectura observable de Swift UI, y también para desarrolladores que, bueno, pues trabajen con otros entornos, ya sean móviles como Android, ya sean desarrollo web, y que quieran actualizarse a entornos Apple, es decir, que quieran aprender o quieran poner dentro de su currículum una base para empezar a trabajar con lo que sería el desarrollo en entornos Apple.

    Todos ellos tienen un lugar en esta nueva formación del Swift Developer Program dos mil veinticuatro, que comienza el próximo uno de abril. Solo tenéis que entrar en acoding punto academy y ahí podéis encontrar toda la información al respecto y pedirnos una entrevista con nosotros para que podamos analizar vuestro caso y daros vuestra mejor solución. Así que ya sabéis, ahí lo tenéis todo en Apple Coding Academy. Dicho esto, comenzamos con lo que sería el programa. Entonces, no podemos olvidar una cosa muy importante que vamos a repasar a nivel conceptual.

    Estamos hablando de la de los modelos de inteligencia artificial generativa, y estamos hablando de que, de nuevo, vuelven a aparecer voces diciendo que Apple ha perdido el tren, que Apple no está en este momento ni que está pensando en otras cosas, etcétera. Pero esto no es así y no es una opinión mía, no es que yo sea un fanboy, que lo soy, pero aparte de eso, esto ya no es una opinión de me gusta Apple, porque estos son hechos, hechos que pueden ustedes mismos constatar entrando en machine learning punto Apple punto com, donde verán que prácticamente cada semana se están exponiendo nuevos modelos, algunos de ellos muy importantes, que ya nos están adelantando cómo será este futuro de la inteligencia artificial generativa dentro de los entornos Apple. No podemos olvidar que Apple cuenta con algunos de los mayores expertos en inteligencia artificial, machine learning y todas estas novedades que estamos viendo en los últimos años. Pero para entender todo esto, lo primero que vamos a hacer es repasar de una manera muy rápida los conceptos más importantes. El primero es lo que es un LLM, un modelo grande de lenguaje, un large language model.

    Básicamente, un LLM es lo que ya conocemos como, por ejemplo, GPT. Es un modelo que tiene un propósito muy concreto, que es completar texto, no es tener una conversación con nosotros, no, no, no, no, eso es una funcionalidad derivada de. Un LLM es aquel que es capaz de completar un texto. Claro, si yo le doy para completar un texto, que es el principio de una conversación, él me lo va a rellenar como si siguiera la conversación, pero, en realidad, no está conversando conmigo, está completando texto intentando conservar la coherencia de lo que yo le he dado como input para que ese output, esa salida, tenga coherencia con lo que se espera a nivel de expresión, tema, construcción gramatical, etcétera. Eso es un LLM.

    Este LLM luego puede ampliarse, ¿vale? Esto sería, digamos que estaría más unido a lo que sería GPT tres punto cinco, ¿vale? Para que lo veamos de una manera más clara a la hora de entenderlo. Luego estos LLM han evolucionado, han evolucionado incorporando la multimodalidad. Un l l m solo puede tener un tipo de input, que es texto, y solo puede tener un tipo de output, un tipo de salida, que también es texto.

    Sin embargo, un LLM multimodal, un MMLLM, es capaz de tener varios tipos de entrada e incluso varios tipos de salida. Yo podría, y de hecho esto es algo que puedo hacer con con GPT cuatro, por ejemplo, si utilizo dentro de GPT cuatro chat GPT cuatro, con chat GPT cuatro lo que tenemos es un chatbot que está conectado a un multimodal large lenguage model, un modelo grande de lenguaje de tipo multimodal. ¿Por qué? Porque yo puedo darle a ese modelo no solo texto, también le puedo dar una imagen, también le puedo dar incluso un vídeo, ¿vale? Es cierto que ahora mismo no se le puede dar, pero hay modelos de este tipo que sí lo harían, ¿vale?

    Y esto podría dar lugar a que estos modelos multimodales no solo puedan contestarme por texto, también puedan contestarme a través de imagen o a través de vídeo. Lo podemos ver, o sea, podemos ver, por ejemplo, lo que se presentó hace unas semanas, el modelo Sora de OpenAI, que es un modelo capaz de generar vídeo. Esos vídeos se generarían cuando esto saliera, ¿vale? A través del propio chat GPT, igual que ahora yo le puedo pedir una imagen y esa imagen me la devuelve, es decir, créame una imagen que sea de tal manera tal, y él me devuelve una imagen hecha, pues también podría devolverme un vídeo o incluso hay otros modelos capaces de generar sonidos, ¿vale? Por lo tanto, tenemos que tener en cuenta esa multimodalidad, es decir, distintos tipos de entradas y distintos tipos de salidas, ¿vale?

    Entonces, ya vamos evolucionando el sistema. ¿Qué es lo que sucede? Ya comentamos en un programa anterior que tenemos una limitación en cuanto a los parámetros de entrenamiento de uno de uno de estos modelos. Yo, si tomo como referencia GPT tres punto cinco, GPT tres punto cinco tiene ciento setenta y cinco mil millones de parámetros, lo que viene siendo a nivel técnico la definición de ciento setenta y cinco b mayúscula. B mayúscula son los billions, porque ya sabemos que en Estados Unidos un billion son mil millones, ¿vale?

    Serían lo que en en Europa llamaríamos un millardo. Por lo tanto, el esos ciento setenta y cinco b mayúscula sería la definición de este modelo. Pues bien, si yo me voy más allá de los doscientos mil millones de parámetros, empiezo a tener problemas de peso en el modelo, empiezo a tener problemas de lentitud en el propio modelo y empieza a ser bastante inmanejable, están aproximadamente los doscientos veinticinco mil millones, más o menos, lo que se estima que ya es un modelo demasiado complejo. Por lo que, para solucionar este problema, se incorporó otro concepto que es el de M O E, siendo la o en minúscula, m mayúscula o minúscula e mayúscula, que es lo que en inglés se llama un mixture of experts, que sería una mezcla de expertos. ¿Esta mezcla de expertos qué es?

    Pues imagínense un montón de pequeños modelos LLM que están entrenados para distintas para distintos propósitos muy concretos, ¿de acuerdo? Uno que está muy especializado, por ejemplo, en contestar preguntas de programación, otro muy especializado en contestar preguntas de matemáticas, otro muy especializado en dar una respuesta gramatical mucho más correcta, otro que está especializado, por ejemplo, en leer textos técnicos a partir de URLs, en fin, tenemos un montón de posibles expertos en distintos temas lo que pueden hacer es especializar aún más el funcionamiento, dividir la forma en cómo funciona y, además, hacer que el propio modelo sea más eficiente. Pues bien, esta unión de los LLM multimodales más la mezcla de expertos es lo que nos está proporcionando los modelos actuales más grandes que conocemos como GPT cuatro, como Gemini Pro o el próximo Gemini Ultra, etcétera, o por ejemplo, uno de los últimos que tenemos, que es el de Cloud versión tres, que también es otro que está dando bastantes buenos resultados en los últimos meses. Entre estos modelos hay otros cuantos que son open source, como por ejemplo Mistral, como por ejemplo Mixtral, que la diferencia entre Mistral y mixtral es que mistral es un modelo LLM, pero mixtral es un modelo LLM basado en una mezcla de expertos, ¿vale?

    Por eso lo de la x, que también tienen varias configuraciones, y aquí tenemos que ver una parte esencial que son los distintos modelos o por configuración basados en los distintos parámetros de entrenamiento, porque, por ejemplo, tenemos modelos mixtral que tienen siete b, en mayúscula de parámetros, ¿vale? De que serían siete mil millones de parámetros. Y claro, muchos dirán, bueno, si GPT tenía ciento setenta y cinco mil millones de parámetros, pues hombre, un modelo de siete mil millones, pues muy bueno, muy bueno no debe ser. Claro, aquí depende mucho de que GPT, cuando fue entrenado, la optimización de los datos con los que fue entrenado no era muy allá, podría tener, de hecho, tenía muchísimos datos redundantes, repetitivos, datos que realmente no aportan nada o tienen salidas demasiado demasiado extrañas, por llamarlo de alguna forma, a cualquier tipo de petición, por lo que realmente el modelo rara vez va a entrar por esos derroteros dentro de lo que es su parametría, y lo que se ha visto, y es una de las cosas en las que Apple ha trabajado mucho en los últimos meses, es que, en muchas ocasiones, es más eficiente tener menos parámetros, pero que esos parámetros estén mucho más pulidos a nivel de calidad del dato, que darle mogollón de datos y que el propio sistema en su entrenamiento se encargue de clasificar la validez o no, o lo bueno o no, digamos, la calidad del dato, ¿de acuerdo?

    Es decir, un modelo de siete mil millones de parámetros con un entrenamiento donde esos siete mil millones de parámetros, o la mayoría de los que sea posible, estén muy muy bien enfocados en una en un destino concreto, ¿vale? Es decir, si yo soy mucho más selectivo a la hora de darle la información, de pulirla, de darla con mucha más calidad, puedo conseguir un modelo con muchos menos parámetros y que tenga unos resultados que sean iguales o mejores que los que ya se tienen. Por lo tanto, podríamos conseguir modelos que ocupen mucho menos y que den unos resultados equiparables a otros modelos con muchísimos más millones de parámetros. Es lo que le sucede, por ejemplo, a Mixtral, que Mixtral con un modelo de siete b está dando unos resultados bastante impresionantes en los que, en cierta forma, en ciertos benchmark que se lanzan para medir cómo funcionan estos LLMs, está comparándose al propio GPT tres punto cinco que, insistimos, fue entrenado con ciento setenta y cinco b, y este es solo siete. En esta forma de construcción es en la que está trabajando Apple.

    Apple acaba de lanzar un modelo llamado uno, que supuestamente, a falta de confirmación cuando Apple esto lo lance, sería la base del modelo multimodal que tendría, no solo distintas posibles entradas de información, de vídeo, de audio, de imágenes, etcétera, aunque parece ser que estaría más especializado en la parte de visión, es decir, en la parte de imágenes aparte de los textos, y que, por otro lado, también nos devuelva la generación de imágenes, por ejemplo, a través de la conexión con el modelo generativo Matrioshka, del que ya hemos hablado y que dejaré por aquí en algún lugar si quieren ver ese programa. Un lugar un un modelo Matryoshka capaz de generar imágenes a partir de peticiones y que, conectado al modelo uno, le daría esa multimodalidad, esa capacidad de dar una salida distinta, que es lo que hace GPT con Dalí. Pues bien, todo esto lo que llevaría es que los modelos uno de Apple, el modelo más grande es un modelo treinta B, y es un modelo que parece ser que en las pruebas que se han hecho de forma preliminar, parece ser que podría estar a la altura del propio GPT cuatro, esto es algo que obviamente viene en el paper de Apple y que habría que comprobar de una manera más empírica, pero bueno, en lo que pone el paper de Apple es que sería comparable al propio GPT cuatro, estaríamos hablando de un modelo, insisto, treinta b capaz de equipararse.

    Este tipo de modelos de treinta b, lo que ocuparían en memoria es demasiado para poder ser ejecutados en local. Por eso, Apple ha sacado un modelo siete b y un modelo tres b, al igual que Google cuando lanzó Gemini, habló de Gemini Ultra, que es el gran modelo, de Gemini Pro, que es el modelo intermedio, y de Gemini Nano, que sería un modelo pequeño, que estaría pensado para estar cargado de manera local en dispositivos móviles con sistema operativo Android? Pues, en este caso, estaríamos hablando de un modelo de uno, de tres modelos de uno, el treinta B, que teóricamente debería estar en la nube de Apple porque no puede cargarse en ningún dispositivo, ya que ninguno tiene actualmente una capacidad de memoria RAM que le permita cargar este modelo, pero, por ejemplo, los modelos siete b podrían servir para ordenadores profesionales con mucha más capacidad, y el modelo tres b, según los cálculos que yo he realizado, necesitaría solo de dos gigas de RAM para poder funcionar. Si a todo esto le unimos algoritmos como los que hablamos en su momento, que también les dejaré por aquí el programa, que son capaces de hacer que un modelo de lenguaje o un modelo cualquiera de inteligencia artificial no necesite estar cargado al cien por cien en memoria, sino que pueda ejecutar solo una pequeña parte y, a través de un uso de una especie de caché, pueda ir poniendo parte de ese modelo en disco, aprovechando la velocidad de los SSDs, podríamos llegar a tener, en una mezcla de todas estas tecnologías, un modelo que tan solo necesitará apenas un giga o giga y pico de RAM, aparte de lo que ya ocuparía el sistema de por sí, para poder ser utilizado.

    En mi opinión, según mi experiencia, basado en lo que yo creo, no tiene ninguna base de nada, simplemente la base es mi conocimiento, ¿vale? Creo que Apple no va a proporcionar un modelo LLM en modo chatbot a los usuarios, es decir, tú no vas a poder preguntarle cosas a el futuro Siri de una manera igual que lo haces con GPT cuatro, porque, ¿qué es lo que sucede cuando GPT cuatro yo voy a usarlo, cuando voy a usar chat GPT en la versión cuatro? Pues lo que sucede es que abajo me pone, por si no lo han leído, pero vamos, que se pone abajo muy claramente, que el modelo puede equivocarse, que no es preciso, que puede tener lo que se llaman alucinaciones e inventarse cosas que no son reales, etcétera. Por lo tanto, créanme, yo tengo la teoría de que Apple no va a proporcionar un modelo de lenguaje porque Apple no te va a dar un modelo que resida al cien por cien en la información que te va a dar, en un modelo que se inventa las cosas, porque hoy día cualquier modelo LLM, en una gran parte se inventa las cosas, porque está basado en una aleatoriedad.

    Por lo tanto, ¿esto qué significa? Pues que yo, mi teoría, es que Apple va a poner el LLM para ser capaz de entender lo que le estás pidiendo, y luego lo va a limitar a dar respuestas a partir del sistema operativo. Si yo, a día de hoy, le pido algo a GPT que requiera la creación de un script en Python, lo va a hacer. Yo he utilizado en muchas ocasiones, incluso para ficheros de gran tamaño, ficheros con noventa mil registros o más, le he subido un archivo CSV y le he ido guiando para que me lo convierta un JSON, y lo ha hecho gracias a el uso de Python, incluso la instalación de ciertas librerías, etcétera. ¿Por qué?

    Pues porque Python, al ser interpretado, simplemente poniendo el intérprete y las este caso, y el propio chat GPT es capaz de crearlas. Pues bien, imaginen eso en el ecosistema de los shortcuts. Imaginen que los atajos que hay en el sistema, que ya de por sí llegan a casi cualquier funcionalidad del mismo, es ampliado a una nueva forma de atajos donde puede llegar a cualquier tipo de funcionalidad del sistema operativo, ya sea iOS, iPad, Mac, Apple Vision, lo que sea. ¿Se imaginan ustedes un city capaz de generar shortcuts en tiempo real, interpretando lo que tú le estás pidiendo para hacer aquello que tú le has pedido dentro del sistema? Pues esto no es ninguna tontería, esto es algo bastante plausible y creo que es la aproximación que Apple va a realizar, no va a proporcionar un chatbot que te hable libremente, si te contestará preguntas, si le ayudará a ser más verborreico, a ser más directo a la hora de hablar, ¿vale?

    Porque consultará la Wikipedia, que bueno, tampoco es que sea una fuente de información cien por cien fiable, pero bueno, en fin. Pero consultará otras fuentes de información para darte más peso en la respuesta. Entonces, ese chat siempre estará supervisado por fuentes externas para intentar minimizar lo máximo posible estas alucinaciones que de por sí tienen los LLMs. Y sobre todo, donde más se va a centrar Apple es, uno, en la parte de, como digo, de los shortcuts y cómo van a integrarse dentro del sistema para hacer cualquier cosa y poder controlar todo el sistema por la voz, unido a las funcionalidades de el resumen de los correos, el que te genere una contestación que tú supervises de manera automática, el que te haga un completado de los mensajes o te conteste por ti incluso, y que pondría debajo enviado por Siri, ¿vale? Para que sepas que no lo has dicho tú directamente, sino que está, pues, como pasa ahora cuando es por dictado, ¿vale?

    O que podamos generar key notes, pages, etcétera, a partir de resúmenes de otros documentos que tengamos o que pueda ser capaz de leer cualquier tipo de documento leíble dentro de nuestro ordenador, todo de una manera, ordenador o dispositivo, todo de una manera cien por cien local sin tener que salir a la nube, aunque sí habrá cosas para las que tendrá que salir a la nube, porque no todos los modelos van a poder caber por ahora dentro de el dispositivo, pero va a crear una mezcla entre cifrado punto a punto entre el servidor y el dispositivo para tirar lo menos posible de la nube, más ciertos modelos cargados en local para maximizar el tema de la privacidad, ¿de acuerdo? Esa es, insisto, es mi opinión basada en mi experiencia y en llevar casi siete años trabajando con Apple a nivel de machine learning, realidad aumentada, desarrollo, etcétera. En cuanto a lo que es esto, ¿vale? Pero yo llevo ya más de diez años como formador y más de quince como desarrollador en entornos a Apple. Por lo tanto, mi experiencia me hace ver, de alguna manera, por dónde podría tirar Apple por lo que es las posibilidades a nivel técnico, ¿vale?

    Entonces, bueno, pues ahí está mi apuesta personal al respecto, y lo que supondrán estos modelos nuevos que estamos viendo, como este último, uno, que la verdad, están dando un rendimiento muy muy bueno y que tiene unas veces de ser algo realmente espectacular a falta de, insisto, poder probarlo, ¿vale? So, el papel lo aguanta todo. Ahora ya ponlo a funcionar y veremos a ver si cumple o no las expectativas. Así que ese sería un poco el tema, y poco más. Y poco más, no sé qué les ha parecido esto, la verdad que entiendo que todas estas cosas son un poco complejas, ¿vale?

    O sea, llegamos a un nivel de explicaciones técnicas que son bastante complejas de entender de una manera, digamos, fácil, no es como intentar explicarle a alguien qué es un bitcoin, qué es un Blockchain o todo ese tipo de cosas, ¿vale? Es decir, estamos entrando en ciertos conceptos técnicos que requieren necesitas una parte uno para entender la dos, luego la tres, luego la cuatro, luego la cinco, pues hombre, al final llega un momento en el que la cosa se complica, ¿vale? No es algo que sea tan simple como el mecanismo de un chupete o la forma en la que funciona un botijo. Entonces, bueno, pues son distintas formas de entender, ¿ok? Así que, bueno, espero haber explicado esto de una manera se haya podido entender bien, espero que hayan entendido lo que es mi apuesta personal como analista de lo que creo que Apple va a hacer, y todas estas dudas las resolveremos, pues, obviamente, en apenas tres meses, porque sí, señores, faltan menos de tres meses, para que suceda la w w DC, así que veremos a ver.

    Y poco más, si les ha gustado, por favor, suscríbanse, dennos like, compartan, etcétera, etcétera, como siempre, y nos oímos pronto, si dios quiere. Hasta entonces, un saludo, e gov, Apple COVID.

    Puedes escuchar más episodios de Apple Coding en Wanda punto com, la comunidad de podcast independientes en español.

    Episodios recientes