Apple Coding Daily 6×18

Apple revoluciona cómo funciona la IA y la necesidad de recursos

Exploramos el último paper de Apple donde nos enseñan técnicas para reducir las necesidades de memoria de los modelos de ML.

00:00 /29:15

6.903 oyentes

Exploramos el último paper de Apple sobre la eficiencia en la inferencia de modelos de lenguaje grandes (LLMs).

Descubre cómo Apple está rediseñando la forma en que utilizamos y aplicamos los LLMs, optimizando el uso de la memoria DRAM y la memoria flash para reducir la necesidad de memoria de los equipos y permitir que dispositivos con menos RAM ejecuten modelos hasta ahora inalcanzables para ellos.

Analizaremos técnicas innovadoras como el 'windowing' y la 'agrupación de filas y columnas', que ofrecen un enorme potencial a la hora de discernir cómo un modelo debe ser ejecutado (inferido).

Únete a nosotros en esta fascinante charla sobre el futuro de la IA y cómo Apple está contribuyendo a un cambio significativo en la industria.

El desarrollo ha cambiado para siempre con la llegada de los agentes de IA, y para poder sacarle el mayor provecho y ser un desarrollador de los que buscan las empresas por su ultra-productividad, tienes que ser un Maestro: consígue la Maestría con el Swift Mastery Program 2026.

Descárgala ya desde el App Store: Be Native y escúchanos desde ahí.

Suscríbete a nuestro canal de Youtube: Apple Coding en YouTube

Descubre nuestro canal de Twitch: Apple Coding en Twitch.

Descubre nuestras ofertas para oyentes:

Cursos en Udemy (con código de oferta)
Apple Coding Academy
Suscríbete a Apple Coding en nuestro Patreon.
Canal de Telegram de Swift. Acceso al canal.

---------------

Consigue las camisetas oficiales de Apple Coding con los logos de Swift y Apple Coding así como todo tipo de merchadising como tazas o fundas.

Tienda de merchandising de Apple Coding.

Publicado: 20 diciembre 2023

Transcripción

Wanda, la comunidad de podcast independientes en español.

Hola y bienvenidos a un nuevo episodio de Apple Coding Daily. Si hablamos de GPT, sabemos de lo que estamos hablando. Hablamos de inteligencia artificial, de IA generativa. De hecho, hace prácticamente pocos días se han cumplido un año, tiene un añito el servicio de ChatGPT. Como hemos hablado en muchas ocasiones, ChatGPT es un servicio que está utilizando, cuando salió estaba utilizando un modelo denominado GPT tres punto cinco, un modelo que, a su vez, era la evolución de GPT tres lanzado en en el año dos mil veintiuno.

Por lo tanto, Open AI lleva desde dos mil dieciocho trabajando en estos modelos generativos de texto, basado en lo que es el paper que lanzó Google DeepMind en dos mil diecisiete, donde exploraba, donde lanzaba, donde presentaba el mundo concepto de los transformers, ¿qué es lo que hace que todo esto funcione? Si queréis saber más sobre en detalle sobre cómo funciona todo esto, tengo un episodio en el podcast Apple Coding, donde cuento la historia de OpenAI y donde explico de dónde vienen los modelos generativos de texto que estamos utilizando a día de hoy y cómo funcionan en profundidad. Aquí, lógicamente, por tiempo no podemos entrar en el detalle, pero lo que sí quiero que veamos es un tema que de nuevo, Apple ha puesto una solución encima de la mesa. Apple acaba de lanzar un paper que propone una solución muy importante para reducir la cantidad de recursos necesarios para poder ejecutar los grandes modelos de lenguaje que a día de hoy tenemos para, en fin, tipo GPT y otros que están apareciendo de código abierto y algunos propietarios, etcétera. Vamos a ver.

Disculpe, señor Ramírez, tienes un momento.

Sí, claro. Pasa, pasa, pase, cierra. ¿En qué puedo ayudarte?

Vala, es que ella lleva unos años en esta Presa, pero sigo siendo Junior y me preguntaba, ¿cuándo seré seño?

A ver, Paco, ¿cómo te explico este homion? Seño, En esta empresa es un sentimiento, es algo que se arraiga en el alma y en tu forma de sentir la vida. No te es suerdo,

No será.

Es tener conocimiento para volar más harto.

¿Y cómo vuelo más alto?

Paquito hijo, tú tienes estudio. Sabes que debes conocer, pases en el día. Anda, a ver aquí, toma, Estudiante, mira. You haikil, zuel yuan, T del del, esto de servidores que no sé qué pone vapor de agua o algo así, no sé, esto también. Arquitectura, esto es muy importante por aquí, muy importante.

Seguridad que no tenemos lío, ¿ah? ¿Y tú sabes qué es eso de la realidad, Armenta? Sí, eso

de los Pokémon, ¿no? Que los cazaba En la calle, ¿no?

Muy bien, pues, vale. También es Vice un Frog, que nos va a venir bien para proyecto y alguien tiene que hacerlo. Estos niños que hay que llevarlos de la manita, es que no me crecen y no me crecen. Ay, qué disgusto.

No, esta no es la empresa ideal, ¿verdad? Pero al menos el señor Ramírez tenía razón en algo, aunque sea de casualidad. El conocimiento es lo que te abrirá las puertas para mejorar en tu carrera profesional, conocimiento y experiencia. ¿Quieres avanzar en tu carrera profesional apostando por el desarrollo móvil en entornos Apple? En Apple Coding Academy tenemos lo que estás buscando.

Presentamos la cuarta edición de nuestro Swift Full Stack Bootcamp, un bootcamp diseñado para convertir a cualquier desarrollador, Sea cual sea la tecnología o lenguaje donde trabaje, en un senior iOS Developer con conocimiento en todo lo que en cualquier empresa o consultora piden, O lo que necesitas para montarte por tu cuenta si quieres trabajar por ti mismo. En el Swift full Stav bootcamp encontrarás Swift como elemento común a todo el Desarrollo y la formación. A partir de ahí aprenderás concurrencia de procesos, asincronía, arquitectura de proyectos para que ninguna combinación, sea cual sea, se te resista. Todo ello, por supuesto, aprendiendo UIKER y SWIFT UI al completo. Cómo aplicar test y una aproximación basada en TDD cien por cien, Seguridad, desarrollo del lado servidor, machine learning y, por supuesto, todo un módulo dedicado al próximo paso en el desarrollo en entornos Apple, Apple Vision Pro y Vision OS, un bootcamp único pensado tanto para desarrolladores en otras tecnologías, junior o senior, Que quieran reinventarse y dar un cambio en sus vidas hacia el muy demandado sector del desarrollo en entornos Apple o para aquellos desarrolladores Que ya trabajen con Apple, pero quieran especializarse y cubrir todas las lagunas que puedan llegar a tener o ponerse al día con las últimas novedades Y actualizaciones para iOS diecisiete y el resto de sistemas lanzados por Apple en el año dos mil veintitrés.

Tienes toda la información en nuestra web, Acoding punto academy barra bootcamp, y descubre las distintas formas de financiación hasta en treinta y seis meses o, incluso, En doce meses sin intereses, nunca ha sido más fácil apostar por invertir en ti mismo para llegar más lejos. Da el paso y apuesta por tu formación, apuesta por ti, por ese senior IOS developer que llevas dentro y que encontrarás en el Swift food stack bootcamp de Apple Coding Academy. Actualmente, la inteligencia artificial tiene un problema bastante grande a nivel de recursos necesarios. Por ejemplo, se sobreentiende que modelos pequeños, modelos que tampoco tienen mucho peso, pues pueden ser ejecutados en local. Yo puedo, en mi móvil, tener un modelo entrenado que sea capaz de etiquetar imágenes, de reconocer sonidos, de reconocer patrones de movimiento, es lo que hace, por ejemplo, que en el Apple Watch me reconozca que me estoy lavando las manos, aunque a veces lo confunde cuando frigo los platos, en fin, Tenemos distintas posibilidades de uso de modelos de Deep Learning, pero lo más importante es que, para poder ejecutar un modelo entrenado, yo necesito cargar el completo del modelo en memoria, y esto es clave para que entendamos el actual problema que tiene la IA generativa.

Por ejemplo, vamos a poner un modelo básico, un modelo como Whisper. Whisper es un modelo abierto de OpenAI permite la transcripción de voz a texto, un modelo que realmente tiene una eficiencia increíble, que funciona a nivel de multiidioma y que es capaz de hacer un montón de cosas, pero si hemos explorado un poco el mundo de la inteligencia artificial generativa Para ejecutar, para poder usarlo de manera local en nuestra máquina, lo primero que habremos visto es que tenemos distintas versiones de los distintos modelos. Si yo quiero utilizar Whisper, tengo un modelo Whisper base que ocupa quinientos megas, tengo un modelo Whisper un poquito más avanzado que ocupa cerca del giga, Y luego tengo el modelo large, que viene a ocupar unos tres gigas y pico. ¿Qué diferencia hay entre uno y otro? Porque pasa igual, por ejemplo, con los modelos de stable difusion, que es la lo que es el modelo abierto de generación de imágenes que permite, pues, generar imágenes a partir de proms de texto.

Stable Diffusion tiene una versión grande que ocupa seis siete gigas, pero luego tiene otras un poquito más pequeñas, ocupan tres, dos, incluso una de menos de un giga. De hecho, Google acaba de lanzar, Presentó hace muy pocos días el nuevo modelo Geminay. Geminay es un modelo que sustituye al anterior modelo Palm, que es el que daba servicio a su servicio Google Bart, que lo que hace es sustituir a este por un modelo mucho más eficiente. Yemini va a tener tres versiones. Actualmente hemos visto Yemini Pro, que es la que está lanzada, El el año que viene tendremos Gemini Ultra y también vamos a tener un Gemini Nano.

Gemini Nano es un modelo que está pensado para ser cargado En local en los móviles Android de la propia Google, en los Google Pixel, de forma que es un modelo que es más pequeñito. Gemini Nano es un modelo de menos de un giga de memoria que es capaz de ser cargado y utilizado en los móviles. De igual manera, Gemini Pro es un modelo que ocupa mucho más y necesita ser utilizado en la nube, y Gemini Ultra será un modelo muy grande, como GPT cuatro, que ocupará bastante. Entonces, ¿por qué tenemos estas diferencias de tamaños? Las tenemos a nivel de Dos parámetros importantes.

Uno es la cantidad de información con la que han sido entrenados, con el número de parámetros con el que se entrenan. Los modelos más pequeños se entrenan con menos datos, son menos eficientes, son menos están más limitados a ciertas funcionalidades muy concretas Y, por lo tanto, no son tan de uso general o no tienen tanto conocimiento como modelos que sean más grandes. Es como si yo tengo un disco duro con menos información, pues obviamente, pues podré hacer menos cosas, ¿vale? Si yo tengo un modelo entrenado con menos imágenes, ocupará menos, pero no será tan bueno reconociendo dichas imágenes, esto lo tenemos claro. El siguiente nivel, en el que podemos hablar de reducción de tamaños, es el que denominamos como la cuantización de los modelos.

La cuantización viene a ser algo muy parecido a lo que hacía el, lo que hacía un fichero de audio mp tres. Un mp tres lo que hace básicamente es eliminar información de audio que supuestamente los otros no escuchamos, ¿de acuerdo? Por lo tanto, cuanta más información se elimina de la onda que nosotros no escuchamos y se cuantizan los datos para que ocupen menos, eliminando información supuestamente innecesaria o información que tal vez es necesaria, pero que, Digamos que el resultado final que se obtiene no está perjudicando en demasiado el resultado final. Si yo, para obtener una calidad de audio que esté aquí, necesito dieciséis datos, pero teniendo solo diez datos puedo obtener una calidad aquí, que es un poco más baja, pero la diferencia entre esta y esta, prácticamente es inapreciable o la mayoría de la gente ni siquiera se va a dar cuenta, me puedo permitir, en vez de usar esto, usar esto y me ahorro seis Elementos completos, ¿vale? Entonces, ese es el concepto de la cuantización.

La cuantización lo que hace es eliminar, A base de un análisis, ciertos nodos que se consideren repetidos, pero también lo que hace es reducir la precisión de bits De el modelo. Yo puedo tener un modelo un modelo que esté a treinta y dos bits, por lo tanto, los valores con lo que se con los que se está trabajando son de ese tamaño, pero puedo reducirlo a dieciséis, a ocho, a cuatro bits, por lo tanto, La representación máxima de valores que puede tener ese modelo se va a reducir. Si yo puedo tener un modelo a dieciséis bits, quiere decir que puede representar toda la información con valores entre cero y sesenta y cinco mil quinientos treinta y cinco, pero si lo reduzco a ocho bits, Entonces, solo puede representar la información con valores entre cero y doscientos cincuenta y cinco, por lo que la cantidad de Rango de posibles números que puedo utilizar para representar la información que quiero representar en los modelos Va a ser menor, por lo que la precisión del modelo va a ser menor, su eficiencia va a ser menor y también, obviamente, ocupará menos. Si yo, Al cuantizar un modelo de dieciséis bits a ocho, puedo obtener unos resultados que en el modelo de dieciséis están en un noventa por ciento de eficiencia y en el de ocho están en un ochenta y dos, pues oye, a lo mejor me merece la pena sacrificar ese ocho por ciento de eficiencia En los resultados finales, si por el camino me he ahorrado la mitad espacio de lo que ocupa el modelo.

Ese es el concepto de la cuantización. Para que nos hagamos una idea, a día de hoy hay varios modelos que están intentando, de alguna forma, competir con OpenAI, pero no los engañemos, OpenAI está muy lejos del resto de la industria, del resto de la industria porque GPT cuatro es inalcanzable para nadie. A día de hoy hay varios hay varios test orgánicos que permiten validar la eficiencia en ciertas operaciones de un modelo generativo de texto de un elemento que se llama LLM, que es el concepto general, ¿vale? Pues este LLM se puede validar. GBT cuatro está muy por encima de cualquiera de los otros modelos que actualmente están disponibles, como Llama, como Mistral, como GeminiPro, etcétera.

Todos estos modelos, los que están saliendo ahora, son capaces de alcanzar en algunas de las de los valores medidos, a GPT tres punto cinco, por lo que digamos que Toda la industria que está alrededor de OpenAI e intenta competir con ellos está a punto, o está consiguiendo, Acercarse a GPT tres punto cinco, que es como OpenEA y estaba en dos mil veintiuno, no ahora, que estamos a punto de entrar a dos mil veinticuatro. Esto, básicamente, nos recuerda lo que sucedió cuando Apple presentó en dos mil siete el iPhone y Android no fue capaz de ponerse a su nivel hasta muchos años después, Porque aparte Apple iba avanzando, lógicamente. Entonces, ahora está pasando lo mismo y, de hecho, es probable que con Apple pase igual. Cuando Apple lance sus modelos generativos, no esperemos que sean igual de buenos que GPT cuatro, porque, obviamente, OpenAI tiene una ventaja competitiva con respecto al resto de compañías que el resto de compañías tienen que alcanzarlas, incluida APE. Bien, pues aquí, volviendo un poco, habiéndonos puesto en situación, Tenemos que entender una cosa muy importante, y es que vamos a coger como ejemplo un modelo abierto que ha salido hace poco Y que realmente está dando unos resultados muy buenos y está haciendo que la comunidad, pues, esté bastante ilusionada con las posibilidades de ejecutar un modelo que está directamente, bueno, pues, en fin, un modelo de lenguaje que se puede ejecutar en local.

Estamos hablando de Mixtral, ¿vale? Mixtral, hay un modelo que se llama Mistral y este Mixtral lo que hace es una versión del propio Mistral, lo que hace básicamente es que en vez de tener un única, digamos, una única fuente de datos, tiene como varios expertos que se interlazan dentro de el total de parámetros consiguiendo un modelo de unos cuarenta y cinco mil millones de parámetros en su entrenamiento. Ojo, porque GPT tres, GPT tres Tiene ciento setenta y cinco mil millones de parámetros, este dato se conoce, y estamos hablando de un modelo que lo alcanza en las pruebas que se han hecho con cuarenta y cinco mil millones de parámetros, haciendo una mezcla, por eso se llama mixtral, De ocho modelos expertos que se intercomunican dentro del propio modelo en sí para proporcionarse cierta información y conseguir un resultado final. No es como, En vez de tener un único modelo, es como tener ocho modelos interconectados. Mixtral es un modelo que, en el modelo que se está trabajando a día de hoy, ocupa cuarenta y cinco gigas, cuarenta y cinco gigas, cuando está cuantizado a ocho bits, porque si usamos el que está a dieciséis bits, que tiene más precisión, estamos hablando de noventa y un gigas.

Porque una cosa es, también luego el modelo ocupa algo menos en disco, pero, y aquí vamos al problema principal, Cuando yo necesito, como he dicho al principio, usar un modelo entrenado, tengo que cargarlo entero en memoria, Por lo que Mixtral en dieciséis bits solo puede ser probado en máquinas que tengan al menos ciento veintiocho gigas de RAM. En fin, como ustedes entenderán, esto es algo que está bastante alejado de la media de usuarios del mundo informático. Este es el motivo por el que, a día de hoy, toda la guía generativa funciona en la nube, prácticamente toda, salvo ciertos modelos que están muy bien cuantizados y que solo necesitan cinco, seis, tres, diez, veinte gigas de memoria en equipos que lo pueden permitir. Entonces, claro, imagínense lo que es tener este modelo de dieciséis bits. Por ejemplo, Apple tiene una implementación de Mixtral que permite ejecutarse a través de la librería MLX, que es una librería de la que ya hablamos En un episodio anterior, que es la que permite ejecutar todos los modelos actuales basados en NumPy, en la librería Python de cálculo de arrays, cálculo computacional, pues esa librería, bueno, el episodio lo dejo por aquí por si quieren verlo y refrescarse la memoria, Tienen una versión de MLX en el que con tres líneas tenemos ejecutado Mixtral, pero claro, necesitamos cuarenta y ocho gigas de RAM para que aquello arranque, ¿de acuerdo?

Algo entre cuarenta y cinco y cincuenta gigas de RAM para que aquello arranque en el modelo, repito, cuantizado de ocho bits, no el modelo completo que ocupa Noventa y tantos, ¿vale? Que también hay por ahí una demo que permite, pero claro, hay que tener un M dos Ultra con ciento veintiocho gigas de RAM, que yo creo que esto no lo tiene el el el común de los mortales no tiene acceso a ese tipo de equipos. Entonces, ese es el motivo por el que la gran mayoría de inteligencia artificial generativa Se ejecuta en la nube porque es imposible, es muy complicado que en local la gente pueda tener tal cantidad de RAM disponible para poder ejecutar estos modelos. Pues bien, buscando la solución de dicha problemática, Apple acaba de presentar un paper que Intenta solucionar este problema. Es un paper llamado LLM in a Flash, inferencia de modelos de lenguaje grandes de manera eficiente.

Es una forma, es una propuesta de, una propuesta técnica en la que lo que hace, lo que Apple hace es proponer una manera de poder no, para no necesitar cargar todo el modelo dentro de la memoria, sino que podamos tener, y esta primera aproximación están al cincuenta por ciento que la mitad del modelo pueda estar en disco, en una memoria flash, la que tiene cualquier Mac, y la otra mitad sí necesita estar cargado en memoria, por lo que entonces Podríamos ejecutar modelos de guía generativa que no cupieran en nuestra RAM. Si yo quiero ejecutar un huésped que ocupa cuatro gigas, pues solo necesitaría dos gigas para poder ejecutar ese modelo, los otros dos Podrían estar directamente guardados en disco. De igual manera, si yo quiero ejecutar un modelo como este mixtral De cuarenta y ocho gigas, pues podría ejecutarlo en una máquina que tuviera solo veinticuatro, solo veinticuatro. Apple propone esto como una primera aproximación, como un punto de inicio, para empezar a investigar al respecto Y poder conseguir que solo las partes necesarias para ciertos cálculos en ciertos momentos sean necesarios que estén en memoria Y el resto de elementos puedan estar en disco y se pueda cargar y descargar dinámicamente de la memoria la información del modelo, Según este, se va infiriendo, se va ejecutando sobre el motor neural para así optimizar y que no se necesite tanta memoria RAM.

Esto permitiría, obviamente, poder ejecutar modelos mucho más precisos en dispositivos que no tengan tanta memoria Y, por lo tanto, llegar a lo que Apple pretende, que es que toda la IEA se pueda ejecutar, como ha hecho Apple hasta ahora, En local en los dispositivos usando el motor neural, que no haya que usar la nube, porque la nube, como hemos dicho muchas veces, es el ordenador de otro, por lo que yo le estoy cediendo mi información a otro y no me hace mucha gracia en muchas ocasiones, Porque sí, Google me promete que no va a hacer nada y que es solo para mejorar servicios, Open AI que tiene detrás a Microsoft, etcétera. Pero la realidad es que yo estoy cediendo mis datos y que esos datos pueden ser usados para reentrenar los modelos, por lo que, En fin, si hay ahí cosas de propiedad industrial, cosas que sean secreto industrial, cosas que sean de, pues oye, a lo mejor a mí no me apetece que mis datos de mi empresa o de mis investigaciones o de mi trabajo puedan estar disponibles ahí también. Entonces, una cosa muy importante es la privacidad, que es en lo que Apple trabaja mucho.

Pues bien, esta sería una, no una solución, este sería un primer paso hacia una solución que permitiría una manera más eficiente de ejecutar, de inferir los modelos entrenados. Lo que Apple propone son dos soluciones que se complementan la una con la otra, una de ellas llamada el windowing. El windowing, básicamente, Es una manera a través de la cual Apple consigue que, en vez de tener que ver todo el modelo a la vez para poder inferirlo y por lo tanto necesitar cargarlo entero en memoria, ha conseguido una técnica a partir de la cual solo necesito ver la parte exacta de la red neuronal que se está ejecutando y, por lo tanto, solo necesito ver una parte de ese modelo, que es la que yo voy a tener en memoria. El sistema estaría calculando de forma continua qué partes del modelo necesita para ir ejecutándolo Y a través de otra de las técnicas, que sería la carga dinámica de filas y columnas, podría ir cargando los elementos desde disco En grupos de necesidad, es decir, lo que hace es previamente analizar el modelo, comprobar qué partes de las de los perceptrón, ¿qué parte de la red neuronal sería necesaria e ir cargándola por grupos a través de de otra de, como digo, esta nueva técnica de filas y columnas, que permitiría ir cargando por grupos relacionados las distintas partes de la red neuronal que se cargarían en memoria y que permitirían ir ejecutando, y cuando esa parte ya no fuera necesaria, se descargaría de memoria y se volvería a dejar solo en almacenamiento.

Por lo tanto, insisto, podríamos ejecutar estos modelos con menos necesidades de RAM. Apple ha estado haciendo cálculos y ha visto que puede conseguir la misma eficiencia actual de un modelo cargado en tenon memoria poniendo esta ventana al cincuenta por ciento, por lo que ese es el límite que ahora mismo, como base de investigación, Apple ha establecido, que pudiendo usar Solo la mitad de memoria necesaria para ejecutar, para inferir un modelo entrenado, podríamos conseguir que ese modelo se ejecutara de una forma eficiente, igual que si estuviera cargado en memoria, pero necesitando la mitad de memoria, porque el resto estaría como en una especie de disco de como como si fuera un disco de de disco normal, ¿no? De memoria de intercambio ¿qué hay en el que la memoria flash se usa como si fuera memoria RAM? Pues algo parecido, ¿de acuerdo? Eso es un poco la técnica que están proponiendo, Y ellos mismos nos dicen, como hemos dicho antes, que esto es un primer paso, es una forma de proponer a la comunidad este cambio Para que la comunidad ahora pueda empezar a explorar formas de mejorar esta técnica para que no sea necesario para poder reducir ese porcentaje y que, a lo mejor, pues simplemente con un veinte por ciento de lo que ocupa en total un modelo, pues se pueda trabajar con un modelo entrenado, que yo tengo un modelo de diez gigas, pero solo necesite, por ejemplo, dos para poder ejecutar este modelo, cosa que ahora mismo Necesitaría los diez porque necesitaría cargarlo entero, y si estamos hablando de modelos que ocupan lo que ocupan, pues imagínense, Imagínense, de hecho, lo que ocupa GPT cuatro, que no se sabe cuántos parámetros tiene, pero se calcula que podría llegar a tener entre setecientos mil millones y ochocientos dos mil millones, ¿vale?

Repito, GPT tres punto cinco tiene ciento setenta y cinco mil millones, y GPT cuatro se le calcula, pero no se sabe el dato, Entre setecientos mil y ochocientos mil millones de parámetros. Estamos hablando que Mixtral tiene cuarenta y cinco mil millones, muchísimos menos, y aún así Ocupa en una en un modelo de dieciséis bits de dieciséis bits cuantizado noventa gigas. ¿Saben lo que puede ocupar GPT cuatro y cómo funciona? Pues ese es el quid de la cuestión. Por lo tanto, este es un primer paso muy importante que, de nuevo, demuestra que Apple trabaja activamente en mejorar la inteligencia artificial a todos los niveles y que proponen soluciones que al final lleguen a el destino que Apple quiere para todos nosotros, que es la ejecución local de estos modelos y prescindir en la mayor medida posible de la nube.

Ahí está el tema. Y poco más. Yo sé que estos programas son complejos, Ale, son temas técnicos. He intentado hacérselo entender de la manera más sencilla posible, pero también tenemos que entender que toda la IA generativa, todo esto hay ahora todo este boom del último año, que es maravilloso, que yo estoy ahí en la cresta de la ola surfeando y y maravillándome de cada una de las cosas que van apareciendo. El nuevo Midjourney seis que está a punto de aparecer, que ya hace unas imágenes, si el cinco ya hace unas imágenes increíbles, el seis ya va a ser para volverse loco.

La forma de integrar GPT con David, con con lectores de documentos, con procesamientos, en fin, la verdad que la guía generativa, no hace falta que se lo diga, Es toda una revolución, aunque no podemos olvidar tampoco que son productos en beta, como diría un sabio, son beta y mucho beta, porque, En fin, sabemos perfectamente que GPT comete errores, sabemos perfectamente que muchas veces cuando vamos incluso al modelo de pago No funciona porque está caído o que las imágenes es muy complicado que genere imágenes que sean coherentes las unas las unas con las otras. Estamos andando el camino para llegar a esto, y Apple, que es lo importante, forma parte,

aunque a

veces no se vea, De ese camino que estamos recorriendo. Si les ha gustado, por favor, dennos un like, compartan el episodio, como siempre, suscríbanse si están en YouTube, y nos oímos pronto si dios quiere. Hasta entonces, un saludo y go Apple

Cody.

Puedes escuchar más episodios de Apple Coding en Wanda punto com, la comunidad de podcast independientes en español.

Episodios recientes

5.104 8⨯13 Mark Gurman cuenta todo de Siri y de la futura IA de Apple Intelligence ¿Por qué Apple va por detrás del resto en IA para usuario? ¿Quién será el próximo CEO? ¿Con qué IA trabaja Apple internamente? Mark Gurman cuenta todo esto y más en una entrevista que comentamos aquí.

4.767 8⨯12 Así será la nueva Siri que usaremos en 2026, 100% de Apple ¿Siri va a usar ChatGPT? ¿Apple depende de Google? Desmontamos los mitos con datos y papers científicos. Descubre MANZANO, FERRET-UI, SHARP y los modelos de Apple que nadie conoce. La verdad sobre iOS 26.4, iOS 27 y por qué el modelo de tu iPhone sigue siendo 100% Apple.

4.707 8⨯11 Apple presenta su nuevo modelo de imagen y visión computerizada: MANZANO El equipo de Machine Learning de Apple ha lanzado un nuevo paper del modelo destinado a ser el motor de visión computerizada y generación de imágenes de la futura Apple Intelligence: MANZANO. Os hablamos de él en detalle.