Apple Coding Daily 6×33

WWDC24: Apple Intelligence a fondo

¿Qué es y cómo funciona Apple Intelligence, la apuesta de Apple por cambiar sus sistemas a través de la IA generativa de texto e imagen? Os lo contamos al detalle.

00:00 /42:21

13.731 oyentes

Episodio patrocinado por Apple Coding Academy y su formación Vision Developer Program. Infórmate en: https://acoding.academy/vdp24

Descubre todo sobre Apple Intelligence, la revolución en inteligencia artificial que Apple ha introducido en sus plataformas. Hablamos de cómo esta tecnología lleva la comprensión y generación de lenguaje e imágenes a un nuevo nivel, mejorando la experiencia de usuario con baja latencia y manteniendo la privacidad de los datos personales. Integrada en iOS, iPadOS y macOS, esta innovación promete cambiar la forma en que interactuamos con nuestros dispositivos.

Exploramos en profundidad cómo Apple utiliza la arquitectura avanzada de Apple Silicon para maximizar el rendimiento de sus modelos de lenguaje y generación de imágenes. Detallamos técnicas como la decodificación especulativa, que permiten optimizar la eficiencia de estos modelos, asegurando respuestas rápidas y de alta calidad. Además, te contamos cómo estos modelos se afinan y especializan utilizando adapters dinámicos.

Pero eso no es todo, también discutimos la integración de Apple Intelligence con Siri y App Intents, proporcionando una interacción más rica y contextual con los usuarios. Siri ahora puede acceder a menús de aplicaciones y texto en pantalla, mejorando su capacidad de realizar tareas basadas en comandos de voz. Y, por supuesto, hablamos de la impresionante capacidad de generación de imágenes con Genmoji e ImagePlayground, que permite a los usuarios crear emojis personalizados y experimentales.

Finalmente, abordamos el tema de la seguridad y privacidad con Private Cloud Compute, un sistema diseñado para manejar tareas complejas en la nube de manera segura. Te explicamos cómo Apple garantiza la protección de los datos del usuario mediante conexiones encriptadas, enclaves seguros y un proceso de auditoría pública que incluye recompensas por la identificación de vulnerabilidades. No te pierdas este episodio para entender cómo Apple Intelligence está redefiniendo la inteligencia artificial en tus dispositivos favoritos.

El desarrollo ha cambiado para siempre con la llegada de los agentes de IA, y para poder sacarle el mayor provecho y ser un desarrollador de los que buscan las empresas por su ultra-productividad, tienes que ser un Maestro: consígue la Maestría con el Swift Mastery Program 2026.

Descárgala ya desde el App Store: Be Native y escúchanos desde ahí.

Suscríbete a nuestro canal de Youtube: Apple Coding en YouTube

Descubre nuestro canal de Twitch: Apple Coding en Twitch.

Descubre nuestras ofertas para oyentes:

Cursos en Udemy (con código de oferta)
Apple Coding Academy
Suscríbete a Apple Coding en nuestro Patreon.
Canal de Telegram de Swift. Acceso al canal.

---------------

Consigue las camisetas oficiales de Apple Coding con los logos de Swift y Apple Coding así como todo tipo de merchadising como tazas o fundas.

Tienda de merchandising de Apple Coding.

Publicado: 12 junio 2024

Transcripción

Wanda, la comunidad de podcast independientes en español.

Hola y bienvenidos a un nuevo episodio de Apple Coding Daily. Bueno, pues ya ha empezado la w w w DC. Efectivamente, ya ha empezado, estamos grabando a miércoles, empezó el lunes y durará hasta el próximo viernes, donde Apple irá publicando más de, según ellos, más de cien vídeos, pero probablemente, según la agenda, estén por encima de los doscientos. Vídeos donde nos van a explicar todas las novedades a nivel de desarrollo y cómo poder usarlas, ¿vale? La, básicamente, pues la renovación que se hace todos los años.

Entonces, desde aquí no vamos a hacer un resumen, es decir, si buscan un lugar que les explique lo bonito que es el nuevo centro de control o lo maravillosos que son los nuevos íconos tintados, han encontrado un lugar que no es el apropiado, porque aquí nos vamos a meter debajo del capó, como solemos hacer, y aquí vamos a hablarles en distintos programas y además en un podcast largo que ya estamos planificando para producir, donde les hablaremos en mucho más detalle. En estos podcast más cortos iremos más a explicaciones más rápidas, pero si quieren entrar más en detalle tendrán que escuchar el próximo los próximos podcast que hagamos en Apple Coding, donde ahí sí disponemos de horas para poder hablar tranquilamente y explicando cada elemento, cada cosa presentada, etcétera. En este caso, vamos a iniciar hablando de la novedad más importante, novedad que por ahora tenemos en una pequeña parte, muy pequeñita, puesto que estamos hablando de Apple Intelligence, y esto en su parte más grande, en su parte más importante, no estará disponible para los usuarios y no para todos los usuarios hasta el próximo hasta el próximo otoño, es decir, hasta finales de septiembre, primeros de octubre.

Suponemos que con el lanzamiento de la nueva versión Mac OS Sequoia y las consecuentes versiones menores de iOS dieciocho y iPadOS dieciocho, para que así los tres sistemas estén lanzados al mismo tiempo. Insisto, suponemos. Así que, ¿qué es exactamente Apple Intelligence? Porque hemos escuchado mucha gente hablando del tema y no hemos visto, en fin, en lo que hemos mirado, a nadie que lo tenga realmente claro, por lo que vamos a meternos, repito, debajo del capó para ver exactamente qué es, cómo funciona y la la, digamos, la importancia que tiene Apple Intelligence dentro de la estrategia de Apple y todo lo que Apple ha hecho para que esto funcione. Así que vamos a ello.

Es que el problema fundamental aquí es que los auriculares son una cosa milagrosa, te pones un par de auriculares y puedes tener la misma experiencia que con dos buenos altavoces, ¿no? Pero no existe nada como unos auriculares para vídeo. Para entender qué es Apple Vision Pro, hay que conectar los puntos hacia atrás. La semilla fue imaginar unos auriculares para vídeo hace más de quince años, incluso antes del iPhone, y luego vimos cómo Apple apostó por librerías de machine learning y realidad aumentada en un momento donde estas tecnologías aún eran desconocidas para el público general hace más de seis años, pero que fueron andando el camino. Hoy, Vision Pro continúa ese camino, un camino que Apple ha construido hasta aquí, y que ahora toca continuar a los desarrolladores que proporcionen apps, experiencias y contenido para la computación espacial.

Porque, ¿qué es un iPhone sin sus apps? ¿O un iPad? El dispositivo por sí solo no es nada, son los desarrolladores los que hacen que algo valga la pena. ¿Quieres hacer que Vision Pro valga la pena y entrar en un nuevo mercado lleno de oportunidades? Aquí tienes la tuya con Vision Developer Program, una formación diseñada para desarrolladores en entornos Apple que quieran dar el siguiente paso y entrar en la computación espacial, además de ponerse al día con SWIFT UI o SWIFTDATA, Sumar todo lo necesario para construir apps que unan 2D y 3D con RealityGit, ARGit, Reality Composer y mucho más.

Ah, y no necesitas un dispositivo, con el simulador será más que suficiente, eso sí, necesitarás un Mac con Apple Silicon. No dejes pasar esta oportunidad porque la mitad de las empresas del Fortune cien ya están aprovechándola. Súmate al mayor cambio de paradigma de los últimos años y comienza desde ya a prepararte para el futuro con la única academia que lleva más de seis años formando en realidad aumentada machine learning en entornos Apple. Entra ahora en Apple Coding Academy e infórmate en acoding punto Academy barra vdp veinticuatro. La computación espacial te está esperando.

Apple Intelligence, ¿Qué es Apple intelligence? Pues bien, es la apuesta de Apple por la inclusión de determinados modelos generativos, en este caso, de lenguaje y de imágenes dentro del sistema operativo. La gran novedad es, precisamente, esa, la integración en el sistema operativo. ¿Hay algo que no hagan los demás que Apple haga con este Apple Intelligence? No, porque ya estamos cansados de ver distintos tipos de modelos de lenguaje y de generación de imágenes en otras soluciones.

Aquí, la gran diferencia, porque a nivel funcional Apple no va a hacer casi nada nuevo, casi nada, lo realmente importante no es qué es lo que hace Apple, sino cómo lo hace, porque está integrado dentro del sistema operativo, esa es la gran diferencia y además sin ningún tipo de coste para los usuarios. Ahora, todo esto tiene truco, porque aunque estará disponible en iOS dieciocho, iPad dieciocho y Mako es quince, sequoia, sequoia, el nombre está cogido, espectacular, ¿qué es lo que sucede? Pues que solamente en en determinados dispositivos estará disponible esta inteligencia de Apple. Eso significa que los dispositivos que más van a sufrir y no van a llegar son los iPhones. Estamos hablando de que solo el iPhone diecisiete, el iPhone quince Pro, perdón, con chip a diecisiete pro, es el único teléfono que va a tener disponible este Apple Intelligence.

¿Por qué? Por dos motivos fundamentales. El primero, porque los iPhone quince Pro y quince Pro Max son los únicos dispositivos que cuentan con ocho gigas de memoria RAM suficiente para poder cargar de una manera sin ningún problema y sin que suponga un una bajada de rendimiento en el sistema operativo, lo que van a permitir que se carguen estos modelos generativos y, además, el A diecisiete Pro es el único motor neural dentro de un iPhone que tiene el motor neural de la serie m, es decir, un motor neural con una capacidad superior a treinta teraflops de cálculo en coma flotante de treinta y dos bits, que es el número de operaciones que puede realizar este motor neural ejecutando estos modelos. Como toda la implementación se entiende que es en local, gran parte de la implementación es en local directamente en tu velocidad, en cuanto a, digamos, privacidad, seguridad, etcétera, porque los datos nunca salen de tu dispositivo, pues en ese sentido tendríamos el Winwin. Pero claro, el único iPhone que tiene esta capacidad es el iPhone quince Pro, y suponemos que los próximos iPhones dieciséis también la tendrán, no sabemos si solo los Pro o también la gama básica.

Entendemos que sí, que la gama básica también tendrá este motor neural de más capacidad y también más memoria. Ese es el primer punto. Luego, en los iPads solamente los iPads con chip m son capaces de ejecutar Apple Intelligence, por lo mismo, porque todos los iPad con chip m tienen al menos ocho gigas de RAM. En el caso del iPad con m cuatro, el iPad Pro, tenemos doce, donde cuatro de ellos quedan reservados para estos modelos y así tener mayor capacidad, y en el caso de MacOS, igual todos los modelos que sean Apple Silicon con chips m uno, m dos, m tres, m cuatro y sus variantes. Estos son los únicos dispositivos porque son los únicos que tienen motor neural.

Los Mac con Intel no pueden, no tienen motor neural, por lo que no pueden ejecutar estos modelos en local. Y, de igual manera, tampoco pueden funcionar iPhones anteriores o iPads con chips de serie A. Para que se hagan una idea, en un Mac con Apple Silicon generando una imagen con Stable Diffusion, el modelo generativo de imágenes en su versión XL, tú puedes tardar aproximadamente unos tres a cuatro segundos en generar una imagen de una resolución limitada de doscientos cincuenta y seis por doscientos cincuenta y seis, como por ejemplo, lo que sería el equivalente a un yemoji, que sería la generación de emojis que luego hablaremos de ella. Entonces, si partimos de la base de que en un Apple Silicon puedes llegar a tardar segundos en generar una imagen pequeñita a través de un modelo generativo, no podemos olvidar, y de hecho les invito a hacer la prueba, que cuando lo ejecuten dentro de un Intel que no tiene motor neural, esos segundos pasan a ser minutos, por lo que, obviamente, Apple no puede utilizar estos equipos. Y, de igual manera, los chips de serie A, aunque cuentan con un motor neural, ese motor neural no tiene la potencia suficiente como para dar respuestas en un tiempo que sea, bueno, pues, prudencialmente correcto para que la experiencia de usuario sea la correcta.

Por lo tanto, Apple se suma al resto de compañías que están en la misma, digamos, en la misma dirección, es decir, Android está ofreciendo modelos generativos en local, solo a los últimos dispositivos. Los que tienen más tiempo, no, porque necesitan componentes que están poniendo ahora, como los nuevos chips de Qualcomm. Microsoft saca nuevas funcionalidades y nuevos ordenadores, los nuevos modelos generativos que funcionan en local tampoco funcionan en ningún equipo que no sea nuevo. O, por ejemplo, Intel, que está sacando nuevos chips de generación catorce, pero que que estos sí tienen motor neural, pero que obviamente ni siquiera están en el mercado. Tendremos que empezar a comprar PCs que tengan estos chips para que la inteligencia artificial generativa en local de Windows empiece a funcionar directamente con ellos.

Por lo que volvemos a lo mismo, a pesar de que, o sea, a ver, es una tecnología muy nueva, por lo que, en fin, el hardware no está preparado. Aún así, gracias a Jobs, podemos ver cómo Apple, que lleva más tiempo en este negocio, está dando soporte a iPads o Macs que tienen tres y cuatro años. Yo he estado probando los nuevos modelos generativos en mi Mac mini M uno, el primero que compré en noviembre del año dos mil veinte cuando se anunció la generación Apple Silicon, y funciona perfectamente, por lo que estamos probando esta inteligencia artificial generativa en equipos que tienen cuatro años, lo cual, pues oye, no está nada mal. Entonces, ese es el kit de la cuestión, no obstante, los iPhone son los que han pagado el pato. Pero, ¿podrían funcionar en la nube?

Sí, podrían funcionar en la nube, pero como ahora después explicaremos, es imposible que Apple tenga la capacidad de centros de datos para dar servicio a los más de mil doscientos millones de dispositivos que pueden instalar iOS dieciocho, por lo que Apple ha tenido que descartar, ya que la nube que ellos tienen no está tan capacitada, ¿de acuerdo? En fin, vayamos al detalle. ¿Qué es Apple Intelligence? Básicamente, Apple Intelligence es la forma de ejecutar dentro de los dispositivos modelos de lenguaje grande, LLMs, y modelos de generación de imágenes. ¿Qué es lo que ha hecho Apple para permitir que estos modelos se puedan ejecutar directamente dentro de un dispositivo?

Pues bien, ha creado varias técnicas que le han permitido afinar los modelos entre los modelos generativos entrenados para ciertas tareas muy específicas y que sean lo más eficiente posible ocupando lo menos posible. Según ciertos datos que no he podido confirmar al cien por cien, Apple estaría utilizando un modelo generativo de lenguaje OpenELM con un tamaño de tres mil millones de parámetros, lo que se conoce técnicamente como un tres b. Este modelo tiene una cuantización a cuatro bits, por lo tanto, su tamaño dentro de la memoria viene a ser aproximadamente un par de gigas más o menos, dependiendo del número de modelos expertos que esté cargado. ¿Y esto qué significa? Pues bien, cuando yo tengo un modelo generativo, los modelos generativos, cualquier tipo de, ya no solo los generativos, cualquier tipo de modelo de machine learning tiene que ser cargado directamente en memoria.

Si no está cargado en memoria, no puede funcionar, porque tiene que estar en la memoria RAM para que pueda ir gestionando, haciendo todo el paso a través de la red neuronal, etcétera. Apple lo que ha hecho ha sido utilizar una forma muy parecida a la que tiene ChatGPT, pero digamos que lo ha adaptado a las necesidades locales. Lo primero que ha hecho Apple es utilizar técnicas de find tuning por el que ha ido especializando los modelos con múltiples entrenamientos y descartando información redundante y dando información de mucha más calidad y mucho más enfocada en aquello que se pretende dar como funcionalidad para crear un modelo que no tenga tanta hemorragia. Al final, un modelo como ChatGPT es maravilloso, es estupendo, pero GPT Four, por ejemplo, GPT cuatro, tiene uno coma ocho t de parámetros totales, es decir, tiene un uno coma ocho billones con b, trillon, si habláramos en términos americanos, de parámetros en su entrenamiento. Esto es una auténtica burrada, porque no podemos olvidar que hemos dicho que el modelo de Apple es de tres b, es decir, es de tres mil millones de parámetros, y estamos hablando de un modelo de uno coma ocho billones de parámetros.

Entonces, al final estos modelos tan grandes no tienen una depuración de fuentes, sino que se le da un montón de fuentes y se arriesgan a que haya un montón de datos duplicados, redundantes, datos que no aportan nada a la red neuronal, datos que prácticamente van a datos que van a crear caminos dentro de la red neuronal que prácticamente no van a ser recorridos casi en ningún elemento, Apple ha ido especializando los modelos, se ha ido optimizando durante más de un año y medio estos modelos para que así sean lo más eficientes posibles, para que cada dato recorra el máximo posible dentro de la red neuronal, analizando cómo funciona y que sea lo más eficiente a la hora de dar el objetivo, porque ese es el segundo elemento. Apple lo que ha hecho es algo parecido a los modelos expertos, a los a los mixtors of experts utilizan modelos grandes, creando lo que Apple llama los adapters, adaptadores que lo que hacen es utilizar los distintos pesados del modelo para tener una especialización dinámica. Es decir, que cuando yo, que esto es lo que hace ChatGPT, es decir, ChatGPT no está cargado todo el rato todo el modelo para dar soluciones.

Si yo estoy hablándole de programación, tiene cargado el modelo general de entendimiento y tiene cargado el modelo de goding. Luego, si le empiezo a hablar de matemáticas, carga el modelo de Math, si le empiezo a hablar de temas de otro lo que sea, pues cargas, es decir, tiene lo que se conoce técnicamente, lo hemos comentado, como un mixture of experts, una mezcla de expertos, donde hay un montón de modelos expertos dedicados y entrenados a temas muy concretos que se van cargando o descargando de memoria según su necesidad. Pues bien, Apple ha hecho esto, ha utilizado adapters, que es como lo ha llamado él, para que en esa especialización dinámica los modelos vayan, o sea, modelos específicamente entrenados para ciertas tareas que se van cargando en función de lo que yo necesito. ¿Que necesito hacer un resumen de un texto? Llama al modelo experto en resúmenes.

¿Que necesito hacer un una generación de una conversación? Llama al modelo experto en eso. ¿Que necesito un email? Pues llama al modelo experto para hacer emails, es decir, cada funcionalidad tiene un adapter que se encarga de hacer esa tarea de una manera más concreta. A todo esto le ha unido la compresión, los modelos están realizados con dieciséis bits de palabra, es decir, cada uno de los perceptrones, cada una de las neuronas de la red neuronal, tiene un tamaño en su entrenamiento de, en su entrenamiento real, de dieciséis bits, pero Apple lo que ha hecho ha sido cuantizar los modelos a cuatro bits en un proceso en el que ha optimizado el rendimiento de esta cuantización para que el nivel de eficiencia del modelo se reduzca lo menos posible.

Ha ido analizando los distintos resultados y ha utilizado cuantización para esto. ¿Qué es la cuantización? La cuantización es cuando yo cojo la representación de posibles valores de un perceptrón, de una neurona dentro de la red neuronal de dieciséis bits, que es capaz de representar sesenta y cinco mil quinientos treinta y seis valores distintos, y intento conseguir los mismos resultados dentro de una red neuronal en el que cada perceptrón solo es capaz de guardar valores de dieciséis posibles valores, cuatro bits. Esto, lógicamente, lo que hace es que la eficiencia del modelo se reduzca, pero si conseguimos que el modelo reduzca la eficiencia lo menos posible, imagínense en una predicción de una posible respuesta en un modelo generativo de lenguaje, yo cogería y diría, vale, yo pongo este modelo y le pido que me complete este texto, y ahora este texto que está completando resulta que el perceptrón tiene sesenta y cinco mil quinientas treinta y seis posibilidades de datos para sí mismo, que combinados con los otros perceptrones dará una salida aleatoria de x calidad. Si yo consigo que el resultado sea parecido y, a lo mejor, la predicción reduzca su eficiencia en un diez, quince por ciento, pero ahora ya no tengo que almacenar dieciséis bits, sesenta y cinco mil quinientos treinta y seis valores, sino que con dieciséis la red neuronal me sigue dando un resultado lo suficientemente bueno, pues he conseguido que el modelo neuronal, la red neuronal, ocupe cuatro veces menos de espacio.

Esto unido a la propia optimización de el el proceso de cuantización eliminando elementos o partes de la red neuronal que puedan ser detectadas como redundantes, por lo que al final tenemos una ayuda, en este sentido, para hacer este funcionamiento, ¿vale? Es decir, son técnicas que, insisto, no son nuevas ni las ha inventado Apple, pero Apple las está aplicando de una manera bastante buena para que todo esto funcione en local, de hecho, prácticamente esto de la misma manera es lo que hará Google y lo que hará Microsoft también para ejecutar sus modelos. Además, para mejorar el rendimiento de la ejecución de los propios modelos, de lo que conocemos técnicamente como la inferencia, lo que hace Apple son algunas técnicas que mejoran dicha ejecución. Por ejemplo, estaríamos hablando de la decodificación especulativa, que básicamente es que yo, a la hora de generar posibles respuestas de completado, no olvidemos que el completado de texto, que es los modelos de lenguaje, no es más que coger un texto que está inacabado y completarlo, aunque yo crea que es una conversación, en realidad no lo es, la decodificación especulativa lo que hace es generar distintas posibilidades en una misma petición.

Cuando yo le paso un texto y tiene que completarlo, lo que hace es generar varias posibilidades de ese texto, y en función del texto que, en función de esas propias posibilidades que ha dado, utiliza una serie de filtros que le dan la calidad de cada uno de esos posibles resultados y, por lo tanto, va a recoger aquel elemento que sea mejor. Es una forma de descartar posibles completados, posibles predicciones, una predicción es cuando yo completo el texto, posibles predicciones de más baja calidad, por lo que pide varias y filtra y decide cuál es la que tiene un una mejor calidad. Además, utiliza técnicas de poda de contexto, por lo que descarta determinados temas que no tengan que ver, o determinadas completados que no tengan que ver con la parte, es decir, si yo tengo un contexto muy grande sobre el que tengo que contestar, simplemente se centra en las partes más claras o las partes más principales de aquello en lo que tiene que contestar, descartando el resto y, por lo tanto, reduce la cantidad de contexto que tiene que utilizar para dar las respuestas. En fin, una serie de técnicas bastante interesantes que mejoran la eficiencia, la velocidad y el rendimiento de estos modelos.

Además, estos modelos van a poder integrarse con las aplicaciones, ya lo comentamos, yo lo venía vaticinando desde hace bastante tiempo y así se ha confirmado. Apple Intelligence será capaz de utilizar las intenciones de Siri, los app intents, que son las capacidades que permiten a el sistema, a Siri, poder acceder a los menús de las aplicaciones e incluso al texto hay en pantalla, por lo que yo voy a poder pedirle cosas a Siri dentro de las aplicaciones que entienda lo que hay en la interfaz y que me conteste a partir de lo que hay en dicha interfaz o de lo que cierta aplicación está haciendo. Si yo como desarrollador le comunico a Siri qué es lo que mi usuario hace en los distintos elementos de mi app, o qué es lo que está completando a nivel de información, o qué información está viendo, entonces, Siri será capaz de entender de una manera mucho más concreta y crear todo un índice semántico de contenido que le permita entender de una manera mucho mejor qué es lo que mi usuario hace con mi app y ayudarlo en esa app, pudiendo incluso, en ciertos contenidos, acceder a los elementos de la propia aplicación y trabajar con ello, como, por ejemplo, un campo de texto en pantalla que yo dentro de una app le pueda pedir a Siri que haga cierta cosa y lo complete.

Por lo tanto, todo esto va a permitir que Siri sea, por fin, un asistente real, un asistente que te permita hacer un montón de cosas muy interesantes, te permita hacer cosas como, por ejemplo, la generación de texto, la generación de texto con los modelos de lenguaje para utilizar técnicas de resumen de texto, corrección de texto, ¿vale? Es capaz de corregirte un texto, incluso gramaticalmente, generar cierto tipo de respuestas a partir del correo, a partir de los mensajes y mimetizar la forma en la que tú te expresas, y por lo tanto, todo eso va a permitir, con distintos adapters dedicados para cada una de estas tareas de control de texto, el hacer que estas estos elementos sean mejores, o por ejemplo, todo el tema de la generación de imágenes. Tenemos los emojis, la generación de emojis en tiempo real, emojis en los que, a partir de una descripción, se genera un pequeño emoji que represente lo que se está diciendo, a partir de un modelo entrenado que se cargará para dar solución a través del modelo Matrioska. Ya hemos hablado aquí del modelo Matrioska y adelantado lo que era esto, ¿vale? Les dejo por aquí el el programa, ¿de acuerdo?

Entonces, en este programa ya estuvimos hablando de que Matryoshka son las muñequitas rusas que se pueden ir metiendo unas dentro de otras. Apple lo ha llamado así porque son distintos modelos de generación de imágenes para distintas cosas que tienen, en principio, tres funcionalidades que Apple ha declarado, la generación de emojis en tiempo real, la generación de prompts, de generación de imágenes a través de una nueva aplicación llamada image playground, que además yo como desarrollador puedo incluir dentro de mi aplicación, porque tenemos un image playground view para meter el SWIFT UI, y poder realizar la generación de imágenes a partir de prompts contextuales de distintos temas, donde yo simplemente pongo un tema y en una nube se van mezclando esos temas y se van generando imágenes de una muy buena calidad, a lo cual también se añade la posibilidad de coger una imagen ya hecha o incluso una fotografía de una persona y adaptarla tomándolo como guía de referencia contextual para generar una imagen. En principio, estos son las funcionalidades que Apple incluye, sin entrar dentro de las que ya por visión cálculos por por visión computerizada y que eso ya funciona a día de hoy, o como, por ejemplo, SCODE, que tiene un modelo generativo, que ahora mismo lo que permite es un completado de código inteligente que funciona realmente bien, yo ya lo he probado en mi Mac mini m uno de prueba, que necesita dieciséis gigas de RAM, pero que realmente es bastante espectacular.

Pero todo esto son funcionalidades dentro de las aplicaciones, por lo que tenemos que distinguir muy bien los distintos pilares, ¿vale? Con esto vamos viendo lo que sería la conclusión final. El primer pilar de todos es el de las funciones de inteligencia artificial dentro de aplicaciones o servicios del sistema, como por ejemplo, SCODE con la parte de autocompletado, como por ejemplo la calculadora con la parte de el cálculo de operaciones escritas, o la parte de la el uso de la Apple Pencil para la escritura, en el que es capaz de copiar y pegar texto con mi propia letra e incluso mejorarla, y esto está disponible también en notas. De hecho, las notas matemáticas también podemos usarlas en notas, por lo que ese tipo de inteligencia artificial que ya está disponible, al menos las notas matemáticas, la del texto todavía no, pero al menos yo no he sido capaz de encontrar o de ver cómo funciona porque no me ha aparecido en el iPad, ¿vale? Pero, bueno, me dice que está, ¿vale?

Pero yo no he conseguido que funcione, ¿ok? Entonces, el tema es que probablemente sea para una próxima beta. Entonces, el kit de la cuestión está en que esos son servicios del sistema, servicios que funcionan a día de hoy o que están dentro de una aplicación concreta como en el caso de SCODE con el modelo generativo, ¿vale? Que es un componente más y que además se va actualizando versión a versión. Perfecto.

Ahora, el siguiente paso es el de Apple Intelligence, que se estará en otoño, y es el de la ejecución en local, iPhone quince Pro, quince Pro Max, todos los Mac con chip Apple Silicon, todos los iPads con chip M. Esos son los que van a poder permitir la ejecución en local con todo lo que hemos comentado, cómo funciona, etcétera. Esos dispositivos, en ciertas circunstancias, van a tener que salir a la nube, pero solo en momentos muy concretos, porque ahí será cuando entra en funcionamiento lo que llamamos el private cloud compute, elementos en los que ¿qué sucede? Pues bien, contexto. Cuando yo tengo un modelo generativo que tiene un determinado tamaño, una determinada calidad, se le puede sacar lo que se le puede sacar.

Para hacer resúmenes, para contestar correos, para contestar mensajes, para generar texto, para hacer, en fin, todo ese tipo de cosas que hemos comentado que es capaz de hacer lo que sería el modelo de Apple Intelligence, el local, genial. Pero, ¿qué es lo que sucede cuando yo quiero que me procese un PDF de un montón de páginas que supera los, se calcula aproximadamente tres mil tokens, tres mil a cuatro mil tokens de contexto completo que puede llegar a tener el modelo en local. Repito, esto es una estimación, ¿vale? No se sabe con seguridad, pero en base a los modelos que ya teníamos, se calcula que sería más o menos ese. Si ese contexto de dos mil o tres mil tokens, cuatro mil como mucho, no es suficiente, porque estaríamos hablando, tokens son más o menos palabras.

Si yo tengo mil tokens, pues vendría a ser, más o menos, unas mil cien palabras, porque los tokens son aquellas palabras que realmente son importantes dentro de un texto y que van a dar sentido al completado a partir del mismo. El contexto, por decirlo de alguna manera, sería la memoria, que es capaz de recordar o de concatenar ciertas peticiones de un lado o de otro, es capaz de que yo le pida a Siria una cosa, le vuelva a pedir otra, le vuelva a pedir otra y sepa de lo que le estoy hablando porque lo recuerda. Ese contexto tiene un tamaño, insisto, de dos mil, tres mil palabras, se estima, por lo que cuando yo necesito algo más grande, cuando yo voy a procesar más información, cuando necesito que la respuesta sea de más calidad, Apple sale a la nube propia, a una nube propia, solo para Apple Intelligence, ¿de acuerdo? Esto también porque, repito, podría funcionar en, esto podría hacer que dispositivos que no tienen la capacidad de los motores neurales funcionaran. El problema es que Apple no tiene la capacidad, ni Apple ni creo que casi nadie, tiene la capacidad de manera gratuita de ofrecer servicio a más de mil millones de dispositivos en el mundo.

Es imposible. Sé que yo he defendido durante mucho tiempo que los dispositivos que no estén soportados irían en la nube, y sí, me equivoqué, me equivoqué porque no caí en ese pequeño detalle de que realmente Apple no tendría la capacidad, como casi ninguna empresa que no se dedique cien por cien a la nube, con un coste muy alto, a dar servicio a más de mil millones de dispositivos, por lo que Apple ha tenido que cortar aquí también, por lo que, en principio, no estaría disponible este cloud compute privado, nada más que aquellos dispositivos que sí son capaces de hacer las peticiones en local, porque Apple ya habrá estimado, a nivel de uso, que esta nube privada solo se usará en muy concretas ocasiones y, por lo tanto, habrá estimado cuántos dispositivos tiene y cuánto va a suponer a nivel de carga y cómo va a tener que cargar sus centros de datos para dar el servicio con garantías. Un servicio en el que se utilizan técnicas de cifrado de extremo a extremo, se utilizan técnicas de procesamiento de peticiones a nivel contextual de una manera concreta en el que cuando acaba se borra la información, en el que se garantizan los servidores a través de técnicas de update station para que, a través de firma digital, se sepa que esos servidores son los reales y no haya una suplantación, y todo esto además se ha puesto al servicio de la comunidad de de auditores de seguridad y de toda la comunidad abierta de seguridad desarrollo de software, para que ellos puedan auditar e incluso se les va a recompensar si encontraran errores que permitieran filtrar la información, porque Apple, toda esta tecnología, la ha hecho abierta para que los expertos en seguridad puedan auditarla y puedan dar la garantía de que todo esto funciona de manera correcta y que no hay trampa ni cartón por ningún lado.

Por lo tanto, lo que tendríamos ahí con esas conexiones end to end, con esa no retención de datos, con una verificación pública de las imágenes, con estos modelos que dan recompensa si se encuentran problemas de seguridad, etcétera, lo que harían sería permitir que todo este Apple Intelligence funcione para, repito, cuando hay una petición que requiere más contexto, salimos a la nube a centros de datos de Apple con Mac Studio M dos ultras, que serán capaces de, a través de sus motores neurales, procesar la petición y devolverla. No será tan rápido, pero para cosas que requieran mucho más contexto se hará de esta manera, y Apple ya habrá estimado que esto probablemente suponga a lo mejor un cinco o un diez por ciento del total de peticiones mensuales, porque la gran mayoría se resolverán en local, ¿vale? Por lo tanto, ese sería el funcionamiento de esta parte de private cloud compute, ¿vale? Para poder apoyar a estos modelos generativos que no tengan la capacidad del local para manejar un contexto tan amplio, ¿de acuerdo? Así que eso sería, en resumen, lo que tendríamos que ver.

Por último, ¿qué sucede con ChatGPT? Pues bien, lo de ChatGPT es algo que se ha cerrado en las últimas semanas, por lo que la única información que hay disponible a día de hoy con respecto a lo de ChatGPT viene de la propia página de OpenAI o viene de la propia presentación de la keynote. En los vídeos que Apple está liberando no cuenta nada de ChatGPT. Lo de ChatGPT, y repito, todavía no está confirmado, parece que podría ser que estuviera disponible para todo el mundo, Es decir, que tú pudieras, en un dispositivo que no soporte App Intelligence, pedirle a la Siri tradicional, la que ya tenemos ahora, no a la nueva, pedirle que cierta petición te la resuelva con ChatGPT. Es decir, es como mucha gente se ha habilitado un shortcut que permite ir directamente a ChatGPT a resolver, pues esto es como si ya estuviera integrado.

Por lo que tenemos que tener en cuenta eso que, repito, no está confirmado, pero parece ser que sí todos los dispositivos, iPhones, iPad, etcétera, que tengan iOS dieciocho, iPad OS dieciocho, etcétera, podrían usar ChatGPT a través de Siri. En el caso de los dispositivos que tiene Apple Intelligence, que de hecho Apple ya confirmó en una entrevista con iJustin en la propia WWC que está integrando Google Gemini, por lo tanto, cuando esto salga no solo estará ChatGPT, también tendremos a Gemini de Google, lo que hará es que a ciertas respuestas de Siri, tú voluntariamente le dices, vale, pero ahora empieza a usar ChatGPT, contéstame a partir de ahora con ChatGPT o con Gemini, no me contestes como el modelo de Apple Intelligence, y entonces eso lo que hará será integrar las APIs de OpenAI y las APIs de Gemini, las APIs de Google. OpenAI ha dicho, y yo me lo tengo que creer, que va a borrar toda la información, que no va a guardar ninguna información de la que venga a partir de lo que es los dispositivos de Apple y, además, y esto lo confirmó Kreg Federiggi, se podrán utilizar tanto cuentas gratuitas como tienes cuenta de pago puedes acceder a las funciones más avanzadas que OpenAI vaya lanzando.

Pero aquí no hay cifrado, es decir, no hay una integración con los servidores de Apple, de private cloud compute y tal, no, no hay absolutamente nada de eso. Simplemente es usar las APIs de OpenAI tal cual las usamos a día de hoy en cualquier aplicación de terceros, solo que va a estar integrado en el sistema operativo. Y lo mismo va a suceder con Yemini, por lo que ahí OpenAI ha firmado un acuerdo en el que se compromete a no almacenar ninguna información de de las peticiones que vengan de dispositivos Apple de manera nativa, y entiendo que Google hará lo mismo, ¿vale? Pero repito, esto hay que creérselo, ¿vale? Porque esto ya no depende de Apple.

De hecho, cuando la respuesta viene de chat GPT, me pone de una manera muy clara, ojo que chat GPT se puede equivocar, ¿ok? Así que ese sería el, repito, resumen de lo que es Apple Intelligence. Nos queda mucho por ver, pero eso será en otro medio distinto porque aquí, pues, ya nos hemos ido a un programa, pues, un poco larguete, ¿vale? Pero bueno, es que había que hablar bien de todo esto. Y poco más, espero que les haya quedado claro, espero que les haya quedado más claro todo lo que es Apple Intelligence.

A ver, a mí me parece bien que Apple Intelligence funcione solo en los dispositivos que funciona. Pues hombre, obviamente no. Obviamente no, porque yo tengo un iPhone catorce Pro y no voy a poder utilizar Apple Intelligence. De hecho, probablemente me tenga que cambiar de móvil, porque a nivel de trabajo yo necesito trabajar con Apple Intelligence, porque en la academia, en Apple Code in Academy, pues el año que viene el módulo de machine learning, pues va a ocupar mucho más de lo que ocupa este año, porque tendremos toda la implementación de Apple Intelligence, el uso de los de las intenciones de Siri, de los ABYTENS, etcétera, todo lo nuevo, y por lo tanto yo necesito un dispositivo iPhone, aparte del iPad que sí lo soporta o aparte de los Mac que también lo soportan, incluso el portátil, pero necesito también que eso funcione en un iPhone para poder probarlo para la academia, por lo que me tendré que comprar un iPhone dieciséis Pro, probablemente, probablemente, que no tenía pensado comprarme y que tampoco necesito, pero ahora sí, por esto. Por lo tanto, a mí no me gusta.

Ahora, ¿entiendo que Apple haya tenido que hacer esto? Sí, lo entiendo perfectamente, igual que entiendo lo que ha hecho el resto de compañías, porque todo esto es demasiado moderno y el hardware no está preparado para hacer todo lo que tiene que hacer, y a a Jobs gracias el que los Apple Silicon de iPad y Mac sean capaces de hacerlo, incluso en dispositivos de hasta tres y cuatro años de antigüedad. Así que lo he dicho. Poco más, si les ha gustado, por favor, suscríbanse, compartan el episodio, ayúdennos a que se difunda la palabra de Jobs, que eso siempre nos ayuda mucho, y nos oímos pronto si Jobs quiere. Hasta entonces, un saludo y got, Apple Cody.

Puedes escuchar más episodios de Apple Coding en Wanda punto com, la comunidad de podcast independientes en español.

Episodios recientes

4.051 8⨯13 Mark Gurman cuenta todo de Siri y de la futura IA de Apple Intelligence ¿Por qué Apple va por detrás del resto en IA para usuario? ¿Quién será el próximo CEO? ¿Con qué IA trabaja Apple internamente? Mark Gurman cuenta todo esto y más en una entrevista que comentamos aquí.

4.545 8⨯12 Así será la nueva Siri que usaremos en 2026, 100% de Apple ¿Siri va a usar ChatGPT? ¿Apple depende de Google? Desmontamos los mitos con datos y papers científicos. Descubre MANZANO, FERRET-UI, SHARP y los modelos de Apple que nadie conoce. La verdad sobre iOS 26.4, iOS 27 y por qué el modelo de tu iPhone sigue siendo 100% Apple.

4.554 8⨯11 Apple presenta su nuevo modelo de imagen y visión computerizada: MANZANO El equipo de Machine Learning de Apple ha lanzado un nuevo paper del modelo destinado a ser el motor de visión computerizada y generación de imágenes de la futura Apple Intelligence: MANZANO. Os hablamos de él en detalle.