6.449 oyentes
Episodio patrocinado por el "Vision Developer Program" de AC Academy.
Sí, todos los dispositivos que soporten iOS 18 y el resto de nuevas versiones del sistema podrán usar la nueva IA generativa de Apple, pero dependerá de la memoria RAM de cada uno, si podrán hacerlo en local o en la nube.
Os contamos la historia de los tres pilares de la IA generativa de Apple: los motores neurales (NPU o TPU), la ejecución en la nube o en local dependiendo del dispositivo y, por supuesto, la estrategia de colaboración con OpenAI.
Todas las dudas despejadas a unos días de la celebración de la conferencia inaugural de la WWDC.
Convierte en un Maestro del Desarrollo iOS con el Swift Mastery Program 2025. Encuentra toda la información pulsando aquí.
Suscríbete a nuestro canal de Youtube: Apple Coding en YouTube
Descubre nuestro canal de Twitch: Apple Coding en Twitch.
Descubre nuestras ofertas para oyentes:
---------------
Consigue las camisetas oficiales de Apple Coding con los logos de Swift y Apple Coding así como todo tipo de merchadising como tazas o fundas.
Transcripción
Wanda, la comunidad de podcast independientes en español.
Hola y bienvenidos a un nuevo episodio de Apple Codyne Daily. Se ha liado. A ver, se ha liado, bueno, en fin, se ha liado. El, si digo que el hype por la llegada de la w w w DC para el próximo día diez de junio, próximo lunes diez de junio, estamos ahora mismo grabando a viernes treinta y uno de mayo, por lo que básicamente, queda poco más de una semana. Esto implica, pues, que va a haber un montón más de rumores, un montón más de movimiento, un montón más de hype, gente con ansiedad, gente yendo al psicólogo tomando Tranquimazing, en fin, cosas normales previas a un evento de Apple, sobre todo cuando la propia Apple nos ha vendido, que es el un evento en el que va a haber la el mayor cambio en la experiencia de los usuarios de de la historia del Apple, del mundo, de la humanidad, nada ha cambiado tanto desde Gengis Khan, en fin, lo normal.
Entonces, ¿qué es lo que sucede? Pues bien, que el el apóstol Mark Gourman, sabedor de la palabra de Jobs, pues cada vez que abre un artículo se lía, porque la gente, en fin, a ver, no termina de pillarle el punto a lo que Gourmand cuenta y Gourmand también, pues obviamente, quiere que pinches, que te suscribas a Bloomberg, esas cositas, porque en fin, el muchacho, pues, tiene que pagar a fin de mes una serie de facturas y tiene que vivir de esto, ¿no? Igual que cualquiera, tiene que vivir o pretender, o tiene el derecho de poder querer vivir o intentarlo de su trabajo. Así que, bueno, pues básicamente lo que ha tenido son una serie de rumores que nos dan pie a explicar, que es lo que vamos a hacer en este programa, toda la estrategia que Apple va a tener para la inteligencia artificial que tanto estamos deseando que llegue a los sistemas Apple inteligencia artificial generativa, porque la otra ya lleva muchísimos años, pero la generativa, la que la gente llama inteligencia artificial como si la otra no existiera, porque es tener, pues eso, un GPT, un Midjourney, un, en fin, generar cosas a través de la IA y que la IA haga cosas porque es muy lista, ¿vale?
Pues ese es el tema. Así que es lo que vamos a contar en este programa. Es que el problema fundamental aquí es que los auriculares son una cosa milagrosa. Te pones un par de auriculares y puedes tener la misma experiencia que con dos buenos altavoces, ¿no? Pero no existe nada como unos auriculares para vídeo.
Para entender qué es Apple Vision Pro, hay que conectar los puntos hacia atrás. La semilla fue imaginar unos auriculares para vídeo hace más de quince años, incluso antes del iPhone, y luego vimos cómo Apple apostó por librerías de machine learning y realidad aumentada en un momento donde estas tecnologías aún eran desconocidas para el público general hace más de seis años, pero que fueron andando el camino. Hoy, Vision Pro continúa ese camino, un camino que Apple ha construido hasta aquí, y que ahora toca continuar a los desarrolladores que proporcionen apps, experiencias y contenido para la computación espacial. Porque, ¿qué es un iPhone sin sus apps? ¿O un iPad?
El dispositivo por sí solo no es nada, son los desarrolladores los que hacen que algo valga la pena. ¿Quieres hacer que Vision Pro valga la pena y entrar en un nuevo mercado lleno de oportunidades? Pues aquí tienes la tuya con Vision Developer Program, una formación diseñada para desarrolladores en entornos Apple que quieran dar el siguiente paso y entrar en la computación espacial, además de ponerse al día con SWIFT UI o SWIFTDATA, sumar todo lo necesario para construir apps que unan 2D y 3D con Reality Git, ARGit, Reality Composer y mucho más. Ah, y no necesitas un dispositivo, con el simulador será más que suficiente, eso sí, necesitarás un Mac con Apple Silicon. No dejes pasar esta oportunidad porque la mitad de las empresas del Fortune cien ya están aprovechándola.
Súmate al mayor cambio de paradigma de los últimos años y comienza desde ya a prepararte para el futuro con la única academia que lleva más de seis años formando en realidad aumentada y machine learning en entornos Apple. Entra ahora en Apple Coding Academy e infórmate en acoding punto Academy barra v d p veinticuatro. La computación espacial te está esperando. Apple lleva desde el año dos mil diecisiete poniendo motores neurales en sus dispositivos. Empezó con el iPhone diez y, a partir de ahí, todos los dispositivos que ha ido sacando con sus propios chips han tenido una NPU, una Neural Processing Unit, una una unidad de procesamiento que es capaz de ejecutar inferencias de inteligencia artificial.
¿Qué es una inferencia? Una inferencia es la ejecución. Un modelo neuronal, un modelo de inteligencia artificial tiene tres pasos. El primero es la creación de un paper científico que establece las normas matemáticas a partir del cual el propio modelo va a ser capaz de interpretar datos, generar una entrada, procesarla y obtener una salida, y todo esto es una investigación científica en un papel, no hay ni una sola línea de código. A partir de ahí, se hace el segundo paso, que es la codificación del modelo.
Se codifica ese modelo y se genera un proceso de entrenamiento, un proceso a partir del cual se extraen, se recopila información, se le da como entrada, ese modelo se entrena, aprende a partir de esa información, y su resultado es un modelo entrenado, que es el tercer paso. La ejecución, usar ese modelo ya entrenado, programado y con datos de entrenamiento en un dispositivo es la inferencia, es ejecutar. Por lo tanto, lo que hacen estos modelos, estos chips npu, es esto, ¿por qué existen? Pues porque, básicamente, lo estamos diciendo todo de una manera muy básica para que sea fácil de entender, básicamente una CPU tiene registros de entrada, una CPU es como un microondas. Yo abro una puerta, pongo una cosa, cierro la puerta, le digo lo que hay, me lo procesa y me lo saca por otro sitio, ¿vale?
Ese es el funcionamiento, insisto, a grandes rasgos, de una CPU. Las entradas de una CPU, de una unidad central de procesamiento, son números escalares, es decir, números de una dimensión, un diez, un veinte, un cuarenta, un doscientos cincuenta y cinco, un sesenta y cinco mil quinientos treinta y seis, depende del tamaño de la palabra, podrá tener más o menos números en un solo registro. Los chips que tenemos ahora mismo, que son de sesenta y cuatro bits, suponen que pueden tener números no enteros, es decir, números sin signo de hasta sesenta y cuatro bits o números de sesenta y tres bits en signo, es decir, dos elevado a sesenta y cuatro sin signo dos elevado a sesenta y tres, con signo, porque el último el signo más a la izquierda, el uno o el cero más a la izquierda, se usa para definir si es un valor negativo o positivo para representar un número entero. ¿Esto es cómo funcionan las CPUs? Bien, una NPU lo que hace es utilizar registros tensores, es decir, números de hasta cuatro dimensiones, donde un solo registro tiene la entrada de hasta cuatro valores matriciales que luego tiene que sumar o procesar a partir de operaciones de matrices, haciendo que esa matriz se sume, se reste, se transforme, etcétera.
Por lo tanto, como lo que tenemos que trabajar son números tensores de hasta cuatro dimensiones, por eso necesitamos este Neural Processing Unit, que también es conocido, también lo habréis oído hablar, como TPU, que es Tensor Processing Unit, unidad de procesamiento de tensores, porque es el tipo de número, ¿vale? No escalares, sino números tensores de hasta cuatro dimensiones. Por eso necesitamos un chip distinto, porque si yo utilizara la cpu para poder hacer estas operaciones de ejecución de de lo que serían modelos de machine learning entrenados, modelos de IA entrenados, lo que sucedería es que tendría que estar transformando, tendría que estar descomponiendo el valor tensor a escalar, procesarlos uno por uno cada uno de los factores y luego recomponer el tensor para obtener el resultado, por lo que es un proceso muy costoso que hace que las CPUs no estén preparadas para ejecutar modelos neuronales, motivo por el que, por ejemplo, toda la nueva IA que va a aparecer para Apple Silicon, o sea, lo que es toda la nueva IA que se va a presentar en esta WWC, no va a funcionar en equipos con Intel, solo en equipos Apple Silicon. Y entonces dirá alguno, de ciencia programada, dios mío, Apple quiere que cambiemos.
A ver, obviamente sí, Apple quiere que cambiéis el equipo porque es una empresa, ¿vale? Chorprecha, pero ese no es el kit de la cuestión. Lo que quiero puntualizar aquí, y es el dilema, es el problema que se está planteando ahora mismo, y vamos con esta segunda parte, es que parte de los modelos, de los nuevos modelos de inteligencia artificial generativa, que van a ser capaces de resumir texto, de generar emojis personalizados, de generar imágenes, de generar documentos, de generar respuestas a nuestras conversaciones o a nuestros emails, de generar procesos dentro del sistema a partir de shortcuts generados en tiempo real para que Ciri sea capaz de ejecutar ciertas acciones en nuestro sistema de una manera en la que solo hay que pedírselo y ella, ella, el, elle, se, digamos, que se programa a sí mismo, ¿vale? Igual que haría ChatGPT con un script en Python o cualquier otro, o sea, en este caso ChatGPT es capaz de crear scripts de Python y ejecutarlos, por lo tanto, esta es una capacidad que va a tener Siri también a nivel de lo que es la creación de estos shortcuts, de estas automatizaciones, para interpretar cosas que nosotros le pidamos porque ahora su comprensión con respecto a lo que le a lo que le pidamos va a ser real a través de un modelo de lenguaje, ya no va a ser como hasta ahora donde Ziri no era una inteligencia artificial.
Señores, despertemos de una vez, Siri, Google Assistant o Alexa jamás han sido una inteligencia artificial. Lo único que tienen de inteligencia artificial son los modelos de texto speech, ¿vale? O los modelos de transcripción de voz a texto, ¿vale? Es decir, de un lado hacia uno y el uno hacia el otro. Pero poco más, algún tipo de interpretación del lenguaje natural para saber más o menos qué es lo que le estás pidiendo, pero muy poco de una manera muy sutil y, desde luego, y lo hemos comprobado de una manera absolutamente inútil, ¿vale?
Por lo que Siri, WelAssistant, Alexa, Bixby, etcétera, son asistentes de voz, son sistemas de control de voz, no son asistentes inteligentes. Los los asistentes inteligentes van a salir a partir de ahora, y Siri va a ser uno de los primeros que vamos a tener, curiosamente, porque Google Assistant, Alexa, etcétera, siguen exactamente igual, por lo que uno de los primeros que vamos a tener de los viejos conocidos sin contar ChatGPT en modo voz, pues va a ser Siri, esta capacidad de entender lo que le estamos pidiendo de una manera mucho más contextual y gramatical, y poder, por lo tanto, tomar decisiones en el sistema. Todo esto que se va a poder hacer, primero, va a aparecer todo con la palabra beta, porque todo va a ser algo que se va a ir construyendo sobre la experiencia de los usuarios tiempo a tiempo. No vamos a tener toda la funcionalidad aquí del rackaclax toma para ti, no. Esto va a ser beta, por lo que Apple tiene que ir mejorándolo punto a punto, porque nadie a día de hoy, salvo OpenAI en algunas cosas, o Midjourney en algunas otras, es capaz de dar unos resultados, entre comillas, un poco más fiables.
La IA generativa está en proceso, la IA generativa no es perfecta, los modelos de lenguaje se equivocan, te dan respuestas erróneas, se equivocan con el código que te dan, se equivocan con la información, se la inventan. Toda la guía generativa está ahora mismo en proceso de investigación, por lo que Apple le va a poner la etiqueta beta porque sabe que todo lo que supone todo esto tiene que ir evolucionando poco a poco. Eso es lo primero. Lo segundo, parte de las funciones que va a tener esta guía generativa van a poder ejecutarse en local en los dispositivos. Serán modelos de lenguaje, modelos generativos, modelos de interpretación o de transcripción, etcétera, que serán capaces de ejecutarse en nuestros dispositivos.
La gran pregunta aquí es, ¿en qué dispositivos? Pues bien, esa es la respuesta que a muchos no les ha gustado saber, porque parece ser que Apple ha determinado, palabras de Mark Gourman, que se van a requerir al menos ocho gigas de RAM para que se ejecute los modelos neuronales más complejos. No todos. Va a haber una parte de modelos neuronales, de modelos de degenerativa, que sí van a funcionar, pero otros no, otros no van a funcionar y, por favor, quiero matizar esto muy bien, en el dispositivo, es decir, que van a estar cargados en la memoria de mi iPhone y entonces van a ser ejecutados ahí sin tener que ir a Internet, ¿vale? Eso va a requerir ocho gigas de memoria RAM para la mayoría de los modelos más complejos.
¿Esto qué significa? Significa que solo los iPhone quince Pro en adelante van a ser capaces de ejecutar los modelos generativos en el dispositivo, en local, sin salir a Internet. ¿Y el resto? Lo tendrán que hacer en la nube, como venimos haciendo desde hace mucho tiempo. Nada más.
Si usted tiene un iPhone once, doce, diez r, etcétera, no hay ningún problema, va a poder ejecutar todas las funciones de guía generativa, solo que en vez de hacerse en su dispositivo porque no tiene capacidad, se hará en la nube. Y ya, nada más, no hay drama, ¿de acuerdo? Porque, a ver, es lógico. ¿Qué sucede con los Mac? Los Mac, todos los Mac, Apple Silicon a partir de M uno van a poder hacerlo, porque todos tienen como mínimo ocho gigas de RAM, por lo que van a poder ejecutar estos nuevos modelos.
Pero incluso ahí yo tengo la teoría de que incluso SCOAD puede ser que en modelos de Mac con ocho gigas ejecute su modelo neuronal de autocompletado de código en la nube, mientras que si tienes un equipo con dieciséis gigas o más, lo haga en local, ¿vale? Esa es la diferencia. Por eso, Apple ha creado o va a anunciar, ¿vale? Un nuevo término de privacidad llamado computación confidencial, confidencial computing, es decir, una forma de cifrar la información es ejecutada a través de modelos computacionales en la nube para que sea totalmente privado y se conserve nuestra, insisto, privacidad, que nuestros datos no se compartan, que no se comparta lo que estamos pidiendo, etcétera, y que nosotros podamos optar de manera voluntaria si queremos que nuestras conversaciones, peticiones, etcétera, se compartan de manera anónima con Apple para que mejore los entrenamientos de dichos modelos de manera progresiva. Igual que sucede ahora con ChatGPT, que podemos decidir si queremos compartir nuestras conversaciones para que se reentren el modelo o no, ¿vale?
Pues esto lo mismo, pero unido a una forma de cifrado y de unión a algoritmos de privacidad diferencial, como los que ya usa Apple, para garantizar nuestra privacidad en el uso de estos modelos en la nube. Si estos modelos tenemos un iPhone quince Pro o tenemos un iPad con chip M uno, M dos o M cuatro, que todos tienen al menos ocho gigas de RAM, pues entonces no habrá problema. De hecho, los nuevos iPad Pro M Cuatro no tienen ocho gigas de RAM, los modelos de doscientos cincuenta y seis y quinientos doce. Tienen doce, porque tienen dos chips de seis gigas cada uno, se ha demostrado en el en el lo que es en el descuartizamiento que hace IFixit. Ahí se ha visto que estos equipos tienen doce gigas de RAM.
¿Por qué? Pues porque Apple ha decidido poner esa zona de memoria fantasma de cuatro gigas más para que sirva de apoyo a la carga de estos nuevos modelos neuronales y, por lo tanto, que no consuman la memoria del dispositivo y que los iPad Pro con M cuatro funcionen aún mejor con todas estas nuevas funciones que están por llegar de inteligencia artificial. Así de sencillo y, de hecho, pasará algo parecido. Me juego lo que ustedes quieran en los próximos iPhones dieciséis, que también vendrán con doce gigas, de forma que ocho estarán para lo que sería el propio sistema y cuatro estarán reservados para la carga de estos modelos, para que así funcionen de una manera mucho más privada, mucho más eficiente, sin pausas de procesamiento en la nube, sin que, y esto puede que pase, y por eso también le han puesto la etiqueta de beta, sin que, por lo que sea, los servidores en ese momento estén caídos, como ya sucede con ChatGPT, que de vez en cuando los servidores están caídos incluso a nivel de pago y no funcionan. Pues esto puede pasar también en Apple, por eso le han puesto también la etiqueta de beta, porque puede ser que sus servidores se caigan o se saturen y no sean capaces de estar disponibles en momentos determinados, repito, como ya sucede con OpenAI, por lo que, y sucede prácticamente con todos los modelos, ¿vale?
Por lo que aquellos que dependan de la nube no podrán usarlo porque hasta que se levante el servicio, mientras que los que tienen los modelos en local podrán seguir usándolo sin depender de la disponibilidad de la nube. Es así de sencillo, esa es la ventaja. En los Mac, obviamente, van a los Mac van a ser los mejores los más beneficiados igual que los iPad. Todos los iPad Air con M uno, todos los iPad pros, etcétera, todos los iPad Air con M dos, todos esos iPad van a funcionar fenomenal con la inteligencia artificial y van a funcionar con la inteligencia artificial en local, ejecutada desde el dispositivo. Todos los demás tendrán que hacerlo en la nube, porque no hay suficiente memoria y estos modelos ocupan mucho espacio, y Apple sigue trabajando en reducir su espacio, en reducir las exigencias de RAM, pero, lógicamente, necesita mucho más tiempo para que esto suceda.
Es así. La última pata del banco, la última pata se llama OpenAI, puesto que Apple sí, señores, ha firmado un acuerdo con OpenAI. Quiere decir eso que toda la inteligencia artificial que Apple va a presentar nos va a depender de OpenAI, ni de coña. A ver, ¿qué es lo que pone ChatGPT cuando yo entro en la página? ¿Qué es lo que pone abajo del todo?
Lo han leído, ¿no? Espero que lo hayan leído. Pone, ChatGPT puede cometer errores. Georgia. ChatGPT se puede equivocar, y como ChatGPT se puede equivocar, esto lo que indica es que el modelo de chatbot no es perfecto, no funciona bien.
Es perfecto en un noventa por ciento, podremos decir, pero tiene una parte un diez por ciento que se equivoca, que se inventa cosas, que te da respuestas equivocadas. A mí, cuando le pido código, muchas veces me devuelve código que no existe, clases que no existe, que se las ha inventado o que las ha cogido de alguna librería de terceros, o que las ha confundido con clases o con struts o con componentes nativos, ¿vale? Cosas así, o te da un código que no es correcto, o se me se mete en un bucle y te empieza a dar todo el rato la misma respuesta. Oye, esto está mal, ah, sí, es verdad, perdona, pum, y te vuelvo a dar el mismo código que está mal, ¿vale? O sea, ese es el nivel.
Por lo tanto, el producto chatbot no es un producto final terminado, es un producto que está en una beta permanente. Así que Apple ha tomado la muy sabia decisión de no querer hacer un chatbot porque no están preparados, porque cualquier tipo de chatbot que Apple quisiera hacer está condenado al fracaso, porque nadie a día de hoy, salvo Anthropic con el modelo Cloud tres, ha sido capaz de hacer un modelo de lenguaje realmente competitivo y que pueda compararse con el de GPT Four O, que es el último modelo de OpenAI. Por lo que, ¿para qué se va a molestar en hacer un chatbot si puede llegar a un acuerdo con OpenAI para integrar los chatbots, para integrar ChatGPT dentro de los sistemas de Apple. ¿Quiere esto decir que todo va a depender? No, no va a depender.
Apple tiene sus propios modelos, pero la funcionalidad de chatbot sí va a pertenecer a OpenAI y vamos a usar esa funcionalidad. Funcionalidad que, de nuevo, también tenemos que estar preparados a que en determinados momentos no funcione, esté caído, etcétera. Yo entiendo que habrán llegado a algún acuerdo, pero hasta que no sepamos en la presentación qué es lo que supone, no sabremos, pues eso, qué es lo que supone. Así que esas serían las tres patas para el banco, ¿vale? La parte de la necesidad de las de los motores neurales, la necesidad de más memoria RAM, quiere eso decir que entonces los motores neurales, ¿para qué?
No, estamos hablando que hay ciertos procesos que sí se harán, como por ejemplo las transcripciones con un modelo tipo Whisper, como por ejemplo las generaciones de los emojis, habrá ciertos modelos más pequeñitos con menos exigencias de RAM que funcionarán directamente en local, pero los grandes modelos generativos necesitarán más memoria RAM, veremos a ver cuáles son, ¿de acuerdo? Nada más que eso. Y luego, el tema de la de la asociación con OpenAI, que me parece perfecto porque nadie está a día de hoy al nivel de OpenAI, ni Apple, solo Microsoft, pero porque OpenAI es suya al cuarenta y nueve por ciento, básicamente. O sea que, pero en ese sentido, incluso para que se hagan una idea, el propio Satya Nadella se reunió hace poco con San Altman, con el CEO de OpenAI, y uno de los puntos es de los que hablaron fue, oye, este acuerdo de Apple me tienes que contar qué es lo que has acordado con ellos, porque lo que no quiero es que el que le dé servicio a Apple suponga un de una un problema para mí y mis servicios, ¿vale? Que yo soy el que te está poniendo pela, chavalín, ¿de acuerdo?
Entonces, Assan Alman ha tenido que dar, y lo que es la parte de OpenAI, han tenido que contar cuál es el acuerdo que han llegado con Apple para que Satya Adela se quede tranquilo de que no va a haber un problema de disponibilidad de servidores, etcétera, dentro de la nube de Azure, que es donde corre todo lo que son los modelos generativos de OpenAI. Así que a mí me parece perfecto, la parte de la pata que Apple no es capaz de alcanzar, que es el del chatbot, la coge con los número uno del mercado, y el resto lo montan ellos para darnos las funcionalidades que permitan ir un paso más allá hacia el post PC, un paso más allá a no tener ni que preocuparnos de lo que queremos que haga el sistema, sino simplemente pedírselo. Y que poco a poco, porque esto es un primer paso, podamos ir automatizando cada vez más tareas, ser más productivos y consumir menos tiempo a la hora de hacer cualquier cosa. Ese es el kit. Así que poco más.
Y poco más, espero que les haya gustado el episodio, sobre todo espero que les haya aclarado y que ahora mismo tengan las ideas más, pues eso, más claras de lo que Apple va a presentar y de cuál es su estrategia. Esa estrategia en la que, bueno, pues, obviamente, los modelos van a requerir cada vez, pues, van a requerir, no, es que requieren mucha memoria RAM para que se puedan ejecutar, Para que se hagan una idea, un modelo Whisper completo de transcripción de voz a texto viene a ocupar unos cinco gigas de RAM en memoria. Un modelo Stable Diffusion, el básico, viene a ocupar igual cuatro, tres, cuatro gigas en memoria para poder generar imágenes. Un modelo LLM muy pequeñito con muy poquitos parámetros puede ocupar fácil dos o tres gigas. Podríamos llegar a tener alguno con un giga o así, pero cuanto menos ocupen, menos capacidad y menos garantía de funcionamiento correcto van a tener, porque, repito, los modelos generativos son un software que está en permanente beta, no podemos pensar ni ahora ni nunca que va a ser un software cien por cien terminado, por eso la etiqueta beta.
Así que lo dicho, poco más, si les ha gustado, por favor, no olviden suscribirse, seguirnos, darnos un like, compartir en redes sociales, etcétera, etcétera. Como siempre, les estaremos muy agradecidos porque nos ayudó muchísimo. Muchísimas gracias por el apoyo de todos los directos, que cada vez somos más también en los directos de los sábados, y derivados, y nos oímos pronto, si Jobs quiere. Hasta entonces, un saludo, e got, Apple COVID.
Puedes escuchar más episodios de Apple Coding en Wanda punto com, la comunidad de podcast independientes en español.