﻿WEBVTT
Kind: captions
Language: es

00:00:05.000 --> 00:00:08.000
Wanda, la comunidad de podcast independientes en español.

00:00:08.000 --> 00:00:14.000
Hola y bienvenidos a un nuevo episodio de Apple Coding Daily.

00:00:14.000 --> 00:00:15.000
Hemos vuelto.

00:00:17.000 --> 00:00:22.000
En los los pasados días ha habido una serie de noticias bastante

00:00:22.000 --> 00:00:27.000
interesantes con respecto a la próxima inteligencia artificial, los

00:00:27.000 --> 00:00:32.000
próximos algoritmos de inteligencia artificial generativa que Apple

00:00:32.000 --> 00:00:37.000
supuestamente lanzaría para la próxima WWDC, que debería de ser

00:00:37.000 --> 00:00:43.000
anunciada en breve y que, teóricamente, sería el primer lunes del mes de junio.

00:00:43.000 --> 00:00:48.000
En esta WWEWC, según lo que los, incluso, hasta el propio Tim Cook ha ido

00:00:48.000 --> 00:00:53.000
adelantando, habría un cambio bastante importante en la forma en la que

00:00:53.000 --> 00:00:58.000
se controlan, en la forma en la que usamos los dispositivos Apple, aparte

00:00:58.000 --> 00:01:03.000
de un rumoreado rediseño de el propio sistema tirando hacia un estilo

00:01:03.000 --> 00:01:08.000
más de lenguaje de diseño neomórfico, un lenguaje que es más

00:01:08.000 --> 00:01:18.000
aproximado al tipo de lenguaje de diseño que utiliza Apple Vision Pro.

00:01:18.000 --> 00:01:22.000
Por lo tanto, en esta, en una supuesta primera fase, tanto iOS como iPad,

00:01:22.000 --> 00:01:26.000
iPadOS tendrían un rediseño a nivel de imagen, pero no solo eso,

00:01:26.000 --> 00:01:30.000
también tendrían la incorporación de nuevos modelos de inteligencia

00:01:30.000 --> 00:01:34.000
artificial generativa que cambiarían de una manera bastante importante,

00:01:34.000 --> 00:01:38.000
según algunos algunas personas de Apple sería uno de los cambios más

00:01:38.000 --> 00:01:42.000
importantes en el uso del sistema operativo de los últimos años, pues,

00:01:42.000 --> 00:01:47.000
digamos que eso que cambiarían por completo.

00:01:48.000 --> 00:01:53.000
Todo esto se une a una noticia que ha habido, como digo, en las últimas

00:01:53.000 --> 00:01:58.000
semanas de el lanzamiento de un nuevo modelo LLM, un modelo multimodal, un

00:01:58.000 --> 00:02:03.000
MMLLM, que Apple ha lanzado llamado uno, que parece ser sería el modelo

00:02:03.000 --> 00:02:08.000
definitivo que vendría en estos dispositivos.

00:02:09.000 --> 00:02:14.000
Y además, también Mark Gourman ha sacado la noticia de que parece ser que

00:02:14.000 --> 00:02:19.000
Apple estaría en conversaciones con OpenAI y con la propia Google para

00:02:19.000 --> 00:02:24.000
ver la posibilidad de poder utilizar sus modelos, en el caso de OpenAI

00:02:24.000 --> 00:02:29.000
GPT, en el caso de que sería Google de Gemini, para poder complementar

00:02:29.000 --> 00:02:34.000
todo lo que quiere hacer en sus sistemas, insistimos, a partir de junio,

00:02:34.000 --> 00:02:40.000
tal vez para algo que pueda utilizarse posteriormente.

00:02:41.000 --> 00:02:50.000
En fin, para poner un poco de orden en todas estas noticias y realidad, vamos a analizarlo y vamos a ver este tema.

00:03:02.000 --> 00:03:06.000
Pero antes vamos a hablar de nuestro patrocinador, que no es otro que Apple

00:03:06.000 --> 00:03:10.000
Coding Academy, y la nueva formación que comenzará el próximo uno de

00:03:10.000 --> 00:03:14.000
abril, SWIFT Developer Program dos mil veinticuatro.

00:03:14.000 --> 00:03:18.000
Si quieres aprender a programar en entornos Apple, aunque no sepas nada,

00:03:18.000 --> 00:03:22.000
aunque partas desde cero, tienes un lugar donde encontrar todo lo que

00:03:22.000 --> 00:03:26.000
necesitas para formarte como desarrollador.

00:03:27.000 --> 00:03:35.000
Ojo, para formarte en el sentido de conseguir las bases para que a partir de ahí puedas empezar a avanzar en tu carrera.

00:03:35.000 --> 00:03:40.000
Porque, obviamente, nadie puede prometerte, porque te estaría engañando,

00:03:40.000 --> 00:03:45.000
que en dos meses de formación vas a ser un programador top, porque es mentira.

00:03:45.000 --> 00:03:50.000
Para ser un programador primero necesitas muchos no meses, años de

00:03:50.000 --> 00:03:55.000
trabajo, pero sobre todo lo que necesitas es una buena base, saber de

00:03:55.000 --> 00:04:00.000
dónde partir, y eso es lo que el Swift Developer Program te va a proporcionar.

00:04:00.000 --> 00:04:04.000
Con el Swift Developer Program lo que vas a tener es todo lo que necesitas

00:04:04.000 --> 00:04:08.000
de conocimiento en el lenguaje Swift, en la librería Swift UI, en

00:04:08.000 --> 00:04:12.000
concurrencia, sincronía, uso de red, incluso una master class sobre cómo

00:04:12.000 --> 00:04:16.000
se desarrolla para Apple Vision Pro, y todo esto será la base, más un

00:04:16.000 --> 00:04:20.000
proyecto de otros dos meses, que podrás utilizar para empezar tu carrera

00:04:20.000 --> 00:04:24.000
como programador.

00:04:25.000 --> 00:04:29.000
Esta formación no solo está pensada para gente que empieza desde cero,

00:04:29.000 --> 00:04:33.000
también para gente que ya es desarrolladora en entornos Apple y lo que

00:04:33.000 --> 00:04:37.000
quiere es ponerse al día, conocer las últimas novedades en Swift, en

00:04:37.000 --> 00:04:41.000
Swift UI, la nueva versión cinco punto diez de Swift o las nuevas

00:04:41.000 --> 00:04:45.000
tendencias, la nueva arquitectura observable de Swift UI, y también para

00:04:45.000 --> 00:04:49.000
desarrolladores que, bueno, pues trabajen con otros entornos, ya sean

00:04:49.000 --> 00:04:53.000
móviles como Android, ya sean desarrollo web, y que quieran actualizarse

00:04:53.000 --> 00:04:57.000
a entornos Apple, es decir, que quieran aprender o quieran poner dentro de

00:04:57.000 --> 00:05:01.000
su currículum una base para empezar a trabajar con lo que sería el

00:05:01.000 --> 00:05:06.000
desarrollo en entornos Apple.

00:05:06.000 --> 00:05:16.000
Todos ellos tienen un lugar en esta nueva formación del Swift Developer Program dos mil veinticuatro, que comienza el próximo uno de abril.

00:05:16.000 --> 00:05:22.000
Solo tenéis que entrar en acoding punto academy y ahí podéis encontrar

00:05:22.000 --> 00:05:28.000
toda la información al respecto y pedirnos una entrevista con nosotros

00:05:28.000 --> 00:05:34.000
para que podamos analizar vuestro caso y daros vuestra mejor solución.

00:05:34.000 --> 00:05:39.000
Así que ya sabéis, ahí lo tenéis todo en Apple Coding Academy.

00:05:40.000 --> 00:05:43.000
Dicho esto, comenzamos con lo que sería el programa.

00:05:43.000 --> 00:05:50.000
Entonces, no podemos olvidar una cosa muy importante que vamos a repasar a nivel conceptual.

00:05:51.000 --> 00:05:56.000
Estamos hablando de la de los modelos de inteligencia artificial

00:05:56.000 --> 00:06:01.000
generativa, y estamos hablando de que, de nuevo, vuelven a aparecer voces

00:06:01.000 --> 00:06:06.000
diciendo que Apple ha perdido el tren, que Apple no está en este momento

00:06:06.000 --> 00:06:11.000
ni que está pensando en otras cosas, etcétera.

00:06:11.000 --> 00:06:16.000
Pero esto no es así y no es una opinión mía, no es que yo sea un fanboy,

00:06:16.000 --> 00:06:21.000
que lo soy, pero aparte de eso, esto ya no es una opinión de me gusta

00:06:21.000 --> 00:06:26.000
Apple, porque estos son hechos, hechos que pueden ustedes mismos constatar

00:06:26.000 --> 00:06:31.000
entrando en machine learning punto Apple punto com, donde verán que

00:06:31.000 --> 00:06:36.000
prácticamente cada semana se están exponiendo nuevos modelos, algunos de

00:06:36.000 --> 00:06:41.000
ellos muy importantes, que ya nos están adelantando cómo será este

00:06:41.000 --> 00:06:46.000
futuro de la inteligencia artificial generativa dentro de los entornos Apple.

00:06:46.000 --> 00:06:49.000
No podemos olvidar que Apple cuenta con algunos de los mayores expertos en

00:06:49.000 --> 00:06:52.000
inteligencia artificial, machine learning y todas estas novedades que

00:06:52.000 --> 00:06:57.000
estamos viendo en los últimos años.

00:06:57.000 --> 00:07:04.000
Pero para entender todo esto, lo primero que vamos a hacer es repasar de una manera muy rápida los conceptos más importantes.

00:07:04.000 --> 00:07:10.000
El primero es lo que es un LLM, un modelo grande de lenguaje, un large language model.

00:07:11.000 --> 00:07:14.000
Básicamente, un LLM es lo que ya conocemos como, por ejemplo, GPT.

00:07:15.000 --> 00:07:18.000
Es un modelo que tiene un propósito muy concreto, que es completar texto,

00:07:18.000 --> 00:07:21.000
no es tener una conversación con nosotros, no, no, no, no, eso es una

00:07:21.000 --> 00:07:26.000
funcionalidad derivada de.

00:07:26.000 --> 00:07:31.000
Un LLM es aquel que es capaz de completar un texto.

00:07:31.000 --> 00:07:36.000
Claro, si yo le doy para completar un texto, que es el principio de una

00:07:36.000 --> 00:07:41.000
conversación, él me lo va a rellenar como si siguiera la conversación,

00:07:41.000 --> 00:07:46.000
pero, en realidad, no está conversando conmigo, está completando texto

00:07:46.000 --> 00:07:51.000
intentando conservar la coherencia de lo que yo le he dado como input para

00:07:51.000 --> 00:07:56.000
que ese output, esa salida, tenga coherencia con lo que se espera a nivel

00:07:56.000 --> 00:08:01.000
de expresión, tema, construcción gramatical, etcétera.

00:08:01.000 --> 00:08:03.000
Eso es un LLM.

00:08:04.000 --> 00:08:07.000
Este LLM luego puede ampliarse, ¿vale?

00:08:07.000 --> 00:08:12.000
Esto sería, digamos que estaría más unido a lo que sería GPT tres punto cinco, ¿vale?

00:08:12.000 --> 00:08:16.000
Para que lo veamos de una manera más clara a la hora de entenderlo.

00:08:17.000 --> 00:08:24.000
Luego estos LLM han evolucionado, han evolucionado incorporando la multimodalidad.

00:08:24.000 --> 00:08:32.000
Un l l m solo puede tener un tipo de input, que es texto, y solo puede tener un tipo de output, un tipo de salida, que también es texto.

00:08:33.000 --> 00:08:44.000
Sin embargo, un LLM multimodal, un MMLLM, es capaz de tener varios tipos de entrada e incluso varios tipos de salida.

00:08:44.000 --> 00:08:49.000
Yo podría, y de hecho esto es algo que puedo hacer con con GPT cuatro, por

00:08:49.000 --> 00:08:54.000
ejemplo, si utilizo dentro de GPT cuatro chat GPT cuatro, con chat GPT

00:08:54.000 --> 00:08:59.000
cuatro lo que tenemos es un chatbot que está conectado a un multimodal

00:08:59.000 --> 00:09:04.000
large lenguage model, un modelo grande de lenguaje de tipo multimodal.

00:09:04.000 --> 00:09:05.000
¿Por qué?

00:09:05.000 --> 00:09:14.000
Porque yo puedo darle a ese modelo no solo texto, también le puedo dar una imagen, también le puedo dar incluso un vídeo, ¿vale?

00:09:14.000 --> 00:09:20.000
Es cierto que ahora mismo no se le puede dar, pero hay modelos de este tipo que sí lo harían, ¿vale?

00:09:20.000 --> 00:09:24.000
Y esto podría dar lugar a que estos modelos multimodales no solo puedan

00:09:24.000 --> 00:09:28.000
contestarme por texto, también puedan contestarme a través de imagen o a

00:09:28.000 --> 00:09:32.000
través de vídeo.

00:09:32.000 --> 00:09:37.000
Lo podemos ver, o sea, podemos ver, por ejemplo, lo que se presentó hace

00:09:37.000 --> 00:09:42.000
unas semanas, el modelo Sora de OpenAI, que es un modelo capaz de generar vídeo.

00:09:42.000 --> 00:09:45.000
Esos vídeos se generarían cuando esto saliera, ¿vale?

00:09:46.000 --> 00:09:49.000
A través del propio chat GPT, igual que ahora yo le puedo pedir una imagen

00:09:49.000 --> 00:09:52.000
y esa imagen me la devuelve, es decir, créame una imagen que sea de tal

00:09:52.000 --> 00:09:55.000
manera tal, y él me devuelve una imagen hecha, pues también podría

00:09:55.000 --> 00:09:58.000
devolverme un vídeo o incluso hay otros modelos capaces de generar

00:09:58.000 --> 00:10:04.000
sonidos, ¿vale?

00:10:04.000 --> 00:10:13.000
Por lo tanto, tenemos que tener en cuenta esa multimodalidad, es decir, distintos tipos de entradas y distintos tipos de salidas, ¿vale?

00:10:13.000 --> 00:10:16.000
Entonces, ya vamos evolucionando el sistema.

00:10:16.000 --> 00:10:17.000
¿Qué es lo que sucede?

00:10:17.000 --> 00:10:27.000
Ya comentamos en un programa anterior que tenemos una limitación en cuanto a los parámetros de entrenamiento de uno de uno de estos modelos.

00:10:27.000 --> 00:10:32.000
Yo, si tomo como referencia GPT tres punto cinco, GPT tres punto cinco

00:10:32.000 --> 00:10:37.000
tiene ciento setenta y cinco mil millones de parámetros, lo que viene

00:10:37.000 --> 00:10:43.000
siendo a nivel técnico la definición de ciento setenta y cinco b mayúscula.

00:10:43.000 --> 00:10:50.000
B mayúscula son los billions, porque ya sabemos que en Estados Unidos un billion son mil millones, ¿vale?

00:10:50.000 --> 00:10:53.000
Serían lo que en en Europa llamaríamos un millardo.

00:10:54.000 --> 00:11:01.000
Por lo tanto, el esos ciento setenta y cinco b mayúscula sería la definición de este modelo.

00:11:01.000 --> 00:11:05.000
Pues bien, si yo me voy más allá de los doscientos mil millones de

00:11:05.000 --> 00:11:09.000
parámetros, empiezo a tener problemas de peso en el modelo, empiezo a

00:11:09.000 --> 00:11:13.000
tener problemas de lentitud en el propio modelo y empieza a ser bastante

00:11:13.000 --> 00:11:17.000
inmanejable, están aproximadamente los doscientos veinticinco mil

00:11:17.000 --> 00:11:21.000
millones, más o menos, lo que se estima que ya es un modelo demasiado complejo.

00:11:22.000 --> 00:11:26.000
Por lo que, para solucionar este problema, se incorporó otro concepto que

00:11:26.000 --> 00:11:30.000
es el de M O E, siendo la o en minúscula, m mayúscula o minúscula e

00:11:30.000 --> 00:11:34.000
mayúscula, que es lo que en inglés se llama un mixture of experts, que

00:11:34.000 --> 00:11:40.000
sería una mezcla de expertos.

00:11:40.000 --> 00:11:42.000
¿Esta mezcla de expertos qué es?

00:11:42.000 --> 00:11:53.000
Pues imagínense un montón de pequeños modelos LLM que están entrenados para distintas para distintos propósitos muy concretos, ¿de acuerdo?

00:11:54.000 --> 00:11:58.000
Uno que está muy especializado, por ejemplo, en contestar preguntas de

00:11:58.000 --> 00:12:02.000
programación, otro muy especializado en contestar preguntas de

00:12:02.000 --> 00:12:06.000
matemáticas, otro muy especializado en dar una respuesta gramatical mucho

00:12:06.000 --> 00:12:10.000
más correcta, otro que está especializado, por ejemplo, en leer textos

00:12:10.000 --> 00:12:14.000
técnicos a partir de URLs, en fin, tenemos un montón de posibles

00:12:14.000 --> 00:12:18.000
expertos en distintos temas lo que pueden hacer es especializar aún más

00:12:18.000 --> 00:12:22.000
el funcionamiento, dividir la forma en cómo funciona y, además, hacer

00:12:22.000 --> 00:12:30.000
que el propio modelo sea más eficiente.

00:12:31.000 --> 00:12:35.000
Pues bien, esta unión de los LLM multimodales más la mezcla de expertos

00:12:35.000 --> 00:12:39.000
es lo que nos está proporcionando los modelos actuales más grandes que

00:12:39.000 --> 00:12:43.000
conocemos como GPT cuatro, como Gemini Pro o el próximo Gemini Ultra,

00:12:43.000 --> 00:12:47.000
etcétera, o por ejemplo, uno de los últimos que tenemos, que es el de

00:12:47.000 --> 00:12:51.000
Cloud versión tres, que también es otro que está dando bastantes buenos

00:12:51.000 --> 00:12:58.000
resultados en los últimos meses.

00:12:59.000 --> 00:13:03.000
Entre estos modelos hay otros cuantos que son open source, como por ejemplo

00:13:03.000 --> 00:13:07.000
Mistral, como por ejemplo Mixtral, que la diferencia entre Mistral y

00:13:07.000 --> 00:13:11.000
mixtral es que mistral es un modelo LLM, pero mixtral es un modelo LLM

00:13:11.000 --> 00:13:17.000
basado en una mezcla de expertos, ¿vale?

00:13:17.000 --> 00:13:21.000
Por eso lo de la x, que también tienen varias configuraciones, y aquí

00:13:21.000 --> 00:13:25.000
tenemos que ver una parte esencial que son los distintos modelos o por

00:13:25.000 --> 00:13:29.000
configuración basados en los distintos parámetros de entrenamiento,

00:13:29.000 --> 00:13:33.000
porque, por ejemplo, tenemos modelos mixtral que tienen siete b, en

00:13:33.000 --> 00:13:39.000
mayúscula de parámetros, ¿vale?

00:13:39.000 --> 00:13:41.000
De que serían siete mil millones de parámetros.

00:13:41.000 --> 00:13:44.000
Y claro, muchos dirán, bueno, si GPT tenía ciento setenta y cinco mil

00:13:44.000 --> 00:13:47.000
millones de parámetros, pues hombre, un modelo de siete mil millones,

00:13:47.000 --> 00:13:51.000
pues muy bueno, muy bueno no debe ser.

00:13:51.000 --> 00:13:55.000
Claro, aquí depende mucho de que GPT, cuando fue entrenado, la

00:13:55.000 --> 00:13:59.000
optimización de los datos con los que fue entrenado no era muy allá,

00:13:59.000 --> 00:14:03.000
podría tener, de hecho, tenía muchísimos datos redundantes,

00:14:03.000 --> 00:14:07.000
repetitivos, datos que realmente no aportan nada o tienen salidas

00:14:07.000 --> 00:14:11.000
demasiado demasiado extrañas, por llamarlo de alguna forma, a cualquier

00:14:11.000 --> 00:14:15.000
tipo de petición, por lo que realmente el modelo rara vez va a entrar por

00:14:15.000 --> 00:14:19.000
esos derroteros dentro de lo que es su parametría, y lo que se ha visto,

00:14:19.000 --> 00:14:23.000
y es una de las cosas en las que Apple ha trabajado mucho en los últimos

00:14:23.000 --> 00:14:27.000
meses, es que, en muchas ocasiones, es más eficiente tener menos

00:14:27.000 --> 00:14:31.000
parámetros, pero que esos parámetros estén mucho más pulidos a nivel

00:14:31.000 --> 00:14:35.000
de calidad del dato, que darle mogollón de datos y que el propio sistema

00:14:35.000 --> 00:14:39.000
en su entrenamiento se encargue de clasificar la validez o no, o lo bueno

00:14:39.000 --> 00:14:54.000
o no, digamos, la calidad del dato, ¿de acuerdo?

00:14:54.000 --> 00:14:58.000
Es decir, un modelo de siete mil millones de parámetros con un

00:14:58.000 --> 00:15:02.000
entrenamiento donde esos siete mil millones de parámetros, o la mayoría

00:15:02.000 --> 00:15:06.000
de los que sea posible, estén muy muy bien enfocados en una en un destino

00:15:06.000 --> 00:15:10.000
concreto, ¿vale?

00:15:10.000 --> 00:15:14.000
Es decir, si yo soy mucho más selectivo a la hora de darle la

00:15:14.000 --> 00:15:18.000
información, de pulirla, de darla con mucha más calidad, puedo conseguir

00:15:18.000 --> 00:15:22.000
un modelo con muchos menos parámetros y que tenga unos resultados que

00:15:22.000 --> 00:15:27.000
sean iguales o mejores que los que ya se tienen.

00:15:27.000 --> 00:15:30.000
Por lo tanto, podríamos conseguir modelos que ocupen mucho menos y que den

00:15:30.000 --> 00:15:33.000
unos resultados equiparables a otros modelos con muchísimos más millones

00:15:33.000 --> 00:15:36.000
de parámetros.

00:15:37.000 --> 00:15:42.000
Es lo que le sucede, por ejemplo, a Mixtral, que Mixtral con un modelo de

00:15:42.000 --> 00:15:47.000
siete b está dando unos resultados bastante impresionantes en los que, en

00:15:47.000 --> 00:15:52.000
cierta forma, en ciertos benchmark que se lanzan para medir cómo

00:15:52.000 --> 00:15:57.000
funcionan estos LLMs, está comparándose al propio GPT tres punto cinco

00:15:57.000 --> 00:16:02.000
que, insistimos, fue entrenado con ciento setenta y cinco b, y este es solo siete.

00:16:02.000 --> 00:16:06.000
En esta forma de construcción es en la que está trabajando Apple.

00:16:07.000 --> 00:16:11.000
Apple acaba de lanzar un modelo llamado uno, que supuestamente, a falta de

00:16:11.000 --> 00:16:15.000
confirmación cuando Apple esto lo lance, sería la base del modelo

00:16:15.000 --> 00:16:19.000
multimodal que tendría, no solo distintas posibles entradas de

00:16:19.000 --> 00:16:23.000
información, de vídeo, de audio, de imágenes, etcétera, aunque parece

00:16:23.000 --> 00:16:27.000
ser que estaría más especializado en la parte de visión, es decir, en

00:16:27.000 --> 00:16:31.000
la parte de imágenes aparte de los textos, y que, por otro lado, también

00:16:31.000 --> 00:16:35.000
nos devuelva la generación de imágenes, por ejemplo, a través de la

00:16:35.000 --> 00:16:39.000
conexión con el modelo generativo Matrioshka, del que ya hemos hablado y

00:16:39.000 --> 00:16:48.000
que dejaré por aquí en algún lugar si quieren ver ese programa.

00:16:49.000 --> 00:16:54.000
Un lugar un un modelo Matryoshka capaz de generar imágenes a partir de

00:16:54.000 --> 00:16:59.000
peticiones y que, conectado al modelo uno, le daría esa multimodalidad,

00:16:59.000 --> 00:17:04.000
esa capacidad de dar una salida distinta, que es lo que hace GPT con Dalí.

00:17:05.000 --> 00:17:09.000
Pues bien, todo esto lo que llevaría es que los modelos uno de Apple, el

00:17:09.000 --> 00:17:13.000
modelo más grande es un modelo treinta B, y es un modelo que parece ser

00:17:13.000 --> 00:17:17.000
que en las pruebas que se han hecho de forma preliminar, parece ser que

00:17:17.000 --> 00:17:21.000
podría estar a la altura del propio GPT cuatro, esto es algo que

00:17:21.000 --> 00:17:25.000
obviamente viene en el paper de Apple y que habría que comprobar de una

00:17:25.000 --> 00:17:29.000
manera más empírica, pero bueno, en lo que pone el paper de Apple es que

00:17:29.000 --> 00:17:33.000
sería comparable al propio GPT cuatro, estaríamos hablando de un modelo,

00:17:33.000 --> 00:17:37.000
insisto, treinta b capaz de equipararse.

00:17:38.000 --> 00:17:45.000
Este tipo de modelos de treinta b, lo que ocuparían en memoria es demasiado para poder ser ejecutados en local.

00:17:46.000 --> 00:17:50.000
Por eso, Apple ha sacado un modelo siete b y un modelo tres b, al igual que

00:17:50.000 --> 00:17:54.000
Google cuando lanzó Gemini, habló de Gemini Ultra, que es el gran

00:17:54.000 --> 00:17:58.000
modelo, de Gemini Pro, que es el modelo intermedio, y de Gemini Nano, que

00:17:58.000 --> 00:18:02.000
sería un modelo pequeño, que estaría pensado para estar cargado de

00:18:02.000 --> 00:18:10.000
manera local en dispositivos móviles con sistema operativo Android?

00:18:10.000 --> 00:18:13.000
Pues, en este caso, estaríamos hablando de un modelo de uno, de tres

00:18:13.000 --> 00:18:16.000
modelos de uno, el treinta B, que teóricamente debería estar en la nube

00:18:16.000 --> 00:18:19.000
de Apple porque no puede cargarse en ningún dispositivo, ya que ninguno

00:18:19.000 --> 00:18:22.000
tiene actualmente una capacidad de memoria RAM que le permita cargar este

00:18:22.000 --> 00:18:25.000
modelo, pero, por ejemplo, los modelos siete b podrían servir para

00:18:25.000 --> 00:18:28.000
ordenadores profesionales con mucha más capacidad, y el modelo tres b,

00:18:28.000 --> 00:18:31.000
según los cálculos que yo he realizado, necesitaría solo de dos gigas

00:18:31.000 --> 00:18:41.000
de RAM para poder funcionar.

00:18:42.000 --> 00:18:45.000
Si a todo esto le unimos algoritmos como los que hablamos en su momento,

00:18:45.000 --> 00:18:48.000
que también les dejaré por aquí el programa, que son capaces de hacer

00:18:48.000 --> 00:18:51.000
que un modelo de lenguaje o un modelo cualquiera de inteligencia

00:18:51.000 --> 00:18:54.000
artificial no necesite estar cargado al cien por cien en memoria, sino que

00:18:54.000 --> 00:18:57.000
pueda ejecutar solo una pequeña parte y, a través de un uso de una

00:18:57.000 --> 00:19:00.000
especie de caché, pueda ir poniendo parte de ese modelo en disco,

00:19:00.000 --> 00:19:03.000
aprovechando la velocidad de los SSDs, podríamos llegar a tener, en una

00:19:03.000 --> 00:19:06.000
mezcla de todas estas tecnologías, un modelo que tan solo necesitará

00:19:06.000 --> 00:19:09.000
apenas un giga o giga y pico de RAM, aparte de lo que ya ocuparía el

00:19:09.000 --> 00:19:20.000
sistema de por sí, para poder ser utilizado.

00:19:22.000 --> 00:19:33.000
En mi opinión, según mi experiencia, basado en lo que yo creo, no tiene ninguna base de nada, simplemente la base es mi conocimiento, ¿vale?

00:19:34.000 --> 00:19:38.000
Creo que Apple no va a proporcionar un modelo LLM en modo chatbot a los

00:19:38.000 --> 00:19:42.000
usuarios, es decir, tú no vas a poder preguntarle cosas a el futuro Siri

00:19:42.000 --> 00:19:46.000
de una manera igual que lo haces con GPT cuatro, porque, ¿qué es lo que

00:19:46.000 --> 00:19:50.000
sucede cuando GPT cuatro yo voy a usarlo, cuando voy a usar chat GPT en la

00:19:50.000 --> 00:19:57.000
versión cuatro?

00:19:57.000 --> 00:20:00.000
Pues lo que sucede es que abajo me pone, por si no lo han leído, pero

00:20:00.000 --> 00:20:03.000
vamos, que se pone abajo muy claramente, que el modelo puede equivocarse,

00:20:03.000 --> 00:20:06.000
que no es preciso, que puede tener lo que se llaman alucinaciones e

00:20:06.000 --> 00:20:12.000
inventarse cosas que no son reales, etcétera.

00:20:13.000 --> 00:20:18.000
Por lo tanto, créanme, yo tengo la teoría de que Apple no va a

00:20:18.000 --> 00:20:23.000
proporcionar un modelo de lenguaje porque Apple no te va a dar un modelo

00:20:23.000 --> 00:20:28.000
que resida al cien por cien en la información que te va a dar, en un

00:20:28.000 --> 00:20:33.000
modelo que se inventa las cosas, porque hoy día cualquier modelo LLM, en

00:20:33.000 --> 00:20:38.000
una gran parte se inventa las cosas, porque está basado en una aleatoriedad.

00:20:38.000 --> 00:20:39.000
Por lo tanto, ¿esto qué significa?

00:20:40.000 --> 00:20:44.000
Pues que yo, mi teoría, es que Apple va a poner el LLM para ser capaz de

00:20:44.000 --> 00:20:48.000
entender lo que le estás pidiendo, y luego lo va a limitar a dar

00:20:48.000 --> 00:20:52.000
respuestas a partir del sistema operativo.

00:20:53.000 --> 00:21:01.000
Si yo, a día de hoy, le pido algo a GPT que requiera la creación de un script en Python, lo va a hacer.

00:21:01.000 --> 00:21:06.000
Yo he utilizado en muchas ocasiones, incluso para ficheros de gran tamaño,

00:21:06.000 --> 00:21:11.000
ficheros con noventa mil registros o más, le he subido un archivo CSV y

00:21:11.000 --> 00:21:16.000
le he ido guiando para que me lo convierta un JSON, y lo ha hecho gracias

00:21:16.000 --> 00:21:23.000
a el uso de Python, incluso la instalación de ciertas librerías, etcétera.

00:21:23.000 --> 00:21:38.000
Pues porque Python, al ser interpretado, simplemente poniendo el intérprete y las este caso, y el propio chat GPT es capaz de crearlas.

00:21:38.000 --> 00:21:42.000
Pues bien, imaginen eso en el ecosistema de los shortcuts.

00:21:43.000 --> 00:21:47.000
Imaginen que los atajos que hay en el sistema, que ya de por sí llegan a

00:21:47.000 --> 00:21:51.000
casi cualquier funcionalidad del mismo, es ampliado a una nueva forma de

00:21:51.000 --> 00:21:55.000
atajos donde puede llegar a cualquier tipo de funcionalidad del sistema

00:21:55.000 --> 00:22:01.000
operativo, ya sea iOS, iPad, Mac, Apple Vision, lo que sea.

00:22:02.000 --> 00:22:05.000
¿Se imaginan ustedes un city capaz de generar shortcuts en tiempo real,

00:22:05.000 --> 00:22:08.000
interpretando lo que tú le estás pidiendo para hacer aquello que tú le

00:22:08.000 --> 00:22:12.000
has pedido dentro del sistema?

00:22:13.000 --> 00:22:18.000
Pues esto no es ninguna tontería, esto es algo bastante plausible y creo

00:22:18.000 --> 00:22:23.000
que es la aproximación que Apple va a realizar, no va a proporcionar un

00:22:23.000 --> 00:22:28.000
chatbot que te hable libremente, si te contestará preguntas, si le

00:22:28.000 --> 00:22:34.000
ayudará a ser más verborreico, a ser más directo a la hora de hablar, ¿vale?

00:22:34.000 --> 00:22:40.000
Porque consultará la Wikipedia, que bueno, tampoco es que sea una fuente de información cien por cien fiable, pero bueno, en fin.

00:22:40.000 --> 00:22:44.000
Pero consultará otras fuentes de información para darte más peso en la respuesta.

00:22:44.000 --> 00:22:48.000
Entonces, ese chat siempre estará supervisado por fuentes externas para

00:22:48.000 --> 00:22:52.000
intentar minimizar lo máximo posible estas alucinaciones que de por sí

00:22:52.000 --> 00:22:56.000
tienen los LLMs.

00:22:57.000 --> 00:23:01.000
Y sobre todo, donde más se va a centrar Apple es, uno, en la parte de,

00:23:01.000 --> 00:23:05.000
como digo, de los shortcuts y cómo van a integrarse dentro del sistema

00:23:05.000 --> 00:23:09.000
para hacer cualquier cosa y poder controlar todo el sistema por la voz,

00:23:09.000 --> 00:23:13.000
unido a las funcionalidades de el resumen de los correos, el que te genere

00:23:13.000 --> 00:23:17.000
una contestación que tú supervises de manera automática, el que te haga

00:23:17.000 --> 00:23:21.000
un completado de los mensajes o te conteste por ti incluso, y que pondría

00:23:21.000 --> 00:23:29.000
debajo enviado por Siri, ¿vale?

00:23:29.000 --> 00:23:35.000
Para que sepas que no lo has dicho tú directamente, sino que está, pues, como pasa ahora cuando es por dictado, ¿vale?

00:23:35.000 --> 00:23:39.000
O que podamos generar key notes, pages, etcétera, a partir de resúmenes

00:23:39.000 --> 00:23:43.000
de otros documentos que tengamos o que pueda ser capaz de leer cualquier

00:23:43.000 --> 00:23:47.000
tipo de documento leíble dentro de nuestro ordenador, todo de una manera,

00:23:47.000 --> 00:23:51.000
ordenador o dispositivo, todo de una manera cien por cien local sin tener

00:23:51.000 --> 00:23:55.000
que salir a la nube, aunque sí habrá cosas para las que tendrá que

00:23:55.000 --> 00:23:59.000
salir a la nube, porque no todos los modelos van a poder caber por ahora

00:23:59.000 --> 00:24:03.000
dentro de el dispositivo, pero va a crear una mezcla entre cifrado punto a

00:24:03.000 --> 00:24:07.000
punto entre el servidor y el dispositivo para tirar lo menos posible de la

00:24:07.000 --> 00:24:11.000
nube, más ciertos modelos cargados en local para maximizar el tema de la

00:24:11.000 --> 00:24:18.000
privacidad, ¿de acuerdo?

00:24:18.000 --> 00:24:22.000
Esa es, insisto, es mi opinión basada en mi experiencia y en llevar casi

00:24:22.000 --> 00:24:26.000
siete años trabajando con Apple a nivel de machine learning, realidad

00:24:26.000 --> 00:24:32.000
aumentada, desarrollo, etcétera.

00:24:32.000 --> 00:24:33.000
En cuanto a lo que es esto, ¿vale?

00:24:33.000 --> 00:24:38.000
Pero yo llevo ya más de diez años como formador y más de quince como desarrollador en entornos a Apple.

00:24:38.000 --> 00:24:49.000
Por lo tanto, mi experiencia me hace ver, de alguna manera, por dónde podría tirar Apple por lo que es las posibilidades a nivel técnico, ¿vale?

00:24:49.000 --> 00:24:53.000
Entonces, bueno, pues ahí está mi apuesta personal al respecto, y lo que

00:24:53.000 --> 00:24:57.000
supondrán estos modelos nuevos que estamos viendo, como este último,

00:24:57.000 --> 00:25:01.000
uno, que la verdad, están dando un rendimiento muy muy bueno y que tiene

00:25:01.000 --> 00:25:05.000
unas veces de ser algo realmente espectacular a falta de, insisto, poder

00:25:05.000 --> 00:25:09.000
probarlo, ¿vale?

00:25:09.000 --> 00:25:11.000
So, el papel lo aguanta todo.

00:25:11.000 --> 00:25:16.000
Ahora ya ponlo a funcionar y veremos a ver si cumple o no las expectativas.

00:25:16.000 --> 00:25:21.000
Así que ese sería un poco el tema, y poco más.

00:25:33.000 --> 00:25:42.000
Y poco más, no sé qué les ha parecido esto, la verdad que entiendo que todas estas cosas son un poco complejas, ¿vale?

00:25:42.000 --> 00:25:45.000
O sea, llegamos a un nivel de explicaciones técnicas que son bastante

00:25:45.000 --> 00:25:48.000
complejas de entender de una manera, digamos, fácil, no es como intentar

00:25:48.000 --> 00:25:51.000
explicarle a alguien qué es un bitcoin, qué es un Blockchain o todo ese

00:25:51.000 --> 00:25:57.000
tipo de cosas, ¿vale?

00:25:57.000 --> 00:26:02.000
Es decir, estamos entrando en ciertos conceptos técnicos que requieren

00:26:02.000 --> 00:26:07.000
necesitas una parte uno para entender la dos, luego la tres, luego la

00:26:07.000 --> 00:26:12.000
cuatro, luego la cinco, pues hombre, al final llega un momento en el que

00:26:12.000 --> 00:26:17.000
la cosa se complica, ¿vale?

00:26:17.000 --> 00:26:23.000
No es algo que sea tan simple como el mecanismo de un chupete o la forma en la que funciona un botijo.

00:26:23.000 --> 00:26:26.000
Entonces, bueno, pues son distintas formas de entender, ¿ok?

00:26:26.000 --> 00:26:31.000
Así que, bueno, espero haber explicado esto de una manera se haya podido

00:26:31.000 --> 00:26:36.000
entender bien, espero que hayan entendido lo que es mi apuesta personal

00:26:36.000 --> 00:26:41.000
como analista de lo que creo que Apple va a hacer, y todas estas dudas las

00:26:41.000 --> 00:26:46.000
resolveremos, pues, obviamente, en apenas tres meses, porque sí,

00:26:46.000 --> 00:26:51.000
señores, faltan menos de tres meses, para que suceda la w w DC, así que veremos a ver.

00:26:52.000 --> 00:26:56.000
Y poco más, si les ha gustado, por favor, suscríbanse, dennos like,

00:26:56.000 --> 00:27:00.000
compartan, etcétera, etcétera, como siempre, y nos oímos pronto, si dios quiere.

00:27:01.000 --> 00:27:05.000
Hasta entonces, un saludo, e gov, Apple COVID.

00:27:39.000 --> 00:27:46.000
Puedes escuchar más episodios de Apple Coding en Wanda punto com, la comunidad de podcast independientes en español.