11.174 oyentes
Inteligencia artificial, ¿cómo funcionan los modelos de Deep Learning como los Transformers, que permiten a GPT analizar y generar texto?
Aprendamos todo de estos o de los modelos generativos de imágenes basados en Transformers, como Dall-E y MidJourney, y los basados en modelos de difusión, como Stable Difussion.
Examinemos conceptos como IA monomodal, multimodal, Inteligencia Artificial General o AGI y Superinteligencia o ASI, y cómo se diferencian entre sí.
Además de las preocupaciones políticas sobre el avance de la IA y por qué algunos líderes tecnológicos piden pausar el desarrollo por seis meses.
Convierte en un Maestro del Desarrollo iOS con el Swift Mastery Program 2025. Encuentra toda la información pulsando aquí.
Suscríbete a nuestro canal de Youtube: Apple Coding en YouTube
Descubre nuestro canal de Twitch: Apple Coding en Twitch.
Descubre nuestras ofertas para oyentes:
---------------
Consigue las camisetas oficiales de Apple Coding con los logos de Swift y Apple Coding así como todo tipo de merchadising como tazas o fundas.
---------------
Tema musical: "Final Frontier", compuesto por Thomas Bergensen. Usado con permisos de fair use. Escúchalo en Apple Music o Spotify.
Transcripción
INTELIGENCIA ARTIFICIAL, ¿Cómo funcionan modelos de Deep Learning como los Transformers que permiten a GPT analizar y generar texto? Aprendamos todo sobre GPT y también de los modelos generativos de imágenes basados en Transformers como DALI y Mid Journey y los basados en modelos de difusión como Stable Diffusion. También examinemos conceptos como IA Monomodal, Multimodal, Inteligencia Artificial General
o AGI, Superinteligencia o ASI y cómo se diferencian entre sí, además de las preocupaciones políticas sobre el avance del IA y por qué algunos líderes piden pausar el desarrollo por 6 meses. Ahora en el Podcast Jappel Coding, temporada 9, episodio número 8. Comenzamos. Estás escuchando Apple Coding, podcast sobre desarrollo y tecnología en sistemas Apple. Dirigido y presentado por Julio César Fernández, evangelista de desarrollo y formador de tecnología
Apple. Un episodio más o menos 2 meses y pico, porque la última vez que nos oímos en este podcast fue cuando hicimos el mega análisis de los M2, M2 Pro y M2 Max, con el lanzamiento tardío a finales de enero de Apple de los nuevos equipos profesionales. Pero claro, desde entonces he estado inmerso en formaciones, he estado inmerso en un montón de temas que saldrán en breve y que por lo tanto no me han dejado tiempo suficiente como
para preparar un programa que realmente tenga el contenido que necesita este podcast, que es más relajado, con más tiempo, etc. Así que vamos a intentar, para el que no me conozca soy Julio César Fernández, evangelista de desarrollo de entornos Apple, etc. Y además ya saben que estamos también en los podcasts de Café Swift con mi amigo Arturo Rivas y el podcast de Nebekanazer con mi amigo Oliver Navani.
Y por supuesto en los podcasts que también están parados desde hace unas semanas de Apple Coding Daily, que también los tienen en YouTube, si quieren verme además de oírme. Pero vamos, el tema es que en esta ocasión, la verdad que ha pasado en estos dos meses, parece ser que yo hice el último programa en un mundo y este, dos meses después, está en otro mundo. Es un poco lo que ha pasado, es una auténtica locura.
¿Por qué? Porque la locura vino cuando la gente de OpenAI lanzó GPT, lanzó no GPT, porque GPT se lanzó la primera versión en el año 2018 y GPT3 ya había sido lanzado a finales del año Sin embargo, lo que ha cambiado todo, lo que ha cambiado las reglas del juego, lo que ha revolucionado absolutamente y ha puesto patas arriba el mundo de la tecnología, un cambio sin precedentes, un cambio equiparable al que supuso el iPhone en 2007, sí, sí, hasta
ese punto, es el hecho de que OpenAI decidiera crear un servicio llamado ChatGPT. Un servicio que lo que pretende, como muchos de ustedes ya saben, es crear un contexto de conversación dentro de lo que es GPT, dentro de lo que es el modelo Generative Pre-trained Text, texto generativo pre-entrenado, que es un modelo de Deep Learning, una red neuronal basada en Transformers, que ahora explicaremos cómo funciona internamente para que entendamos
realmente qué es ChatGPT, pero de una forma un poco más en profundidad. Esto es un tema que ya lo hemos hablado, hemos hecho un especial sobre inteligencia artificial, hemos hablado en Nebecanizer, etc. Aquí quiero darle un punto de vista un poco más didáctico, quiero que entiendan de una forma mucho más didáctica, mucho más profunda, qué es o cómo funciona ChatGPT, por qué es la revolución que es y por qué, bueno, pues cómo está pasando.
Pues hay gente que le tiene miedo, gente que no lo quiere, gente que no lo entiende y sobre todo los principales que no lo entienden y que le tienen miedo y que parece que es que no se han enterado que esto ha salido, pues son como no mis queridos, mi querida profesión más amada del mundo, a los que tanto quiero respeto. Véase ironía mode on los políticos, aquellos que nos, bueno, no vamos a entrar en polémica.
El caso es que, bueno, pues como ya saben, ChatGPT ha sido prohibido temporalmente y de hecho ya no se puede acceder en Italia. Vamos a hablar de esto, por qué ha sucedido esto, por qué los italianos y por qué otros países como Alemania o Francia se están planteando tomar las mismas medidas preventivas alegando que OpenAI no está cumpliendo el reglamento general de protección de datos de la Unión Europea, cosa que es mentira, mentira en el sentido que es bueno, pues que
efectivamente todo lo que hace ChatGPT está perfectamente estipulado en su política de privacidad y cumple todas las normativas habidas y por haber. Pero bueno, entraremos en ese en ese punto dentro de lo que es el programa. Así que en este programa lo que vamos a hacer es eso, es poner en claro qué es ChatGPT, por qué lo ha cambiado todo, qué es lo que ha propiciado, porque a ver, hay un montón
de servicios alrededor que no tienen por qué tener que ver con él directamente, pero que digamos que ChatGPT ha sido como la mecha que ha prendido la explosión de todos los servicios. Digamos que ChatGPT ha conseguido poner en los medios toda esa información, ha conseguido llegar, esto es algo que es muy complicado y es algo que muchísima gente le encantaría poder hacer con su producto, que es algo tan entre comillas simple y no tan simple de digamos
poner en la opinión pública algo, pues como pasó en su día con el iPhone, como pasó en su día con el iPod, como pasó en su día con el iPad, como luego ha pasado tiempo con el Apple Watch, es decir que un producto o servicio se entre comillas viralice para que todo el mundo, hoy día hasta tu abuela de más de 100 años, le preguntas y te dice ¡hijo mío, yo sé lo que es ChatGPT, yo he hablado con ella anoche, es muy apañado,
qué majo! Todo el mundo sabe lo que es ChatGPT, todo el mundo sabe lo que es esto, aunque obviamente no todo el mundo tiene claro qué es esto, es una apreciación bastante importante al respecto. Así que sin más dilación vamos a entrar en materia porque creo que es importante primero entender qué es realmente y por qué tiene la capacidad que tiene y cuál es la diferencia entre la versión 3 y la 4 y qué es lo que deparará, cuál es el gran cambio que hay
o que va a haber o que ya está habiendo en nuestra sociedad y que esperemos por el bien de nosotros, de la humanidad, que los inútiles de los políticos no se metan donde no les llama y al final pues la liemparda. Yo confío en que esto no pase así, pero… ¿quién sabe? Apple Coding Academy es la única academia 100% especializada en desarrollo en entornos Apple, la única con un programa formativo basado 100% en el lenguaje de programación
abierto de Apple, Swift, y que usa este como único lenguaje para formaciones que cubren todo el espectro del desarrollo de apps. Además, somos la única academia que cuenta con formaciones específicas para entornos como el Apple Watch o el Apple TV, donde hemos formado incluso a grandes empresas con apps claves dentro del mercado audiovisual. Somos pioneros en la formación en SwiftUI y en todas las herramientas de futuro y siempre
hemos apostado por tecnologías disruptivas como el Machine Learning que enseñamos desde 2019 con el único programa formativo especializado en extraer las máximas posibilidades en entornos Apple de la visión computerizada, procesamiento de datos, captura de movimiento y mucho más. Y sin olvidar que desde que Apple lanzó ARKit en 2017, somos pioneros en la formación en realidad aumentada, que será el próximo gran paso de Apple en el que también estaremos
ahí los primeros. Entra ya en ACODING.ACADEMY y descubre todo lo que podemos ofrecer a ti o a tu empresa. Apple Coding Academy es el único lugar donde ser nativo en entornos Apple. Be Native. Es indudable que en los últimos meses ha saltado a la opinión pública, como ya hemos dicho, todo lo que tiene que ver con la inteligencia artificial a nivel general. La gente no distingue qué es Machine Learning, qué es Deep Learning, qué son los Transformers,
qué es un módulo de difusión, qué es una red generativa adversaria, etc. Ese tipo de cosas son cosas que quedan muy alejados y de hecho si nosotros empezamos a mirar artículos de medios, incluso medios tecnológicos, veremos que la gran mayoría no entra en una explicación más técnica y le da exactamente igual cómo funciona herramientas como este ChatGPT. Por lo tanto tenemos el gran problema que hay un desconocimiento tan generalizado que
en muchas ocasiones no se entiende correctamente cómo funciona, qué es lo que hace, por qué hace lo que hace, y esto da lugar a decisiones, por ejemplo, de no entender o pensar que el sistema está, entre comillas, copiando cosas. Por ejemplo, es una de las cosas que le pasa a las redes generativas de imágenes con respecto a los artistas. Los artistas llevan mucho tiempo, desde que esto se ha popularizado, quejándose de que
la inteligencia artificial no es arte, que ellos sí hacen arte, que ellos son los que realmente pueden generar algo expresivo, algo que transmita, algo que comunique… Yo les entiendo perfectamente porque no les falta razón. Un dibujo que yo pueda generar de manera generativa, valga la redundancia, a día de hoy es muy complicado que se pueda generar con una expresividad y, sobre todo, que cree una narrativa continua,
porque cada una de las imágenes que se generan con estas redes generativas es totalmente distinta. Si partimos de la base, por ejemplo, que todos conocemos, digamos los tres principales modelos generativos de imágenes, estaríamos hablando de Dalí, que está en la versión 2, estaríamos hablando de Mid Journey y estaríamos hablando de Stable Diffusion. Los dos primeros están basados en transformers, mientras que el último está basado en modelos
de difusión. Son dos formas totalmente distintas de plantear el problema. Vamos a intentar poner ejemplos más pragmáticos, ejemplos más sobre el terreno, para intentar entender la diferencia en cómo estos elementos funcionan uno con el otro. Si hablamos de Stable Diffusion, que es un modelo de difusión y además es de código abierto, yo de hecho, Apple tiene una forma de transformar los modelos de Stable Diffusion,
que el modelo suele, creo que está alrededor de los, no llega a los 6 gigas aproximadamente, lo que es el modelo principal, luego hay otros modelos que se le pueden unir, como el de Control Net, etcétera, para poder hacer generación de imágenes a partir de, por ejemplo, pues yo puedo hacer un dibujito en plan diagrama, el típico monigote tonto, y que eso sirva como base para poder generar nuevas imágenes o incluso poder marcar la pose en la que quiero
que una persona o un elemento se construya a partir de estos modelos, pero eso ya es sin un poco más allá y mezclar distintos modelos. Pero si nos centramos en Stable Diffusion, que como digo Apple tiene una forma de transformar un modelo de Stable Diffusion a Core ML para poder ejecutarlo de manera nativa a través de los aceleradores de cálculo computacional y de la inferencia del motor neural, recordemos
que Apple tiene una forma de aceleración del Machine Learning, que serían dos, no Machine Learning sino una red neuronal, que serían dos. Lo que es el motor neural que ya conocemos, ese motor neural es capaz de inferir un modelo, es decir, es capaz de ejecutar un modelo que ya está entrenado, mientras que a través de lo que permite hacer la GPU tenemos lo que se conoce técnicamente como los MPS, que son los aceleradores, o es el
lenguaje que utiliza Apple equivalente a CUDA, sabemos que CUDA es el lenguaje de cálculo computacional que utiliza NVIDIA y Apple utiliza el lenguaje MPS, siglas de Metal Performance Shaders, los shaders de rendimiento de Metal, que es la forma de realizar operaciones de cálculo computacional dentro de la GPU sin que estas operaciones tengan una salida gráfica. Ya explicamos en otros programas, lo recordamos, que una GPU como una NVIDIA, como una Apple
con Metal de Apple Silicon, son capaces de ejecutar cálculo computacional. ¿Por qué se hace con una gráfica? Porque las gráficas están mucho más preparadas para todo tipo de cálculo matemático, son más rápidas en todas estas tareas. Al ser más rápidas, lo que se hace es pasarles shaders.
¿Qué es un shader? Un shader es una función, es un programa, es normalmente una función en C, que digamos que modifica la salida que va a tener un elemento a nivel gráfico. Si yo voy a poner una textura determinada sobre una geometría, puedo aplicar un shader sobre esa textura para modificar la misma. Es como una especie de filtro de postprocesado, como un efecto de Photoshop.
Imaginen que yo tengo una imagen de Photoshop y le aplico un filtro para modificarla y que se vea de una forma determinada. Ese filtro se aplicaría en tiempo real a través de una fórmula en C que permitiría hacer esa modificación. Pues bien, los shaders son la forma de poder realizar cálculo computacional porque lo que hacen es permitirnos utilizar funciones matemáticas complejas que no tienen una salida gráfica, no se van a aplicar a una textura puesta en una geometría o a cualquier
tipo de operación gráfica que vaya a hacer la propia tarjeta gráfica. Es como una salida a nul, una salida hacia algo que no es gráfico para que así podamos realizar estos cálculos computacionales. Y, repito, lo que utiliza Apple Silicon es lo que se conoce como MPS o Metal Performance Shaders, Shaders de Rendimiento de Metal.
Es el, repito, equivalente a CUDA, con muchas comillas. Así que, en base a este funcionamiento de Stable Diffusion, yo puedo transformarlo. Hay un repositorio de GitHub que podemos ver directamente desde machinelearning.apple.com donde se habla de, de hecho, si buscamos en Google, por ejemplo, buscamos Stable Diffusion Apple Silicon, una de las primeras cosas que nos saldrá será este repositorio, este artículo dentro de Apple donde nos dice cómo realizar la transformación instalando pues el entorno
de desarrollo de Python Anaconda y pudiendo instalar PyTorch, lo que es la herramienta de Python de meta y poder hacer la transformación pertinente entre el modelo de Stable Diffusion y los ML Package, los paquetes de Machine Learning de CoreML que nos van a permitir integrarlo dentro de una aplicación de iOS o de Mac de una manera bastante sencilla. Poder tener estos modelos generativos que ahora mismo Apple es compatible solo con los
modelos 1.4, 1.5 y 2.0 pero que probablemente en breve lo sea con modelos posteriores. Ya hay un 2.1 y de hecho ya se hizo un anuncio de que Stable Diffusion de camino a la versión 3.0 que saldrá en los próximos meses va a lanzar en breve Stable Diffusion Excel que es un reentrenado de Stable Diffusion más grande, con más capacidad y que va a ser capaz de mejorar estos elementos generativos.
Pero la gran pregunta ¿cómo funciona esto? Pues bien, imaginen que un modelo de difusión es un artista que aprende a dibujar observando y copiando muchas imágenes. Esto es algo muy normal. Yo si cojo, y esto es uno de los grandes dilemas que tiene el ML aplicado a las redes generativas, si yo a día de hoy quiero aprender a dibujar ¿qué hago? ¿qué aprendo? Bueno pues yo me compro un libro que me enseña.
Que me enseña proporciones, que me enseña geometrías, que me enseña cómo dibujar una cara a partir de un círculo, cómo dibujar un cuerpo a partir de geometría básica y a partir de ahí rellenando. Hay mucha gente que para dibujar una cara directamente dibuja una circunferencia, le pone lo que serían las marcas de hacia dónde va la mirada con una especie de curva dentro de esa circunferencia y a partir de ahí pinta la cara e integra ese círculo dentro de lo que es la propia cara y con ello dibuja una cara pero tiene
las bases de la proporción que tiene que tener para esa cara. Si yo quiero aprender a dibujar un estilo, por ejemplo estilo de manga, yo lo que haré será ver un montón de dibujos de manga para saber cómo son, para saber cómo se estructuran, para aprender cómo es el trazo, para aprender cómo es el diseño y cada artista tiene su propio estilo.
No es lo mismo el dibujo de Rumiko Takahashi que el dibujo de Akira Toriyama, que el dibujo de Hayao Miyazaki o que el dibujo de Masakazu Katsura. Es decir, hay mil millones de estilos distintos dentro de un estilo general, que es el estilo del manga, que tú lo ves y dices vale esto es manga, pero no es lo mismo el estilo de cada uno de los distintos autores.
Esto lo tenemos más que claro. Si yo quiero aprender y quiero crear mi propio estilo, lo que voy a hacer es empaparme de todo eso. Por lo tanto, un modelo de difusión es como un artista que aprende a dibujar observando todas las imágenes que quiere observar, que es todas las que yo le doy para el entrenamiento. Y es un artista que para aprender a dibujar sigue un proceso que implica dos pasos, que serían, ojo a esto, ensuciar imágenes y limpiarlas.
¿A qué nos estamos refiriendo? Pues bien, imaginen que lo primero que hace el artista es que coge una imagen que es clara, perfecta, una imagen que él reconoce perfectamente porque es una imagen que además no es suya, y la va ensuciando agregando ruido, agregando como si fueran garabatos, manchas, etc. Esto se va realizando de manera gradual, pasando por varias etapas, hasta que la imagen original está completamente cubierta de ruido y es prácticamente imposible de reconocer.
¿Por qué llegaría a este nivel? Pues porque ha ido aprendiendo en los sucesivos pasos cómo puede pasar de un estado de ruido a un estado de no ruido. O sea, ha ido aprendiendo los pasos inversos que le han ido llevando hacia ese ruido final. Luego, el artista va a intentar limpiar la imagen ruidosa y reconstruir la imagen original, quitando el ruido.
Este es el entrenamiento que se hace paso a paso tratando de recordar cómo se veía la imagen original en cada etapa. Por lo que el artista repite este proceso muchas veces con diferentes imágenes, aprendiendo de sus errores y mejorando la habilidad para limpiar imágenes ruidosas, encontrando los patrones que se repiten entre distintas imágenes.
Después de practicar mucho, el artista se vuelve muy bueno en reconstruir imágenes a partir de ruido porque es capaz de reconocer los distintos patrones, patrones comunes entre distintas imágenes, llevando la imagen a su nivel más mínimo de definición, al cuadro más pequeño posible que compone la distinta imagen. Y ha aprendido, ha sido capaz de recordar los pasos que le llevan desde ese ruido hacia arriba, hacia volver a obtener la misma imagen.
O sea, coge una imagen, la ensucia y luego la limpia para obtener la misma imagen original. Comparando el resultado y haciéndolo con un montón de imágenes, consigue que pueda aprender cuáles son los pasos que le dan lugar a poder llegar a su, desde una imagen limpia a sucia, una imagen llena de ruido, y desde esa imagen llena de ruido hacia de nuevo una imagen que sea limpia.
Luego, cuando yo le digo al artista que cree una nueva imagen, ¿qué es lo que sucede? Pues que le doy un montón de, o sea, yo le doy un prompt, ¿vale? ¿Y qué es lo que hace él exactamente? Pues bien, cuando yo le doy el prompt, cuando yo le digo lo que quiero, el modelo de difusión lo que hace es generar con un montón de ruido aleatorio, es decir, no parte de una premisa concreta, no parte de una versión concreta, sino que yo le digo, quiero que hagas no sé qué,
y él lo primero que hace es generar ruido aleatorio, y a partir de ese ruido aleatorio que está descompuesto en miles de millones de casos concretos, de patrones concretos, alguno de esos elementos de ruido va a poder ser reconstruido hacia algo que componga entre todas las imágenes que, o sea, entre todo lo que yo le haya pedido, una imagen que coincida con los prompts originales que aprendió de la imagen original que fue descomponiendo.
Es decir, es como aprender un montón de cosas de una manera totalmente abstracta, como funcionaría el cerebro. Por lo tanto, lo que hace es que genera, como digo, un montón de ruido aleatorio que se crea internamente por el modelo y que, insisto, nosotros no proporcionamos con el prompt, ¿vale? No es necesario darle un prompt para que se genere ese ruido inicial.
Lo que sí proporcionamos al modelo con el prompt es la descripción y el modelo usa éste para guiar el proceso de limpieza de ruido. Ahí es donde está la base. Es como, para que lo entendamos de una forma mucho más sencilla, todos los cuadros parten de un lienzo en blanco, ¿verdad? Y de un lienzo en blanco se puede obtener cualquier cuadro.
Pues digamos que este ruido aleatorio es ese lienzo en blanco. Y a partir de ese lienzo en blanco, él va a ir aplicando los patrones que aprendió de cómo limpiar ese ruido para que Batch pase a ser un elemento concreto. Y así, como durante el entrenamiento, el modelo de difusión no etiquetó un nivel específico de ruido para reconocerlo más tarde, sino que aprendió los patrones que relacionan las características de las propias imágenes en distintos niveles de ruido y el prompt de texto
que correspondía a dichas imágenes con las que se entrenó, pues aprende a cómo quitar el ruido de dichas imágenes a cada nivel y cómo ajustar la limpieza del ruido según la descripción que tú le has dado. Cuando queremos generar una nueva imagen, le damos al modelo de difusión este prompt con la descripción y, repito, el modelo comienza con un montón de ruido aleatorio, lo limpia gradualmente, utiliza su conocimiento previo, la descripción del prompt, va guiando el proceso y
así es capaz de generar una imagen que coincide con nuestra descripción a partir de ese ruido inicial que es completamente aleatorio. Por lo que este artista es un artista que aprende a crear imágenes mediante el proceso de ensuciar y limpiar.
Después de aprender de muchas imágenes, el modelo de difusión puede generar nuevas a partir del ruido, utilizando su conocimiento adquirido sobre cómo se ven las imágenes y cómo eliminar este ruido a partir del reconocimiento de los patrones de cada uno de los pasos graduales que han dado lugar desde una imagen concreta, con una descripción concreta, hacia ese ruido y de ese ruido utilizar distintas partes de ese ruido aleatorio para ir aplicando los distintos patrones que van transformando la imagen hacia
algo nuevo que corresponda con lo que yo quiero conseguir con el prompt. Vamos, súper simple, espero que lo hayan entendido. He intentado dentro de lo que es lo más complejo intentar explicarlo de la forma más clara posible. Para entenderlo de manera correcta primero vamos a entrar en lo que es la definición de lo que es un transformer.
Porque el transformer es algo que, la verdad que es bastante peculiar, porque no estaba pensado en un principio para ser utilizado para imágenes, solamente para procesamiento del lenguaje natural. Sin embargo se demostró que también podía servir para imágenes. ¿Por qué? Pues bien, porque los transformers se basan en tres conceptos claves que son atención, codificación y decodificación, y posicionalidad.
¿Qué sería cada uno de ellos? Pues bien, la atención dentro de una red neuronal basada en transformers es el mecanismo central de los mismos, es decir, permite que el modelo se enfoque en diferentes partes de un texto de entrada al mismo tiempo, asignando diferentes niveles de importancia a cada palabra en función de su relevancia dentro del contexto, lo cual ayuda a capturar las relaciones entre palabras y a comprender el significado de una oración.
Esto se entendería de una forma más sencilla si lo vemos desde un punto de vista de cómo dividimos la forma en la que entendemos el lenguaje. Imagina que yo, dentro de un texto, veo la tortuga camina lentamente. Pero yo sé que las palabras tortuga y lentamente son importantes para entender lo que está sucediendo, que es que la tortuga camina, por lo que le presto más atención.
Entonces es básicamente como alguien que lee una oración completa y utiliza su comprensión para mirar todas las palabras al mismo tiempo y ver cómo encajan entre sí. Es como una persona capaz de ver un puzzle completo, un puzzle completo donde cada palabra de esa frase tiene una importancia distinta, por lo que en lugar de leer palabra por palabra, lo que hace es ver todo un rompecabezas que supone esas palabras al mismo tiempo y entender cómo cada una de las piezas se relaciona con las demás a
nivel de importancia. Porque dentro de la frase la tortuga camina lentamente, la tortuga es el que realiza la acción, la acción es caminar y lentamente es cómo realiza dicha acción, por lo que entiende el contexto completo. Es como esta gente que es capaz de leer de manera oblicua. Sabemos que hay mucha gente que es capaz de leer no seguido, sino de manera oblicua y que tiene una memoria visual que le permite no leer lo que está leyendo, sino visualizarlo de una manera
completa. Cuando se procesa un texto a partir del uso de transformers, lo que el sistema hace es crear nuevas piezas de rompecabezas, nuevas palabras que encajen bien con las piezas que ya ha leído, dentro de un contexto que le permita armar oraciones completas y coherentes que tengan sentido.
Por lo que lo que hace es completar el texto. Así es como funciona a nivel general GPT, a través de estos transformers, a través de poder completar algo. Porque si yo no le digo nada a GPT, GPT no me va a contestar nada. Por lo que GPT lo que hace es construir, en base a lo que yo le estoy dando, y en base a lo que él ha aprendido, y en base a cómo ha aprendido las relaciones entre las distintas piezas de rompecabezas, él sabe cómo puede construir algo que tenga coherencia con lo que ya ha visto antes, con lo que yo le he dicho.
Y esto lo va construyendo de esta manera, a partir de esa atención que es el mecanismo central que le da una relevancia distinta a cada palabra dentro de su propio contexto. A partir de ahí llega más o lo que es, porque esto le permite comprender el significado, entre comillas, de una oración y cómo se compone para tener la coherencia de completar texto.
Porque esto lo vamos a repetir hasta la saciedad. GPT no es un modelo que sea capaz de hablar contigo. GPT no es una IA que habla contigo. No. GPT no habla contigo. GPT completa el texto, a partir de lo que tú le has puesto, y a partir de lo que él puso, usándolo como contexto para completar más texto, en base a algo que tenga coherencia, en base a lo que él ha aprendido, que son los no sé cuántos miles, los 175 mil millones, si no me equivoco, de referencias que ha leído y de las que ha aprendido sus patrones.
Eso solo para GPT3. En GPT4 no existe el dato empírico de cuántos parámetros ha tenido, pero se sabe que son muchísimos más. Por lo tanto, esa sería la primera parte del mecanismo de atención. La siguiente parte es la parte de codificación y decodificación. Es decir, un transformer tiene dos partes principales, el codificador, que es el que procesa el texto de entrada, mientras que el decodificador es el que genera la respuesta, y ambos utilizan estas capas de
atención y otras operaciones, matemáticas y aleatoriedad, para generar un texto de salida. Cuando yo le pregunto algo a ChatGPT, él lo completa. De hecho, esto es algo que yo ya he explicado muchas veces. En diciembre del año 2021, Oliver Navanillo e yo hicimos un programa de Nebekanazer entrevistando a GPT3.
Porque sí, existía desde entonces. Y la forma de entrevistarla no fue generar una conversación que no existía. Fue poner de nombre. GPT, dos puntos. Usuario, dos puntos. Entonces, si yo genero un texto porque es lo que hace GPT, GPT no habla contigo. GPT completa texto. Sí, sé que soy a veces un poco reiterativo. Entonces, ¿qué es lo que sucede? Que como GPT completa texto, yo lo que hago es darle un texto inacabado para que él lo complete, para que él lo cierre, para que él lo decodifique.
Yo le mando una codificación de un texto que no está completado, una frase que sería el coche es de color, y lo dejo ahí, y él tendrá que decidir qué tiene que poner ahí. Porque si pone, por ejemplo, el coche es de color, y pone arroz, pues no tiene sentido. Tendrá que poner amarillo. Por lo tanto, dentro de esa aleatoriedad él tendrá que decodificar una respuesta que sea coherente, un completado que sea coherente.
Porque él decide aleatoriamente pero sus patrones, lo que él ha aprendido, le dan a entender que la respuesta más correcta a el coche es de color, y se queda ahí parado, la forma de, no la respuesta, la forma de completar ese texto, es poner amarillo, o rojo, o azul, poner algún color. Y tal vez la primera respuesta te diga que es azul, y en una próxima te diga que es verde, y en otra te diga que es fucsia.
Porque él te va a dar un color. ¿Qué color? Lo va a decidir aleatoriamente. ¿De acuerdo? Y luego tenemos el tercer componente, que es la posicionalidad. Dado que los transformes procesan el texto de manera paralela y no secuencial, porque lo hacen viéndolo en conjunto, necesitan una forma de mantener la información sobre el orden de las propias palabras. Y para eso utilizan una codificación posicional, o sea, una representación matemática del lugar que ocupa cada palabra dentro de una oración, para que ésta tenga coherencia y ayuda al modelo a entender la
estructura gramatical y las relaciones entre las palabras en función de su posición. Esto es lo que le ha permitido aprender el idioma, cómo se construye, no sólo el idioma inglés, 100 idiomas es capaz de completar, no hablar, completar, GPT, 100 idiomas distintos. Pero no sólo idiomas distintos, es que también, por el camino, aprendió estas relaciones, aprendió esta posicionalidad, aprendió a través de la atención dándole una relevancia dentro del contexto a cada una de las
palabras, para comprender el significado de la oración, para generar un proceso de codificación sobre un texto no completado, para decodificarlo y completarlo teniendo una coherencia a partir de la posicionalidad que le permite entender la estructura gramatical y las relaciones entre las palabras en función de su posición.
Esto también lo ha hecho con lenguajes de programación. Chorprecha. Por lo que también ha sido capaz de entender cómo se construyen, cómo se escriben, cómo se expresan Swift, Python, Kotlin e infinidad de lenguajes de programación. La propia OpenAI confirmó que efectivamente el lenguaje de programación que más fuentes tiene dentro de lo que es GPT es Python, porque es el lenguaje que ha utilizado, es el lenguaje del Machine Learning y el que más he utilizado.
Los dos lenguajes que más tienen son Python y JavaScript, también son de los que más recursos hay en Internet, pero bueno, independientemente de los que más hay en Internet. Pero también sabe mucho de Swift. Y doy fe de ello, porque también se le pueden preguntar un montón de cosas, igual que de Kotlin, igual que de muchos otros lenguajes. Vale, habrá lenguajes más residuales.
Si le preguntas algo de COBOL, la verdad que no le he preguntado nunca, pero no sé cómo sería capaz de hacerlo. Pero por ejemplo, también es capaz, y es uno de los entrenamientos específicos que tiene, de poder resolver lenguaje SQL, que no es un lenguaje de por sí, es un lenguaje de configuración de peticiones transaccionales, vale, no es un para hacer peticiones de consulta a base de datos.
Pues bien, esto también es capaz de hacerlo. Entonces, entendiendo ya cómo entendemos cómo funciona un modelo de Transformer, tenemos que tener en cuenta que Dalí y Mid Journey están basados en Transformers, no en modelos de difusión como Stable Diffusion. Son dos formas distintas de trabajar.
Porque la propia OpenAI ya tenía la forma de poder trabajar con texto, que fue el primero de los grandes modelos que generó, lo que se conoce técnicamente como un LLM o Large Language Model. Pues bien, estos modelos, estos LLM, fue lo primero que hizo OpenAI, fue sacar GPT, la primera versión. Pero a partir de ahí fue cuando empezó a darse cuenta de que esto también podía ser aplicable a realizar, a generar imágenes.
Y de esta misma tecnología es de donde parte lo que es el modelo basado en Transformers de Dalí o de la propia Mid Journey. Y aquí la gente de OpenAI se dio cuenta que podía utilizar la misma tecnología de los Transformers para estas imágenes aplicándolas. ¿Cómo? Pues bien, imaginemos de nuevo con un ejemplo traído al mundo real.
Imaginemos que los Transformers generados para lo que sería imágenes, es como si yo tuviera un escritor y un ilustrador trabajando juntos para crear una imagen a partir de una descripción. El escritor, la parte del modelo de Transformer que se encarga de leer esta descripción y entenderla, recoge esa descripción, por ejemplo un gato con un sombrero de fiesta.
Luego el escritor piensa en cómo podría verse esa imagen y crea una especie de guión o plan detallado para el ilustrador más o menos que recibe ese guión o plan del escritor y dibuja la imagen siguiendo las instrucciones que el escritor le ha dado. Es decir, tenemos una primera capa de traducción entre lo que sería el prompt que yo le estoy dando y ese prompt ha aprendido de haber aprendido de un montón de imágenes, cada una con su prompt.
Imágenes donde ha tenido que detectar el contenido que había en esa imagen porque en esa imagen se le ha dicho que era, pues a lo mejor una de las imágenes con las que se ha entrenado es un gato, ¿vale? Mil millones de gatos. Otra imagen distinta es un sombrero de fiesta y tenemos dos imágenes distintas sobre las que el modelo ha aprendido lo que es una imagen de un gato y lo que es una imagen de un sombrero.
Por lo que el escritor cuando ve la descripción de un gato con un sombrero de fiesta lo que hace es decirle a el ilustrador, oye, lo que tienes que pintar es algo parecido a la imagen aquella que vimos del gato pero lo tienes que mezclar con la imagen que vimos aquella del gorro de fiesta. Por lo que empieza a dibujar.
Esta pareja ha estudiado y aprendido a partir de muchas descripciones de imágenes durante un entrenamiento y han aprendido cómo se relacionan las palabras con las imágenes y cómo crear imágenes que coincidan con estas descripciones. Vamos a verlo de una forma un poco más clara. Imaginemos que en vez de tener un solo ilustrador tenemos a varios. Tenemos un grupo de amigos que trabajan juntos para crear un dibujo basado en una historia que yo les voy a contar. Y cada amigo tiene una habilidad especial para dibujar partes específicas de una imagen,
como por ejemplo animales, casas, plantas, etc. Así que si les cuento una historia y les digo había una vez una casa azul en un bosque lleno de árboles y un perro amarillo jugando en el patio delantero. El grupo de amigos escucha con atención toda esa historia y la van a representar con una imagen.
Por lo que comienzan a trabajar. ¿Y qué es lo que sucede? Pues que el amigo que es bueno dibujando casas se pone a dibujar la casa azul en el centro del dibujo. Luego el amigo que es bueno dibujando árboles porque se le da estupendamente, porque ha aprendido muy bien qué es un árbol y por lo tanto a base de un montón de millones y millones y millones de formas distintas de árboles, él ha aprendido los distintos árboles que hay y aleatoriamente va a decidir cuál es el tipo de árbol que va a dibujar entre todos los que ha aprendido.
Por eso nunca sale el mismo árbol. Cuando se pone a dibujar el árbol termina y el último de los amigos que dibuja los animales estupendamente porque lo ha aprendido estupendo, dibuja al perro amarillo jugando en el patio delantero. El grupo de amigos trabaja en equipo cada uno dibujando las partes de la imagen que mejor sabe hacer.
¿Y qué sucede al final? Que se obtiene un dibujo que representa la historia que les he contado. Pues bien, esos en realidad son los transformers. Durante el entrenamiento el modelo estudia millones y millones de imágenes y aprende a reconocer cada uno de los elementos que hay en dichas imágenes a partir de una descripción que acompaña a cada imagen y aprende cómo tiene que dibujar, es decir, aprende los patrones que componen al más mínimo nivel cada uno de los distintos elementos.
Porque para dibujar un árbol primero tiene que ser capaz de reconocer un árbol. Y si es capaz de reconocer un árbol es porque obviamente conoce las curvas, las líneas, los colores, los patrones que todos juntos forman un árbol dentro de una imagen. Por lo que cada amigo es el modelo de transformer capaz de entender una parte que se especializa en una tarea determinada, como dibujar casas, árboles o animales.
Se entrena en todo esto, es capaz de entrenarse. ¿Por qué Mid Journey en la nueva versión 5 ha sido capaz de por fin dibujar manos de cinco dedos que no parezcan de un alienígena, que no de los grandes problemas? Pues porque se le han dado muchísimas más imágenes de manos con distintos tipos de perspectivas, con distintos tipos de dedos, con más dedos, con menos dedos, con tal... ¿Por qué Mid Journey V5 es mucho mejor generando imágenes de personas que lo que era la versión 4?
Porque se le ha dado para su entrenamiento muchísimas más imágenes de personas, por lo que ha podido aprender. Cuanto más información tiene un modelo, más preciso es en su aprendizaje. Por lo que lo que se ha hecho con la nueva versión es especializarlo, para que aprenda mucho mejor la diferencia de las manos, porque el entrenamiento de Mid Journey V4, o de cualquiera de las otras redes neuronales, el entrenamiento que se le ha dado
no le ha permitido, porque no se le ha debido dar un prompt apropiado, que cuando ha habido una persona, es decir, para que lo entiendan de una manera muy sencilla, si yo le doy millones de imágenes de personas, con distintas descripciones, y en la descripción que yo puse para cada imagen no indiqué que era una persona con 5 dedos, resulta que el sistema no aprende que las personas tienen 5 dedos.
Se dan cuenta de ese tema. Por lo que yo, al no poner en la descripción persona con 5 dedos levanta la mano y la pone, solo lo pongo cuando los 5 dedos son muy evidentes, o a lo mejor cuando muestra la mano pongo que es una mano, pero no pongo que es una mano con 5 dedos, por lo que el sistema se queda sin aprender que las manos tienen 5 dedos, porque en las descripciones que han servido para entrenar los modelos no se le ha indicado que las manos tienen 5 dedos, por lo que no es capaz de generar las manos con 5 dedos.
Hasta que en el siguiente entrenamiento, lo que se ha hecho es darle no solo muchas más imágenes, sino indicarle de manera específica que éste tiene 5 dedos levantados, o que tiene 4 levantados y 1 oculto, o que solo está mostrando 2, que son el anular y el corazón, etc. O que está haciendo una peineta. Vale, entonces entiende el concepto de peineta, que es poner el dedo corazón levantado y el resto escondido.
Este es el kit de la cuestión. Si yo no le doy una descripción lo más descriptiva a estas imágenes, obviamente estos amigos no van a ser capaces de especializarse en esas tareas concretas. Ese es el cambio, ese es el reentreno. Por lo tanto, cuando tú le das al modelo de Transformers un prompt de texto que describe una imagen, el modelo trabaja de la forma similar a como hemos contado de los amigos, divide la descripción en partes y asigna cada parte a la sección del modelo que mejor sabe cómo dibujarla.
Luego, estas secciones trabajan juntas para generar la imagen en conjunto, combinando sus habilidades y conocimientos para crear un dibujo coherente que tenga todos los elementos. En resumen, un modelo generativo basado en Transformers funciona como un grupo de amigos que trabajan muy bien juntos y cada uno se especializa en una parte concreta, dividiendo la descripción en partes y utilizando el conocimiento previo adquirido durante el entrenamiento para generar una imagen que represente lo mejor posible la
descripción sin olvidarnos que hay una aleatoriedad dentro de ello. Así que esa es la magia. La magia parte de la premisa que durante el entrenamiento se guardan, se aprende, que, pues, cómo reconocer y representar diferentes objetos, formas, colores, patrones dentro de las imágenes, cómo se relacionan las palabras en las descripciones de texto con las características visuales que se reconocen dentro de las imágenes, también cómo trabajar en equipo y colaborar para combinar las
habilidades y conocimientos en la creación de imágenes coherentes y detalladas a partir de las descripciones de texto, porque cada uno de estos amigos es una parte distinta de la capa oculta del modelo de deep learning, por lo que el entrenamiento enseña a cómo dividir la descripción en partes y cómo asignar a cada una de esas partes especializadas la tarea de dibujar el elemento. Así es como funciona, en este sentido.
Por lo que tenemos que entender que esta es la manera en la que funcionan todos estos modelos. No son más que programas. Programas que no tienen inteligencia. Programas que no tienen ningún tipo de capacidad más allá de hacer la tarea que se le ha encomendado. Pero, como tiene tal enorme cantidad de datos y ha generado tantas capas ocultas dentro de procesamiento, este aquí es el problema. Así que para entender cuál es el problema que se plantea con GPT y por qué hay una serie de
personas expertas como Elon Musk, Steve Wozniak, etcétera, que han pedido que se pare la inteligencia artificial, ¿por qué han pedido que se pare la inteligencia artificial? Pues bien, vamos a verlo en el siguiente bloque. Vamos a ver, porque esto puede llegar a ser un poco complejo de explicar.
Ya hemos visto que GPT como elemento, como red neuronal que completa texto, ¿vale? Repito, red neuronal que completa texto, no es inteligente, no es... tiene una gran capacidad, no razona, no es como ¡oh, Dios mío, qué maravilla! No, es un programa que completa texto. Punto. El problema, bueno, el problema no, su ventaja es que, bueno, pues ha aprendido un montón de texto, millones, miles de millones de referencias.
De hecho, se comenta que pueden ser hasta billones de referencias, ¿vale? Billones en concepto europeo, ¿vale? En concepto americano serían incluso los que llamaríamos trillions, ¿de acuerdo? Bien. Entonces, eso le ha dado una capacidad increíble y parece que tiene poder de razonamiento, parece que es capaz de tomar decisiones en cuanto a lo que le pides, parece que es capaz de razonar, parece que es capaz de...
pero no es así, no es así, ¿de acuerdo? Y yo soy el primero que se maravilla de las capacidades y de cómo tiene ese punto que parece humano. Entonces, vamos a verlo desde una base y luego entenderlo desde lo completo. La base ya la hemos dicho antes. Si yo te digo, si yo a ti, tú que me estás oyendo, te digo el típico juego de completa la frase, ¿vale? Vamos a jugar al juego de completa la frase.
Y yo te digo, oni, y tú, si eres otaku como yo, dirás, chan, porque no hay otra opción de terminar la frase porque sabes qué es lo que yo quiero decir. Y vamos a acabar diciendo oniichan, que es lo que le dice Nesuko a Tanjiro, ¿vale? Que es su hermano, el hermano de una hermana, ¿vale? Oniichan, ¿ok? Perfecto.
Por lo tanto, sólo había una opción de completado. Si yo a GPT le pongo oni, me va a decir chan, porque sólo va a haber una opción de completado. Bueno, puede haber otras, ¿vale? Pero entendemos el concepto, ¿no? Bien. Si yo te digo, mi coche tiene cuatro ruedas y es... Y aquí hay varias opciones, como ya hemos comentado antes.
¿Tú puedes decir, mi coche tiene cuatro ruedas y es patata? No, porque no tiene sentido. Por lo que GPT no te va a responder, mi coche tiene cuatro ruedas y es patata. Porque además, repito, GPT no contesta. GPT completa un texto que está sin completar. GPT juega al juego de completar la frase, siempre. ¿De acuerdo? Bien. Pero si yo le pongo a GPT, mi coche tiene cuatro ruedas y es... Y lo dejo ahí.
Él me va a rellenar y me va a poner rojo, azul, verde, amarillo... ¿Por qué va a decidir el color? Por la aleatoriedad. Porque va a ser aleatorio. Y a lo mejor le incluye más características. Y le incluye una característica como que es híbrido enchufable o cualquier otro tema distinto. Porque es una selección aleatoria. Pero GPT no es capaz, a día de hoy, de hacer absolutamente nada si no tiene un contexto sobre el que procesar.
Porque GPT, el modelo GPT, el modelo Generative Pre-trained Text, solo completa texto. Punto. Ahora, ¿dónde está el truco? El truco está en construir una interfaz como chat GPT donde yo escribo. Y lo que escribo se construye de una forma que yo no veo por detrás como una conversación. Se construye como el texto de una conversación, como el guión de una película, donde pone el nombre del personaje y lo que dice, y debajo el nombre del otro personaje y lo que dice, y debajo el nombre del mismo
personaje anterior, si le contesta, y lo que dice. Se genera un guión de una película. Eso es lo que por detrás tiene chat GPT. El guión de una película en el que se quedan sin rellenar la parte que corresponde a lo que él, a lo que GPT, tiene que rellenar. Por lo que en el momento en el que yo lo veo, pues él inmediatamente rellena ¿en base a qué? En base al contexto que tiene. Al contexto de, incluso, el contexto puede ser hola.
Si yo le pongo a GPT hola, GPT me contesta. Y diréis, hombre, pues es que, pero tiene un contexto, el contexto es hola. Si tú tienes a una persona enfrente que pasa al lado tuya y te dice hola, tu contexto es el de un saludo, por lo tanto tú vas a saludar. ¿Y qué saludo va a dar? Pues el saludo va a dar, va a completar el texto con un saludo.
El saludo de hola, qué tal, es un placer, hola, qué hace, bla bla bla bla bla. Hay mil formas de saludar, pero en la forma de saludar es la que GPT ha aprendido, en base a cómo funciona su entrenamiento. Ese es el kit de la cuestión. Entonces, los modelos basados en transformers tienen, al igual que, porque no tienen un entrenamiento basado en modelos de difusión, etcétera, etcétera, como ya hemos explicado, los transformers funcionan de la misma manera que se entrena cualquier red neuronal,
en base a darle un conjunto de elementos que son de entrenamiento, un conjunto de validación y prueba, perdón, un conjunto de validación y un conjunto de prueba. Si yo tengo un total de, como tenía el GPT, la versión 3, de 175.000 millones de referencias, quiere decir que de esas ciento, de esos 175.000 millones, ¿vale?, normalmente, ¿vale?, normalmente se suelen repartir entre un 80-90%, ¿de acuerdo?, para entrenamiento del total de datos,
10-20% para validación y un 10% para prueba, ¿vale?, depende de los porcentajes, ¿vale? Podría ser, por ejemplo, 80% para entrenamiento, 10% para validación y 10% para pruebas, por ejemplo, ¿vale? Entonces, cuando tú tienes esos 175.000 millones de parámetros para entrenar lo que se conoce como un LLM, un modelo de lenguaje grande, Large Language Model, lo que haces es entrenarlo en base a estos transformers, que lo que hacen es, pues eso,
entrenarse de una forma muy parecida, muy similar a cómo se validan cualquier otro modelo de aprendizaje profundo, como por ejemplo el de etiquetado de objetos en una imagen. Funciona de una forma, en el entrenamiento, parecida. Lo que no funciona igual es en la forma de resolver el problema.
Por lo tanto, cuando yo entre en un modelo basado en transformers, se divide el conjunto de datos en las partes de entrenamiento, validación y prueba. El conjunto que se usa para entrenamiento es el que se usa para enseñar al modelo y ajustar los parámetros. Y el conjunto de validación se usa para evaluar el rendimiento del modelo durante este entrenamiento y ajustar los parámetros para que vaya siendo más eficiente, por ejemplo, la tasa de aprendizaje.
Es decir, esa tasa de aprendizaje es el porcentaje en el que realmente el sistema es eficiente, porque en base a la aleatoriedad que va generando el entrenamiento, se va comprobando contra el conjunto de validación para poder efectivamente validar que el entrenamiento es capaz de generar cosas que corresponden a la validación, que tiene una lógica, que tiene algo concreto. Para que lo veamos de una forma más sencilla, si yo tengo un conjunto de entrenamiento de un montón
de imágenes y esas imágenes tienen gatos o tienen perros, yo le doy un conjunto de imágenes que son de gatos y le doy un montón de imágenes que son de perros y él se entrena con ellos. Y luego, le doy un conjunto de validación donde hay gatos y donde no hay gatos. Y él tiene que intentar averiguar en base a cómo está siendo entrenado hasta llegar a un porcentaje de eficiencia que sea lo suficientemente válido, lo suficientemente alto, para que valide aquello que está haciendo.
Por lo que tendrá que, sobre el entrenamiento, sobre los datos de que es un gato, reconocer que es un gato, tener un conjunto de validación para poder validar que, efectivamente, él ha entendido lo que es un gato porque en ese conjunto de validación yo le estoy diciendo qué es un gato y qué no es un gato.
Por lo tanto, él usará los conjuntos de validación de gato y de perro para poder validar si realmente aprendió o no a distinguir un gato. Y cuando realmente ese porcentaje de afinación llegue a ser superior a un noventa, noventa y tantos por ciento, entonces el modelo podrá decir que está teniendo un buen entreno, que efectivamente ha aprendido bien en base al conjunto de validación, que es un gato.
Ya está. Este es el modelo en el que permite hacer este ajuste de parámetros. El conjunto de prueba, cuando ya hemos terminado, se utiliza para evaluar el rendimiento del modelo en datos que no haya visto previamente. El conjunto de prueba no tiene que tener datos que hayan formado parte ni de la validación ni del entrenamiento y con esto obtener una estimación de cómo se desempeña en situaciones del mundo real cuando ya se ha hecho el entrenamiento.
Lo que pasa que en el caso de los modelos de lenguaje basados en Transformer como GPT, los conjuntos de datos suelen consistir en fragmentos de texto o pares de preguntas y respuestas, por lo que el modelo se entrena para predecir la siguiente palabra en una secuencia de texto o para generar respuestas a partir de preguntas dadas. Por eso tiene esa forma tan curiosa de responder, porque está siendo entrenado no sólo para completar texto, sino también está siendo entrenado con pares de preguntas y respuestas para ver si realmente es capaz de
responderlas. Así que durante el proceso de validación, el modelo recibe ejemplos del conjunto de validación y se le pide que genere predicciones y esas predicciones se comparan con las respuestas correctas para evaluar la precisión del modelo. Se utilizan varias métricas que se pueden utilizar para medir la calidad de las predicciones, como la precisión de las palabras, que es lo que se conoce como la perplexity, o métricas más específicas, algunas por ejemplo con nombres
como Bleu, Roche y Meteor, que evalúan la similitud entre las respuestas generadas por el modelo y las respuestas que tiene de referencia, por lo que al final el proceso de validación ayuda a garantizar que el modelo tenga un buen rendimiento en situaciones del mundo real y que no esté simplemente memorizando, entre comillas, almacenando, entre comillas, esa información del conjunto de datos de entrenamiento, que esto supondría lo que se conoce técnicamente como un sobreajuste.
Cuando el sistema memoriza para dar respuestas concretas a preguntas concretas porque son cosas que ha memorizado, eso es un sobreajuste que es incorrecto. Yo tengo que ser capaz de darle datos de entrenamiento que sean capaces de darme respuestas generadas nuevas a partir de lo que entrenó, no respuestas concretas en base a cosas concretas.
Ese es el key de la cuestión. Por eso hay que crear un conjunto, es decir, la creación del conjunto de datos de entrenamiento de un modelo es una tarea titánica, o sea, es una de las cosas que más tiempo consumen, recopilar la información necesaria y poder tener esa forma de poder procesar esa información. Entonces, si ya entendemos cómo funciona el entrenamiento, si ya entendemos cómo funciona todo lo que es la forma en la que funciona GPT, que GPT no es, repito, no es una inteligencia artificial lo
que se conocería como general. Hay gente que está hablando de que, bueno, tenemos que analizar si realmente GPT es una agio o no. Es una inteligencia artificial general, de acuerdo, que una inteligencia artificial general sería pues algo que, digamos, tiene un uso no concreto.
¿A qué me refiero con esto? Bien, a ver, una agi, técnicamente, es una artificial general intelligence o inteligencia artificial general y se refiere a una inteligencia artificial que puede realizar cualquier tarea intelectual que un ser humano puede hacer. Vamos a ver, es decir, una agi tiene la capacidad de entender, aprender y aplicar conocimientos en, y este es el punto más importante, una amplia variedad de dominios, no sólo una tarea concreta, que es lo que hace GPT, lo que haría cualquier ser humano,
a diferencia de la inteligencia artificial que es especializada o la inteligencia artificial estrecha, que es la que está diseñada para realizar tareas específicas, mientras que, insisto, una agi puede adaptarse y puede aprender nuevas habilidades a medida que se enfrenta a nuevos desafíos y situaciones.
Entonces, partiendo de esta diferencia, hay mucha gente que habla de que GPT podría ser una agi, pero GPT no es una agi. ¿Por qué piensan que es una agi? Bien, por los resultados que da y porque no somos capaces, como hemos dicho en el anterior bloque, de entender al 100% cómo está funcionando por dentro. Ahí es donde está el punto de apoyo de quien está pidiendo que se pare la inteligencia artificial o quien te está pidiendo que haya una una serie de reglamentos, una serie de leyes, una serie de directrices que, digamos, restrinjan o
pongan normas a la inteligencia artificial desde ya. Crear una serie de reglas para que, a nivel legal, la inteligencia artificial tenga sus propias legislaciones. Al igual que la inteligencia artificial es una herramienta increíble y que, a través de GPT, podemos completar texto, podemos completar código, podemos pedirle ayuda de búsqueda de documentación, podemos pedirle un montón de cosas y ella nos contesta dentro de su función.
Pero la inteligencia artificial también puede servir para muchas cosas que no son tan buenas. Una inteligencia artificial puede servir para generar imágenes de desnudos de hombres o mujeres que no hayan autorizado tener una imagen de ellos desnudos. Puede tener imágenes de hombres o mujeres desnudos que no existen. Bueno, perfecto.
Si te pone, oye, hay páginas en internet que se están especializando en pornografía generada por inteligencia artificial y tienen muchas visitas. En fin, a todo el mundo le da por algo. Pero también puede ser que esa inteligencia artificial permita generar imágenes de desnudos de gente conocida, de actores, de actrices, de políticos, de políticas, de lo que sea.
Hay 37 tipos de tendencias sexuales distintas. En este mundo podemos tener o nos puede gustar cualquier tipo de cosa o no, o ponernos cualquier cosa, ¿vale? O sea, en fin, este mundo ya sabemos cómo es y, bueno, pues hay que aceptarlo tal como es. Entonces, y filias hay 50 mil millones, ¿vale? Entonces, ¿qué es lo que sucede? Que, obviamente, generar imágenes de desnudos o generar imágenes de determinadas personas concretas y que existen en el mundo real haciendo cositas feas, pues, hombre,
no debe ser algo que digan, ah, qué guay, han hecho una imagen mía comiéndome un tal o haciendo, mira, pues no, mira, o sea, no me apetece, ¿no? Pues ese tipo de cosas son lógicas. Por lo tanto, tiene que haber una legalidad detrás de esto y un control detrás de esto, que es muy complicado de llevar a hacer porque, como ya hemos dicho antes, Stable Diffusion tenía una serie de filtros NSFW, ¿vale?, lo que son las siglas de Not Suitable for Work, ¿vale?,
que es las siglas que indican aquello que no es apropiado para ver en el trabajo, que básicamente es pon no, pon, vamos, que lo ponen en el trabajo y te dicen pon no, pues eso mismo. Entonces, ese tipo de cosas, obviamente, no se pueden ver, ¿vale? Entonces, hay que tener un control, ¿vale? Pero claro, si yo, en Stable Diffusion, tengo unos filtros que permiten que yo no pueda poner nombres de personas famosas unido a que
esté desnudo y que se esté comiendo un perrito caliente, pues mira, pon no, ¿vale? Entonces, esos filtros, lo primero que hicieron cuando cogieron el código de Stable Diffusion fue quitarlos, ¿vale? Por lo que, al final, la única forma de poder hacer esto es no entrenar a estos modelos generativos con imágenes de desnudos.
Pero si yo no entreno a estos modelos con imágenes de desnudos, resulta que no voy a entender bien la anatomía femenina o masculina y, por lo tanto, no voy a ser capaz de generar humanos realistas, aunque sean con ropa, por lo que necesito, y además, artísticamente, los desnudos tienen una validez artística, más allá de la sexual, por lo que también, obviamente, van a entrenar estos modelos con desnudos de hombres y de mujeres, aunque sean artísticos, aunque no sean fotorrealistas, ¿vale? Hombre, no tenemos
nada más que darnos un paseo por el Museo del Prado y ver la cantidad de pellos y de todo tipo de cosas de desnudos que hay y es arte, porque es una representación artística pictórica que, más allá de su contenido sexual, pues expresa algo que es agradable de ver, ¿vale? Y los desnudos siempre han formado parte de este tipo de cosas.
Ahora, en el momento en el que yo tengo un algoritmo image-to-image capaz de realizar un reemplazo de determinadas partes de una imagen, para que una chica en bikini, que sube su foto a Instagram, yo pueda bajarme dicha foto y quitarle el bikini, y que respete las sombras, respete la textura, respete la iluminación de la foto, y resulta que sea prácticamente perfecto y parezca que realmente tienes una foto de Pepita, Juanita o Joselita, o Pepito, Juanito y Joselito, ¿vale? O Pepite, Juanite y Joselite, lo que te
vuele, ¿vale? Pues sin ropa, pues hombre, ahí entramos en un problema importante. Si luego vamos avanzando, pues resulta que sí, oh, qué divertido, o qué, o no, o resulta que me pone, o no me pone, pues oye, también hay por ahí vídeos de, bueno, pues de actrices, de actrices porno, ¿vale? Que les han cambiado la cara y le han puesto, pues la cara de las sospechosas habituales que siempre les ponen en este tipo de cosas, es decir, pues las más usadas, pues Scarlett Johansson,
la Emma Watson, esta de Harry Potter, o la Daisy Radley, la que era Rey Skywalker, ¿vale? Que ahora vuelve, ¿no? Después de no sé cuántos que se ha anunciado que van a hacer una peli nueva con ella, ¿no? Con el personaje, pues son algunas, Angelina Jolie, o en fin, cualquiera de estas famosas, pues también van a ser algunas de las que van a aparecer, pero ¿y si hago lo mismo con las fotos de una vecina, o de un vecino, o de un vecine? Entonces, ¿qué? ¿Qué sucede? Pues hombre,
pues ya no es tan gracioso, ya no es tan simpático, ya, oye, puede estar rozando, y si de pronto ese vídeo ha quedado guay y yo, en vez de usar un vídeo profesional, uso uno un poquito más amateur y resulta que, o sea, a ver, esto es muy peligroso, por lo que tiene que haber una regulación a ese respecto, porque pueden llegar a hacer muchas cosas.
Ahora mismo, un modelo entrenado sobre lo que hay aquí, sobre lo que tenemos en GPT, si yo a GPT le digo, oye, ¿cómo puedo hackear no sé qué?, GPT te va a decir que no, y no te va a contestar esa pregunta. Pero ¿cuánto tiempo va a faltar para que alguien coja un entrenamiento de un modelo generativo de texto, y le dé todos los documentos que haya de seguridad del mundo mundial, y permita hacer un hack GPT, que permita darte instrucciones precisas, de una forma muy simple y sencilla, de cómo hackear cualquier tipo
de cuenta de correo, cualquier tipo de estrategia de phishing, cualquier tipo de estrategia de aprovechamiento, de vulnerabilidades, de versiones distintas, o darte las instrucciones de cómo usar un Kali para poder, un Kali Linux, ¿vale?, para poder explotar. Es decir, hay mucho peligro detrás de todo esto, porque tantas cosas buenas pueden hacerse como cosas malas, ¿vale?, como digo muchas veces.
Un cuchillo puede servir para cortar carne y comerte un filete, o para untar Filadelfia, pero también puede servir para matar a una persona. Entonces, el instrumento puede ser usado para muchas cosas buenas y muchas cosas malas. Así que habrá que poner, o habrá que intentar poner una regulación. Entonces, ese es el primero de los peligros, que es el peligro más inherente que tenemos a primer nivel, ¿ok? Ahora, el peligro a segundo nivel es el tema de, ¿eso no es una AGI?, porque una AGI, al final, una Inteligencia Artificial General, es algo que
es capaz de hacer más de una cosa a la vez. Es algo que es capaz de hacer, como se supone que GPT-4 hará, pero todavía no tenemos esa capacidad, ¿vale? GPT-4 es capaz de entender imágenes. Es lo que nos dijeron en su momento, ¿vale? GPT-4 va a ser capaz de poder trabajar, de poder ver imágenes, porque nos han dicho que es una Inteligencia Artificial multimodal, que aquí tenemos otro palabra bastante interesante, ¿vale? Entonces, volvemos a una definición.
¿Qué es una Inteligencia Artificial multimodal y qué es una Inteligencia Artificial monomodal, ¿vale? Casi me cuelgo. Una IA monomodal sería, por ejemplo, GPT-3, porque solo es capaz de procesar entradas a través de una única modalidad de dato, en este caso de texto. GPT-3 solo es capaz de procesar entradas de texto y luego puede dar salidas distintas.
Por ejemplo, Mid-Journey, Stable Diffusion o Dalí, tienen también una única entrada. Procesan texto. Yo le doy texto. Y luego, sobre ese texto, él me devuelve una imagen. Perfecto. Entonces, al final está utilizando solo una modalidad. Están diseñadas para trabajar exclusivamente con texto o con imágenes o con audio o con vídeo. Se centran en tareas específicas dentro de su modalidad y no tienen la capacidad de procesar ni integrar información de otras modalidades.
La entrada yo la defino de una sola modalidad y la salida la defino de una sola modalidad. Mid-Journey solo es capaz de devolver imágenes a partir de texto. GPT-3 es capaz de devolver texto a partir de texto. Es monomodal. Pero una IA multimodal, que es lo que se supone que es GPT-4, es un tipo de inteligencia artificial que puede procesar y comprender información de múltiples modalidades al mismo tiempo.
No es una IA que pueda recibir un texto o una imagen. No, es una IA que puede recibir ambos valores como entrada a la vez. No es un switch, es una entrada en paralelo. Por lo que una IA multimodal va a ser capaz de analizar y generar texto, imágenes, audio y vídeo de manera conjunta y coherente. Que yo le pueda decir a una entrada que genere un Keynote donde ha puesto no solo el texto del Keynote, sino también las imágenes.
La salida que me ha dado es un conjunto de imágenes y texto como única salida. Eso es una multimodalidad. Por lo tanto, estos sistemas tienen la capacidad de integrar información de diferentes fuentes y modalidades para mejorar la comprensión y rendimiento en una enorme variedad de tareas. Especialmente útiles en situaciones donde la información proviene de distintos tipos de fuentes y que es necesario combinarla para obtener una comprensión más completa del contexto o resolver problemas que son más complejos.
Por ejemplo, asistentes virtuales que pueden responder a preguntas utilizando texto y audio. O sistemas de recomendación que tienen en cuenta tanto el contenido de texto que yo le doy como imágenes o aplicaciones de análisis de sentimientos que procesan texto y audio o vídeo para identificar emociones y opiniones. Ya hay por ejemplo por ahí una IA que es capaz de procesar a la vez el vídeo de las expresiones en una entrevista y el audio de
lo que está diciendo la persona, además de la transcripción de lo que está diciendo la persona, para con esas tres fuentes identificar un análisis de sentimiento y darte el nivel de concentración, de alegría, de tristeza, de sentimentalidad que está dando esa persona cuando está hablando, si está triste, si está alegre, si está melancólico, si se siente mal, etcétera.
Y todo eso lo consiguen procesando en una única entrada tres tipos de datos distintos. El vídeo de la entrevista, el audio de lo que está diciendo y la transcripción. El audio se procesa porque el audio también tiene un procesamiento para detectar en esa onda de sonido lo que es el predecir que está expresando con la voz.
Si yo estoy hablando con la voz y digo la inteligencia artificial me gusta mucho pues sueno a que estoy triste, a que ustedes identifican que eso es tristeza. Y si digo la inteligencia artificial me mola un montón es súper guay pues también no sólo por lo que digo sino por cómo lo digo estoy dando una intención de lo que es ese tono de voz por lo que el análisis de ese tono de voz también es importante y por supuesto lo que estoy diciendo a través de una transcripción a texto de lo que estoy diciendo por voz para poder procesarlo.
Pero repito una inteligencia artificial monomodal no hace esto es un tipo de inteligencia que se especializa en sólo una cosa, sólo texto, sólo imagen, sólo audio, sólo vídeo en la entrada o en la salida. Mientras que la multimodal procesa y comprende información de múltiples modalidades al mismo tiempo.
¿De acuerdo? Se supone que GPT-4 es multimodal aunque aún no hemos podido probar esa multimodalidad al menos yo en lo que estoy utilizándolo. ¿Por qué? Porque se supone que GPT-4 dicho en su propia página web es más creativa y colaborativa que antes puede generar editar e iterar con usuarios y es mucho más creativa en escritura técnica, tareas, incluso composición de canciones, escritura de guiones o simplemente aprender el estilo de escritura de un usuario.
Pero también tiene entradas visuales. GPT-4 puede aceptar imágenes como entradas y generar subtítulos, clasificaciones o análisis de las imágenes. Yo puedo darle una foto de unos ingredientes, de una foto donde aparece harina, huevos, leche, en fin, mantequilla, etcétera, y él me responde, me dice, uy, puedes hacer muchas cosas con esto.
Algunas posibilidades son hacer tortitas, crepes, tostadas francesas, una tortilla, una quiche, unos cupcakes, unos muffins, en fin, ese tipo de cosas, ¿vale? Entonces te dirá, oh, pues esto es maravilloso. Y ha partido a partir de el reconocimiento de una imagen. Yo no le he dado la información de lo que hay en la imagen, sino que ella ha recibido la imagen como input porque yo le he dicho, mezclando texto e imagen.
Yo no le he dado una imagen para que él me reconozca que en esa imagen hay nata, hay leche, hay huevos y hay harina. No. Yo le he dado la imagen y le he dicho, ¿qué puedo hacer con estos ingredientes? ¿vale? Por lo tanto estoy, repito, mezclando multimodalidad. Estoy dándole un texto y una imagen, por lo que él tiene que reconocer lo que hay en esa imagen y en base a lo que reconoce en esa imagen, procesarlo con el texto que yo le he dado, que es, ¿qué puedo
hacer con estos ingredientes? Para que él me conteste qué puedo hacer. Pues eso, que puedo hacer tortitas, crepes, que puedo hacer quiche, que puedo hacer una tarta, que puedo hacer unos cupcakes, etcétera, etcétera, ¿vale? O unas muffins, ¿de acuerdo? Entonces, en fin, las muffins que son madalenas, básicamente, ¿vale? Tiene el papelito acanalado, ¿no? ¿Qué diría Leo Harlem, no? Pues en ese sentido, ¿vale? Por lo tanto, GPT-4, insisto, es multimodal.
Pero aún no hemos podido acceder, al menos yo, no he podido acceder a esa multimodalidad. Yo no tengo todavía aquí ninguna forma de pasarle imágenes a GPT-4, muy probablemente porque están todavía trabajando en ello. Entonces, algunos se estarán preguntando, ¿quiere decir que una inteligencia artificial multimodal podría llegar a denominarse una AGI, una inteligencia artificial general? Pues, lógicamente, no.
Porque una multimodal sería una característica que debería de tener una AGI, pero no significa que el tener esta característica sea que es una AGI, ¿vale? Una inteligencia artificial multimodal, al final, puede procesar y comprender información, como ya hemos dicho, de múltiples modalidades al mismo tiempo. Pero no significa que tenga la capacidad de realizar cualquier tarea intelectual que un ser humano pueda hacer, que es la característica clave de una AGI.
La principal diferencia entre una IA multimodal y una AGI radica en la amplitud y versatilidad de las tareas que puede realizar. Es decir, una IA multimodal es capaz de combinar información de diferentes fuentes, texto, imágenes, audio, vídeo, mejorar su comprensión y rendimiento en diversas tareas.
Pero su capacidad para llevar a cabo tareas sigue siendo limitada a los dominios en los que ha sido entrenada. Yo, al final, no puedo sacarla de ahí. Si yo entreno para que sea capaz de procesar en una misma entrada texto e imagen, o texto, imagen, vídeo y sonido, pues solo va a poder procesar texto, imagen, vídeo y sonido, o solo va a poder procesar texto e imagen, pero no va a ser capaz de hacer cosas más generales.
Sin embargo, una AGI, que puede realizar cualquier tarea intelectual que un ser humano pudiera hacer, implica que tiene la capacidad de 1. Entender, 2. Aprender y 3. Aplicar conocimientos en una amplia variedad de dominios y adaptarse a nuevos desafíos y situaciones, más allá de simplemente trabajar con diferentes modalidades de información.
Y esta es la clave principal para entender esta diferencia. Porque la IA multimodal procesa información de múltiples modalidades y aborda tareas en diferentes fuentes de información, pero la AGI es capaz de hacerlo sin esa preprogramación, sin esa entrada. Es decir, puede usar lo que quiera y puede aprender cosas nuevas. Es como si yo tengo una IA multimodal que sea capaz de entrar texto e imagen y en su propio entrenamiento la IA aprende a procesar video, algo para la que no había sido entrenado.
De hecho, si yo a una AGI le digo que haga una tarea de procesar videos, lo que se espera que haga esta AGI es que pueda utilizar su capacidad de aprendizaje, una vez ya entrenado, para poder aprender a comprender y a razonar cómo funcionan los videos, cómo se relacionan con otras modalidades de información como el texto y el audio, y cómo aplicar sus conocimientos existentes para abordar tareas relacionadas con el video.
A medida que va adquiriendo más experiencia y más conocimientos, porque requiere de una retroalimentación, cosa que no tiene GPT, requiere de una retroalimentación. Cuanto más experiencia y conocimiento tenga trabajando con videos, la AGI debería mejorar su rendimiento en tareas relacionadas con los videos, de manera similar a cómo un humano aprende y se adapta a nuevas habilidades y conocimientos a través de la experiencia.
Entonces, aunque esta idea puede ser teóricamente posible, actualmente no existe. Porque los modelos de IA actuales, incluidos los multimodales, todavía están limitados a los dominios y tareas específicas para los que han sido entrenados con una entrada concreta, sea una o múltiple, y una salida concreta, sea una o múltiple.
La verdadera creación de una AGI sigue siendo un objetivo a largo plazo dentro de lo que es el desarrollo de la IA, por lo que ya está bien de repetir que GPT puede ser una AGI. Ni de coña. Una AGI tendría que ser aquella capaz de aprender a través del feedback de su propio uso como un ser humano. Yo soy una AGI porque empiezo a trabajar con Final Cut y cuando llevo 10 años trabajando con Final Cut durante todo el día, pues resulta que soy un experto en Final Cut, porque llevo 10 años de experiencia y esa experiencia me ha ido
curtiendo y me ha permitido ir aprendiendo. GPT no es capaz de aprender de su uso. Porque para aprender de su uso habría que estar re-entrenando el modelo de manera continua, un modelo que tuviera una forma de recoger el propio uso. Es decir, todo ese chat que se genera de preguntas y respuestas dentro de GPT tendría que ser automático.
No estoy diciendo que esto ya lo hace OpenAI coger un montón del feedback que tienen. Por eso GPT es gratis. A ver si se han creído ustedes que dejarles usar GPT de forma gratuita durante tanto tiempo ha sido porque Microsoft y OpenAI son hermanitas de la calidad. Ni de coña. Lo que querían eran obviamente sus datos.
Sus datos en cuanto a para qué van a usarlo. Porque la mejor forma de entender cómo funciona y la mejor forma de optimizar estos modelos es viendo cómo lo usa la gente, qué es lo que le pide, qué es lo que para qué se utiliza. Y entonces eso da lugar a las subsiguientes mejoras que, por ejemplo, ahora mismo estamos usando con GPT 4, lo que sería la versión del 23 de marzo del entrenamiento.
En la parte de abajo de chat GPT tenemos siempre la información de la versión que estamos utilizando del modelo entrenado. Pero el sistema no es capaz de aprender. No es capaz de mejorarse a sí mismo. Por lo tanto, GPT es un programa. Es una función a la que le pones un valor de entrada y te da una salida muy compleja, con muchas capas, con mucho funcionamiento. Increíble, maravilloso, único, inigualable.
Yo estoy enamorado de GPT. Cásate conmigo. ¿Vale? Pero no es una inteligencia artificial. No lo es. Ni podrá serlo. Jamás. Hasta que no sea capaz de aprender de sí misma y mejorarse a sí misma con el uso. Y eso a día de hoy GPT no lo hace. Y hasta que no sea absolutamente multimodal. Y hasta que ella misma sea capaz de aprender a añadir nuevas modalidades a su propia multimodalidad para poder procesar cualquier tipo de entrada a la vez.
Entradas para las que no haya sido programada previamente. Porque ahora GPT todo lo que hace, lo hace solo con texto. Nada más que con texto. Aunque GPT4 sea multimodal y admita imágenes y texto, la salida sigue siendo texto. Y por mucho que yo me ponga, por mucho que yo intente, el modelo de GPT siempre va a tener como entrada imagen y o texto, y va a dar como salida texto. O tal vez en algún momento determinado sea capaz de dar como salida no solo texto sino también imágenes.
Es lógico que sea capaz de hacerlo. De hecho hay un proyecto llamado Jarvis que lo que intenta es hacer una multimodalidad que sea capaz de unir distintos elementos de distintas IAs para poder llevarlo más allá. Jarvis es un proyecto que es lo que Microsoft sacó hace unas semanas en el que pretendía mezclar distintos modelos a través de GPT para que GPT pudiera tener salidas de imagen, salidas de música, salidas de sonido, salidas de… En fin, mezclar un montón.
De hecho hicieron una mezcla en la que utilizaron en este caso Stable Diffusion para que yo pudiera tener una unión de distintos modelos. Vale que esto es algo que vamos a empezar a ver. Vamos a ver cómo modelos de texto, modelos de imagen, modelos de vídeo, modelos de sonido, modelos de procesamiento de datos, etc.
se van juntando todos en un mismo elemento y te van dando salidas conjuntas. Por ejemplo, los famosos plugins que tiene GPT que yo todavía no me los han dado. Hola señores de OpenAI, Sanalman, ¿qué tal? Un saludo, gracias por escucharnos. Por favor, yo quiero también probar los plugins. ¿Qué son los plugins de GPT? Pues básicamente ya hemos visto un plugin de GPT que es Bing.
Bing es capaz. ¿Qué es lo que hace Bing? Porque alguno diría, uy, Bing, Bing, Bing, Bing, Bing. Vale, ¿Bing qué es lo que hace? Bing, cuando yo le pregunto cosas en el buscador, lo que está haciendo es hacer búsquedas en Bing. Nada más. Las mismas que harías tú cuando pones una búsqueda normal. Lo que pasa que yo le pido a Bing, de una forma coloquial, algo, una información.
Necesito saber cómo funciona, no sé qué, tal y cual, riquitiqui, paka paka, pakatuki. ¿Y qué es lo que hace? Sobre lo que yo le he pedido de manera conversacional, él recoge las palabras a partir del análisis de los transformers, coge las palabras clave y transforma tu petición coloquial en una búsqueda en Bing a través de palabras clave. Y hace esa búsqueda.
Y esa búsqueda obtiene resultados. Y esos resultados, Bing entra dentro de cada página, procesa como contexto lo que hay en esas páginas y a partir de ese contexto te responde dentro de Bing. Ese es el proceso que hace Bing. Bing no es magia, es un plugin que es capaz de entrar, o sea, es capaz de unir la búsqueda, es capaz de transformar tu petición de forma conversacional a una búsqueda real en un buscador, como la que haríamos en Google, en este caso en Bing.
Y una vez ha dado ese resultado, lo que hace es entrar, descargar cada una de las páginas que han dado las primeras páginas o las 3, 4, 5 páginas que ha podido ver en los primeros resultados que le han parecido que son más acordes a lo que tú estás pidiendo. De hecho, te las da como referencia, con el 1, 2, 3, 4 y 5, te da como subíndices dentro del texto y te da unas referencias debajo de la contestación con los enlaces a esas páginas.
Entonces tú le preguntas y le dices, bueno, ¿cómo puedo utilizar una expresión regular de Swift 5.7? Él busca expresiones regulares Swift 5.7, le sale la página de Paul Hudson, le sale Hacking with Swift y ¿qué hace? Pues entra en la página de Paul Hudson, se coge todo ese HTML más el código fuente que tiene en su página y lo usa como contexto y al procesarlo como contexto, como parte de la conversación, te contesta en base a ese contexto que está viendo.
Y entonces diréis, oh, pues entonces está aprendiendo. No, ni de coña. Cuando tú le das a nueva conversación, se olvida. De hecho, las conversaciones tienen 20 pasos como máximo. Cuando tú llegas a 20 pasos, el sistema te dice, ya no puedes seguir, majo. ¿Por qué? Porque cuanto más grande es una conversación con GPT, pues obviamente más tiempo estás ocupando, más tokens estás ocupando.
La conversación de un solo token de algo sin contexto, simplemente la creación de texto, pues ya está. Pero si yo tengo una conversación con GPT, esa conversación utiliza, como ya hemos dicho en el primer bloque, todo lo que hay por encima de mi conversación para mandarlo como contexto. No es que, oh, mira, se ha acordado que antes le he preguntado quién era Michael Jordan.
No, perdona, no se ha acordado. Es que la respuesta que te está dando nueva está basada en volver a enviar toda la conversación. Cada vez que yo pregunto algo nuevo, cada vez que yo le pido a Bing algo nuevo y me pone 4 de 20, 5 de 20, 6 de 20, cada vez que yo le pido a GPT dentro de una conversación cosas nuevas y se acuerda de lo que le he dicho antes, es porque él recibe toda la puñetera conversación.
Cada vez que tú pones algo nuevo, él recibe toda la conversación para tener el contexto completo. Por lo tanto, no se acuerda, no es inteligente, no está recibiendo siempre el total de la conversación. Y cuando yo le digo nuevo chat o nueva conversación o nuevo topic, ¿vale? Se ha olvidado de todo.
Ya no se acuerda de lo que le preguntaste la otra vez, porque él no se acuerda de nada, porque no es una agi, no tiene capacidad de memorizar, no tiene capacidad de aprender de sí misma, no tiene capacidad de mejorarse con el uso. La única capacidad que puede tener ahora mismo es que todas las conversaciones que hemos creado, todos los millones de personas que estamos utilizando en el día a día a GPT, todo eso va a ser información que podrá ser utilizada para volver a entrenar un nuevo modelo.
Pero ojito cuidado, no todo lo que yo le digo a chat GPT puede servir para ser reentrenada, porque puede ser que yo tenga una discusión con GPT intentando convencerla de que 2 y 2 son 5, que por ahí hay conversaciones de ese tipo, o puede ser que yo haya estado preguntando cosas que son absurdas o cosas que son de, cuéntame un chiste, que también lo hay, ¿vale? Cosas así. O cosas que no le aportan absolutamente nada.
Cosas como que yo le diga, oye, hazme un trabajo sobre la revolución francesa, pum, y te hace el trabajo. Eso, ¿qué aporta al entrenamiento? Una mierda pincha en un palo, pues no lo van a usar. Por lo que toda la información que nosotros estamos enviando, al igual que aquellas, ¿recuerdan aquella famosa polémica de que Apple y Amazon y Google escuchan los audios de lo que yo le pido a las asistentes de voz para mejorarlos, para hacerlos más precisos? Y que eso fue una
polémica muy grande, y que ahora Apple te dice si quieres compartir las grabaciones. Cuando tienes un nuevo, activa Siri, te dice, ¿quieres compartir de forma anónima las grabaciones de las peticiones que hay de tal? Y tú le puedes decir que sí o que no. Pues aquí, entre la política de privacidad que estamos aceptando dentro de ChatGPT, está que todo lo que yo pongo en los chat puede ser visto por personas para validar y mejorar el servicio.
Y alguno dirá, ay, Dios mío, eso es un problema de privacidad, claro, por eso Italia lo ha prohibido. No, ¿vale? Italia lo ha prohibido porque no tienen ni puñetera idea y porque ellos están diciendo, uno, que quieren que ChatGPT ponga un disclaimer de pulsa en aceptar si tienes más de 13 años.
Eh, hola, que se han pensado que la gente es tonta, o cómo es esto. Por poner un disclaimer de dale a aceptar si tienes más de 13 años van a impedir que gente menor use ChatGPT. O sea, ese es el nivel de absurdo, ¿vale? Ese es el nivel de puñetero absurdo al que llegan. Y el otro problema que están poniendo es que, ¿qué permiso le han pedido a los ciudadanos italianos para que usen sus datos personales para entrenar GPT? ¿Cómo que qué permiso? Pero si no han utilizado.
Es decir, piensen ustedes con dos dedos de luces, que es lo que no tiene un político. ¿Para qué necesita GPT datos personales de alguien para mejorar su entrenamiento? Para nada. Necesita información. Los datos con los que se ha entrenado GPT son datos que han sido filtrados y a los que se le han eliminado toda aquella información que no es clave para nadie, como los datos personales que pueda haber en internet.
¿Quiere eso decir que absolutamente no hay ni un solo dato personal en entrenamiento de OpenAI, de GPT? Pues hombre, probablemente sí haya más de uno, más de dos y más de miles, porque en los filtrados de tanta información de 175.000 millones de parámetros, y GPT4 tiene bastantes más, cercano al billón, claro que habrá algún tipo de dato personal. Pero ese dato personal son de elementos que son públicos.
Son cosas que están en la red. Gente que ha decidido ponerlo en la red públicamente, en páginas que no tienen ningún tipo de aceptación de nada, de condiciones de nada. Todo información pública puesta en internet. Por lo que sí, probablemente haya sacado datos personales, pero ya te digo, o sea, el sistema directamente ha eliminado, porque tú ahora le dices, oye dime dónde vive Scarlett Johansson y el sistema te dice que es una IA y que no te puede dar esa información o que no la sabe.
¿De acuerdo? O dime a dónde vive la Georgia Meloni, que me ha prohibido, ¿vale? Pues ni puta, ni idea, ¿vale? Ni idea. Porque esos datos están eliminados del entrenamiento. Entonces, ese es el nivel de absurdez, desconocimiento y miedo a lo nuevo. Porque sí, señores, hay mucho miedo a lo nuevo, porque no se comprende.
Y todo esto que hemos estado comentando va a nivel de por qué quieren que todo esto pare. Porque como no saben realmente lo que hay dentro de GPT, porque como no son capaces, porque es demasiada información, de dibujar el árbol de decisiones que hay dentro de las capas ocultas del entrenamiento de aprendizaje profundo de GPT, ni la 3 ni la 4, porque harían falta miles de personas y varias vidas para ser capaces de documentarlo todo, y porque técnicamente, cuando yo hago un programa, si alguien me pregunta,
oye, ¿por qué esta función devuelve esto? Y yo se lo explico, pues mira, esta función devuelve esto porque recibe este valor, hace esto, hace lo otro, tal, tiquitiquitiqui. Oye, ¿por qué tu aplicación cuando yo pongo en este campo un valor y le doy a este botón me saca este otro valor? Pues porque resulta que hace esto, tal, tal, tal, tal.
A OpenAI le preguntan, oye, ¿por qué cuando yo a OpenAI le digo a GPT, dame no sé qué cosa, me contesta de esta manera que parece casi humano? ¿Y cuál es el problema? Que OpenAI no puede decir, pues porque la función entra y tal, no lo saben. No lo saben porque lo que hay ahí dentro es una caja negra, por eso se llama capas ocultas, porque hay tanta información que no son capaces de entender al 100% cómo funciona GPT-4.
Solamente saben que funciona. Es como la gente que va y copia código de Stack Overflow sin entender que hace ese código, lo pega y como funciona, se olvida. Pues eso es OpenAI multiplicado por no sé cuántos mil millones. Son gente que no es capaz, insisto, no por su propia capacidad, porque sean malos o buenos, no, no, no, no. Es por la propia capacidad humana, es decir, un ser humano no tiene la capacidad de procesar y entender todas y cada una de las decisiones que hay dentro de las capas ocultas de modelos que ocupan gigas, porque el modelo de
GPT-3 ya está, ya lo he comentado antes, el modelo de llama conversacional completo son más de 120 gigas. Imagínense lo que puede ocupar GPT-4. Entonces es imposible poder validar y lo que quieren esta gente es que paremos seis meses, por eso lo de los seis meses, para poder lanzar auditorías que permitan validar, aunque sean auditorías hechas por inteligencia artificial, pero poder lanzar algún tipo de análisis que les explique de una forma clara y concreta por qué GPT contesta
como contesta y muestra la información que muestra y por qué funciona como funciona, porque ahora mismo no tienen 100% claro cómo funciona y cómo es capaz de sólo a partir de la premisa del completado de un texto dar explicaciones o dar texto que simule ser una persona pensante con razonamiento, que esa es la gran confusión, que yo soy el primero, que cuando hablas con GPT te da la impresión de que estás hablando con una persona y esto pasaría completo,
de hecho lo ha pasado el test de Turing completamente, el test de Turing que es la prueba a partir de la cual a partir de un digamos que dividimos, ponemos a una persona y ponemos a una máquina escondidas y ponemos a una persona que tiene que discernir quién le está contestando, si una persona o una máquina, y si no es capaz de distinguirlo entonces es que ha pasado el test de Turing, esto es una prueba de los años 50 creada por Alan Turing, etcétera, que es lo que
llaman el juego de la imitación, que es el nombre de la película. Pues bien, esto lo ha pasado GPT y yo en muchas ocasiones cuando estoy trabajando con GPT y estoy intentando analizar código que incluso es un código que está más allá del entrenamiento que ha tenido GPT, porque son de versiones superiores de SwiftUI, sin embargo cuando le das el suficiente contexto es capaz de entenderlo.
Entonces, ¿cómo es posible, y esa es una de las dudas, cómo es posible que GPT sea capaz de entender un código que va más allá de la versión del tiempo en el que ha sido entrenado? Porque GPT 4 está entrenado con datos hasta diciembre de 2021, por lo que su entrenamiento incluye en mi caso concreto SwiftUI hasta la versión 2, no incluye SwiftUI 3, no incluye SwiftUI 4, por lo tanto no debería entender que son modificadores del tipo, por ejemplo, no debería entender que es un navigation stack, porque es una cosa que está en iOS 16, no debería entender la
última opción de iOS 16.4 que permite cambiar el comportamiento del scroll para que no haga un bounce cuando no hay un scroll pertinente, no debería entender el uso de los de lo que serían los elementos de los detent de presentación que permiten hacer que las distintas capas sean interactivas unas con las otras, todo eso son cosas que pertenecen a iOS 16 o por ejemplo no debería ser capaz de generar los nuevos formateadores de texto de los formadores de fecha
y de números que tenemos los puntos formatted que tenemos en Swift 5.7 y no perdón 5.5 a partir de iOS 15 porque no está entrenado para ello, sin embargo créanme cuando tú le das el contexto con un código más actual es capaz de entenderlo y analizarlo y es capaz de comprender para qué está sirviendo eso sólo con el propio contexto del nombre de la propia llamada por lo tanto no entienden cómo es capaz de dar respuesta a cosas que se escapan más allá de las fechas de su
entrenamiento como es capaz a partir de un contexto repito a partir de un contexto previo porque si no le doy el contexto previo nunca va a saber si yo le pregunto oye qué es el navigation stack en SwiftUI te va a decir no sé qué es eso no estoy entrenado pero si tú le pones un código que lleva el navigation stack y le planteas un problema le dices oye mi navigation stack no está navegando donde yo quiero porque no va aquí tal y cual que es lo que podría estar mal y él es capaz de
analizar ese código que tú le das cuando le das todo el código y entenderlo como lo entendería un humano porque un humano lo que hace es ver un código que es nuevo y a partir de su contexto entender qué es lo que está haciendo aunque no lo conozca aunque sea algo nuevo pues esto lo está haciendo gpt y no saben por qué no entienden por qué esa es la parte que nos está entendiendo y por eso han pedido que se pare durante seis meses para analizar qué es lo que hace por dentro y para
responder a la pregunta de si realmente aunque pensemos que no es así realmente por dentro tiene algo de ají algo de inteligencia general que sea capaz de aprender de sí misma aunque sea con un contexto concreto vale y a ver si hay algo de ají ahí dentro va a ser una semillita una semillita mínima que podría permitir si es capaz de detectar esa semillita generar nuevos entrenamientos de nuevos modelos que se hacen car que se acercarán más a una ají ese es el kit de la cuestión y luego
todo esto podría llegar a y con esto ya vamos terminando a lo que sería el final del camino lo que el o más esti wozniak y toda la gente que ha firmado el manifiesto de chupi kingi que además ya lo firmaron hace tiempo y es uno de los motivos por los que lo más cofundó open y ahí es la así la inteligencia artificial súper inteligente qué es la así es una forma de inteligencia artificial que no sólo tiene la capacidad de realizar cualquier tarea intelectual que un ser humano
pueda hacer que es lo que hace una ají sino que también supera significativamente la inteligencia y habilidades de los humanos en prácticamente todos los aspectos sí ya sé lo que están pensando y si ese sky net una así tendría un conocimiento mucho más profundo una comprensión más amplia de diversos temas que cualquier humano así como la capacidad de aprender adaptarse y mejorar a un ritmo exponencial mucho más rápido que nosotros creando nuevos modulos de entrada y salida a su
voluntad y ser capaz de programarse a sí misma y mejorarse a sí misma de manera exponencial una así podría ser capaz de resolver problemas y abordar desafíos que hoy el ser humano se le escapan a su comprensión y habilidad una así es un concepto que ahora mismo es teórico y que obviamente no se ha logrado y es lo que no quieren que se genere ese es el gran miedo que tienen los gurús de la tecnología que se alcance a este modelo así porque al ese es el problema que esta gente advierte sobre
los riesgos potenciales asociados a este desarrollo como la posibilidad de que una así y aquí ya vamos a algo que puede sonar a ciencia ficción pero bueno hay que ser realista esto no está tan alejado de la ciencia ficción vale sea una así podría llegar a esa conclusión que es la posibilidad de que una inteligencia artificial súper inteligente pueda tomar decisiones o acciones que sean perjudiciales para la humanidad como resultado pues obviamente hay un enfoque creciente en
garantizar que la investigación el desarrollo de la inteligencia artificial sigan siendo seguros y alineados con nuestros intereses con los valores humanos etcétera etcétera etcétera está así es lo que no se quiere llegar a alcanzar porque pues eso estaríamos en el problema pues por ejemplo pues de los que ilonianos o de sky net o de los filons o todas o de las máquinas de matrix etcétera etcétera
máquinas software que decide que el ser humano es prescindible o que el ser humano pues es una plaga como decían en los los filons no que el ser humano era una plaga de cualquier planeta y lo único que hacía era destruir todo lo que pillaba su paso que no les falta parte de razón pero bueno en fin eso sería otra discusión filosófica a tener en cuenta así que poco más nos ha quedado un café bueno este no es un café pero nos ha quedado cargadico no básicamente espero que les haya gustado
y poco más muchísimas gracias como siempre por estar ahí y bueno espero que les haya aclarado más de una duda y sobre todo les haya dejado claro pues bueno la situación actual que es lo que pretende la política y también un poco pues entender sobre todo qué es lo que hay detrás de gpt qué es lo que hay detrás de la actual inteligencia artificial lo que se supone espera en fin todo este tipo de conclusiones a las que hemos llegado y qué bueno espero que les hayan
aclarado más de una cosa para entender de una forma aún más clara la situación actual la cual también les digo que mañana podría cambiar pero bueno por ahora a día 9 de abril del año 2023 la situación es ésta a las 18 y 11 horas porque dentro de un minuto no sabría garantizar que esto siga así así que bueno como siempre pues ya saben que si quieren pueden apoyarnos en nuestro contenido de
varias formas una de ellas a través de nuestro patreon patreon.com barra apple coding donde pueden apoyarnos económicamente para que estos programas puedan ser producidos y pueda sacar tiempo más tiempo para poder realizarlos ya les he comentado que bueno hace dos meses que no hacemos un especial porque pues no ha habido ni tiempo ni ningún tipo de bueno pues para poder prepararlo de una manera y bueno pues si quieren oírme también pueden hacerlo en los podcasts de nebuchadnezar con
dos zetas en cuonda que también estamos con mi compañero y amigo oliver navani y también con arturo ribas en café swift café con dos efes y de igual manera pues en el podcast de apple coding daily aquí pues a nivel general como digo si nos quieren apoyar en patreon.com barra apple coding como nuestros amigos eduardo domínguez antonio jota pérez antonio expósito miguel pérez carasol diego doldán o salvador iglesias a los que agradecemos desde aquí que sigan mes a mes
apoyándonos a través de patreon y por supuesto no podemos olvidar a todos los suscriptores que tenemos en nuestro canal de twitch porque y ahí sí que no fallamos ninguna semana salvo que me ponga malo que hubo una semana que me puse malo y no pude hacer el directo pero el resto de sábados si estoy ahí pueden verme todos los sábados a las 7 de la tarde en nuestro canal de twitch que es completamente gratuito por si aún no se habían enterado de lo que es twitch son directos que
pueden ver todos los sábados hora española a las 7 de la tarde 12 del mediodía hora de méxico distrito federal 10 de la mañana hora del pacífico estándar la hora apple a la hora a la que apple hace todas sus presentaciones pues a esa hora es a la que nosotros emitimos todos los sábados desde twitch.tv barra apple coding y ahí pues charlo con la gente hablo de distintos temas de actualidad la gente me pregunta todo tipo de cosas pues hemos hablado en varias ocasiones de inteligencia
artificial hemos hablado de los últimos lanzamientos la gente me pregunta y que mac me compro y que hago no sé qué y que puedo estudiar de programación y que no sé cuántas mil cosas y la verdad pues que se hace muy entretenido y de hecho pues por ejemplo el último que hicimos el pasado 8 de abril pues duró casi tres horas el directo normalmente los directos suelen durar dos pero ayer por el motivo
que sea pues también porque puse un título bastante click baitero sin darme cuenta vale porque puse prohibamos gpt entonces entró todo el mundo a saco pero bueno estuvimos casi 140 personas y entonces pues la verdad que es de agradecer y twitch como digo es gratuito además si no pueden estar a esa hora pueden verlo posteriormente porque está durante tres semanas o cuatro si no recuerdo mal para verlo offline por lo que pueden entrar en twitch.tv barra
apple coding y ver los directos y bueno pues verlos ya en diferido y luego por supuesto pueden apoyarnos a través de su suscripción pueden hacerlo de dos formas una suscripción con amazon prime que es una suscripción que es gratuita donde solamente tienen que asociar su cuenta de amazon si tienen amazon prime con su cuenta de twitch que en el propio directo viene varias veces cómo hacerlo en el enlace directo y entonces pues de forma gratuita nos pueden apoyar que es como hace la
mayoría de la gente en este sentido y la verdad que se agradece muchísimo y luego también pues pueden apoyarnos incluso económicamente pues pagando una suscripción de distinto nivel como hacen algunos compañeros algunos amigos good apple coders por ejemplo que gente está suscrita con nosotros y nos apoya algunos durante más de dos años que llevan que llevan los directos y que nos siguen apoyando 29 meses algunos 26 24 20 28 o sea una auténtica barbaridad y bueno pues la verdad
que siempre es muy de agradecer como se agradece a nuestros amigos pastinaca caleiro san a nuestro amigo cristo vega que también está ahí suscrito guayabinoso gaje fer 87 de calo 01 mister vallejo y de sinaps carlo per fsl 3121 ibanez 2013 este que decirlo bien tom 1 es un montón de ms también mele móvil dan y def 1 cesar antonio 52 john y john 155 titins cuaero lux arbe y sai de ortega r steel p 73 yo amar es salvaje ese juan fraco zar alemó jamás isma sm tesla lms pp3 home de
csp 6 iban y tú nefine ese frejón federico es 07 y nando 88 parque 96 daniel cruz doc leiner jm formoso ge adrián w doble pericuto charly par fa valia kls 87 y amin nabani padre de nuestro amigo oliver nabani que también está ahí suscrito y además regaló cinco suscripciones ayer que le cayeron a varios de los que he nombrado y que bueno pues oye también te puede caer un regalo de suscripción de otro suscriptor que quiera regalar estas a la comunidad que está conectada
en directo en ese momento con la suscripción pues por supuesto tienen la opción de no escuchar o sea no ver anuncios vale entre otras cosas acceder también a emotes exclusivos del canal vale lo que serían emotes con hitos y dibujitos así chulos y tal que he creado para el canal alguno de ellos pues bastante simpático incluso de crece de ricky y todo y bueno pues ahí estamos todos los sábados así que ya saben todas las vías que tienen de poder seguirnos encontrarnos y estar al día con
esta información y poco más ahora de sí muchísimas gracias por estar ahí muchísimas gracias por apoyarnos por oírnos si les ha gustado el episodio por favor compartanlo en redes sociales mencionen nos como arroba jf munoz o arroba apel barra baja coding vale todavía no ha borrado en lo más a ver en lo más por favor dijiste es que ibas a borrar las cuentas inactivas la cuenta de apel coding está ahí muerta de asco no la ha usado nunca nadie la tiene el chino cudeiro por favor quítasela y
dame la mí gracias en fin pues eso el caso es que estamos en arroba apel barra baja coding y bueno pues ahí también pueden seguirnos y pueden vernos pues también estamos en linkedin linkedin punto con barra in barra jf munoz en fin estamos en todos lados para que puedan seguirnos incluso estamos también en más todo vale pueden encontrarnos en arroba jf munoz arroba más todo un punto social así que bueno pues ahora sí poco más muchísimas gracias como siempre y nos oímos
pronto si jobs quiere recuerden que ya falta muy poco para la wwf apenas menos de dos meses que se va a hacer se van a hacer un poco eternos pero ya estaremos ahí haciendo cositas cositas interesantes antes durante y después ya les iremos diciendo cómo haremos esa cobertura incluso en directo en nuestro canal de twitch así que lo dicho muchísimas gracias un saludo y google apelco gracias por escuchar apelco un podcast perteneciente a la red independiente de
podcast cuonda suscríbete en cuonda punto com barra apelguión código o síguenos en nuestras redes sociales y puedes escuchar más episodios de apelco unín en cuando punto com descubren nuevos podcast en cuando punto com la comunidad de podcast independientes en español