Episodio especial sobre o3, el nuevo modelo de inteligencia artificial de OpenAI, con un invitado de lujo: Guillermo Barbadillo. Una de las pocas personas que sabía de antemano que OpenAI había resuelto ARC-AGI
0:00 Una bomba llamada o3
1:42 Presentando a Guillermo Barbadillo
3:14 Sam Altman llama a Guillermo
5:19 De GPT-4 al nuevo modelo o3
10:53 La competición ARC-AGI
31:51 ¿Estamos llegando a la AGI
34:19 El potencial en la programación
38:42 Aprendizaje por refuerzo y generalización
59:25 Unas reflexiones sobre el futuro
Monos estocásticos es un podcast sobre inteligencia artificial presentado por Antonio Ortiz (@antonello) y Matías S. Zavia (@matiass). Más en monosestocasticos.com
Transcripción
[0:00] Hola a todos los monos estocásticos, junta urgente de vecinos, Antonio.
[0:05] Estamos temblando desde el viernes. Sí, Matías, nos las prometíamos muy felices. Comidas y cenas, polvorones y mantecados tal vez, regalitos, Papá Noel, los reyes. Estaba todo planificado para parar el podcast, pero llegó OpenAI y mandó parar, Mati. Y con razón, y con razón, porque el último de los regalos, el día número 12, es un nuevo modelo, decía una por ahí que ofendió a Sam Alman, cuando sale el Twink en pantalla es que van a presentar algo gordo, y era O3, se salta en el O2, supuestamente porque Payette los llamó y les dijo, oye, ¿cómo que vais a llamarle O2? Y lo que presentan es que directamente nos voló la cabeza por el salto que representa y ahora vamos a intentar explicarlo, además con un invitado de lujo, porque no tiene sentido, Antonio. Sí, hay un momento que es que lo más importante probablemente del año en Inteligencia Artificial pase en las vacaciones de Navidad. Eso tiene su gracia también, ¿no? Porque yo creo que en este episodio tenemos que ser capaces o tenemos que intentar al menos responder a varias preguntas. La primera es, ¿ya no hay muro de la IA? ¿Pasamos del pesimismo a recobrar el hype? ¿Volvemos a ser optimistas con que la inteligencia artificial va a seguir avanzando y dando pasos enormes adelante hacia la inteligencia artificial general? Dos, ¿ha cambiado el mundo para siempre con O3?
[1:31] Es decir, nos acaban de soltar una bomba de efectos nucleares y mientras nosotros ahí comprobando si nos ha tocado la lotería de Navidad, no nos ha tocado, ya la sabe la audiencia. Y bueno, para responder a preguntas difíciles, Mati, qué mejor que recurrir a alguien que no sea ni tuyo y que sepa, bueno, es que es la persona perfecta, se han conjuntado los astros para que probablemente la persona más apropiada con un conocimiento y una experiencia óptimos para
[2:02] el episodio de hoy nos acompañe y generosamente nos vaya a dar su tiempo. Y es Guillermo Barbadillo. Bienvenido, Guillermo.
[2:10] Music.
[2:26] Muchas gracias por tan generosa introducción, Antonio. Tengo que decir que a Guillermo lo conocimos en Navarra, pero resulta que nosotros habíamos hecho como de Celestina con la Cámara de Comercio de Navarra, que había montado el evento, porque Antonio me preguntó en un Monos Estocásticos hace ya bastante tiempo, ¿quién crees que es una de las personas o de dónde crees que es una de las personas que más cerca está de desarrollar una AGI en todo el mundo? Y me dijo, pues es una persona de Pamplona, es una persona de Navarra que se llama Guillermo Barbadillo y fue la verdad un placer conocerte porque venías además de ese reciente tercer premio en la competición ARK, de la cual hablaremos mucho hoy, pero lo primero que quiero preguntarte Guillermo es cómo te quedaste después de que OpenAI presentara a 3 A ver, tengo que decir que yo sabía que OpenAI había resuelto ARK Ojo, exclusiva Es un poco exclusiva pero yo lo sabía porque cuando terminé el concurso, se me ocurrió que quizás podía haber empresas como PNIA y DeepMind, todas estas, a las que les interesaría seguir trabajando para resolver el problema. Entonces, pues nada, le escribí a San Alman y resulta que hace dos semanas me contestó. Yo pensaba que no me iba a contestar porque aparte de Sam, escribía gente, digamos.
[3:52] Con menos galones en la organización y me contestó y hablé con él y me dijo eso me dijo confidencialmente que ellos lo habían resuelto y nada, hablamos un minuto y eso yo me quedé.
[4:06] Un poco chafado porque pensaba que iba a decir, venga Guille, vente a OpenIA y lo resolvemos juntos pero dijo, no, ya lo hemos resuelto ¡Ay! Casi, le llevan un par de meses antes lo mismo, Guillermo Sí, sí, pero bueno de todas maneras no sabía cuándo lo iban a hacer público y sí, fue una sensación a ver, luego hay que poner unos matices pero de momento histórico de ver que, que realmente está sucediendo porque me lo había contado por teléfono pero no había visto números ni nada y yo tuve esa sensación, pero sí que creo que hay que ponerle un poco de nota de escepticismo porque al final.
[4:44] La información que nos han dado es bastante escasa. Nos han dado resultados en algunos benchmarks completos, pero es como una visión muy sesgada, interesada de cómo funciona el modelo. Nos falta un montón más de información de cómo funciona en otras bases de datos y realmente cómo han llegado a conseguir ese resultado, porque realmente de O3, de cómo lo han hecho no sabemos nada, de O1 hay alguna pincelada en el blog post que hicieron hace meses, pero la información está dada a cuenta gotas. Vamos a ir por pasos, Antonio, porque para poner en contexto lo que presentó PNI el viernes, este modelo nuevo O3. Primero, tenemos que recordar a los oyentes que el debate hasta hace tres días era han chocado contra un muro los modelos de inteligencia artificial.
[5:38] Me recuerda la canción esta de Miley Cyrus en la que choca contra un muro con una de estas bolas gigantes columpiándose. Pues eso es lo que acaba de hacer Open AI. Porque al final vamos a hablar también de las tecnologías que hay detrás de esto. Porque era un poco más sencillo explicar esto cuando no existían las familias de modelos O de OpenAI, porque hablábamos de modelos grandes de lenguaje, y habíamos hablado de que OpenAI iba con la delantera con GPT-4, GPT-4O a continuación, que era el que incorporaba más multimodalidad. Pero ¿qué pasa? Que de repente Anthropic, Meta.
[6:16] Google, todos los actores que hay entre las grandes tecnológicas, llegaron a ese nivel GPT-4, que es como el modelo más grande en esa fase de pre-entrenamiento de los modelos de inteligencia artificial, y luego nos introduce en esta nueva tecnología, que son los modelos razonadores, ¿no, Antonio? Sí, claro, los LLM puros son esta generación que tenemos en nuestras manos, que ya tienen mucho desarrollo, que se está integrando en un montón de aplicaciones, que básicamente dominan el lenguaje y tienen esa parte de intuición, respuesta rápida, pero aquí teníamos esa borrasca que tú dices, Mati, por la cual es verdad que a principios de año salió GPT-4O y luego un montón de otras empresas se pusieron a su nivel, pero al mismo tiempo teníamos ese debate de, oye, no aparece ningún otro nuevo gran modelo grande, cada vez se habla menos de GPT-5 y además, las voces desde dentro de la industria llaman a que se está tocando con un muro realmente para esa forma de hacer la IA Porque no tenemos más datos, porque ahí hay cierto contamiento y porque los rendimientos del pre-entrenamiento, es decir, de toda esa parte en la que al sistema inteligencia artificial le damos millones y millones de textos.
[7:33] Imágenes, vídeos, etcétera, pues cada vez da menores rendimientos. Y aunque todavía se puede mejorar algo, los saltos de escala, las cosas mucho más listas, no van a llegar por ahí. Hasta que en septiembre es la propia Opiniai la que nos enseña un camino diferente. Un camino nuevo, como tú bien has dicho, porque en septiembre de 2024 nos presentan O1 Preview. Es decir, empieza en los modelos O y con esta primera versión que podemos tocar descubrimos que el camino que dibuja OpenAI es modelos, entre comillas, más razonadores con la cadena de pensamiento y en el que la nueva mejora, el nuevo crecimiento de la inteligencia artificial ya no está en suministrarle muchísimo más datos.
[8:16] Dedicarle muchísimo más tiempo al pre-entrenamiento, sino que consiste básicamente en que le damos, aparte de cierta mejora, Cambio, otra filosofía en la parte de cómo se hace la inteligencia artificial, que luego saldrá en el capítulo, pero sobre todo más tiempo de inferencia, más tiempo para que se piensen las cosas. Esto nos asombraba porque los modelos O1, desde O1 Preview hasta los que llegarían más tarde, que es el O1 completo que ha llegado en diciembre, el modo Pro que ha llegado a HGPT también en diciembre, el famoso modo Pro de los 200 euros al mes. Bueno, básicamente cada uno de ellos ha demostrado muchísimas mejores capacidades en matemáticas, en programación.
[8:57] En ayuda a la investigación científica, es decir, problemas abstractos, complejos, en el que ya no se trata de esa intuición de dominio del lenguaje, sino que se trata de un pensamiento mucho más sistemático y planeado. Y que bueno, con ellos empezaba un camino que, ojo, no queremos decir que nadie más que OpenAI lo tenga porque el R1 de DeepSig demostró que también se pueden poner al mismo nivel, pero bueno, que básicamente empezaba como una alternativa. Una alternativa de vamos a hacer la IA de una manera diferente, aunque por un lado hayamos tocado con un muro, por este otro tenemos una vía de crecimiento. ¿Cuánto crecimiento? Pues con O3, el lanzamiento de fin de año de OpenAI, pues vamos a tener una piedra de toque sobre hasta dónde puede llegar esta nueva vía en el desarrollo de inteligencia artificial. Claro, y el tema aquí es que, Antonio lo ha dicho bien, en septiembre nos presentan o uno esta nueva forma de responder a nuestras preguntas de la IA, que es con esa cadena de pensamiento, que es ese tiempo que se tira pensando más el aprendizaje por refuerzo, que es ajustar un poco los resultados, pues ayudando a la IA a resolver el problema que estás queriendo resolver, esto ya se había demostrado que a nivel matemático, científico, programación podía dar resultados muy buenos.
[10:15] Sobre todo dándole ese tiempo de inferencia, que es el tiempo que pasa pensando para la respuesta. Lo que no esperábamos es que en tres meses den un salto espectacular de O1 a O3, en el que O3, algunos de los benchmarks más complicados que hay, como ARC, Y aquí está Guillermo. O como las preguntas matemáticas de FrontierMaz, que por lo visto son unas preguntas que los mejores matemáticos del mundo tardan meses y necesitan equipos completos para resolver, pues O3 pasa de un 2% que teníamos con los modelos anteriores a un 25% de aciertos, Antonio. Absolutamente. Y aunque O3 lo cruje en los Vesmart, es decir, en todas esas pruebas que intenta medir el nivel de la inteligencia artificial, aunque O3 ha descoyado en...
[11:03] Todas las que OpenAI nos ha contado. Hay una en la que, claro, necesitamos y queremos centrarnos, que es ARC. Bueno, el nombre oficial es ARC, AGI, y que es un conjunto de pruebas, conjunto de retos, en el que hay también una filosofía muy interesante, porque ha aparecido por aquí varias veces el amigo François Cholet, que es uno de los impulsores del ARC. Y básicamente es el momento de que, Guillermo, nos ayudes un poco a explicar la importancia, pero incluso te diría un paso atrás, porque ¿cómo llegas tú? ¿Cuál es tu trayectoria? Hasta decir, tengo que aplicar a Arc, voy a compartir en Arc, ¿por qué veo Arc tan interesante? Bueno, pues nada, muy brevemente, yo llevo más de 10 años haciendo cosas de IA, he hecho IA en el trabajo, pues en temas de biometría.
[11:59] Verificación de identidad, y por la tarde, pues como me gusta mucho la IA, pues he participado en muchas competiciones que se suelen organizar. Y bueno, pues yo el tema de ARC lo conozco probablemente desde que lanzó un poco el reto Cholet, allá por el 2019. Yo a Cholet lo conocía porque es el autor de la librería Keras, que es bastante usada, ahora quizás un poco en declive frente a PyTorch, pero bueno, es una de las más populares a la hora de hacer cosas con inteligencia artificial. Y Cholet escribió un artículo que se titula La medida de la inteligencia, en el cual trataba un poco de llegar a una definición de qué es la inteligencia y trataba de contraponerlo un poco con qué es lo que había pasado en la IA hasta ahora, en el cual habíamos hecho máquinas para jugar al ajedrez, para jugar al Go e intentar hacer tareas concretas que hacemos las personas. Entonces Cholet lo que dice es que la inteligencia no es habilidad, la inteligencia no es saber jugar al ajedrez, sino poder aprender nuevas habilidades, que eso es lo que hace a una persona inteligente. No es saber jugar al ajedrez, sino poder aprender a jugar al ajedrez y poder hacer ese aprendizaje de una manera eficiente. Con cuantos menos datos, mejor.
[13:21] Cuanto más podamos generalizar lo que hemos aprendido a dominios distintos, pues más inteligentes somos. Y en base un poco a esa definición, él plantea el reto de ARC, que son unos test de inteligencia visuales, en los cuales hasta antes de ayer las personas éramos muy buenos y la inteligencia artificial era muy mala. Pero de repente nos hemos llevado la sorpresa de que O3... Pues lo está haciendo a un nivel muy alto en un test que estaba diseñado específicamente para medir eso, para medir la inteligencia, porque todas las tareas que encontramos en Arc son distintas entre sí. Entonces, si eres capaz de resolver una tarea, significa que tienes una capacidad de adaptarte a la novedad, que puede resolver problemas nuevos que no habías visto en tu entrenamiento. Entonces, Guillermo, hablando concretamente de tu experiencia participando en la competición de ARK, como bien has dicho, es una serie de puzles que, teóricamente, yo siempre digo que a lo mejor nos sorprendemos con la inteligencia del humano medio, eso habría que mirarlo, Soled no sé si lo tiene bien mirado.
[14:36] Pero es una serie de puzles que el humano medio resuelve y la IA no, Y la idea es que si realmente fuera una IA general, es decir, capaz de generalizar este tipo de problemas nuevos que no conoce por los datos de su entrenamiento, pues estamos acercándonos a esa IA. Entonces, ¿cómo tú compites en ARC? Tú tienes que, me imagino, afinar una IA o ¿cómo es el desarrollo que tienes que hacer para resolver este tipo de puzzles? ¿Y qué hiciste tú para llegar a ese tercer puesto? Sí, es un problema completamente abierto y cada persona lo puede afrontar de la manera que le apetezca. La única alimentación es que tú tienes que enviar tu sistema para que lo evalúen y te dan 12 horas con acceso a una máquina con recursos más o menos modestos, con dos GPUs normalitas. Entonces, con esos recursos de cómputo, de hardware, tienes que intentar resolver las 100 tareas secretas de Arc que solo conoce Cholet. Entonces, ese es un poco el único requisito que...
[15:43] Que tienes que cumplir. Dentro de eso, tú puedes hacer la solución que se te ocurra. No hay ninguna limitación respecto a tecnologías, librerías. Tú haces lo que quieras y luego te damos esas 12 horas para que te evalúes y luego te devuelven la puntuación que has conseguido. Entonces, en mi caso, yo lo que hice fue coger un modelo de lenguaje open source de la familia de Kuguen, el modelo más pequeñito que tienen, que son 0,5 billones americanos, porque con los estándares de la IA de hoy es un modelo muy pequeñito, y ese modelo lo reentrené con las tareas que hay públicas del conjunto de Arc. Entonces, si yo enviaba ese modelo tal cual a la competición, pues resolvía únicamente 11 tareas de 100.
[16:38] Pero lo que se descubrió este año es que tú puedes utilizar las tareas secretas para que tu modelo se adapte a ellas, para que aprenda de cuál es la tarea nueva que le estás pidiendo. En vez de dejarlo congelado como funcionan a día a día los modelos pues ChatGPT y todos tú hablas con ChatGPT y ese modelo está congelado no es capaz de adaptarse
[17:02] a lo que le estás pidiendo salvo pues en base al contexto ¿vale? Entonces en base al contexto el modelo resolvía solo 11 tareas pero si le dejábamos que siguiera aprendiendo que se pudiera adaptar a las tareas nuevas pasábamos de resolver 11 a resolver 33 tareas Entonces, un poco ha sido el descubrimiento de esta competición que, pues si cambiamos ese paradigma de modelos congelados a modelos que pueden seguir aprendiendo, que, pues un poquito como las personas, que cuando te enfrentas a un problema nuevo, pues planteas hipótesis, ves cuando te has equivocado y vas actualizando tu conocimiento.
[17:39] Pues haciendo eso mismo con los modelos se daba un salto bastante grande respecto a lo que se había conseguido en ediciones anteriores de este concurso. Entonces, por poner en perspectiva, eso sería una puntuación del 33%, ¿no? Y lo que OpenAI presentó el viernes con O3 fue un resultado para un modo que ellos le llamaron en low, ¿no?
[18:17] Que eso equivale en dinero a unos 20 dólares por tarea, ¿no? En esa inferencia, en ese tiempo de cómputo. Y luego, un 87,5%, corréjeme si me equivoco, creo que esto está por encima de los resultados de una persona, de un ser humano, en el modo de alto consumo, de alto cómputo, en el que gastan ya miles de dólares. Que eso equivale como a más de un millón de dólares para resolver este problema. Entonces, ¿llega esta puntuación? ¿Esto realmente es tan rupturista como parece? Sí, bueno, déjame que algunos apuntes sobre lo que has comentado. Para ponerlo en perspectiva, lo que he comentado del hardware normalillo que te dejan utilizar para participar en el concurso, He calculado el coste y serían unos 8 dólares. 8 dólares hacer los 100 problemas completos. Por lo cual, para ver la diferencia de cómputo entre el de bajo cómputo de OpenAI, pues estamos hablando de órdenes de magnitud y con el otro ya se sale completamente. Y luego el 85% es un límite más o menos arbitrario que se ha puesto para la competición.
[19:31] Cholet lo que dice es que una persona inteligente te va a resolver todos los problemas. Igual se equivoca uno, igual se equivoca dos. Y claro, volviendo a la pregunta que me haces, pues sí, esa predicción del 88% es muy rupturista porque lo que sabíamos hasta ahora, hasta hace muy poquito.
[19:55] Pues o uno preview, que lo habían evaluado recientemente, pues llegaba a resolver, es que hay como dos bases de datos, pero bueno, en una llegaba a resolver el 20%. Entonces, claro, pasar del 20%, Al 88% es un salto enorme. La verdad es que no me lo hubiera esperado.
[20:17] Bueno, Solet tampoco. O sea, ya entiendo que también recibió esa conversación que tuviste tú y que ya estaba avisado, pero también se sorprende de estos resultados y encima en tan poco tiempo desde que sacaron o uno. Sí, sí, sí. Hay un aspecto de todo el debate que se ha generado y sobre el que yo creo que nos va a interesar mucho ser.
[20:37] Aclararlo muy bien, porque además entra un poco en los objetivos de Cholet de medir con este test la capacidad de generalización de la IA. Es decir, parte de lo que plantea y lo que pivota un poco la filosofía del benchmark y de estas pruebas es que, bueno, básicamente Chollet diagnostica los LLMs como máquinas interpoladoras. Es decir, en aquello en que la inteligencia artificial haya sido entrenada dentro del dominio de los datos de entrenamiento, la IA es capaz de solucionar, tener buenos rendimientos, etcétera, pero que básicamente fuera de lo que está dentro de los datos de entrenamiento de los modelos, pues la IA tiene un valor marginal, muy poco y no es capaz de dar buenas soluciones. Entonces, a lo mejor podríamos poner en el vídeo, Mati, algunos de los ejemplos visuales de cómo son estos tests para que se hagan un poco la idea, la audiencia, que nos puede estar viendo en vídeo. Son esos típicos juegos en que tú tienes un dibujo, es un conjunto de píxeles, pensemos en una malla, no sé si son 64x64, pero de píxeles en el que la imagen cambia, siguiendo un patrón, y ese patrón los humanos lo adivinamos muy bien, como ha explicado Guillermo.
[21:55] Pero, claro, parte de la gracia está en que las pruebas son secretas, pero a la vez se ha hablado de que estos datos son, que los resultados de OpenAI son con datos, con retos no tan privados, sino semiprivados. Que a la vez hay como un conjunto de datos de entrenamiento que tú puedes utilizar otros datos privados que son estrictamente los de la prueba que Guillermo y otros competidores han tenido y que esto tiene un carácter un poco diferente que a lo mejor nos podría llevar a moderar el entusiasmo de que no se han enfrentado a problemas 100% nuevos, esa parte nos la puedes aclarar un poco Guillermo. Sí, tienes toda la razón, por una parte está el conjunto privado original al cual no se le puede dar acceso a OpenAI y a otras compañías porque se quiere que sea secreto.
[22:45] Si tú dejas que la API de OpenAI acceda a esos datos, al final esos datos llegan a los servidores de OpenAI y se los podría quedar y usarlos luego para resolver. Entonces, los del concurso oficial son secretos y OpenAI no se han usado para esta evaluación que vemos aquí. Entonces, claro, cuando se relanzó este concurso este año, pues lógicamente había gente que quería saber cómo funcionaban los modelos de lenguaje en esta prueba. Entonces, de primeras, se utilizaron parte de los datos públicos para hacer esa evaluación. Pero ahí, pues claro, tienes la incógnita de esos datos son públicos, el modelo es posible que los haya visto en su entrenamiento y pues no tienes una certeza de... No puedes asignar un valor a los resultados que tengan en esos datos. Te tienes que fiar de la buena fe de las empresas.
[23:44] Entonces, aparte, se hizo un nuevo conjunto que es el semiprivado, del cual yo no tengo mucha información. Me imagino que son otras 100 tareas que haría Cholet, pero no lo puedo saber. Y ese conjunto semiprivado ya se ha evaluado varias veces por OpenAI, por Antropic. Entonces, son datos que en teoría sí que son secretos, pero que habían estado ya anteriormente en los servidores de OpenAI. Por lo que, si te quieres sumar un poco a teorías de la conspiración, pues...
[24:22] Hay una cosa chulísima que tiene Matías ahora en pantalla que es uno de los ejemplos en los que O3 falla, que en este ejemplo me dirán yo un buen rato, y en el fondo me tengo que poner un poco a ver Matías, tú cómo lo piensas un poco del lado de la IA es decir, para quien solo nos oiga, voy a intentar hacer una descripción en su cinta de lo que está pasando, es de nuevo, esa malla de píxeles de distintos colores en el que hay un, bueno, aparentemente fondo negro, muchos píxeles negros, algunos rectángulos de grupos de píxeles rojos y en los bordes, en los píxeles finales, a veces aparecen en la misma fila o en la misma columna píxeles azules.
[25:04] ¿Cómo es la evolución del dibujo de esta malla tal como la he presentado? ¿A qué debería evolucionar? Pues el patrón humanamente, muy claro, se adivina de que aquellas filas y Y aquellas columnas que se pueden intuir que formarían, aquellas filas y columnas que tienen al final písiles azules, dibujarían unas líneas imaginarias que si atraviesan alguno de los rectángulos rojos, esos rectángulos rojos y las líneas se pintarían de azul en la imagen final. Ese es un poco el patrón. Pero pasa una cosa muy curiosa. ¿Por qué se equivoca la inteligencia artificial con este caso? Porque aquellos rectángulos rojos que si bien no son atravesados por una línea azul pero sí son rozados por una línea azul él también los transforma en azules ¿cuál es el problema? Que en los ejemplos en ningún caso había una línea azul rozando un rectángulo rojo por lo tanto era un caso no presente en los ejemplos dados y que podría estar abierto a interpretación la interpretación humana intuitiva A lo mejor Guillermo no está de acuerdo conmigo, pero intuitivamente no lo pintaría de azul, no lo cambiaría porque no he visto ningún ejemplo de cambio. Y el por defecto humano es, no hay cambio si no hay una razón del cambio, pero para la IA puede ser un caso que no estaba en los ejemplos y es abierto a la interpretación. Entonces, incluso en los fallos es discutible porque hay cierta ambigüedad. Hay un matiz importante.
[26:33] Es cierto que hay esta ambigüedad.
[26:35] Realmente hay dos ambigüedades en esa tarea, porque también, si te fijas, en el lateral hay dos píxeles azules, por lo cual estaría también la ambigüedad de si tienes que unir esos dos píxeles azules entre sí, o si solo los tienes que unir cuando están en lados distintos. El problema es esa doble ambigüedad. Pero, asumiendo que solo hubiera una ambigüedad, en ARC te permiten hacer dos.
[27:02] Predicciones, entonces tú podrías hacer una predicción con la interpretación 1 y otra predicción con la interpretación 2, con lo cual se resolvería el problema si no hubiera esa segunda ambigüedad en este caso que ya no te permitiría tener certeza de que vas a acertar este caso, probablemente habría que retocar Sí, bueno, es que es el caso que más se ha puesto de ejemplo de una de las 34 cuatro tareas que falla o tres, como, ojo, que esto los humanos lo resolvemos fácil. Y se ha visto que no, porque de hecho alguien ha hecho una encuesta y mucha gente tampoco da con la respuesta correcta, que sería que ese cuadrado rojo se tendría que pintar de azul. Además, Antonio y yo esto lo sabemos del bench press en el crossfit, porque en el bench press es un ejercicio muy íntimo, porque tu pareja tiene que estar vigilándote la barra. Entonces, la parte de la cabeza, de la cara de Antonio, si él está sentado en la banca.
[27:58] Roza todo el tiempo con mi parte pélvica y rozar, rozar no significa más que rozar, no significa que ese cuadrado azul haya que pintarlo de Antonio y ahora somos algo más que amigos no sé. Hombre, yo creo que con el bed prep, si van a salir las verdades si van a salir las verdades tengo que decir que tú empiezas a hacer la técnica de la competidora de halterofilia que yo vi en las olimpiadas que es el truco que usa Matías para levantar más peso que es estirar los brazos al máximo en la barra con lo máximo que le dé para tener que levantarla menos centímetros de altura.
[28:33] Entonces, ahí hay un ahorro de energía, es como 1-3 optimizado, ¿no? Que ahí busca el máximo performance, pero con el mínimo gasto. Y ahí hay que decir, Mati, que es verdad que tú estás a un nivel superior. Vamos a decir las cosas como son, pero que a lo mejor algún jurado de algún benchmark de levantamiento de pre-banca podría decir, bueno, está usando una técnica un poco ahí, rozando el límite, como los datos de entrenamiento o contenidos, los datos de ver más contenidos en los datos de entrenamiento. Podría sospecharse algo. Al final, todo esto se trata de optimizar, Antonio, porque el O3 no lo podemos usar ninguno y no podríamos usarlo si estuviera disponible a su precio actual, porque no podríamos pagarlo. Entonces, se trata de ir optimizando este tipo de técnicas para que los modelos nuevos nos vayan llegando a los que pagamos 20 dólares al mes. Hombre, yo esto de que sean 16 horas para resolver tarea, ¿no?
[29:30] Es un tema, ¿no? Es decir, 16 horas dejando pensar al modelo. Para la prueba del 3 en raya que fallaba el O1 Pro, es una paciencia, ¿no? El que le toca probar estas cosas antes de salir, ¿no? Que claro, tú eres San Alman, vas a la presentación, jiji, jaja, pero el que hace es 16 horas jugando cada movimiento del 3 en raya, ¿eh? Te puedes hacer viejo con eso. Bueno, la conclusión a la que llego en esta sección del episodio es que Guillermo, ARC Price, la competición de ARC, ARC Agile, no está superada todavía, pero se está saturando al fin y al cabo hay que buscar nuevos problemas para
[30:07] que sea de nuevo un reto para estos modelos. Sí la competición oficial que es la que tiene los recursos mucho más limitados va a continuar y además porque el objetivo es que la solución sea de código abierto y OpenAI no nos ha contado nada de cómo lo han conseguido, entonces esa va a continuar, pero sí que es cierto que durante el anuncio de estos resultados pues se comentó que OpenAI va a estar colaborando con los creadores de ARK.
[30:38] Para hacer una segunda versión y también una tercera, que intente hacerlo más complicado, y Cholet ha publicado ya que han debido evaluar algunos de los ejemplos de esa versión 2 de la competición, y que en ese caso la precisión bajaría al 30%, ¿vale? Pero no sabemos cuál es la diferencia entre la versión 1 del test con la versión 2, entonces es la información que hay, pero sí que parece que van a colaborar de alguna manera para que OpenAI siga teniendo este tipo de pruebas que son fáciles para las personas y difíciles para la inteligencia artificial. Bueno, hay que decir que realmente ARC, aunque sea el centro de nuestro capítulo, no es el único benchmark en el que se ha fijado PNI y han publicado básicamente un montón más, como el Frontier Math que ha dicho Matías, pero muchos más, los típicos de los exámenes de matemáticas de Estados Unidos.
[31:51] La competición de programación del que hablaremos luego. El caso claro en todos los test superas los 90% da como unos resultados que en, Que claro, visto desde fuera y desde lejos, empieza uno a pensar, bueno, si esto medía la inteligencia y ya estamos por encima del 90% en casi todo, pues se ha tenido que conseguir. Si ARC tenía AGI en el nombre y estamos en el 87, pues tenemos que estar muy cerca de conseguir la AGI, ¿no? Es, a lo mejor, una manera un poco simplista, pero que tal vez nos dice más de la problemática de medir la inteligencia y la problemática de los Bettsman estandarizados que de realmente el nivel de inteligencia respecto a los humanos que puede tener O3 o cualquiera de estos sistemas. El caso es que, por lo que tú planteas, Guillermo, o por lo que planteas Soledt, básicamente lo que tenemos detectado con O3 no es tanto la mayor cercanía a la AGI, que es otro debate que podemos abordar luego, sino que básicamente las pruebas de inteligencia artificial se han saturado y necesitamos otras pruebas o más difíciles o más complejas o con otro enfoque o realmente ya la utilidad de cada una de ellas, en el que todo el mundo llega a los 90%, es como las notas de la EVAU, que todo el mundo saca supernotas y tiene que ir aumentando por otro lado.
[33:16] Bueno, yo no sé si estoy tan de acuerdo, Antonio. A mí no me parece que han publicado muchos benchmarks.
[33:23] Aquí contándolos a ojo, creo que son siete más el de ARC. Y yo, por ejemplo, he hecho en falta benchmarks más clásicos de problemas de matemáticas del instituto o de nivel de universidad porque pudiera darse el caso, no lo sabemos porque no los han publicado.
[33:43] Que fuera un modelo que de repente te resuelve el 25% de esos problemas de Frontier Math que son dificilísimos, que cuestan un montón de días y luego le das los problemas del instituto. Y que se queden en el 95%. Entonces, eso que puede ser, no lo sabemos, sería bastante curioso. Que no llegara a resolver el 100% de problemas fáciles y fuera capaz de resolver problemas muy, muy difíciles. Pero no tenemos esa información todavía. Supongo que la darán dentro de unos meses cuando se empiece a probar. Por ahora hay gente flipando con que pueda resolver problemas difíciles. Por ejemplo, los programadores, los mejores programadores del mundo que tienen su puntuación en Code Forces, ahora mismo con 2.727 puntos o 3 estaría al nivel del programador número 175 del mundo. O sea, todos los de arriba me imagino que cobran, no sé, medio millón de dólares al año. ¿Cuánto les puede pagar sus empresas? Pues a lo mejor con invertir ese medio millón en 1,3, pues ya lo tienen, ¿no? Y una persona que puede trabajar 24,7.
[34:55] Bueno, otro que se lo tomó con mucha calma, de hecho lo compartí en Twitter porque me hizo mucha gracia, fue Matt Mostak, que es el ex CEO de Stability AI, los de Stable Diffusion, que dijo mi opinión sobre 3, la economía global está jodida, necesitamos un nuevo marco económico y social. Entonces la gente no se lo tomó con calma, Guillermo.
[35:15] Sí, sí, sí, sí. Bueno, no sé, en la parte de programación ¿cómo lo ves? Porque es el sector que yo he visto, pero supongo porque es el único que un viernes por la tarde estaba viendo la presentación de tres, estábamos viendo la presentación de tres podcasters y programadores. ¿Cómo ves que de repente la gente ahí, pues bueno, un poco ya preocupada, preocupada de verdad en el mundo del desarrollo? Yo la verdad no me preocupa y me fijo en el campo de la edición de imágenes o edición de vídeo Al final, aunque vayan saliendo herramientas como Dalí o Flux o Sora, si tú quieres tener un resultado bueno, necesitas tener esa visión artística que te aporta un profesional y que yo no tengo. Por ejemplo, yo puedo coger Sora y hago un vídeo se lo mando a mis amigos y muy bien, pero cuando tú quieres resultados profesionales es mucho mejor.
[36:18] Contratar a una persona que tenga ese talento y que use las herramientas mucho mejor que yo, que hacer el trabajo yo mismo, porque yo al final sé hacer mejor otras cosas, al final eso es la economía, especializarnos cada uno en lo que mejor hacemos, y con la programación pues yo creo que pasará lo mismo conforme vayan saliendo estas herramientas que cada vez programen mejor pues los programadores podríamos hacer proyectos cada vez más ambiciosos, pero.
[36:47] Yo creo que es, igual me equivoco, pero yo creo que siempre va a haber una persona experta en el dominio que vaya a hacer esos proyectos. O sea, creo que esa es la mejor combinación posible. Va a haber cosas puntuales que igual, pues sí, te las puede resolver. Es una cosa muy sencillita. Seguro que te la va a resolver. Como ahora, pues yo pido la imagen y la tengo, si es para una chorra. Pero cuando quieres algo profesional, yo creo que eso no va a cambiar. Es mi opinión. Bueno, ahí Mati, tengo que felicitarte entonces por este diagnóstico, porque la gente que conoce las carátulas de YouTube de monos estocásticos ve que el punto artístico, esa creatividad out of the box, esos momentos inesperados y únicos, lo consigues básicamente tú en ese plasmar espíritu completo del episodio, en una imagen, sin abusar del típico recurso de YouTuber, de poner un careto grande con una expresividad entre molesta y sorprendida, que es un género que yo odio especialmente, mis 10 es aquí Matías, porque de los dos está claro que eres el que está más protegido de la IA por tu creatividad, Bueno, yo siempre digo que es por limitación técnica, ¿no? Yo no sé hacer grandes miniaturas de YouTube, entonces por eso sale eso.
[38:02] Mi skill set, ¿no? Se habla del skill set de la IA porque al final mucha gente está diciendo que, bueno, que esto son 16 horas buscando cuál es el skill que necesita o cuál es la capacidad que necesita la IA para resolver un puzzle en concreto. Y hay gente que quita, resta importancia a la cadena de pensamiento o a escalar el tiempo de inferencia de la IA por eso mismo. Al final, con lo que dice Guillermo, hará falta gente que entienda dónde ha fallado la IA en esas 16 horas, meterse ahí en toda esa cadena de razonamiento a ver dónde está el error, porque lo demás no lo vamos a entender. Bueno, hay una parte que, bueno, tenemos que jugar un poco casi como si fuera un ejercicio del ArtPrize porque como OpenAI nos ha contado tan poco de cómo están hechos estos modelos, estamos nosotros también rellenando los huecos y buscando los patrones. Y claro, con otra vez estos resultados, es verdad que yo ese día estaba de nuevo, en el hype, estaba otra vez diciendo cómo nos están cayendo la boca, esto es impresionante de repente.
[39:16] Tengo pendiente de escribir en el error que viento y creo que lo voy a titular algo así que cómo podemos anticipar un mundo en el que una inteligencia artificial hace cualquier tarea intelectual mejor que tú que de repente tengamos que mirar eso y que eso primero existe y nos recoloca en nuestra posición en el mundo y por otro lado cambia y afecta a todas las industrias de la creatividad del conocimiento. Entonces, bueno, estaba yo ya con esos pensamientos, pero creo que en los propios diagnósticos de Cholet es posible que encontremos.
[39:51] Cierto límite o cierta llamada a la moderación del entusiasmo con O3. Y es que bueno, algo que sí sabemos aunque no con demasiada concreción, es que la gran, entre comillas, innovación de los O3 respecto a los LLMs típicos, GPT-4 de la vida, era el uso de aprendizaje por refuerzo. ¿No? Lo que Cholet llama muchas veces, no, esto lo que están haciendo es.
[40:20] Buscar de una forma un poco más sofisticada en el espacio de soluciones y que ya sabemos que el aprendizaje por refuerzo es Todo lo que nos da y también un poco las limitaciones que ha tenido siempre. En todo lo que nos da, pues vemos los resultados de O3. Y hay una cosa que podemos recordar de nuestro episodio del aprendizaje por refuerzo, que es una de sus grandes problemáticas. Es decir, con el proceso de refuerzo tenemos una función y dejamos que, de alguna manera, la IA a la hora de aprender a maximizar esa función, ese objetivo, explore de una manera casi aleatoria hay muchas técnicas para optimizar todo esto, pero básicamente es en los juegos y en los videojuegos donde más rápido se veía que el aprendizaje por refuerzo era buenísimo cuando el ajedrez, luego cuando, Digmine tuvo aquella fabulosa innovación de juntar las redes neurales con el aprendizaje por refuerzo con AlphaGo, todo el desarrollo que se hizo del aprendizaje por refuerzo con los juegos de Atari y de arcade ese era uno de los retos como tienes una puntuación, eso es lo que tienes que maximizar aprende a jugar tú solo y eso también TeamMind dio un salto enorme y que hay muchas.
[41:34] Tareas en que el aprendizaje por esfuerzo nos ha demostrado que funciona muy bien de hecho la gran innovación de OpenAI de este año podría ser decirnos que.
[41:44] En el razonamiento con el lenguaje, que es un problema bastante más abierto que jugar al ajedrez pues hay un uso potente y válido. Pero fíjate, Guillermo, yo lo puedo conectar incluso con lo que tú decías antes. El gran problema del principio de refuerzo es que una IA que aprende a jugar a la jadrez y a maximizar esa función no sabe jugar a un juego de Atari y la del juego de Atari no sabe manejar un robot que se mueva por una casa y llega a un destino. Es decir, cada función es de su padre, de su madre y esos aprendizajes que hace una máquina están muy constreñidos al proceso de entrenamiento, lo que les hemos dicho que tienen que hacer bien. Y claro, algo muy llamativo con O1 que sucedía está relacionado con lo que tú decías antes. O1 era tan bueno en matemáticas, en codificación, igual que O3 ahora es súper mejor que O1, pero era peor en el lenguaje, digamos en la calidad de la conversación cuando se medía cómo es percibida por humanos. Es otro tipo de medición de la calidad de la inteligencia oficial, resultaba peor que GPT 4.0, 4.0 vale, ¿a dónde quiero llegar? A que y si este O3, que es tan excelente en matemáticas, tan excelente en codificación y tan excelente en.
[43:06] Las pruebas de ARC, no va a ser capaz de generalizar fuera de eso porque en este aprendizaje por refuerzo digamos que.
[43:17] Está súper optimizado para matemáticas, codificación y juegos mentales como ARK. Y de alguna manera el muro de final de 2025 va a venir a ser oye, es que al final, aunque hace estas cosas excelentes, no consigue generalizar. Y aunque haga bien ARK, los juegos visuales con patrones.
[43:42] No hay una transferencia de ese modo de razonar a otra forma de razonar. Es decir, la pregunta, que no sé si tenemos siquiera la posibilidad de decir algo ahora mismo, ¿no? Es, crees tú, Guillermo, que ARC puede ser una buena pista para esa transferencia del razonamiento para una suerte de generalización o puede ser, bueno, dentro de un hallazgo que realmente muestra un comportamiento inteligente de la máquina y eso yo creo que es ineludible, pero que podemos estar siendo, entre comillas, confundidos y pensar que hay más generalización, que hay más transferencia, que de verdad ahí están los patrones de razonamiento aprendidos y lo que realmente no es eso, es que hay muy buen aprendizaje profundo, tan complejo y tan grande, que en esas tareas es excepcional, pero como tú decías antes, puede ser que saquemos otras tareas menos optimizadas y de repente se fumen.
[44:49] Rendimientos espectaculares. Me ha gustado mucho como has explicado por incidir un poquito en lo del aprendizaje por refuerzo y el muro y todo eso al final lo que ha pasado es hasta ahora los modelos de lenguaje los estamos entrenando para imitar, entonces poniendo la analogía de un juego de conducir, pues le daríamos como hemos hecho nosotros la vuelta rápida y simplemente imita pues cuando estás en este punto del circuito gira así, ¿vale? Entonces, ¿qué pasa? que si tú entrenas un agente solo a imitar el agente funciona bien siempre y cuando esté en la parte buena del circuito, pero en cuanto te sales un poco como tú solo le has enseñado la trayectoria buena, no sabe continuar y ahora con el aprendizaje por refuerzo pues estamos.
[45:37] Usando los datos de manera distinta, le damos el circuito y le decimos, venga, hazlo lo más rápido posible y le damos esa capacidad de aprovechar mucho mejor la información que no simplemente copiar. Y es un poco la impresión que me dio a mí es que cuando salió uno, se había quedado un poco a medias. Era todavía medio modelo de lenguaje, seguía teniendo alucinaciones, pero O3 está claro que ha desarrollado mucho mejor ese criterio de saber si una cosa es correcta o no, que un modelo de lenguaje no la tiene. Tu modelo de lenguaje le pides que resuelva un problema de matemáticas, te lo resuelve bien y dices, revísalo a ver si lo ha resuelto bien y de repente lo revisa y entonces te lo pone de manera equivocada. No tiene esa noción de esto es correcto, esto no. Pero O3 sí que ha aprendido pues cuáles son las estrategias buenas de razonamiento, ha aprendido a saber cuándo un camino es bueno, cuándo un camino es malo, cuándo cambiar de dirección y ese conocimiento parece que sí que lo ha adquirido muy bien. Entonces, claro, esto.
[46:39] Estas técnicas se pueden aplicar siempre y cuando tú puedas definir una puntuación o un resultado correcto o incorrecto. Pero como comentabas, pues hay campos, por ejemplo la literatura, escribir un cuento, un libro, que ahí es algo subjetivo. Realmente no podemos puntuarlo de una manera objetivamente y ahí da la impresión de que esto no se va a poder aplicar, me parece a mí.
[47:13] Yo es que escuchándote, Guillermo, me gustaría saber tu opinión porque una cosa que nos ha pasado a Antonio y a mí es que es cierto que era viernes por la noche, vísperas de la semana de Navidad, mucha gente se iba de vacaciones, ya estaba el mundo pensando, ya estaba la gente en España pensando en el coro de Navidad y en qué iba a cocinar para la noche buena. Pero esto es un modelo primitivo en comparación con lo que veremos en los próximos años, si la tendencia es la misma que la de estos últimos años. Entonces, yo me imagino una civilización alienígena con su esfera de Dyson, no tiene ningún tipo de problemas energéticos, pues tienen un modelo, el O50244, y pueden resolver todos los problemas de la ciencia, todos los problemas matemáticos. Entonces, nosotros acabamos de abrir una puerta a esto. ¿No debería estar el mundo corriendo en círculos? Porque yo me siento corriendo en círculos desde el viernes. ¿Tú no te sientes así? No sé, es que al final el futuro nadie sabe lo que va a pasar. Cholet, creo que habéis comentado en Twitter que pensaba que iban a pasar años y bueno, realmente el concurso oficial todavía no está resuelto, pero sí que se ha visto que hay una manera de resolverlo.
[48:40] Muy eficiente al usar los datos pero muy poco eficiente en cómputo pero es una manera y eso ya es información que seguro que va a ayudar ¿lo que van a venir los próximos meses? Pues no lo sé pero sí que yo tengo esa sensación de que.
[48:58] Si tomamos un poco los datos con cautela por toda esa información que no tenemos pero asumimos que las cosas se han hecho bien pues está claro que lo que anunciaron el viernes es un poco una noticia que lo cambia todo, que vemos que ese muro que había habido hasta el momento por simplemente entrenar los modelos para imitar, de repente con el aprendizaje por refuerzo se puede saltar y la ventaja del aprendizaje por refuerzo es que simplemente.
[49:27] Metiendo más cómputo metiendo más tiempo de entrenamiento los modelos van a seguir mejorando entonces, ¿a dónde lleva esto? Pues yo creo que no lo sabe nadie pero seguro que va a ser interesante de También es cierto que estamos, los comunicadores, la gente de los medios, estamos un poco a la saga y no nos gusta comprar el hype porque hay un marketing detrás de OpenAI y de todas las grandes empresas tecnológicas, no nos gusta comprar inmediatamente el hype. Me imagino que eso fue lo que le pasó al Wall Street Journal, que esto lo comentó Samal Mané en Twitter, que horas después de publicar o de, bueno, anunciar o tres y presentar los resultados de los benchmarks, pues publican un reportaje, el próximo gran salto de la IA se está retrasando y es muy costoso, ¿no? Costoso además en todos los sentidos, porque siempre a los medios nos gusta recordar que esto cuesta mucho a nivel energético y a nivel de consumo de agua para refrigerar los data centers. Pero, desde luego, desacertado el titular, ya lo tendrían escrito, imagino.
[50:32] Es que es verdad, cuando trabajas en medio y tienes un artículo que has trabajado un montón, tal, tal, y sale algo que lo puedes mentir un poco, pero no del todo, da coraje. Da coraje decir, ¿ahora qué hago? ¿Lo tiro a la basura porque han salido tres, bueno, para adelante, ¿no? Pasa que es verdad que Sam, es que es un mal ladino el tío, ¿no? Bueno, no nos vamos a meter con Sam, que es colega de Guillermo, Mati. Aquí, a realidad, tenemos que... Estamos a dos saltos de Sam Alma. ¿Te estás dando cuentas, Mati? Estamos en que el podcast está prosperando. Pero claro, es que también es verdad que nadie ha hecho un modelo gigante como se esperaba, ¿no? Es decir, ni Anthropic, ni OpenIA y han hecho el modelo gigantesco que esperábamos. Y será un tema a tratar al principio de 2025 porque lo que me está llegando a mí, sobre todo lo que se ha filtrado y ha publicado la gente de los investigadores de seguridad de Cloud es que, aparte de no tener rendimientos mucho mejores.
[51:28] Tienen muchísimo más problemas de fine tuneo, Es decir, de conseguir doblar, de conseguir lobotomizar, pero bueno, más o menos las salidas del modelo de inteligencia artificial hacia el comportamiento que el fabricante quiere. De todas maneras, puede ser que haya una vía bastante optimista para GPT-5, que lo vimos en el paper de Yama 3. Es decir, si el problema son la falta de contenidos y datos para entrenar estos modelos, hay una parte que usaron en Yama 3 que era bastante interesante a la hora de usar datos sintéticos. ¿Cuál es el problema fundamental de los datos sintéticos? En que si un LLM es una compresión de internet, vamos a hacer ese trazo grueso, ¿vale? Yo cojo internet y cuando llama el 80 bilión ocupa 100 gigas, pues es que lo han comprimido, ¿no? Básicamente, es una compresión con pérdida, ¿no? Claro, si a la salida de una compresión con pérdida yo se la vuelvo a enchufar para aprender.
[52:38] Pues no va a haber información nueva por definición, porque estoy cogiendo la salida de un sistema que ha comprimido la formación original. A lo mejor conceptualmente puede ser el problema del dato sintético. Claro, cuando los sistemas razonadores, tipo O3 o O1, y era algo que también practicó Meta con Llama 3.
[52:58] Te generan salidas de tantísima calidad que no son estrictamente súper novedosas, pero sí son de un nivel realmente muy alto como soluciones a la entrada y la salida. Eso sí es un dato sintético de la suficiente calidad como para volver a entrenar a la IA. Y por lo tanto tienes una vía de escape del problema del combustible fósil, que diría Schusskever, de la inteligencia artificial y a lo mejor, curiosamente, la vía de los razonadores, la vía de los optimistas, puede ser la que permita un GPT-5, digamos, de una naturaleza o de un nivel sensiblemente mejor que la generación de los cuatro, ¿no? Sí, leí hace muy poquito un artículo en el cual comentaba que justo una cosa curiosa que había pasado en este año 2024 era que los modelos se habían encogido, porque cuando salió GPT-4, lo que se ha rumoreado es que tenía más o menos 2 trillones de parámetros y lo que se estima que tiene ahora GPT-4O son 200 billones, o sea, 10 veces menos.
[54:06] Entonces, claro, esas noticias que suelen salir del coste de la inteligencia está bajando un montón, Pues en parte es gracias a que OpenAI está consiguiendo resultados parecidos o igual mejores con un modelo que es 10 veces más pequeño, lo cual es mucho más fácil de servir y de una manera más barata. Eso respecto al tamaño de los modelos y luego lo que comentabas de los datos sintéticos.
[54:32] También hace muy poco, yo creo que fue la semana pasada, Microsoft tiene una familia de modelos que se llama Fi, pues sacaron el modelo 4, el Fi 4. Y realmente el meollo de todo lo que habían hecho es explotar los datos sintéticos. Y su razonamiento era que a veces en los datos naturales, por ejemplo, cuando tú tienes un problema de matemáticas y la solución, pues a veces te puede pasar que te dan el resultado del problema y luego te explican cómo lo han hecho. Entonces para el modelo de lenguaje, ese orden no es el óptimo porque tiene que predecir el resultado antes de saber cómo se ha hecho tú puedes usar un modelo que ya has entrenado para que le das esos datos y dices ordenalos de tal manera que primero me explicas el razonamiento y luego llegamos al resultado entonces FI4 básicamente era la misma arquitectura exactamente que FI3 pero con muchos más datos sintéticos y con eso llegaban a superar en matemáticas, creo que de nivel de instituto.
[55:44] A GPT-4O, que era entre comillas el profesor, el modelo que habían utilizado para generar esos datos sintéticos. Es un modelo mucho más pequeñito porque solo tiene 14 billones, pero es muy interesante eso, cómo han encontrado una manera inteligente de generar y entrenar con esos datos sintéticos que permite superar al maestro con un modelo mucho más pequeño. Qué interesante, qué interesante, porque de costes es donde tenemos que a lo mejor pararnos un poco, porque Matías lo comentaba antes, el coste de ejecutar O3 en tiempo, computación y por tanto dinero. Es absolutamente, bueno, te explota la cabeza, ¿no? Es decir, si para resolver un pool necesitamos gastarnos 3.000 dólares.
[56:29] Bueno, estamos en un escenario, ¿no, Mati? ¿Cuál era el premio principal del premio de ARK? Sí, sí, ya habéis con los demás.
[56:39] El premio era un millón de dólares, sí. Un millón. Bueno, pues no les salió rentable resolver ARK con O3 porque fue lo que se gastaron. Es cierto que en enero lo que recibimos, lo que vamos a recibir es O3 Mini, y digo vamos entre comillas, porque yo creo que esto en el plus no lo vamos ni a oler, esto es de echar GPT Pro para arriba, y de hecho se lleva rumoreando tanto tiempo que aunque van a tener un nuevo plan de pago de 2.000 dólares al mes, que bueno, yo estoy temblando ya. Pero la cuestión, y tiene relación con lo que comentaba Guillermo, es que aunque O3 Mini en low, como dicen ellos, en bajo consumo de computación, pues no sea tanta la diferencia con los modelos O1, sobre todo con O1 Mini habría que compararlo, sí que baja muchísimo el tiempo de inferencia o la latencia de O3 Mini porque tiene esa cadena de razonamiento mucho más eficiente. En el caso de O3 que de O1. Entonces yo creo que por ahí nos puede salir rentable pasarnos a un O3 mini, sobre todo a los desarrolladores a través de la API. Pero esto tiene pinta, Guillermo, de que va a ser muy caro el O3, ¿no? Sí, pero ahí has estado con un punto interesante, que ahora todas estas cadenas de pensamiento tan largas que hace falta resolver, que hace falta hacer para resolver ARK, pues en cierta manera vienen dadas por.
[58:08] Porque el modelo todavía no es muy bueno. Pero conforme eso vaya evolucionando, lo normal será pensar que va a ir por el camino bueno de una manera mucho más directa, no va a dar 40.000 rodeos. Entonces, esa mejora cualitativa debería traducirse al final en una mejora de costes para el usuario, porque no va a estar 16 horas, sino minutos para resolver el mismo problema de una manera mucho más directa y eficiente. Y eso seguro que lo iremos viendo. Bueno, yo quiero acabar el año con muy optimistas. Es decir, hay un punto en el que a lo mejor somos un poco flipados. A mí me ha pasado como a Matías, ¿no? Que yo el sábado, después de la presentación a Penny Hay, tenía invitados en casa. Venía un montón de gente a comer, muy diversa, tal, tal, tal. Y nadie, nadie estaba hablando de esto, ¿no? Vino por primera vez una chica húngara, pareja de un buen amigo. Y, claro, como le tocó a mi lado un rato, pues ya, claro, la tenía cautiva. Entonces dije, esta es la mía.
[59:17] ¿Ha oído usted hablar de la iglesia de OpenAI y el advenimiento de la AGI?
[59:22] Y ahí ya le tuve media hora hasta que alguien vino a rescatarla. Es verdad que yo creo que hay razones para ser optimista, sobre todo porque salimos de ese bloqueo, de ese sinsabor, de que 2024 se podía quedar un poco a medias, de explosión del hype, de hablar más del muro que de lo chulo que va a ser GPT-5 y que de alguna manera estamos en una vía muy buena y bueno, no quiero dejar la oportunidad, Guillermo, de preguntarte un poco también de tus expectativas del año que viene de hacia dónde vamos porque si O3 es tan bueno es un buen paso en el camino hacia la AGI, es decir incluso entendiendo ese camino como el que planteaba.
[1:00:03] OpenAI, que era bueno, tenemos las conversaciones la IA conversadora, la planificadora, que serían los modelos O, sobre la que construyeremos los agentes y la IA innovadora. De hecho, yo ahí tengo la gran duda de que esa IA innovadora, que tiene que ser capaz de generalizar, de transferir y de pensar, entre comillas, siempre decimos pensar, fuera del dominio de sus datos de entrenamiento, ¿tú crees que estamos en ese camino? Que realmente eres de los que dice, hay un tiempo cotado en años para llegar a una inteligencia a nivel humano, ¿tú nos ves ahí? A ver, me repito, pero con toda la cautela, porque nos falta mucha información, sí que creo que el paso que se ha dado es muy importante, es la primera vez que se resuelve.
[1:00:51] Un problema como ARC, que está específicamente diseñado para medir la inteligencia y ahora de momento no vemos un nuevo muro. Es posible que lo haya, seguramente lo habrá, Pero de momento no se ve. Parece que la carretera está despejada y a mí lo que me gustaría ver es en 2025 una solución open source. Por ejemplo, Meta con Yama, que entrenen un modelo en esta misma línea y que nos den todos los detalles para poder aprender un poco todos de ello, que al final es lo interesante, no solo en conseguir el resultado, sino en contar, cómo se llega a él. Yo creo, Antonio, que podemos cerrar con el momento más incómodo de, la presentación, que entiendo que fue una broma espero que fuera una broma que es este, que es cuando... Next year we're going to bring you on and you're going to have to ask the model to improve it. Yeah, let's ask the model to improve it next time.
[1:02:02] Bueno, que es cuando un ingeniero de OpenAI dice que, bueno, no sería una locura que pudiéramos pedirle al modelo que se siguiera mejorando a sí mismo y lo hiciera, y entonces Samalman lo corta y le dice, bueno, maybe not. Maybe not, maybe not. Claro, es que este estilo amateur sin jefe de comunicación que controla hasta el último pelo de la presentación tiene sus ventajas para nosotros, porque nos deja ver... Este momento súper incómodo de ingenieros de OpenAI que no van a ascender en mucho tiempo.
[1:02:39] Claro, a lo mejor, claro, esto lo hace antes de negociar el bonus del año y la evolución y la has cagado. Esto es un mal asunto. No, pero es que, claro, tú lo piensas y claro, todos los que han hablado hasta ahora de la IA se automejora es porque, claro, he usado la IA para asistirme al código, para programar la nueva IA. es todo muy...
[1:02:59] Pensábamos en Terminator, pensábamos en otra cosa. Pero, claro, un modelo O3 puede escribir el código, se le den permisos para un entorno de ejecución, acceso a su data lake, todo su dato de entrenamiento, etc. Claro, tiene razón el ingeniero de opinión. Guillermo, ¿no es descabellado teóricamente o tú ves que hay demasiadas... No, a ver, teóricamente no, pero la impresión que da desde afuera es que La limitación no es tanto el código o las ideas, sino el hardware, el cómputo. Si le dieras a O3 las llaves para hacer O4... Pues tampoco, o sea, no sé qué cosa se le podría ocurrir como para dar un salto respecto a los investigadores que tiene OpenAI a día de hoy. O sea, no parece que el limitante sea ese, sino pues eso, la energía, el cómputo que hace falta para entrenar esto. Y ahí, por ejemplo, le llega a la cabeza XEY, que se supone que ahora mismo tienen el clúster más grande del mundo y que estaban entrenando también Grog 3. Eso va a ser interesante el año que viene. Yo me quedo con la sensación de que mejor decirle a mi hijo, aprenda a desatacar toallitas de las cañerías porque lo de la ingeniería de software...
[1:04:27] No está tan claro ahora.
[1:04:32] Bueno, yo me voy muy optimista del episodio. Te tengo que dar un montón la gracia, Guillermo. Ha sido un placer tenerte. Ha pasado muy bien. Que nos enseñes tanto y que, bueno, yo creo que ojalá el año que viene podamos seguir hablando de que esta vía ha tirado para adelante y que hay más inteligencia en el mundo. Yo siempre soy optimista de que si hay más inteligencia en el mundo, en general nos va a ir mejor. Eso yo creo que podemos mantenerlo. Pues nada, Guillermo, espero que te lo hayas pasado bien. Nosotros, ojalá, volvamos a tenerte aquí para decir, mira, Guillermo ha ganado el premio 2025 de Arkhaji, y no Sam Alma. Intentaremos. Bueno, pues chao, amics.
[1:05:14] Music.