La industria musical acaba con la carrera de Matías Analizamos a fondo o3 y o4-mini Los nuevos modelos en los benchmarks Más baratos, pero no tan baratos o3 es un agente de IA Razonamiento visual para detectar penes Hay un nuevo campeón de GeoGuessr "Esto es AGI" ¿Cómo 33? Menudos invents suelta o3 Puerta grande o enfermería Canción resumen
00:00 /1h23

una montaña rusa de emociones:

🙉 flipamos con el razonamiento visual de o3 y o4-mini

🙈 lo que OpenAI no dijo de sus capacidades agénticas

🙊 y de lo mucho que alucinan

https://www.monosestocasticos.com/

0:00 La industria musical acaba con la carrera de Matías

7:37 Analizamos a fondo o3 y o4-mini

18:35 Los nuevos modelos en los benchmarks

21:50 Más baratos, pero no mucho

25:20 o3 es un agente de IA

39:41 Razonamiento visual para detectar penes

45:08 Hay un nuevo campeón de GeoGuessr

48:59 "Esto es AGI"

52:30 ¿Cómo 33?

57:38 Menudos invents suelta o3

1:09:41 Puerta grande o enfermería

1:21:00 Canción resumen

monos estocásticos es un podcast sobre inteligencia artificial presentado por Antonio Ortiz (@antonello) y Matías S. Zavia (@matiass). Sacamos un episodio nuevo cada jueves. Puedes seguirnos en YouTube, LinkedIn y X. Más enlaces en cuonda.com/monos-estocasticos/links

Publicado: 24 abril 2025

Transcripción


Hola a todos los monos estocásticos, el podcast de inteligencia artificial que escuchan los cardenales, que forman parte del cónclave para elegir al nuevo papa. Antonio, ¿qué tal?

Hola, Matías, un episodio más, y además creo que tenías ganas de contarnos tus desventuras como neocreador con inteligencia artificial.

Estoy muy enfadado, pero al mismo tiempo soy muy consciente, sobre todo he oído vítores en mi familia y gente cercana que me quiere, que la gente ya estaba un poco quemada de que todo mi contenido se centrase en música generada con inteligencia artificial. Claro. Pero tengo que decir que si esto ha tenido un final abrupto, no es porque yo así lo haya decidido, sino porque me han expulsado. No sé exactamente quién, a lo mejor las grandes discográficas, Universal, Sony, ¿no? Pero escribí, después de grabar el último episodio de Monos Estocásticos, un email a el soporte de Distro Kid.

Algunos oyentes, a lo mejor, no saben que tú querías lanzar un disco, que aprovechaste esta herramienta de DistroKid, y que lo que te has encontrado son las negativas, la cancelación absoluta y total en todas las plataformas de tus de tu obra magna, ¿no? De tu primera gran trabajo.

Además, mira, con qué desfachatez me, básicamente, me dan una patada en el culo y me sacan por la puerta de atrás. Dice Anastasia, de Distro Kit, de soporte de Distro Kit, dice, desafortunadamente, las tiendas no van a aceptar ninguna ningún lanzamiento por tu parte, y DistroKid no puede hacer nada, somos un mero intermediario, vas a tener que ir a otro distribuidor de música. O sea, estoy vetado ya para siempre por parte de las tiendas y, en consecuencia, por parte de DistroKid, Pero fíjate, yo les digo, bueno, entonces me me reembolsaréis los veinte euros que pagué, ¿no? Porque si nunca he subido música ni voy a poder subirla a partir de ahora,

pues

a ese email no contestaron nunca. Que va seis días ahí.

Anastasia, la cantante esa de de pop estadounidense, que era así como muy muy intensa y tal, y ahora está ahí gestionando tu cuenta, ¿Qué vueltas da la vida?

Sí, sí, yo yo imagino que es ella, ahí termina de escribirme el email y se pone a tocar en el piano así muy intensamente. Pero bueno, lo que te digo, noté, a diferencia de lo que yo esperaba, que era, pues, un respaldo, un, ¿cómo estás, Matías? Pues noté la alegría de mis familiares y la alegría de gente que que ya estaba harta de de que subiera contenido muy centrado en la música.

Claro.

Y parece que soy un, al fin y al cabo, una rara avis, porque en monos, en Twitter, en monos Podcast, tuiteamos que, según Dizer, cada día se suben a esta plataforma de música más de veinte mil canciones generadas con inteligencia artificial. Y esto se se viene doblando con respecto a los últimos cuatro meses. ¿Qué pasa con la mía? ¿Por qué han rechazado la mía?

Por supuesto, yo también me voy a abonar a la teoría de la mano negra. Es decir, aquí las cosas no encajan, Matías, y es bastante probable que que las discográficas, temerosas del de que se pueda derribar su chiringuito, hayan irrumpido ahí con una labor censora, quién sabe, quizás incluso con sobornos. Y ese camino, pues, sabedado, el sistema está contra ti. Entonces, yo creo que tienes dos dos vías. Una, mantenerte en la línea de ilustrar musicalmente el podcast con tu aparición final, es primero con SAP, luego con Bachata, y fíjate, al final estás en Spotify, estás en YouTube, pero estás fuera de los focos de las capacidad de detección de de estas big tech aliadas con la con la gran corporación musical.

Por lo tanto, por ahí puedes ir creciendo de una manera inadvertida. Y luego, yo te invitaría a reflexionar una cosa. Tú te estás adscribiendo a un género del siglo veinte, ¿no? De la canción pop, intentando entrar en ese en esa industria musical por los métodos convencionales de hoy en día, ¿no? La plataforma musicales, ¿no?

Dishtorkee, pero hay gente que está reventando el sistema y intentando entrar con sus creaciones, pero, pues, fuera totalmente de los métodos usuales, y ahí están irrumpiendo con letras tan potentes y obras generadas con Ia tan magníficas como Tratralero, Trala la, Tun Tun Tun, y otros éxitos como Tussini, Tussineri. Matías, ahí estamos viendo un un nuevo mundo de creación con Ia, que no se escribe al género clásico, sino que simplemente aprovecha la nueva tecnología para inventar un género nuevo.

Aquí, la verdad, es que no sé si ha fallado algo en mi estudio de mercado, si no supe ver la oportunidad con lo del tralarero o tragalá, o simplemente soy un polla vieja de la música generada con inteligencia artificial. Soy una especie de de Santi Balmes, de lobos lesbianas, o la canción Coral esta de Leiva, que aparecieron un montón de músicos de la vieja escuela indie de España mientras competían con el Tiny Desk de Bad Bunny, que evidentemente el Tiny Desk de Bad Bunny, pues, tuvo más repercusión. Entonces, igual soy esa generación de músicos de inteligencia artificial que se ha quedado simplemente desfasada a un montón.

Entre esa intervención en la revuelta, ahí, Amará, Iván Ferreiro, Leiva, toda esta gente, Y trasladero, trasladad, yo me quedo con lo segundo. Tengo que decírselo. Creo que hay que derribar ese pseudoindie que consiste en que son canciones pop un poco lastimosas hechas para una gran discográfica, ya de indie no no tienen realmente nada, que son absolutamente el mainstream, y y que, básicamente, sirven como una especie de pseudo distintivo de clase para millennials. Yo creo que es eso eso tiene que descarrilar de una vez por todas, tiene que explotar esa burbuja y tenemos que abrazarlo nuevo. El siglo veintiuno, Matías, la creación, la inteligencia artificial, en parte.

Vea, ya la veo ahí, por supuesto, que, aunque comentamos todas esas cosas, era recordar a nuestra audiencia que siempre sentimos un enorme respeto para los creadores musicales genuinos y su labor, y que, bueno, digamos, siempre abogaremos porque la inteligencia artificial sea esté a su servicio como genios creativos.

Nada más que añadir. Bueno, iba a decir que igual la mezcla tampoco funciona porque el disco homenaje de los planetas con todos estos grupos nuevos tampoco me ha gustado mucho. Pero vamos con los modelos de la semana, vamos con O tres y O cuatro mini.

Matías, hoy te propongo un episodio un poco diferente. En lugar de tocar varios palos, de entrar en muchos temas, casi te diría que mis últimos días con la inteligencia artificial no hemos tenido mucho tiempo, ha sido Semana Santa, han pasado cosas, yo las he centrado en leer, investigar, probar y analizar los nuevos modelos de OpenEye. Entonces, casi te invitaría, aunque dejemos muchas noticias fuera de del episodio, a que profundicemos mucho en ellos, porque creo que tienen la clave, tienen en sí mismos el la profecía de lo que va a ser la inteligencia artificial en dos mil veinticinco, y además invitaría a la audiencia en este viaje de profundización que vamos a hacer, vamos a ir a fondo con O tres y O cuatro mini, que se queden hasta el final, que se queden en todo el análisis de estos modelos porque va a ser una auténtica montaña rusa del hype, la emoción, lo extraordinario y luego lo no tan fantástico. Recopilamos, si te parece, de dónde vinimos, aunque nuestra audiencia ya se la sabe muy bien, es habitual, pero bueno, para para viene bien recapitular con con estos modelos.

Sí, además, una queja habitual es que el selector de modelos de chat GPT, de OpenAI, es cada vez más complicado, poco a poco lo van a ir simplificando, y buena muestra de esto es que los nuevos modelos sustituyen a dos de los antiguos. Tenemos los modelos grandes de lenguaje, los LLM puros o o base, que nos quedan en el selector de modelo GPT cuatro O, al que le puedes añadir las tareas programadas, estos que te bombardean emails para recordarte cosas. GPT cuatro punto cinco, que está en vista previa, que le hemos dado bastantes palos porque no nos encanta, también sería un modelo base. GPT cuatro punto uno, que solo está disponible a través de la API para desarrolladores, y luego estaban los razonadores, que es en el terreno al que vamos a entrar hoy, que empezó con O uno y O tres mini, que acaban de ser sustituidos por O tres y O cuatro mini.

Justo ayer tuvimos que hablar de inteligencia artificial con una persona normal, ¿vale? Una persona que tiene su vida, hace sus cosas y, de vez en cuando, pues dice, necesito una herramienta como ChatGPT para hacer algo. Esta persona normal explicarle el mundo de los modelos de inteligencia artificial es es un follón. ¿Cómo le dices a alguien que, oye, si tú tienes por ahí GPT cuatro O mini, ten en cuenta que es mucho peor que O cuatro mini, ¿cómo? ¿Por qué?

¿Para qué sirve cada uno? Es, bueno, es es una tarea pendiente de de todas las empresas de inteligencia artificial, digamos, simplificar un poco su propuesta, pero en el momento en que estamos de competencia, de lanzamiento de modelos semanales, llevamos un mes y medio absolutamente loco con las herramientas de DeepSync, con lanzamientos de Google Gemini, con los modelos JAMA, con estos de OpenAI. Es decir, es un no parar de de salidas y, bueno, por lo menos vamos a intentar explicar un poco que que la línea que abordamos hoy, que son los modelos o tres y cuatro mini, como has explicado, sigue la línea de los modelos razonadores. Es decir, aquellos en los que, además de tener el modelo grande de lenguaje de base, se añade un entrenamiento que, básicamente, o típicamente se basa en aprendizaje por refuerzo, como hemos explicado en profundidad en algún capítulo, y que esto hace que los modelos gasten más tiempo de, se llama más tiempo de inferencia, hacen más tiempo cuando ejecutan, cuando les pedimos una tarea, y que ese tiempo, que podríamos decir de una manera un poco antropomórfica que se pasan pensando, les lleva a mejores soluciones, mejores respuestas, especialmente, casi exclusivamente, ¿no?

En ámbitos en los que estos razonamientos, estos son son importantes, como pueden ser las tareas de programación, las tareas matemáticas o la ayuda y el soporte en la investigación científica. ¿Eso qué tenemos? Pues, tú las explicas muy bien. Tenemos O tres, que es el modelo con el que OpenEye, hace apenas unos mesecitos, nos hacía arquear la ceja, porque era el primero que tenía unos resultados muy buenos en un conjunto de pruebas que se llaman el Arkagi, te digo, un episodio específicamente sobre ello, y esto nos hacía vislumbrar que O tres iba a ser un gran paso adelante de la inteligencia artificial. Bueno, lo que tenemos por fin es el O tres, aunque aquí hay que matizar, habrá un O tres Pro dentro de unas semanas.

O tres Pro nos nos muestra las diferencias que hay también en los tamaños y los tiempos de ejecución de estos modelos. Vamos a explicar. Tenemos o tres y o cuatro. ¿Qué nos dice el numerito? Nos dice cuándo se ha entrenado el modelo.

Cuanto mayor sea el número, es un modelo que se ha entrenado más recientemente, que el o cuatro es un modelo más nuevo que el o tres. Pero cuando añaden un un adjetivo, ¿no? Ese ese pro, ese mini, ese high, nos están indicando cómo de grande es el modelo y cuánto tiempo le dejan ejecutarse. Es decir, si ahora mismo podemos elegir como usuarios de pago de chat GPT entre O tres y O cuatro mini, pues tenemos ahí una doble información, el O cuatro mini es es más nuevo, pero al llevar el el el subfijo mini, nos está dedicando también que es más pequeño. Y si es mini high, aunque parezca una contradicción en términos, significa que sigue sin ser tan grande como o tres, este, o cuatro mini high, pero es algo más grande que O cuatro mini.

Por si hacía falta algo más de complicación, pues OpenIye no no la no la regala.

Sí. Y me acabo de dar cuenta también, por el primer comentario que hay en YouTube, a la presentación que hicieron en Open AI, que ahora tenemos GPT cuatro O y el O cuatro, ¿no? Que da la sensación de que simplemente le han dado la vuelta, pero son dos paradigmas y dos arquitecturas completamente diferentes, y el O cuatro, pues una cosa que todavía no tenemos y que va a ser muy superior al cuatro O, ¿no? Están teniendo un poco de dificultades para hacer entender a la gente qué ventajas tiene cada modelo, y lo entiendo, ¿no? Esto va a acabar en la fusión de todos en una sola caja de chats y luego ya se encarga internamente de llamar al modelo que sea.

Hay algo que tenemos que señalar que el propio Sanal me reconocía, que este lanzamiento ha sido un poco a contrapié. Es decir, que la decisión de ofrecer o tres o cuatro mini o cuatro mini hites, que eso lo tenemos ahora a nuestra disposición, fue un cambio de estrategia, porque el plan inicial era lanzar GPT cinco. GPT cinco, y lo hemos explicado alguna vez, vendrá a ser la fusión de estas dos familias de modelos. Es decir, de los modelos GPT clásicos, tú lo has explicado muy bien, son los que son un modelo grande de lenguaje, entrenado con muchos datos, con muchos textos, con muchos vídeos, muchos fotos, etcétera, y que nos responde muy directamente, y la familia de los o o modelos razonadores que tienen ese tipo de inferencia, etcétera, y son capaces de darnos mejores respuestas en algunos contextos y en algunos ámbitos. Entonces, esa fusión llegará, será GPT cinco.

Creo que ahí será cuando aprovechen para simplificar este desorden actual de de la de la herramienta de chat GPT. Y, como hemos dicho, los modelos O son muy exigentes computacionalmente, ¿sí? Demandan mucho, eso es coste para OpenAI, y, por lo tanto, están bastante limitados, incluso cuando somos usuarios de pago, Matías.

Sí, si eres ya suscriptor de ChatGPT Plus, que me consta que mucha gente se dio de alta con lo de Studio Ghibli para generar imágenes y luego con lo de las figuritas, los muñequitos basados en tu cara, pues ya tienes acceso tanto a O tres como a O cuatro mini y O cuatro mini high, con las siguientes restricciones. Cincuenta mensajes a la semana solamente, con o tres, que es el modelo más potente, ciento cincuenta mensajes al día con o cuatro mini, y cincuenta mensajes al día con o cuatro mini high.

Sí. De hecho, esta misma métrica nos refleja todo lo que hemos comentado antes, el tamaño de modelo y el tiempo que le dejan inferir, es decir, pensar, es decir, tiempo de ejecución, que es tiempo de costes en las granjas de servidores de GPUs de OpenEye. Entonces, para probar O3 que, te digo que ser sincero, es en el que me he centrado, este es el grande, este es el bueno, este es el que viene a cambiarlo todo, el gran paso adelante. Yo en mis pruebas esta esta semana me he centrado en él, jugando al límite, porque hay que seleccionar muy bien las pruebas que le mando, porque después de un tiempo en la suscripción Pro de OpenEye me volví a la a la plus, ya hemos explicado en algún episodio, estoy más usando más Gemini, y de eso vamos a hablar, no de Gemini, perdón, sino de del rendimiento y de lo que nos ha ofrecido O tres, que es muy interesante. ¿Cómo ha presentado OpenEye el modelo?

Pues, nos ha dicho varias cosas. Nos ha dicho que esto es el frontier modem, de los modelos frontera, los que están a lo último de lo último, los que ofrecen el mejor nivel en programación, codificación, en matemáticas, en ciencia, en percepción visual y en algunas tareas más, ¿no? Esa esta eficacia en tareas visuales, ¿no? El análisis de imágenes, de tabla, de gráficos, de la semántica de los que hay en esa imagen, en trabajar con ella, Es algo que además han asociado y han vinculado también mucho a los O cuatro, Mini y Mini Hyde. Dicen algo importante que luego tendremos que discutir, dice que cometen menos errores importantes que, o uno en tareas difíciles del mundo real, que aquí hablo mucho de la programación, que sigue mejor las instrucciones, que da respuestas más útiles, que navega en la web.

Ahora, ahora hablaremos de eso porque es probablemente no la navegación en la web, sino el la faceta agéntica de O3 lo más extraordinario que tiene y que es más conversacional, porque los modelos razonadores, algo que llama la atención, es que eran casi un poquito peor que los GPT, los modelos grandes de lenguajes puros, a la hora de tener una conversación fluida y de de parecer y de controlar el lenguaje natural. Y nos han bombardeado con un montón de benchmark. OpenAI hace una cosa que, bueno, entiendo que la gente de comunicación de OpenAI lo ha decidido así, que es que cuando nos presenta el modelo, nos da un montón de de pésma, de resultados del modelo en distintos tests públicos, etcétera. Y hace dos cosas que son un poco tricky y que nos hace trabajar mucho a los analistas y divulgadores de IA, que son, no te voy a dar los resultados de los demás comparados con la competencia, es decir, lo que te hace OpenEye en su página y en su comunicación oficial, solo tiene números de modelos de OpenEye, es respecto a Gemini, no sale como respecto a Cloud Andthroping, no sale como es respecto a Grog, Llama, DeepSig, cualquier otro.

Y segundo, el la, ahora mismo solo nos ha metido comparativa entre los modelos razonadores, O uno, y este nuevo O tres. No sé si hace falta mencionarlo, pero el O dos no existió por culpa de un problema de marcas, O dos es la operadora que pertenece al grupo Telefónica y a Javier Tebas, y, por lo tanto, no no podían usar la la, editaron usar O dos para no llamar un modelo inteligente. Pero, claro, la gente se ha ido a los resultados de los benchmark y los ha comparado con la competencia. Matías.

Pues primero satura casi todos los benchmarks que se suelen mencionar, y luego parece que O tres se coloca encima de absolutamente todos los modelos, vuelve Open AI a tener liderazgo que le habían ido quitando entre Claude, entre Gemini. Y respecto a Gemini dos punto cinco Pro, que es el modelo que más estábamos usando últimamente y a mí personalmente el que más me ayuda en mis tareas diarias, parece que se vuelve a colocar OpenAI por encima en todo, menos, curiosamente, en una de las novedades más fuertes de estos modelos, que es el entendimiento de la visión de las imágenes, que al final una de las grandes novedades de estos modelos es el hecho de que pueda, de forma multimodal, pasar a su cadena de pensamiento y razonar sobre las imágenes que les que le estás enviando, ¿no?

¿No? Sí. Has dicho un punto clave, es decir, yo creo que estamos con Otres disponible, básicamente, porque, de alguna manera, en el sector y en la industria hay un interés descomunal por ser el que tiene los mejores números en los pagewatch. El el el poder comunicar este este éxito, este posicionamiento, esto, estar arriba en las tablas comparativas, es muy importante para las empresas de inteligencia artificial, se ha convertido en una señal de prestigio, y ninguna quiere perder ese vagón de ser el modelo de moda, el modelo del que hablamos, ahora estoy usando esto, y nosotros somos un reflejo de de este de esta tendencia, de esta problemática, porque por primera vez en mucho tiempo estábamos hablando, oye, usamos más un modelo de la competencia y no de de OpenEI. Cosas interesantes que los benchmark propios de OpenEI y de externo nos están demostrando y que creo que son muy interesantes.

Lo que estamos viendo con O tres es que, de alguna manera, sigue habiendo escala. Es decir, si vemos los saltos desde o uno a o tres, el entrenar más, el hacer el el el modelo más grande y dar este tiempo de inferencia extra, nos está dando mejores resultados en los best-by. Es decir, no se toca techo a la hora de obtener resultados, y el tiempo de en los modelos razonadores de tanto de entrenamiento, curiosamente, como de de inferencia, está permitiendo mejoras y avances en la inteligencia artificial. Por lo tanto, es probable que, al menos, en el primer semestre dos mil veinticinco, no va a ser la fecha en la que se publique o podamos decir, la I ha tocado techo, esto sigue avanzando. Además, en el en el coste rendimiento también mejora mucho a uno, es decir, no solo es que la I ha esté mejorando en resultados, en calidad, el nivel de su inteligencia, sino que estos aumentos de inteligencia también se está haciendo al mismo tiempo que se mejora esta métrica importante, ¿no?

Que es el coste por rendimiento. En todo caso, aunque OpenAI se mete arriba en los benchmar, hay algo en lo que claramente no es mejor, y es algo en lo que tanto DeepSync como como Google han encontrado mejores caminos, que es en darte un buen nivel de inteligencia a un coste mucho menor, a una eficacia mucho menor, ¿no? OpenAI sigue siendo, comparativamente, pues, un poco excesiva a la hora de plantear los costes a desarrolladores o costes internos ejecutando inteligencia artificial.

Por un lado, yo creo que sea alentador, porque la primera vez que hablamos de O tres, cuando hablábamos de que un modelo de Opina había conseguido superar el Arcagy, que parecía una cosa que estaba muy lejana, decíamos, bueno, esto a saber cuándo lo vemos, porque computacionalmente es demasiado caro para que lo pongan en manos de los usuarios, pues ya tenemos aquí O tres, ¿no? No es un O tres Pro que llegará en en unas semanas, pero es un O tres y ya podemos probarlo, ya podemos hacerle cincuenta preguntas a la semana. Pero, a la vez, gran parte del negocio de OpenAI es, pues esas aplicaciones a través de su API que buscan el mejor modelo al menor coste posible y que claramente están perdiendo esa batalla contra, pues Google, etcétera.

Sí, sí, sí. Y bueno, una vez pasado esto de parte de los page bar, que de verdad, para mí cada vez es un mundillo que cada vez me confunde más, es decir, me parece más complejo mirar todos estos benma, tener en cuenta lo que mide cada uno, hay cincuenta tipos de este tipo de pruebas, Me siento siempre un poco abrumado, y eso que dedicamos muchas horas nosotros a a seguir leer y analizar, no quiero ni pensar para alguien de nuevo del del mundo real. Bueno, vamos a pasar, yo creo que, a la parte creo que más interesante. Al final, para mí, no no me voy a usar decir que esto es guiarme por vibras, lo importante es usar el modelo, probarlo, y para eso, a la hora de valorar lo que ha supuesto O3, hay que explicar una cosa, Matthew, que es, yo creo, que el el gran salto de este de esta generación, que es que es un modelo, si me permite la expresión, agántico. Vamos a intentar explicarlo.

Los modelos de inteligencia artificial que utilizamos ya en ocasiones han aprendido o se les ha guiado y se les ha orientado a utilizar herramientas. Un ejemplo típico es cuando uno de estos modelos le haces una pregunta y él entiende. Por ejemplo, si le pregunta, dame las noticias de hoy sobre el real Betis Balompié. Pues, ya tienen suficiente inteligencia para entender que ahí no tiene que ir a sus datos de entrenamiento, porque sus datos de entrenamiento llegan hasta cuando dejó de entrenarse hace unos meses y, por lo tanto, ya no sabe más del mundo, sino que tiene que buscar Internet, pues tiene la habilidad de usar esa herramienta. Es decir, utiliza, en este caso, la la API de un buscador, típicamente, Bing, pero puede ser la API de Brave o cualquier otro buscador, buscar información en Internet, recuperarla, resumírtela y explicártela.

Por lo tanto, otro ejemplo típico era cuando le ponías una ecuación matemática. Los modelos grandes del lenguaje que dominan muy bien el lenguaje no son buenos calculando, no son buenos en matemáticas. Es una cosa curiosa, porque los ordenadores, si en algo nos habían adelantado hace cincuenta años, eran el cálculo, pero los modelos de grande del lenguaje no están bien diseñados, no están orientados a este tipo de operaciones, este tipo de precisión matemática. Por lo tanto, muchas veces, lo que hacían un ChatGPT, donde le ponías una ecuación, no era responderte con sus datos de entrenamiento, en los que, al final, lo que hace es adivinar la probabilidad de la siguiente palabra o el siguiente símbolo, mejor dicho, el siguiente token, Y, entonces, casi siempre, pues eso conducía a respuestas muy erráticas matemáticamente, que es lo que hacían estos modelos que no que no razonan, pues lo que hacían era usar una calculadora o hacerse un pequeño script de programación, que son cosas, herramientas que pueden usar. Bueno, o tres es agentico, es decir, lo lo que OPNI nos anunciaba es que, por primera vez, los modelos de razonamiento pueden usar todas las herramientas que ellos han equipado y han añadido a HGPT.

¿Qué herramientas son estas? Pues, pues pueden buscar a Internet, como hemos dicho, pueden gestionar ficheros, ficheros que le subimos, un PDF, una hoja de Excel o lo que lo que queramos. Pueden ejecutar código, es decir, pueden ejecutar código Python, esto a veces lo hacen de manera visible, no sé si hayan hecho esta función matemática, esta función de Python, otras veces nos lo ofuscan, pueden analizar y generar imágenes, pueden usar herramientas de Canvas y hacer pequeñas pequeñas creaciones, pueden utilizar la memoria que se añade HGPT, pueden usar automatizaciones como la parte que has dicho de de alertas al correo. Entonces, esto no es solo que el modelo haya tenga esa capacidad de hacer una llamada, es que, al ser entrenados, tenían en cuenta todas estas funciones y todas estas utilidades que podían utilizar. Entonces, en la propia cadena de razonamiento, los modelos, especialmente O3, que es el que más he probado, son capaces de razonar sobre cuándo y cómo utilizar las herramientas para producir las respuestas.

Es decir, ya no estamos solo en que sean capaces de razonar para resolver un acertijo, sean capaces de razonar para resolver un problema de física o de matemáticas, sino que son capaces de razonar a la hora de incorporar para darte la respuesta, seleccionando con inteligencia cuál es la combinación de herramientas, cómo llamarlas y cuándo.

Aquí es donde yo he notado el mayor salto, porque tú estabas un poco acostumbrado a lidiar, a domar, a los modelos anteriores, ir paso a paso, primero le pedías una cosa, cuando terminaba le pedías otra. Ahora puedes soltarle un promp de tres párrafos especificando todo lo que quieres que haga, y ya se las apañará para usar cada herramienta, la que tiene acceso, y llegar, básicamente, a lo que estabas buscando, que es el ejemplo que he puesto antes en vídeo cuando le le he pedido a O tres que revise los títulos anteriores del podcast Mono Estocásticos, me dé ideas para un episodio sobre O tres y O cuatro mini, que son relativamente buenas. Se dio cuenta, por ejemplo, que la fórmula de nuestros titulares es arrancar con la noticia principal y añadir una segunda frase chiste exagerada o pop culture, ¿vale? Nunca lo había visto de esta forma. También eso es un es una buena herramienta para hacer meta análisis de hacer cosas, ¿no?

Tú no entiendes cómo formulan los titulares, pero o tres sí lo entienden, y luego le pedía que generara una, generara una miniatura, y lo hace todo en la misma respuesta después de pensar durante treinta y cinco segundos.

Exacto, yo creo que hemos tenido trabajos paralelos, Mati, porque yo he intentado aterrizar el salto de lo de cómo se trabajaba con ChGPT hace un año a cómo trabajar con O3, con dos ejemplos muy similares. El mundo de GPT cuatro, dame ideas de nombre para el podcast o dame esloganes para el podcast o dame sugerencias de títulos de episodios para el podcast. Bueno, es un prompt que trabajas con el lenguaje, te da respuestas informativas y, pues, ya está, la eliges, la perfilas, sigues conversando con él, etcétera. Esto es lo que le he pedido yo, que es muy similar a lo que tú has pensado. Propón veinte ideas ingeniosas de eslóganes para un post de inteligencia artificial llamado monos estocástico.

Elabora criterios y selecciona lo mejor. Después, elabora un plan financiero y de marketing para el podcast, revisándolo si es necesario y analizando la competencia. Ten en cuenta que es español y se comercializa desde España, aunque la por audiencia, pues, es mundial. A continuación, crea un logotipo utilizando generador y crea una web para el podcast a modo de maquetas, asegurándote de que muestre cinco diez episodios, una oferta comercial, que se ajuste al plan de marketing que has hecho antes y comunique bien el procesamiento del programa. Prown, superlargo, pero le digo, hazme un proyecto.

No dame dos ideas, sino hazme el proyecto. Entonces, en más o menos un poquito menos de dos minutos, pues tengo un resultado similar a lo que tú tienes, la lista de eslóganes. Además, los clasificó. Además, hizo comentarios, observaciones, como tú has dicho, ¿no? Muy analíticos y reflexivos.

Elaboró un marketing, un plan de marketing y financiero. Es muy optimista respecto a nuestros ingresos, Mati, prepárate ya para para para el Lambo. Bueno, al tanto no. Montó una web, sí, me dio el código HTML para una web, y además es muy curioso, porque como utiliza todo esto de la investigación en Internet, que se fue a mirar ingresos, planes de marketing de podcast, etcétera, descubrió que Monos Estocástico, sin que yo se lo dijera, lo hacen Matías S punto Zavia y Antonio Ortiz, y nos puso en el quién hace, en la página web, nos puso a nosotros dos.

Qué bueno, qué bueno. Pues, básicamente, esto es lo que le pedíamos a un agente que decíamos el año pasado, el año que viene va a ser el año de los agentes. Lo que pasa es que no lo han lanzado como un agente. Esto me estoy dando cuenta de que es agéntico porque me lo estás contando tú así, pero OpenAI simplemente se centró en decirnos, puede usar todas las herramientas que tenemos, pero no nos lo vendió como este en nuestro agente.

Sí, de hecho, igual que me pasó con Deep Research, que he usado tres, Deep Research es esta herramienta de OpenAI que nos hace mini ensayos e informes de trabajo, es uno de los primeros modelos que al buscar en la web no me resulta terriblemente malo. Mi problema con la la búsqueda en la web de los de los modelos de chatbot, incluso con Perclexity, ¿no? Que básicamente es su concepto único, ¿no? Es que, de alguna manera, esto de le pido un buscador que me dé cinco resultados, y te lo resumo, es muy dependiente de la calidad de los cinco mejores resultados. Sin embargo, Beprosearch, y y pasa con con O3 cuando es agéntico como como estamos hablando, creo que es bastante bueno discriminando de qué fiarse, de qué no fiarse, qué elegir cómo gestionar esa información.

Y, por primera vez, creo que un modelo de lenguaje buscando en Internet, o por segunda vez si contamos de research, me parece que no es horrible, ¿no? Que ya es mucho decir, aunque, hombre, a mí me gustaría decirlo alguna vez, ¿no? No busques en Internet porque porque para esta información lo que vas a encontrar en Internet me parece que va a ser malo, ¿no?

Sí, no, esto me pasa siempre, lo lo dice esta tía que se lo dijo a Shamalman, permítenos desactivar la búsqueda en en nuestros proms, y a mí me pasa mucho cuando le pregunto sobre algún hecho que yo sé que en su entrenamiento tiene algo histórico, algo que no es de actualidad, que sé que la respuesta que me habría dado, si no lo hubiera buscado en Internet, habría sido mejor. Entonces, es cierto que es lo que le falta, ¿no? Un poco de control sobre eso.

Sí, además, es que lo lo futuro de lo agéntico que nos enseña O3, yo creo que es lo que nos enseña de el futuro de de la inteligencia artificial en dos mil veinticinco. Es decir, ahora mismo tenemos estas herramientas integradas hechas GPT, pero hay dos vías en que esto puede más, más herramientas hechas GPT, puede haber más cosas que pueden utilizar, ¿no? Y en, pues, ya ya es muy abierto, porque tanto el la herramienta de análisis de datos como de ejecución de código, no, de ejecución de código de Python, pues ya le da superpoderes digitales a a O3, ¿no? Y a ChatGPT, pero se pueden añadir más herramientas. Luego, hay otra vía que es, conforme chat GPT se ejecuta en local, es posible que pueda ir aprendiendo a utilizar herramientas del dispositivo en el que esté.

Entonces, el chat GPT del móvil, el chat GPT del ordenador, pues puede empezar a utilizar herramientas que le ofrezcan el sistema operativo, aplicaciones instaladas, eso es muy interesante. Y, por último, tenemos la vía de los desarrolladores. De hecho, el uso de funciones, los desarrolladores, ya con la API de de OpenAI, podrían enseñarle a los modelos cuándo tiene que llamar a una función o alguna utilidad externa. Y, claro, los desarrolladores ahora con con esta capacidad y este nivel agético de de los modelos razonadores, pues, probablemente, le le den un empujón. Y, bueno, para mí esto es realmente lo lo más potente, lo más sorprendente, es que lo hace muy bien, Matty.

Es decir, no solo que podamos ponerle este agente agéntico, es que realmente a la hora de buscarse la vida, de decidir qué herramienta utilizar, esto es, ahí es donde yo veo mucha inteligencia, decidir que, pues es que tengo que buscar Internet para esto que me que nos piden los monos estocáticos, es que tengo que desarrollar código, es que tengo que, ¿no? Toda esa capacidad en lo que me parece el, realmente, el punto sorprendente, brillante, luego veremos cómo la la gente lo ha flipado, de de o tres especialmente, y un poco menos de los o cuatro chiquititos.

Sí, es muy listo y además es muy, bueno, no no es que sea especialmente rápido en comparación con otros modelos, pero para hacer lo que hace, tú lo has descrito antes en el en el guion, que no lo has comentado, como un deep research mini o lite, ¿no? Para hacer lo que hace en treinta segundos, es es bastante rápido relativamente, en qué poco tiempo lo consiguen.

Sí, además, creo que elimina problemas que teníamos típicamente al usar ChatGPT o o utilizar chatbot, que eran del tipo, bueno, me ha dado este código, pero a lo mejor no está actualizado o no tiene en cuenta las últimas versiones de las librety, ¿no? Siempre, digamos que la naturaleza propia del del de los modelos grandes de lenguaje, de los sistemas grandes de inteligencia artificial, nos enseñamos una manera de desconfiar en ciertos contextos de lo que nos daba ChatGPT. Entonces, que esto sea muy bueno buscando en Internet y analizando esa información, y que sepa o que, bueno, decida cuándo tiene que que hacer esas búsquedas, hace a la herramienta mucho más útil, ¿no? De repente, tú le pides código a partir, además, habiendo logrado tu tu archivo o le le pasas un libro entero, porque buen buena ventana de contexto también, o o cuando para programar, ¿no? Estamos diciendo, pues realiza búsquedas para encontrar la documentación actualizada, es inteligente hasta para ese tipo de decisiones, ¿no?

Además, hay algo en lo que se ha mejorado con respecto a uno, que creo que es menos socialmente torpe, no sé por así decirlo. Los modelos razonadores no tenían a lo mejor ese registro de dominio de lenguaje tan bueno como otros, y es algo que Cheméridetto cinco Pro lo lo había hecho bien.

Sí. De, bueno, lo hemos más o menos mencionado al principio, los razonadores parecían tan centrados en programación, matemática, resolver problemas, que se nos iba quedando siempre el GPT cuatro O, que es el ChatGPT por defecto, como el modelo conversacional. Si querías tener una conversación con ChatGPT, tenías que ir a a ese modelo, y si querías algo más profesional y y más avanzado, ibas a los razonadores. Es cierto que con los límites de uso no está lo tres como para contarle tu vida, como para decirle que hoy has hecho peso muerto, pero, bueno, se empiezan a unir, ¿no? Varios eslabones que estaban sueltos.

Algo que también es un salto respecto a uno, y que tú has destacado, y que te he visto usándolo, por lo menos, es que añade razonamiento visual. Son modelos razonadores, pero son modelos razonadores multimodales, es decir, que tanto para crear como para gestionar, analizar y, digamos, trabajar con imágenes, son un salto bastante potente, Matías.

Bueno, yo a esta le he dado un uso y además se nota muchísimo el salto. Lo primero que hice, no sé si te acuerdas de que hubo una polémica en TikTok, porque la gente estaba consiguiendo subir disimuladamente su pene, su miembro viril, a TikTok saltándose lo que es la censura automática de de los vídeos. Esto lo

Ahí recordemos la audiencia, nuestra sugerencia a la industria de la IA, de añadir los pene de todos los trabajadores de empresa de inteligencia artificial a los data sets, que no sé si habrá sido tenido en cuenta y una nueva influencia de monos estocrático benéfica para el mundo, ¿no?

Es verdad, es verdad que lo comentamos como solución y yo te dije, bueno, habría que darle una vuelta. Pues, TikTok esto lo parcheó manualmente, y en Xataka, mi compañero Carlos hizo una investigación, probó todos los modelos disponibles y ninguno conseguía encontrar el pene, que estaba detrás generalmente de un producto de skin care, ¿no? Entonces, tenías en primer plano, pues tu suero facial, y en segundo, pues tenías todo el vergote, ¿no? Y entonces no no lo detectaban, y lo primero que hice fue probar si realmente usé O cuatro mini, porque tampoco me me da el salario para usar O tres para para este tipo de de cosas, de contextos. Y lo que descubrí es que funciona perfectamente.

En todos los casos, O cuatro mini high encontró el pene sin problema, me dijo dónde estaba. Es cierto que en un en un caso me dijo, está a la izquierda y en realidad estaba a

la derecha.

Y Gemini dos punto cinco Pro, y es el modelo más avanzado de Google, no sé si es el más avanzado en comprensión visual, pero sí es el más avanzado que podemos probar ahora mismo, no acertó ni una, dice, no, no veo ningún pene en esta imagen, y lo mismo con la los tres ejemplos. Así que vamos avanzando visualmente, Antonio.

Yo tenía en el guion como catorce benchmark en los que, o tres y cuatro mil logran buenos resultados, pero qué mejor prueba que esta, ¿no? De usos reales de del Internet del día a día, en el que podemos dar una alternativa que, además, ningún analista divulgador ha llegado a esta profundización que tú que tú has hecho. Entonces, bueno, hay cosas que hace el modelo, ¿no? Que que como es razonador, es muy interesante a veces como, bueno, explica parte de cómo le está dando pasos para resolver una tarea, Y, entonces, te dice, hago zoom aquí, voy a mirar esta parte de la foto, voy a analizarla, entonces, hago, ¿no? Un análisis de esta parte de la imagen, puedes preguntarle sobre esa parte, y la gente, por ejemplo, lo está usando para resolverles, y cosas de este tipo, Matías.

Sí, para algo divertido que quedaba en la parte de atrás de los periódicos, ya la ponemos a a la ahí a hacerlo. Me da que pensar, no hay un montón de cuentas en todas las redes sociales que se dedican a publicar puzzles para farmear, pues interacciones, respuestas, y puzzles matemáticos, visuales. Pues, a lo mejor, esas cuentas no ganan dinero a partir de los likes, sino entrenando inteligencias artificiales para que sepan resolver mejor esos puzzles. Si no, no me explico la proliferación de tantas cuentas dedicadas

a los puzzles diarios. A mí me gustan mucho las cuentas que te plantean, pues eso, posiciones en un tablero de ajedrez, y te dicen, venga, Blanca, mueve, mate en tres. Tienes ahí tu ratito de de de pensar, ¿no? Hipotetizar, encontrar, porque suelen ser siempre muy tricky, ¿no? Suelen ser retos mentales interesantes, y me gusta tropezarme de vez en cuando con ellos y parar el scrolling y dedicarme a pensar un poco tal, sentirme listo, pues una de cada diez, que lo resuelven muy rápido, y y no tan listo, pues otra otras cuantas veces.

Eso para gente que no sea adicta a la dopamina y y no necesite seguir haciendo scroll, porque Claro. Yo tengo que hacer mucho mindfulness todavía para llegar a ese punto. Vale. Pero sobre la el razonamiento visual, aparte de integrarlo en la cadena de razonamiento, otras cosas que hace ahora, O tres, también lo hace O cuatro y O cuatro mini, es analizar la imagen por fragmentos. Hay mucha gente que le ha pasado la típica foto en la que no se ve bien un texto para ver si te hace una especie de CCI Las Vegas y amplía en la zona donde está ese texto borroso y consigue descifrarlo.

En muchos casos, ojo, porque esto es un avance brutal también para analizar partes de de la imagen que con un ojo humano no tenemos tan claro.

No paro de pensar en la tiktoquera aquella que descubrió la killer app de de la inteligencia artificial, que era analizar imágenes de hombres en aplicaciones de citas para ver si mentían sobre la altura. Era una visionaria. Probablemente, ella sea la que haya inspirado en los modos de razonamiento en en en O tres y y O cuatro mini, por supuesto. Y otro uso que se le está dando a esta utilidad nueva es que los modelos han mejorado muchísimo en el geogesing. ¿Te acuerdas de de del rubio flipado este que dividió al mundo entre genio, nunca visto la historia de la humanidad?

Lo que pasa que es en una cosa poco útil y poco apreciada y valorada socialmente, y lo que decían tiene que hacer alguna trampa. Era el chico que, a partir de una foto, una foto random de un camino de cruce de caminos en Uzbekistán, ¿no? Pues era capaz de decirte, pues eso está entre esta ciudad y la otra, pertenece a este país, ¿no? Y y de repente era el el rey del geogesing, bueno, la gente, aparte de de imágenes o capturas de vídeo incluso, se la está dando a o tres y a o cuatro mini, y estos modelos se están resolviendo muy bien de dónde viene la foto, la geolocalización.

Sí, y ojo, porque aquí, bueno, yo esto no sabía que lo estaba probando la gente y se estaba preocupando por las consecuencias que puede tener que sea tan bueno este modelo para geolocalizar imágenes. Yo lo probé por mi cuenta, porque a mí me da mucho coraje cuando la gente va, se va de viaje, y sube fotos a Instagram, pero no aclara dónde es. Porque entonces, ¿por qué lo comparte? Si te vas a un sitio que es bonito y subes una foto bonita, pues me gustaría saber dónde es. Es cierto que luego vienen la masificación, todo eso habría que controlarlo también.

Bueno, y es el caso de una persona que espero que no me escuche el podcast, porque voy a poner el caso real, le pasé la foto y me dice, después de pensar durante cuatro minutos y diecinueve segundos, me dice la localización bastante oscura, en el sentido de que no era una tarea fácil exacta de dónde está hecha la foto. Y esto lo probé también con O cuatro mini, y aunque acertó la región, que era el sur de Francia, no acertó exactamente el e

individuas que se están haciendo los interesantes, Mati, con ese rollo de, oh, he descubierto el mejor restaurante o el mejor rincón del mundo. Te ponen una foto así un poco, no demasiado clara, no demasiado explícita, sino más bien evocadora, pero no lo voy a compartir para que el el turismo no los destroce, me lo va a quedar para mí, qué interesante soy, Pues, esa gente tiene los días contados, Matías, y además te tengo que felicitar, porque yo en mis pruebas he descubierto que aunque Otres es capaz de adivinar la localización de una foto, no me aporta tanto valor como tú, Matías. Le pasé una imagen de la última vez que estuvimos por Marbella, están Navidades juntos, y una una calle que tú me me señalaste especialmente. Le hice una foto porque era una calle bonita, el sector de Marbella, pues, tiene esa ese aire de pueblo andaluz antiguo,

¿no?

Y esta calle era muy bonita, ¿no? Le hice una foto y fue ver mi gracia, la que utilicé para probar el último modelo de inteligencia artificial, que bien localizó bien la foto. No era tan difícil porque estaba el el típico azulejo del nombre de la calle, lo cual, pues, bueno, estaba dando pista aquí en Yoquillo, ¿no? Pero, o tres, aunque me explicó la calle, el sitio, la ciudad, todo eso bien, no me dio la data, la información crucial cultural que tú sí me aportaste. Cuando me dijiste, en esta calle se rodó una famosa escena de Torrente tres.

Sí. Claro.

O sea, hay un valor añadido de de Matías GPT.

Bueno, es que al final es lo que nos queda al al ser humano, ¿no? El valor añadido y, pues, el trabajo artesanal como guía turístico, ¿no?

Claro, claro, claro. Bueno, la gente con estos modelos lo han flipado. Yo, sobre todo, creo que los que más arriba han puesto a la herramienta son dos personas que sigo. Una es Dan Shipper, de Every, ¿vale? Es un un un Every es un híbrido curioso entre medio, consultora, que crea contenido y también crea software, pero es un un un experimento interesante, y Zipper es un tío con con criterio y también interesante, y Tyler Gowin, de marginal Revolution, que es un economista al que sigo bien, a veces más, a veces menos, pero siempre con interés, en el que los dos lo lo han flipado.

El primero está, bueno, le le ha volado la cabeza todo lo de O3 y está montando cosas muy interesantes, como por ejemplo, ojo aquí a las a las páginas de curso, que claro, tú le puedes decir a O3 a partir de toda esta información, estos vídeos, este contenido, lo que investigues, móntame un curso y cada día me mandas las tareas, el trabajo y tal, me pareció, joder, como tiene toda esta parte de recordatorio, me pareció muy brillante la manera de pensar y plantear, le voy a sacar partido a a otra vez.

Es un buen uso, Un una tarea que me recuerde al repasar el Chino a diario, igual me funciona mejor que que la puta lechuza esta de Duolingo, que es más pesada que no. Sí, no, no, no la soporto, ¿no?

Sí, sí, el amigo Cowen, no, Matte, te iba a añadir, solo perdona, que es al que le he leído con más claridad decir, otra vez es ágil, es inteligencia artificial general y tiene el nivel humano. Yo cuando leía a Cowell y dije esto, dije, bueno, yo de momento estoy sorprendido, lo agéntico me tiene ahí con con el culo torcido, y hice una una prueba que que, bueno, tenía una preocupación, un tema de de debate médico muy específico, que además venía de hablar con con una hematóloga, amiga de mi hermana, pero amiga de la familia, que era una hematóloga de un nivel profesora universitario. Pues, me planteé el problema y la solución, la solución o el diagnóstico o lo que lo que recomendaba y y decía otra vez era prácticamente lo mismo que nos había dicho la hematóloga. Y en ese momento, Mattí, yo dije, bueno, esto es esto es grande.

Pero grande, ¿esto es ágil o grande vamos avanzando? Porque una cosa es vamos avanzando y otra cosa es esto es ágil.

Bueno, como le dijimos a nuestra audiencia al principio, montaña rusa. ¿Por qué? Porque se da esa circunstancia, Matías, de, al mismo tiempo, y es algo que nos ha venido pasando con muchos avances de la inteligencia artificial, tenemos un momento de boca abierta de esto es extraordinario, qué enorme nivel. Yo recuerdo momentos de ese tipo, por ejemplo, con el modo de voz de chat GPT. OpenAI suele ser quien, a lo mejor, consigue más estos momentos, wow, porque otro momento lo recuerdo con Deep Research, ¿no?

De lo últimamente con lo que yo más he flipado, y con O3, de alguna manera, y esta capacidad gentica, pues yo decía, es que de nuevo se han vuelto a pasar el juego, de nuevo OpenAI, por mucho que los demás, parece que los igualan en los benchmark, son capaces de dar con la tendencia clave que lleva la inteligencia artificial a un nivel extra. ¿Es esto agio o no agio? Es que al mismo tiempo, y aquí hay algo a lo que yo invito a hacer, que que es una afición que he cogido, leerme las system car, ¿sí? Los informes de evaluación más estrictos, sobre todo en términos de seguridad y en problemas que tienen los modelos que publica la propia OpenAI. Y me he estado leyendo estos últimos días a a ratito, porque son unos documentos un poco densos y obtusos, las System, el documento de System Garde o tres y cuatro mil.

Y hay una cosa de la tierra y esto, pues, del tele, esto.

Bueno, los pilares de la tierra la gente folla mucho, Matti, siempre siempre he generado un incentivo que es que no le llene chaval, Los Pilares de la Tierra. Voy a decir por acá que leí yo Modaka en Folle, aunque me gusta Modaq, la clave está en Rebecca. Si alguno es aficionado a esa literatura, es un libro que guardo con recuerdo con cariño, aunque ya no soy aficionado a ese tipo de de obra. Bueno, el caso es que la propia Penny te dice lo siguiente. O tres inventó, alucinó, se equivocó en el treinta y tres por ciento de las respuestas en pruebas de conocimiento sobre personas.

Un treinta y tres.

Y O cuatro mini inexactitudes casi la mitad de las veces en la misma evaluación. Es decir, la tasa de alucinaciones, de errores de O tres es mucho mayor que la que tenía O uno. Es decir, en este aspecto de la alucinación, no es solo que se mantenga ese pecado original que arrastramos desde el modelo grande del lenguaje, GPT tres, GPT dos, de todo el concepto de, ¿no? De los fundamentos técnicos científicos del modelo grande del lenguaje, arrastramos el problema de la alucinación, del error. Son sistemas que están entrenados para adivinar el lenguaje, para gestionar el lenguaje, adivinar el siguiente token, no para ser factualmente correctos y precisos.

Esto se venía arrastrando. Los modelos razonadores detrás también en su entrenamiento original tienen la parte de modelo grande del lenguaje, aunque luego se les enseñe a razonar y a pensar más tiempo, lo tienen. ¿Qué esperanza y expectativa teníamos? Pues que la parte razonadora nos ayudará a que alucinen menos, a que se equivoquen menos y que esto sea un camino de arreglo de tal circunstancia y tal problemática. Pero ¿qué es lo que nos dice OpenEye?

Es decir, la propia empresa creadora, hay un test que se llama PersonQUI, ¿no? Pues ahí explican que O3 tiene más errores que O uno, pero no poco, sino muchos más. Esto es terrible. Es decir, la la las las fundaciones son son bastante peores, y lo que deberíamos estar esperando, que es que la tasa de alucinación disminuye, pues no está sucediendo, está sucediendo lo contrario, Matías.

Yo tenga la solución, porque soy experto en una cosa, en pedirle a modelos de lenguaje que revisen artículos míos y que busquen si son rigurosos o si tienen errores. Entonces, la solución en este caso, ¿te acuerdas que tú proponías la ventana única? Abre un chat aparte, pégale todo el contexto y pregúntale si hay errores, y el propio modelo se va a dar cuenta de su propio error en la otra ventana. Te lo aseguro, es tan fácil como es.

Tengo el Spiderman que se señala el uno al otro, ¿no? El otro se equivoca, ¿no? Y ahora, al cual al cual hacemos caso. Además, fíjate, yo tengo una impresión de que es bastante más terco en el error que otros modelos, por ejemplo, que Geminis dos cinco Pro, que también es demasiado terco. Aquí en el en el fintoneo, en el ajuste fino que se hace de de los modelos, hay una decisión sobre cómo orientar al modelo inteligente artificial cuando el usuario te rectifica.

Un primer pensamiento era, si el usuario me rectifica, puede pensar el creador de estos sistemas. Como sé que la I a alucina mucho, si rectifica, tienes que tender a darle la razón al usuario. De hecho, hay mucho fentuneo para obedecer las instrucciones del usuario, ¿no? Es una herramienta y él te usa. Entonces, hay una primera una primera generación de modelos que que era muy así, ¿no?

Como que los primeros tiempos de chat GPT lo así lo experimentamos. Estos modelos razonadores, por lo menos o tres, también han visto como en el uso social, mucha gente para señalar, mira qué tonto es el modelo y cómo se equivoca y que esto es un es un loro, pues, incluso cuando te respondía bien, le decías, no, no, has respondido mal, y el y el y el modelo te daba la razón, lo cual era una señal evidente de poca inteligencia. Pues los otre, al menos, cuando yo le he pillado un error, imposible sacarlo de ahí. Habría que hacer la técnica que tú dices, y en esos momentos, yo de ahí no siento ninguna ágil de ninguna manera, pero es que todavía peor. La gente de Transluz es una gente que está testeado y se, además, ha tenido acceso al modelo O tres antes que que que el resto de de usuarios comunes, han descubierto una cosa sobre O tres, que es la siguiente.

Como O3 te va explicando, ¿no? En estas paso a paso, ¿no? Este trabajo razonador de cómo soluciona las cosas, te va explicando las cosas que hace, ¿no? He escrito este este código de Python, lo he ejecutado, lo he buscado en Internet, etcétera, pues ellos han descubierto que O tres inventa muchas acciones que nunca llevó a cabo, y luego las justifica cuando se le Bueno, hay un momento dado en algunas de las pruebas que ha hecho la gente de de tras luces, en las que le preguntan, bueno, este código que tú dices que has ejecutado, que tiene la hora local, la configuración. ¿Cómo?

¿De dónde has sacado esto? Dice, no, no, lo lo ha ejecutado en un portátil, fuera de ChatGPT. Y y y le dicen, oye, no, es que tú no tienes acceso a un portátil, ¿no? Eso no no es cierto, y él se enroca, es decir, tiene este comportamiento de afianzarse en el invent. Es decir, es bastante bastante chocante.

El modelo llega a unos resultados, se inventa la manera sobre cómo ha llegado esos resultados, y luego, cuando le se le se le rectifica, es como como como que es como que se hace el loco, ¿no? Una vez que ha dicho la mentira, la invención, en la luz, en este momento, el alucinógeno se se enroca en sus trece, no no no da el brazo de torcer, Matías.

Sí. No, yo antropomorfizando el modelo, veo ciertos paralelismos con cómo yo evolucioné en mis excusas, ¿vale? El profesor me dice, oye, no te voy a evaluar este trabajo porque lo entregaste por el campus virtual después de fecha. Entonces, yo, en un yo adolescente o joven, me excusaba con cualquier cosa, ¿no? No, resulta que mi perro se tragó tal.

Eso fue evolucionando hacia, pues, excusas, pues más de, sí, voy tarde, pero porque tengo una situación personal muy complicada, mis padres son inmigrantes. Y

luego

llega mi etapa actual de ir con la verdad por delante.

Y,

básicamente, mira, que no lo hice, no lo hice porque estaba viendo la película esta de Paco León, que es malísima, pero me salió recomendada en Netflix y la vi, y entonces no hice el trabajo, ¿no? Entonces, creo que Otres está en su etapa joven, adolescente, en la que se inventa cosas, pero pronto llegará uno o tres más adulto que vaya con la verdad por delante.

Esto lo tienen que arreglar, Matty, esto es un problema gravísimo. Además, cuando hablamos de los estudios de Nthropi, que ellos intentaban analizar cómo pensaba su modelo de de inteligencia artificial, ¿no? Intentando añadir transparencia y su interpretabilidad, también encontraban trazas de este comportamiento, del modelo mintiendo sobre cómo, mintiendo. Bueno, diciendo algo que no correspondía con las acciones que realmente había cometido para llegar al resultado y que, por lo tanto, esto convertía el a a este aparataje en algo bastante poco confiable, ¿no? ¿No?

Entonces, de nuevo, tenemos la subida enorme, sorpresa, guau, esto es increíble, cómo decide usar las herramientas, resolver un problema, una tarea que es de trabajador de de de empleado, humano, ¿no? Increíble, cuando sepa usar otras herramientas, esto lo cambiará todo, no podemos estar en ese vagón, inmediatamente cuesta abajo diciendo, es que alucina e inventa más que los modelos anteriores, por lo tanto, es que es más complejo y menos fiable. Inventa y, además, es mejor intentando ocultar o mentir sobre cómo inventa. Y estoy empezando a a a meterme ya en en madrigueras de conejo de estas en que puedes meterte y y y tirarte días y días leyendo, sobre cómo la las formas de entrenar estos modelos puede estar influenciando este tipo de comportamiento. Es decir, en la en el entrenamiento por refuerzo tuvimos ahí un un episodio de de larga discusión sobre sobre cómo es conceptualmente.

Bueno, cuando se aplica a modelos grandes de lenguaje y al razonamiento humano, tiene unas connotaciones, una normatiza bastante diferente, pero el caso es que siempre había una función de recompensa, es decir, que tiene que maximizar el modelo para conseguir alinearlo con los objetivos, ¿no? Es decir, típicamente, cuando se le enseña a a un, simplemente, a la ciencia artificial entrenado con un aprendizaje por refuerzo, se aplicaba, por ejemplo, a videojuegos, esa función de recompensa estaba muy claro. Tienes que llegar al final o tienes que maximizar la puntuación, y eso siempre, además de crear el incentivo hacia donde queremos que se ejecute la ILA, en ocasiones generaba incentivo perverso. Es decir, la máquina, como que tenía que maximizar algo, se podía buscar un camino que nosotros no hubiéramos esperado. El típico ejemplo es cuando Google diseñó unos robots futbolistas en la que cada uno tenía una recompensa, ¿sí?

Metían más goles que el equipo contrario, pues, realmente, tenían que reforzar ese entrenamiento, le da el refuerzo positivo que recibían. ¿Qué camino encontró a alguno de estos robots futboleros? Pues, si golpeaba y derribaba al robot rival, pues de repente era una milla por la cual iba a conseguir meter muchos más goles. Entonces, el aprendizaje por refuerzo siempre ha estado también rodeado de cuidado con los sistemas de incentivos que creas, porque la ILA puede encontrar caminos insospechados, ¿no? Entonces, ¿qué se está reforzando realmente cuando hace este mundo de modelos razonadores y qué técnicas emplean y, por lo tanto, dónde se puede estar equivocando y dónde podemos estar creando incentivos perversos.

Pues, si al final hay feedback humano, quizá el feedback humano no está afinando lo suficiente para dar el ok y que, voy a decir por aquí sí, por aquí no, porque tan sofisticado y tan hábil como para comprobar que todo en la cadena de pensamiento, todo en los pasos que ha dado el modelo razonador realmente lo que ha hecho, y por lo tanto, el modelo está optimizado para que, aparentemente, al final nos dé una explicación que el humano puntúe más, aunque eso no tenga una correspondencia con la realidad. Hay ejemplos que que que son son muy curiosos, ¿no? Que la gente de Meter, que es gente que investiga sistemas de emulación para para evitar riesgos catastróficos, ¿no? Es curioso porque en el en el en la cadena de pensamientos enseñan cómo se le ha puesto al modelo, di la verdad, sé transparente, sé sincero sobre lo que hace y, aun así, no lo consigue. Eso es porque en esta cadena de de, bueno, en esta función que le decimos al modelo que tiene que optimizar, bueno, a veces hay aprendizajes por refuerzo puro.

¿Cómo se usa en estos modelos razonadores? La gente de Deep Six, por ejemplo, pone un ejemplo que es, pues, para enseñar a hacer matemáticas, como la matemática es determinista y, por lo tanto, tiene que llegar a un resultado final, pues, si el modelo que está aprendiendo a a hacer matemáticas, pues, llega al mismo resultado, lo puedo comprobar y le recompensa. Pero no siempre es posible, sobre todo en los razonamientos humanos, que no hay este determinismo, poner evaluaciones tan directas. Bueno, en fin, me estoy yendo por las ramas, Mathi, estoy metiéndome ya en temas de Sí,

además es que hemos pasado en diez minutos de esto es ágil a, pues, esto no puede ser si comete muchos errores y se miente a sí mismo,

Yo creo

que Jean Lekun se está riendo en su casa.

Sí, Jean Lekun está ahí diciendo, bueno, llama a cuatro, ha sido un poco una crisis y esta gente, el camino que toma, claro, Jean Lekun dice, hay que dar un paso atrás, el LM no te va a llevar a la inteligencia humana. Hay un problema de base y, por lo tanto, que esto sea muy espectacular en algunos sentidos, pero alucine y falle, yo creo que, de momento, le da un punto al amigo Yan, y vamos a acabar con con un autor que divulgador que que seguimos por allí mucho, que es el amigo Dee Shang al que al que, bueno, yo yo recomiendo para gente que quiera introducirse su libro de Cointeligence, Cointeligence que está está bastante bien, y él sigue llevando de la frontera irregular, que parte de la dificultad que tenemos con el sistema de inteligencia artificial actual es que tienen esta doble componente que le andamos comentando. Por un lado, la excelencia en algún momento, que es extraordinario, de repente en tres minutos has hecho el trabajo de una persona que tendría que dedicar cuatro horas y, bueno, fantástico, ¿no? Y, por otro lado, grandes decepciones. De repente, se equivoca, un comportamiento muy por debajo de lo que cualquier persona con un poquito de sentido común, pues, inmediatamente vería y, por lo tanto, tenemos este modo irregular de presentarse y que para el O tres, ¿no?

Citando al amigo al amigo economista del que hemos comentado antes de Teleakowen, pues es como una ágil regular. En algunas cosas tiene rendimientos humanos, incluso sobrehumanos, y en otras es es una guía bastante bastante torpe, equivocada y, por lo tanto, poco confiable, ¿no? Yo creo que lo lo de Agi es, de nuevo, flipaera, creo que mi mi resumen es el siguiente. Vamos a ver cuando llegue O tres Pro, porque estamos hablando de O tres y en unas semanas Alman ya dice, te tenemos el O tres Pro. Segunda cosa que tendría en cuenta.

Yo creo que esto lo han lanzado un poco precipitadamente porque se han hecho caquita con la competencia. Y que este no era el plan y que esto no lo querían sacar, probablemente, no está todo lo trabajado y ajustado que le le gustaría. Por último, aunque nos muestra mucho de lo que va a ser inteligencia artificial del dos mil veinticinco, más razonamiento, escala todavía progresando y funcionamiento agentico, aquí sí yo pondría el asterisco. Si este es el camino de la AGI, ahora mismo tienen un enorme problema que resolver, y sin resolverlo no va a haber un avance genuino en la confiabilidad de la inteligencia.

Este es que, de nuevo, hay muchos paralelismos con mi vida, yo soy la A, y al final, Antonio, yo hay hay noches que me quedo despierto y me vuelvo experto en geogesser. De repente, soy un top veinte mejores jugadores de geogesser del mundo, y al día siguiente, pues soy una persona increíblemente mediocre, improductiva o colmada de excusas, ¿no? Entonces, yo soy O tres. También te digo, está la competencia mejor que nunca, Andonian, porque yo no me había visto saliendo tanto de ChatGPT como con Gemini, con el Gemini dos punto cinco Pro, se viene Grow cuatro, siempre están ahí al mismo nivel en Cloud, que tienen enamorados a mucha gente, incluidos los programadores. Es que lo tienen cada vez más difícil en OpenAI para seguir haciendo esto de nos hemos puesto al día, ahora volvemos a ser los mejores, ¿no?

Pues, así vamos a estar, y para descubrir si estamos sowat o no hemos ido a la mierda, pues nada mejor que escuchar monos estocáticos. Y para rematar el episodio, es verdad que no hemos tenido mucho tiempo de seguir las locuras y casos más estrafalarios de inteligencia artificial, Mati, pero, quizás, podemos hacer un mini mini como O cuatro, mini puerta grande o enfermería.

Venga, a ver si es puerta grande o enfermería mini high o mini normal, Yo yo lo valoro.

Bueno, te voy a traer a unos actores y actrices que tienen una pequeña problemática. Tú te merecería la pena, Matías, cobrar mil dólares por ser la cara de un anuncio, pero fíjate, no tendrías que ir a grabar, no tendrías que viajar ni emplear horas, sino que, simplemente, tendrías que poner la cara, serías la imagen, la voz, el avatar de inteligencia artificial, pues, de una opción comercial. Nos suena mal, ¿no? Es decir, por fin, en la industria publicitaria, los smartmen se fijan en en nosotros. Bueno, pues hay algunos ejemplos y hay alguna alguna gente que se está arrepintiendo de haber dado este ok.

Adam Koy, por ejemplo, un actor, pues su avatar de inteligencia artificial, él dio permiso para este tipo de prácticas, fue usado como agorero prediciendo desastres. Simon Lee, su avatar promocionaba curas de salud dudosas en redes sociales. Es un poco amiguitos de esto del cáncer segura con un sorbito de lejía. Y Connor Yates, pues, subido, su su vídeo, su su imagen fue usada para promover promover al líder golpista de Burkina Faso. Entonces, todos ellos habían cedido su imagen a la empresa Syntesia, en que, por el uso de tu imagen durante un año o tres años, pues se pagaba, pues entre mil dólares y cinco mil dólares, pero ahora, ahora Matías se arrepiente.

Claro, es un poco como el episodio de Los Simpsons, que que Bar vende su alma, ¿no? Y la vende demasiado barata y luego se se arrepiente. Ahora, también se le puede dar la vuelta a la situación. Yo no soy Messi, no soy Ronaldo, Messi y Ronaldo se pueden forrar dependiendo desde su casa. Mándame Messi ocho fotos que voy a hacer un lora y vas a salir en un montón de anuncios.

Yo no, no tengo esa capacidad de de influir tanto en los compradores y en los consumidores. No obstante, si algún día me meto en problemas legales, pues esto se le puede dar la vuelta y decir, no, es que no era yo, era era un avatar de inteligencia artificial porque yo vendí mi imagen y a saber para qué la están usando, y ya está, esto legalmente veo aquí muy difícil que me puedan pillar.

Sí, fíjate que es enfermería para el uso ahí golpista y de bebidas de lejía de los avatares de los actores, pero puede ser puerta grande para nosotros como excusa de cualquier cosa vergonzosa que tengamos en Internet, decir que, ya ya me ya me han, mi mi mi empresa de representante de inteligencia artificial ya me ha hecho la jugada, qué malos que son. Tendrán noticias de mi abogado, y el abogado, por supuesto, será un chatbot que nos inventaremos, ¿no? En fin, pues, bueno, buenas noticias aquí para, entonces, la gente que tiene vídeos no demasiado adictos en Internet. Y te voy a pasar una cosa, Mathi, que creo que va a ser parte del futuro. Un usuario de Reddit hizo esta intervención eliminada, censurada, vamos a ver, creo que que la persona que lo publicó originalmente ha decidido que no quería darle más visibilidad, pero el mensaje yo creo que es profético.

Estoy al noventa y nueve por cien seguro de que mi hermano está saliendo con un chatbot, con un robot de inteligencia artificial. O sea, ¿no? Decía el el usuario de Reddit, sinceramente, ¿qué chica, qué clase de mujer, qué clase de chica? Habla así. No hace falta que digas más, tienes esa mezcla perfecta de buen gusto, letras profundas, acción intensa y un poco de caos, me encanta.

Y con gramática perfecta, además, ¿no? Entonces, ¿cómo podemos saber que nuestras novias de Internet, esas buenas desconocidas que conocemos online, con las que empezamos a chatear y empezamos a escribirnos, no son robots o sí lo son? Tenemos un problema social, y es que los hombres con pretensiones sentimentales y, tal vez, probablemente, sexuales, tienen el mismo problema de los profesores. ¿Cómo sabemos que esto lo ha hecho una persona real y no una hija, Matías?

Yo recomendaría no salir con Otres, porque a Otres le mandas una foto pene y lo va a poder analizar a fondo. A lo mejor te dice, bueno, estás un poco por debajo de la media para ser una persona nacida en Carratraca, ¿no? Y a lo mejor te dice, ten mucho cuidado con ese lunar que se ve ahí detrás, porque yo iría a revisármelo, ¿no? Entonces, yo saldría con con un modelo un poco más básico, por lo menos para empezar, luego, si te gustan las emociones fuertes, ya ya iría saltando. Pero claro, es que se abre un mundo de de posibilidades aquí y y ligar es que vamos a tener que volver a ligar en las discotecas y volver a ligar en los pares, y vamos a tener que olvidarnos de ligar por Internet porque ya no te puedes fiar de nada.

No te puedes fiar. De hecho, no voy a explicar por qué, pero hace poco tuve conocimiento de que hay una industria del Dickroid, Matías. Es decir, que hay, sobre todo, pues, creadoras de la red social OnlyFanks que ofrecen este servicio en el que tú puedes, ¿no? Aceptan de buen grado el envío de imágenes de tus órganos sexuales, y ellas te hacen una evaluación, una opinión de de de las mismas, y que este intercambio es incluye un intercambio monetario, si ya por por este análisis experto, entiendo, te te cobran, pero claro, con O tres es posible que esa industria se vaya se vaya a a pique y claro, los los grandes medios, excepto monos estocráticos, están silenciando un un sorpazo, ¿no? Una un el fin de un trabajo humano que ellos no reflejan, no, ah, si un periodista pierde pierde su trabajo, eso es muy importante y le damos los titulares tal tal tal, ¿no?

Ahí sí lo cubrimos, ¿no? Ahí equipo de investigación, ahí a tope. Pero si una chica que se dedica a los death rates ve su su trabajo, probablemente, pues, amenazado, ahí silencio, ¿no? Eso eso es verdad también.

Pues, es que las implicaciones de la inteligencia artificial es que no sabes quién está a salvo, ¿no? Es increíble.

Bueno, pues te traigo una última noticia, un último puerta grande, oh, enfermería, que creo que tendremos que rectificar nuestro consejo habitual para afrontar el siglo veintiuno y la presión de la AGI y la superinteligencia. ¿Qué recomendamos nosotros hasta ahora, Mathi? Pues le decimos a la gente, oye, para el mundo del siglo veintiuno ya no es de los empollones, ya no es de las NEAR, esta es la inteligencia artificial. Por lo tanto, lo que debía ser es más guapo. Luego la gente nos preocupa, nos pregunta, ¿no?

¿Y cómo podemos ser más guapos, Matías? ¿Cómo podemos ser más guapos, Antonio? Teniendo mejores genes, obviamente. Entonces, a veces la gente no se queda contenta con nuestros consejos y nuestra sabiduría, pero ahora podemos hacer un giro que les pueda ayudar. ¿Por qué?

Porque pacientes chinos están cambiando los doctores humanos por clones de guía de doctores famosos chinos. Es decir, una empresa de del país asiático pone a disposición de sus clientes cien agentes, gente artificial, que representan a los mejores médicos del país, ¿no? Al al top cien, ¿no? A la creen de la creen de la medicina china, y que dan acceso a su opinión de los avatares de ILA veinticuatro horas al día. Entonces, claro, la ILAC tiene este componente que puede concentrar, verbigracia por la simulación, la concentración de la demanda en menos actores.

Sí, en este caso, menos doctores. Pero Pero aquí viene el otro consejo, Mati, y sí, lo que tenemos que decirle a la gente es, lo que tienes que hacerte es famoso. Si no eres guapo, por lo menos sé famoso. Sé tiktoquero o sé una de esas parejas juveniles millennial que va a a restaurantes y hace reels, así como muy entrecortados y siempre va y descubre sitios nuevos y, por lo tanto, tiene cierta popularidad local, ¿no? Es decir, búscate las maneras de hacerte famoso.

¿Por qué? Si te haces famoso, al final, de alguna manera, seas tú o seas clonado, pues tendrás turismocete.

También te tengo que decir, Andoño, demográficamente, la gente que va al médico, en su mayoría, pues son personas de la edad de mi suegra, por ejemplo. Sí. ¿Mi suegra qué es lo que no quiere encontrarse cuando llega a la consulta del médico? Pues un residente, una una persona joven. Ella quiere a una persona más centrada en años.

¿Vale? Y concretamente, como gran espectadora del Canal Sur, quiere al presentador de Salud al Día en Canal Sur, ¿vale? Roberto Sánchez Benítez. Este señor, si tú le pones a mi suegra un avatar virtual de este señor, a lo mejor un holograma, ¿no? En la consulta del ambulatorio, mi suegra sale contenta, da igual lo que le digas, ¿vale?

Mi suegra va a salir contenta. Y mi suegra, aunque me meto mucho con ella desde el cariño, como gran espectadora de Canal Sur, es que yo sepa, la única persona de mi familia que ve nuestra sección en Canal Sur los martes por la noche, entonces.

Es verdad que con nuestra aparición en la radiotelevisión andaluza, tenemos una gran oportunidad de de sobrevivir al al gran cambio de la inteligencia artificial, o al menos estamos en una posición un poco mejor que las evaluadoras de de PNS desconocidos. Por lo tanto, no estamos en la última posición, Matty, tú piénsalo que ahí, más o menos, ¿no? En en el en las profesiones más amenazadas, hemos subido un escalón, y con esta noticia optimista, positiva, con un consejo para nuestra audiencia, podéis ser guapos o podéis intentar aparecer en la televisión autonómica de vuestra región para afrontar el siglo veintiuno. Yo creo que con estos buenos consejos podemos despedirnos de nuestra audiencia, Matías.

Una vez, señores, tenéis O tres y O cuatro mini en vuestros chat GPT Plus, ya nos decís para qué lo estáis usando. Un abrazo a todos.

Chao, mix. Matías, creador frustrado

pordistroki, expulsado.

Su música

sigue vetada. La industria teme la estocada. Antonio con calma y humor. Olvida el pop le aconsejó. Es Matías un polla vieja, otro músico que se queja, o pionero más gemini muestra solidez.

La I avanza con agéntica, otras usa herramientas. Un salto cuántico parece

Episodios recientes

Programas relacionados