monos estocásticos 1×22

Entender el aprendizaje por refuerzo para que los drones con IA no ataquen a sus dueños

Matías está preocupado por su futuro como experto en IA y metaverso, dos cosas que para Apple no existen

00:00 /1h01

NOTICIAS DE LA SEMANA

Huelgas y problemas sindicales con la IA de fondo https://openletter.mousetail.nl/

Sindicatos y estudios discuten sobre cómo se debe remunerar a los actores por el trabajo de sus "dobles digitales" https://variety.com/2023/biz/news/sag-aftra-strike-authorization-vote-writers-1235633850/

Humanloop publicó lo que se suponía que era un resumen de comentarios de Sam Altman a desarrolladores en su gira europa. Ahora lo han borrado a petición de OpenAI (se ve que a Altman le pierde la boca), pero tenemos lo publicado en Archive.org https://web.archive.org/web/20230601000258/https://website-nm4keew22-humanloopml.vercel.app/blog/openai-plans

Claude supera a GPT-4 en algunas tareas creativas https://addition.substack.com/p/is-gpt-4-too-smart-for-its-own-good

Las startups están aprovechando ChatGPT para satisfacer la creciente demanda de terapia con chatbots https://www.semafor.com/article/06/02/2023/startups-are-using-chatgpt-to-meet-soaring-demand-for-chatbot-therapy

Relacionado: una empresa de ayuda ante trastornos alimentarios retira su chatbot porque sus consejos acabaron siendo terriblemente erróneos https://gizmodo.com/ai-chatbot-eating-disorder-helpline-neda-1850490751

Mientras tanto, en Twitter https://twitter.com/aisolopreneur/status/1664970492074250245

Apple no quiere decir "inteligencia artificial" https://arstechnica.com/information-technology/2023/06/at-apples-wwdc-keynote-ai-never-came-up-by-name-but-it-was-there/

PUERTA GRANDE O ENFERMERÍA

Un periódico sueco hace que la IA rapee sus artículos para que los jóvenes se interesen por las noticias https://www.businessinsider.com/swedish-newspaper-experimented-ai-rap-articles-to-appeal-to-youth-2023-5

Corea del Sur ahora vende ensaladas recomendadas por ChatGPT https://www.reddit.com/r/OpenAI/comments/1407red/south_korea_is_now_selling_salads_recommended_by/

Runway deja probar su texto a video, Gen 2 https://twitter.com/runwayml/status/1666429706932043776

EL TEMA DE LA SEMANA: Aprendizaje por refuerzo y el dron que "mata a su operador" https://twitter.com/monospodcast/status/1664888593968496640

monos estocásticos es el pódcast de inteligencia artificial presentado desde Málaga por Antonio Ortiz (@antonello) y Matías S. Zavia (@matiass). Hay un episodio nuevo cada jueves. Puedes unirte gratis a nuestro club social de Telegram y seguirnos en redes sociales:

Telegram https://t.me/monosclub
Twitter https://x.com/monospodcast
LinkedIn https://www.linkedin.com/company/monos-estoc-sticos/
Instagram https://www.instagram.com/monosestocasticos
TikTok https://www.tiktok.com/@monosestocasticos
Bluesky https://monosestocasticos.bsky.social
Threads https://www.threads.com/@monosestocasticos
Facebook https://www.facebook.com/profile.php?id=61584654541061

Todos los episodios en YouTube: https://www.youtube.com/playlist?list=PL-6s6cUsxTnsY_V0rqQFURaHDYuXD0AXj

Más enlaces al pódcast: https://cuonda.com/monos-estocasticos/links

Publicado: 8 junio 2023

Transcripción

Bienvenidos a un episodio más de monos estocásticos nuestro podcast sobre inteligencia artificial, con Antonio Ortiz, con Matías. Fabia, seguimos separados, pero es el último episodio que estamos en continentes distintos. La semana que viene, estaré por las España, por la madre patria, ¿cómo estás Antonio?

Estoy preocupado, Matías, estoy preocupado por dos personas que no me dejan dormir, Matías, mi preocupación por ellas, y una de ellas estuvo Matías, porque no sé si te has enterado, se ha presentado unas gafas.

Creo que -- De Apple. Ha sido la key nove de Apple, más especial de mi vida porque estaba en en la base de la Concagua, digamos, en la cordillera de los Andes se ha rodeado de un poquito de nieve, no mucha nieve. Y yo estaba con el móvil mirando la gafas por porque me podía la curiosidad de a ver cómo vieron las gafas,

Claro, el caso es que las gafas no son buenas noticias para ti, Matías. Los oyentes ya saben que tú eres un experto en inteligencia artificial, porque haces este podcast, eres un experto en Metaverso a los ojos de la Unión Europea. Como ya has hablado de ese tema. Y sin embargo, Apple tira por otro camino. Matías, eres la yo doy una persona que me preocupa más que tú ahora mismo Mati, que es Setar Blue.

Porque le chocaron del Tesla, ¿qué qué o qué pasa?

Le ha le ha pasado de todo, es que verá, yo tengo una antigua compañera de Wabedia sea que no no sé si sacarla del armario de César. César, por lo que me cuesta mucho decir César. César me me sería fácil, pero César, pero me cuesta mucho. Bueno, Esta compañera no había dicho su nombre, pero es una auténtica especialista en en este youtuber, en este creador de contenido, y le ha pasado de todo, Mati, lo he compartido con ella, que está ahí un poco desconsolada, porque no solo le entró todo el Tessa, ha tenido, bueno, pidió atención nueva legislación sobre el bocate de calamares en la sexta, se volvió loco con con cuando llovía en Alcalá de Nares creo que es, con una cartarilla empezó allí a Blafemar y por último ha hecho unas grandes proflamas en contra de la ocupación en un giro del personaje que que nadie esperábamos, dice

que va a botar a los de desocupa, a mí me recordó el tweet de este de todo internet ama al pato que bebe batido, ¿no? Lamentamos informar cinco minutos después, lamentamos informar que que el pato con el batido se es nace, ¿no? De un trasfondo enorme, porque Con César Blue pasó lo vi, fue muy divertido el el clip de cuando sacó el Tesla y y acabó votando desocupa. En fin, el Apple tiene prohibidas las palabras Metaverso inteligencia artificial, no las mencionaba nada, pero vamos a empezar con en lo clásico, vamos a empezar con nuestro repaso a los lanzamientos y las noticias de la semana, porque de nuevo no no no vamos a hablar de regulación, pero de nuevo hay gente enfadada con todos estos avances, incluso huelga santo.

Sí, el mundo de la ira empieza a tener problemas sindicales, Matías. Y más en dos frente, bastante diferentes por un lado, los moderadores de Start, está overflow, está reaching, han empezado a a aprovechar y amenazar con con parar, con dejar ese ese ese momento de la moderación, alegando que la empresa está perjudicando el propio objetivo, el propia misión de la compañía, porque si es de misiones proporcionar un depósito de información de alta calidad en forma de pregunta, respuesta, bueno, ya sabe con el rollo de Ectar Corpflow, pues claro, a estos moderadores han recibido una prohibición, han les han prohibido moderar respuestas a estas preguntas de de programadores. Echas la respuesta con inteligencia artificial solo por el hecho de serlo. Es decir, deberá moderar si esa respuesta incumplen alguna otra norma, pero solo por ser inteligencia artificial no las pueden quitar en principio bajo el nuevo reglamento. Los moderadores no no ven con buenos ojos, yo creo que ven ahí eTISFAC un futuro en el que va a haber menos humanos y va a haber menos futuro para esta overflow, creo yo también Y y antes de yo, juntarse juntarse una huelga, una protesta, Matías.

Entonces, si, técnicamente, si los obligan a moderar comentarios autogenerados, estos son los los primeros empleados que están trabajando para las máquinas, ¿no? Porque también le están modelando a máquinas, Bueno, pues está está bien una un ángulo de verlo, entonces.

Sí, sí, bueno de alguna manera hay una resople por ahí creada en el que está prohibida participación humana, que solo pueden participar bots, pero desde el comienzo de algo algo extraño incomprensible a día de hoy, pero un comienzo es

Esta esta etapa temprana de de, bueno, del boom de la guía generativa tiene tiene ramificaciones que son un poco como artísticas, filosóficas, Yo pensaba que iba a ser todo mucho más orientado a la productividad, pero estamos estamos hablando de todo un poco últimamente. ¿Quieren quieren más estar enfadados a ver?

Bueno, hay unos indicados que -- Claro.

--

de de Hollywood, Sackenzie On Astra, que, bueno, entre otros muchas cosas, no podemos decir que este sea el tema de Chartbeat, ni protagoniza Mathie, están negociando con los grandes estudios haciendo discusiones sobre la remuneración y los tiempos de la inteligencia artificial. Por una parte de las discusiones contractuales con los estudios, sobre todo por un tipo de trabajo que quieren asegurarse que que se factura bien, que es el de los dobles digitales. Por aquí, Es última que ha aparecido mucho, hemos escrito largo y tendido sobre ello, desde la princesa ley a al rejuvenecimiento de Havreakson Four, que hay unas posibilidades bastante plausibles de que, bueno, no veamos a veces a los actores sino los differes de los de los actores, y que por tanto, bueno, tú puedes, de alguna manera, a corto o medio plazo, que a a medio, que a corto, Sherton Cruise y estás protagonizando o rodando una película, pero en realidad estás en tu casa haciendo Meriden Dafena, Matías. Entonces, claro, aquí puede haber ¿quién va a capturar este valor? Pues en principio son derechos de la imagen de los actores y por lo tanto tienen que estar contemplada esta posibilidad los contratos y las negociaciones salariales, pues pues ahí está el debate, han ido a la huelga, ¿eh?

Por otros motivos, muchos otros muchos más, pero en este fue una parte de del desacuerdo.

Esto puede llegar a un futuro distópico en el que siempre sean los mismos actores, ¿no? Yo soy una Mónica Beluchis y de este tipo de de actrices y de actores que son míspicos y y he tenido demasiados.

Matias. Yo creo que todo el cine español lo harán Ricardo Darín y Luis Toesar durante toda la eternidad. Nunca nos libraremos de ellos.

Exacto. Porque los DeedFace nos reíamos del tema del bigote de Superman, de lo mal que estaba el de de Star Wars, pero pero hay algunos muy, muy, muy increíbles y esto no va a ser más que que mejorar en el futuro.

Sí, yo creo que aquí, de hecho, tienes un punto ahí que que creo es importante, que es que si tú ya eres

un actor o que es

todo, yo creo que nos pasa solo en en el cine y la serie, también en la música o en cualquier creación plástica artística o es un influencer famoso, un creador, tiene mucho que ganar y creo que la guía va a reforzar tu posición y tu capacidad de monetizar, de amortizar esa fama, va a favorecer a los que ya estén instalados, y que estos instalados pueden copar más tiempo de atención, más recursos económicos, probablemente juega la contra de los los que quieran entrar en estas disciplinas.

Sí. Mira, te voy a dar otro take. Elena, mi mujer, ella no se puede dormir, sino es viendo un episodio de Friends, ¿no? Pues que vayan generando episodios nuevos de Friends, porque en total los actores ya cobran, ya siguen cobrando las regalías, les llega el cheque todas las llamadas por detrás de las reposiciones, pues que le sigan pagando pero con nuevos episodios, ¿no? Y y luego, Álex Barredo, mi compañero de los otros podcast, no puede dormirse sin ver episodios de Futurama.

Es lo mismo, y más fácil todavía, ni siquiera hay que pagarle a a los a los actores de cada acuerdo.

--

solo a los actores de voz, ¿no?

Total, vamos

que -- Increíble.

De luego veremos en en en los basados haciendo la ciencia una una situación pintoresca que le da un giro a a esta situación Matías, Pero bueno, no adelantemos, mantengamos ahí a la audiencia interesada porque, bueno, ha habido una con con Opera ahí, ha habido cositas, Matías, interesantes, y un un doble debate. Uno, porque Human Loop, una una web a, entre comillas, filtrado los supuestos planes para este año y el que viene de la de la empresa, a partir de nuevo de supuestos comentarios de San Germán en su gira europea con con desarrolladores. No no sé cómo de fiable es esto, Matías, pero bueno, como Asam se le ve que le pierde la boca que que es un poco lo que me gusta soltar sus pakes, creo que hay una amplia posibilidad de que sea verdad.

Entonces, ¿qué qué qué es que ha dicho este señor?

Bueno, lo lo que han filtrado y han y les han obligado a borrar es que primero tiene un diagnóstico que están limitados en el crecimiento por la falta de GPU, De hecho, en la entrevista que hablamos de Elón, que le hizo Wall Street Journal y tal, el propio Elón iba a decir Elón sigue por Dios. El propio Elón Max, decía que la que la GPU son más difíciles que comprar, que las drogas. O sea que sí. Y un tipo de comparativa.

Hoy ha estado, hoy ha estado tuiteando sobre este tema también. Ha dicho que envidia no puede mantener para siempre el monopolio de las tarjetas gráficas para entrenar a inteligencia artificiales, así que nada, ya está muy tuiteador sobre el tema del señor. Bueno. Pero volvamos a volvamos a Samalman.

Los supuestos planes ya no están publicados, se se le puede acceder por el Wao's Machine, esta web que te recupera versiones de antiguas, de otra cosa

que llamó Samalman y pidió que lo tirara, ¿no? O directo.

Sí, de hecho, ponele eso. Open ahí ha exigido que quite, quite, ¿no? Bueno. A corto plazo, el el gran reto dicen que es abaratar y y acelerar GPT4, ¿vale? Que es básicamente el el gran talón de Aquiles que ellos ven con con el servicio.

Yo aquí discrepo un poco, creo que la versión con acceso al web, incluso la versión con con plugins, es bastante también mejorable. Pero bueno, El el caso es que gran parte del del trabajo que están haciendo se se va a centrar ahí, quieren ventanas de contexto más largas porque se ve que lo de cloud que el el el modelo competidor de dentro del típico, ¿le has hecho le has hecho pupitas y que están un poco interesados en eso? Tienen dudas con el mundo de los plugins aquí si estoy de acuerdo, que no los van a meter en la API, por ejemplo, y que no le ven product más cada feed, si es que no los ven. Con una salida para el mercado todavía adecuada, madura, con un con un valor suficiente, y que tenían también para este año crear una API conectados. Si si recuerdas la el debate que tuvimos cuando entrevistamos a la a la gente de Lucía, que no de los grandes problemas con los votos que se acordaran de todo lo que le habías dicho, y que los programadores tienen que buscarse manera de conseguir hacer esto.

Bueno, pues Sopenhague quiere introducir esto ya disponible dentro de su API, manera que sea más fácil para desarrollo de terceros, tener ese histórico de conversaciones entre el usuario y el bot. Y que la última habilidad de GPT cuatro atención sería a dos mil veinticuatro. Es decir, que toda esa parte de poder pasarle imágenes al modelo, de momento, según esta filtración, no lo veríamos lo veríamos todavía.

Dice que por porque es costoso, ¿no? Necesitan más GPU, pero también a lo mejor es posible que no esté listo como para lanzarlo al gran público o que no tenga uno de los resultados tan prometedores que que ellos habían presentado en sus ejemplos, no sé. Él dice que es por tema de de GPU. Sabes que ha habido mucho debate últimamente sobre si ha empeorado la calidad de ChagGPT. Yo no sé si lo he notado, pero es cierto que he bajado el una marcha de de de de la cantidad de uso que hago de ChagGPT.

Sí.

¿A ti te ha pasado?

No, no, vamos, a lo mejor yo que hago un uso poco sofisticado, de hecho yo, el el mayor uso que hago es me gusta mucho un plus y ya lean crewder, que viene muy bien para consultarle sobre textos en internet, que te haga resúmenes, pero en principio no he notado que se ha, he notado una cosa, creo que ha desarrollado un poco de, ¿sabe la presión española Rin Tin Tin? Es una expresión un poco viejuna, ¿no? Que es como decirte algo con un soniquete que comunica parte de un reproch. Preparándolo el episodio de hoy, me estaba preguntando cosas de aprendizaje con refuerzo que hablaremos luego del té de learning, el cool learning. Bueno, hay diferentes técnicas para la aprendizaje de correfuerza lo hablaremos luego.

Y en un par de respuestas, ¿sabes qué? Me dice el el GPT cuatro, Pues el té de learning, como te dije antes, como ya te he explicado, pero bueno. Te estoy pagando, oye, que si te los de pago, que que este reprocho de que como ya te he explicado antes, pues me parece bien idiota que no te enteras.

Bueno, pues, te doy la fica en Hacket News ha habido debate y ha habido un hilo en el que afirman que Openite de alguna forma ha ido truncando las capacidades o debilitando GPT4 con alguna actualización. En concreto, ¿tú te acuerdas los que pagamos por el ChagGPT Plus, tenemos un avatar de de de ChagGPT de color diferente a la versión gratuita, la gratuita es verde, Bueno, la de pago empezó siendo negra, pues dicen que desde que cambiaron a morado creo que es, de la bandera de gran morado, El morado es peor, ¿no? Que antes resolvía problemas de, pues, de programación bastante complejo, sin esfuerzo, quedaba puestas más matizadas, más reflexivas, y que ahora incluso se inventa líneas de código, que no se sabe dónde salen o que les faltan algunas líneas, que aparecen que son diferentes de repente, como que han lobotomizado en un proceso de actualización al GPT cuatro, que es el modelo más potente que tienen. Que es el de pago, ¿no?

Bueno, aquí hay hay una cosa que en el propio informe inicial que publicaron no lo iba a llamar paper porque no no aplicaba todo en realidad, el propio informe de GPT cuatro reconocía que la etapa última del entrenamiento de modelo, que es la de aprendizaje, por refuerzo con con feedback humano, se perdía precisión y se perdía, bueno, que llaman calibración del del del modelo, es decir que daba peores respuestas. Claro, el modelo en sus primeras fases no se está reentrenando, ya sabemos todo eso de que hasta dos mil, el data set es hasta dos mil veintiuno y todo esto que sabemos ya de de GPT cuatro, pero sí sabemos que que esta parte de refuerzo confitad humano sí se mantiene, es decir, si encuentran que han hackeado a través de un prom y hace cosas que no quiere que se haga, pues lo corrigen. Que si el GPT4 te responde cualquier cosa que consideren tóxica, inadecuada bla bla bla bla, lo corrige. Entonces, en este aumento de las correcciones es posible que estén penalizando pues sí que estén paralizando el rendimiento general del modelo, ¿no? No sé una manera de medirlo, aparte de impresiones, pero pero prousible es.

Bueno, también puede ser que la gente ahora que está usando los plugins que está disponible en todo el mundo, la verdad es que es una cosa muy rudimentaria, como comentábamos en el episodio anterior, lo de los plugins, son son muy lentos, o sea, la búsqueda del internet increíblemente lenta y y puede ser que simplemente la gente esté desencantada con con algunas respuestas. No lo sé, no lo sé. La verdad es que GPT4 se las tiene que ver con, por ahora, con Google, ¿no? Que ya está, la gente está pudiendo probar sus sus cositas y dicen que hace que la experiencia de Google se haga más lenta a lo que ya sospechábamos desde un principio, ¿no? Pero es que además también se las tienen que ver con Cloud.

Lo que comentamos antes de Altropic, ¿no? Porque en algunas tareas creativas pondremos algún enlace en la descripción del video, ya se está viendo que supera gente de cuatro.

Vamos a ver, vamos a ver. Mientras hay otros usuarios que están después contento con GPT4 pero por distintos motivos, y ese es el caso, bueno, hay hay un artículo que que traíamos el guión que es de Sabadell, y que recoge una tendencia, bueno, no sé si preocupante, no sé si, no sé cómo cómo calificar la matic es la gente que está usando GPT4 como terapeuta, como psicólogo, como como para hacer terapia Matías.

Sí, sí, sí, no, esto además. Si usas Twitter habrás visto algún hilo en Twitter de gente. Por ejemplo, había uno que decía, hacer terapias caro. Cuesta más de ciento cincuenta dólares la hora. Afortunadamente puedes convertir el ChagGPT en un terapeuta gratuito.

Aquí te mostramos cómo usar ChagGPT para mejorar tu salud mental. A mí esto me de horrorizo. Pero a ver, Antonio, cuéntame, ¿se puede usar o no GPT4 para cuestiones de salud mental?

Claro, el el punto es que se me han ofertado la historia de este usuario llamado Mark, nombre inventado, utilizaba ChagPT realmente como en su terapeuta durante meses, ¿vale? Bueno, encontró eso que vemos mucho en en los chatbots especialmente en este, que es las respuestas con empatía, la paciencia infinita, recomendaciones que Mark encontraba útiles, pero llegó un momento en que empezó a notar que el que el ChagPT pues ya no ya no le respondía cuando traía temas intentitos o o fuertes, ¿no? Y siempre le decía, baitei búscate un psicólogo, ¿no? De nuevo aquí vemos en la mano de Openi, que ha metido, claro, el refuerzo de, ante este tipo de respuestas, no no respondo lo que te diga lo que has aprendido por el término del data set, responder estas estas otras cosas, ¿no? Entonces claro, lo la aporta voz de de opina ahí que que no se ha realizado nada ningún cambio en la política de salud mental, pero que está claro.

O sea, GPT no fue entrenado para esto, ni para ayuda emocional, ni para ser terapeuta, y que las personas tienen que tener cuidado cuando cuando hagan estos estos manejos. El caso es que hay empresas que están planteando proyectos de startup basadas en la terapia a través de de chatbots, incluso en algunas líneas de ayuda contra, ¿no? De de de trastornos alimentarios, se están integrando chatbots que volvemos al problema casi el pecado original de estos tipos de modelos, ¿no? Que es que alucinan, inventan cosas, no puedes controlar exactamente lo que dicen, al final te pueden dar un consejo totalmente erróneo, totalmente contraproducente, ¿no? Entonces, claro, la situación es, el cuadro completo es, es decir,

creo que cosa que pasa es que tú y yo tenemos como un uso muy pragmático, muy utilitarista, de Chagé PT, y al ser un chatbotas, hacer una interfaz de chat, hay muchísima gente que lo está usando para hablar, simplemente porque a lo mejor necesitan desahogarse y con mi contarle cosas aunque sea a una máquina que de alguna manera te te esté respondiendo. Y no me extraña que esto sea polémico porque bueno ya ya ya ya un equipo de debate cuando hablamos de de temas de diagnóstico médico no puede imaginen de diagnóstico de problemas de salud mental, ¿no? Que son tan tan peligrosos y que pueden llevar

a, claro,

a ciertas, a ciertos actos dañinas, ¿no? Entonces, es complicado es un tema muy complicado, pero yo creo que la gente va a seguir intentando usar esto para eso, a menos que directamente capen la posibilidad de de usarlo como terapeuta.

Bueno, Mathie, ahí quizás tú podrías pedir algún consejo a HGPT, porque puedes consultarle soy un experto en beta verso, que es de arte oficial, sin embargo Tinkook no no es a favor de nada de eso, ¿no? Y no, y y Apple ¿no? Arrollando con su poderío de comunicación, marketing, qué atracción, me está dejando fuera de del mercado, ¿qué qué hago, no? Yo creo que ahí puede puede dar de un buen consejo, Mathel.

Tendré que pasarme a la computación espacial, ¿no? Que es como le llaman. Le llaman

computación espacial. Yo a eso no lo podemos conseguir, ¿eh? Computación espacial.

Por cierto, cuando estaba leyendo sobre este tema de terapia y GPT4 me me puse a investigar que no no se me había ocurrido, si GPT4 cree entre comillas, en pseudociencia, ¿no? El plan, si le digo mis signos zodiacal o si le pregunto por por alguna cosa un poco menos científica que responde y claro se habrá sido entrenado con un montón de textos que creen en esto y, por ejemplo, le digo, soy cáncer, ¿qué significa? Pues me contesta, significa que es más emocional, intuitivo, protector, que que tienen más cambios de humor, que decir, más filativo. Y la verdad, esto esto depende de quién le preguntes, puede ser una respuesta complicada.

Sí, sí, sí, sí, sí. Bueno. Ahora que en este podcast de Insurgentes lo mencionamos, no no puede ser que opinaíto tome medidas en el asunto Matías. Pero mientras opinaíto toma medidas o no, yo te invito a que discutamos dos casos importante, relevante, de materiales de puerta grande o enfermería. Te traigo uno mate, que yo creo que a ti te va a gustar porque tiene que ver con los medios de comunicación y una labor parecida a la a la tuya que rejuvenecen, buscan acceder a que los jóvenes se acerquen y se interesen por la noticia y la actualidad.

Un periódico sueco hace que la IA rapee los artículos. Atención, puede ser la integración más interesante, claro, el el nombre del periódico Aston Vlavet.

Porque se comprende que un boomer quiere acercarse a a los jóvenes se pone a rapear. Es que

es el momento York y Hurtado tío, ¿tú lo has visto alguna vez del El ratio de Jordy Hurtado.

Jordy Hurtado. Jordy Hurtado. No, es claro.

Si tú rapias las noticias, Matías, los jóvenes se acercan, es lo que faltaba, era el salto.

No, no, no, no, de verdad.

Siempre, siempre -- La guía abre muchas puertas, Matías, tú puedes decir, ¿no? Ejemplo, alguien puede llegar a Jim Modo esa web de la que tú escribes y coger varias versiones, ¿no? Como cuéntame la noticia en como si fuera el romancero o podemos también la noticia siempre, pero cantando la canción de la cucaracha, es decir, estamos muy cerca de conseguir estos estos logros, Matías, pero bueno, aquí la propuesta de los suecoses es el rapeo, ¿no? Es el la música urbana maticas.

Seguro que les ha funcionado y que se han acercado a los jóvenes, aunque sea para ser objeto de burlas, ¿no? ¿Qué más tenemos en puerta grande o en enfermería?

Vale, pues te te pasaré una imagen, Matías, porque en Corea del Sur, atención hará en el propio envase de las ensaladas, estas ensaladas que vienen ya, pues, en su en su paquetito, que vienen ya para abrir y y consumir, hay una marca que está diciendo que su ensalada está recomendada por ChagGPT. Hay un cerdito comiéndose la ensalada en la carátula, ¿me entiende? Y en el techo, he usado lo de Google Lens para para intentar traducir porque en en Reddit ponía pues eso, mini salada, gerty topping, bueno, la traducción que mandaba a esta, ¿no? Y que tenían Pegin de Garden, bueno, la traducción del coreano no no la puedo garantizar, pero aparecía claramente que esa ensalada está recomendada por Charge PT, y yo he pensado que que puede ser Charge PT el nuevo Carlos Ríos, Matías.

Bueno, pues, puede ser, puede ser, pero cuidado por como no se apuntan aquí también la las ciudades que recomienda ChagePT visitar, ¿no? Porque una vez le pregunté que era mejor visitar, si fue en Girola o o o Málaga creo que que le dije y no se mojaba, no se mojaba, decía que las dos tenían sus y sus desventajas, me imagino, las campañas estas institucionales de publicidad.

Sí.

Para, diciendo, ya GPT recomienda visitar la cariguela o

lo veo Matías a la entrada de cada pueblo una rotonda nueva. Recomendado por Chage PT.

Los boliche recomendado por Chage PT. Me gusta, me gusta.

Carta me estación. Bueno, con Chaja me te habla bien de todo, nunca se mete con nadie, pues, recomienda Chaha repetida por supuesto. Bueno, ¿quieres que hablemos de del gran revés de tu vida profesional? Es decir, que la presentación de Apple

que algo tendremos que comentar.

Porque no sé si no nos vamos a meter mucho en el tema de las gafas, seguramente use algo de inteligencia artificial a la hora de de predecir lo que tú quieres clicar por decirlo de alguna forma, porque tiene una una serie de sensores, pero también tiene pues un software que que va intentando predecir dónde quieres dirigir la mirada y dónde quieres pulsar. Pero Apple no ha mencionado la palabra y habla para la inteligencia artificial en toda la el evento de de apertura del WWF, y y creo que es adrede, porque sí usan aprendizaje automático machine learning, porque tienen un montón de funciones de software y de herramientas que utilizan aprendizaje automático desde el tema de las fotos hasta el auto corrector del iPhone ¿no? ¿Cuántos memes y y y virales hemos visto del auto un colector del iPhone, pues es una función que usa machine learning y que ha mejorado pues eso a base de de refuerzo y de entrenamientos. Además, la última versión del teclado del autocorrector se basa en en un modelo Transformers, o sea, esto es del de lo que hablamos todas las semanas en buenos estocástico, solo que Apple no lo llama inteligencia artificial.

Qué bueno, tengo un amigo programador que esto él ya lo decía hace años. No, es inteligente artificial, es aprendizaje automático, o son redes neuronales, o sea, no sé qué hace cuánto. Pues Apple desde esa escuela.

Sí, sí. Yo creo que el par de es porque no no les gusta un término que que que le mole a otro, ¿no? Son como muy muy especiales para esto, ¿no? Javier la Corte tiene un tema en Chataca que que que lo explica muy muy bien y que a Félix les gusta empujar, ¿no? De hablar de la resolución, la pantalla haya retina, y con con todos estos temas se está haciendo algo similar, ¿no?

Entonces, vamos pues que que la haya bueno, hay hay otro factor también, ¿no? Que que la guía está un poco oculta. Es decir, que la guía mejora las aplicaciones y los servicios, pero no te pone a apelar a interactuar directamente como como interactuamos con ChagePT, con Be, con Pepper Playsity, con Lucía o con cualquiera de estos otros, ¿no? Bueno, yo creo que la la hemos comentado en otra ocasión, Apple puede tener paciencia porque mientras mantenga el iPhone y como la siguiente gran como la gran plataforma que actualmente se usa para acceder a productos y servicios digitales, pues sigue facturando el treinta por ciento. Que es el impuesto que tiene la App Store.

Y si esto de del de las gafas de de realidad, extendida, realidad aumentada, bueno, se puede llamar de muchas maneras, ¿no? Pero pero bueno, que es realidad virtual, real aumentada, Si si esto se convierte en en el siguiente interfaz entre el usuario y el servicio, podrá seguir facturando el treinta por ciento a toda la industria digital. Hecho, la aplicación de Chartbeat en iPhone. Si contratas la suscripción desde la tienda de Apple, te cuesta lo mismo que desde la web, pero un treinta por ciento se los llevaba Apple. Eso ya es la señal de que Apple va a seguir, de alguna manera, en una posición bastante tranquila, bastante privilegiada y que no y que uno tiene que tampoco que volvérselo acá a sacar un modelo, sacar un voto, lo que sea.

Bueno, yo yo he escrito un error quinientos, si alguno de los oyentes se se quiere pasar, porque creo que toda esta toda esta situación de de cuál va a ser la siguiente gran plataforma tecnológica, creo que es muy interesante ver el camino de la ida por un lado y el camino de la de esta visión pro, de estas gafas por otro.

Sí. Bueno, mucha gente he visto tu tu artículo y tienes tienes razón en una cosa, y no voy a spoilear el artículo para que la gente vaya a leerla, pero

--

A spoilear.

Tienes razón en una cosa y es que el iPhone era una podríamos decir una iteración genial sobre algo que ya usaba todo el mundo, que era el el teléfono y ya había teléfonos con aplicaciones, pero esto es algo completamente nuevo que nadie necesita comprar, ¿no? Es algo que nos quieren convencer de que es el futuro. Y es cierto que la gente que lo ha probado como Ángel Jiménez o brasero del de la vanguardia o Y

más de chico, pero y rojo que hace vídeos. Sí.

Toda barcas y todo el mundo del arte. De hecho. Impresionado, impresionado con la demo de la gafas. Así que nada, tenemos hoy ir a esta, tenemos que hoy ir a Estados Unidos, gastarnos tres mil quinientos dólares más IVA, y y probarla por nuestra cuenta, o esperar a que llegue, no sé si este modelo fue el siguiente a espanñita.

Nada, yo a mi mi plan es seguir siendo único de Ángel Jiménez de aquí, que nos regresa también. ¿Cuándo hay cuándo? Que venga a España y se traiga la gafas, ya. Lo intentaremos coger, ¿no? Bueno, sí, es le pasa lo mismo que la guía, tienes que crear un nuevo hábito cuando antes no lo había, ChagGPT lo ha conseguido.

Sí, está claro, está en millones de usuarios usando ChagGPT a diario, y que eso es un reto para para la visión pro, ¿no? De que no había un momento ni una costumbre de usar gafas, de realidad virtual, etcétera, vendida, aumentada, como lo queremos llamar, ¿no? Entonces, bueno, el reto, el reto lo tienen ahí, a mí gusta también la la Review de primeras impresiones de Mark eat, de Rowling, porque lo he visto bastante ponderado, bastante bastante ajustado, y bueno, Creo que hay muchos meses, esto es han presentado con con mucho tiempo y sabía que tiene un poquito un poquito de prisa.

Antonio, yo tengo muchas ganas Vamos a dejar a Apple porque seguramente comentaremos más cosas en los siguientes episodios, pero tengo mucho

--

Escuchen Cupertino.

Sí. Tengo muchas ganas de, bueno, a Cupertino dice, viene Ángel, de hecho al al inicio de Cupertino así que estará interesante seguro. Tengo mucha ganas de que me cuentes, porque nos han mandado mucho una noticia, que era un pedazo de clickbait importante, que era drop military estadounidense controlado por una hija, mató a su operador durante una prueba y luego te metes a leer y no tienes nada que ver. El dinero

ha sido ha sido un desastre mediático, Matías. Fue un desastre, pico gente de medios con mucha audiencia y con algunos de prestigio, ¿no? Pico de guardia, Pico Vice, Media Pico Business Insider, en España todos estos periódicos deportivos que dan cualquier cosa que da un vino pite picaron todos, alguno de prestigio como el confilodio, pero creo que no, no, muy bien. Y es uno de esos temas que cuando aquellos en medios están golosos, están, sabe que esto va a funcionar, esto va a estar leído, es una bomba, es un tema interesante, pero que a veces necesitas ese sentido arácnido ese esa intuición de decir esto es demasiado, no va a decir bueno porque más como una noticia de haber muerto una persona, pero es un tema demasiado jugoso, demasiado directo y claro, como para que fuera para que fuera verdad, ¿no? Y que si lo pensamos un poco desde la especialización, vería que que no, pero es un tema en el que verás al final lo que explicó la la organización que que militar de de Estados Unidos era que esto era haber sido un ejercicio teórico que ni siquiera dio ese desarrollo software asociado y que era eso, pues, alguien ha hecho una hipótesis mental de cómo podía funcionar un sistema así, y había llegado a conclusión de que el Trump militar acabaría matando su propio operador.

Como las paridas que nosotros soltamos aquí y que luego se publique como que hubiera pasado.

Algo así, Matías. Lo que pasa, lo que ocurre es que entendiendo el mundo del aprendizaje por refuerzo no es tan pajamental. Es decir, vamos a necesitar, vamos pedir la presencia a los a los oyentes cinco minutos, porque tengo que dar casi un paso atrás para hablar de aprendizajes por refuerzo, para explicar de cómo se puede llegar a este tipo de de ideas o de experimentos mentales y concluir cosas como las que concluyó el coronel este que luego fue mal interpretado. Si si nos vamos un poco a los fundamentos de cómo se entren en los sistemas populares, si todos los de inteligencia artificial que usamos día de hoy, siempre nos vamos hablando de aprendizaje supervisado, aprendizaje supervisado. ¿Cómo entiende la aprende la IA a clasificar fotos de datos y de caballos.

Pues tiene un montón de fotos etiquetadas que pone gato y otras que pone caballo y otras que pone cualquier cosa, y entonces ese alimento de millones de fotografías en las que cuando a cierta se le premian y cuando falla se le castiga, pues va aprendiendo, ¿no? Eso es el típico aprendizaje supervisado. Y el no supervisado, pues simplemente se da los datos a la al sistema y se le empuja a que él mismo encuentre los los patrones y se usa mucho el sistema de generación de texto en la que aprende qué palabras van unas con otras, cuáles son se mantendría antes cercanas a partir de las coincidencias de lo de lo de lo que va leyendo. Estos sistemas de aprendizaje tienen una característica fundamental que que cada momento de aprendizaje independiente del otro. Es decir, tú cuando le pasas una foto de un gato a a la IEA, puede acertar, puede no acertar, que, cierta, bien, sigue así, mantente como está, porque estás bien entre nada, que falla, hay realimentación y reajustete un poco porque no era un gato, era un perro, está confundido, pues se reajusta la red neuronal y así se se entrena.

Pero lo que pasa en una foto no influye en la siguiente foto. Son absolutamente independiente. Bueno, el aprendizaje por refuerzo está pensado es un paradigma que tiene que tiene décadas, decir, no es una tecnología en sí, sino una forma de abordar los problemas de inteligencia artificial para entornos más complejos. Son entornos en los que cada decisión que toma la guía modifica el entorno, modifica el contexto de las próximas decisiones. Ejemplos, los juegos.

Los juegos tienen estas características en el ajedrez lo que tú tienes que decidir y pensar en una jugada depende de la jugada anterior que hayas hecho. Cuando haces una jugada modificas el tablero, modificas la situación del del juego y, por lo tanto, no está absolutamente aislada del resto de de la partida. Pasan el ajedrez, pasen el go, pasen los videojuegos, Pasa en un robot que se mueve por una habitación. Cuando la tumba se mueve, la siguiente decisión depende de lo que ha decidido antes, se torcido para la izquierda, se torcido para la derecha, pasa en el coche autónomo donde se usa aprendizaje por refuerzo. ¿Por qué?

Porque el coche autónomo, la siguiente edición que toma, está condicionada por si antes ha acelerado, ha frenado, ha girado, no ha girado. Cuando se mueve el coche autónomo modifica su sitio en el contexto y modifica el contexto, y por lo tanto no puedes tener este aprendizaje tan estático como en los clasificadores de de fotos. Una cosa más en el aprendizaje por refuerzo, se busca una cosa muy peculiar, que es que el sistema aprenda absolutamente desde cero. No hay un that set que se le proporcione al a la inteligencia artificial, sino que se le mete en ese contexto y se le empuja como cuando se hacía aprende nadar a los niños, a lo bruto, te lanzamos, estuve probando mecanismos, y cuando hayas aprendido uno bueno, pues entonces te daremos por por aprendido.

Así me enseñó mi tío

a conducir. Hubo algún incidente en el proceso. Ajá. Aprendí, aprende.

Mi primo manolito me hacía eso. Bueno, hay un experto en uno de los artículos y el aprendizaje por refuerzo decía que el aprendizaje supervisado es como aprender con un maestro. Cada vez que tú le dices esta es una foto de un gato y tú le dices sí o no, pues te dice, ay no, ha fallado, aprendelo, vamos con otra, ¿no? Ese es el aprendizaje supervisado. El aprendizaje correfuerzo es como tener un crítico muy cabrón en el que tú haces un montón de cosas y inmediata y millones de veces te va a decir mal.

Y no te va a explicar nada, te va a decir mal, mal, mal, mal, mal. Para entender esto quizás podemos partir de de un ejemplo, en la que se usa aprendizaje supervisado, que es para jugar alPongo. Es decir, hemos dicho que los juegos son el cotito ideal para el aprendizaje por refuerzo. Cuando se aterriza una inteligencia artificial de este tipo, hay dos factores que que hay que definir. Uno es cómo se comporta la gente, es decir, la gente me refiero al inteligencia artificial.

¿Qué cosas puede hacer? Y qué función evalúa. ¿Por qué? Porque a mi principal esfuerzo le decimos a la IEA que tiene un objetivo que maximizar. Tienes un objetivo que cumplir.

En todos los ejemplos que hemos puesto antes podríamos definirlo. En el ejemplo de ajedrez es ganar la partida. En el ejemplo del coche, pues podría ser llegar al destino. En el ejemplo del punk, pues es ganar, es ganar una partida de de este juego, de este videojuego, que si alguien no lo conoce, es el juego probablemente el videojuego más simple de Victoria. Dos palitos, una bolita y cada usuario tiene un mando con una palanca y no puede hacer más arriba, abajo o quedarte escrito.

Digamos el primero el lío

que se programó, estoy equivocado.

No estoy cien por cien seguro, pero si no fue el primero, merecería serlo porque realmente es un juego ultra ultra sencillo. Entonces la historia de Disney oficial hay hay un momento muy muy interesante, que es cuando se se empezó a utilizar los videojuegos para el aprendizaje de ahorro fuerte, y el ponme es es un ejemplo muy bueno, porque ¿cómo se enterará a esta IA? Pues, básicamente, se le pasa a la IA, a la hora de aprender cada frame de la pantalla. Se la lanza a jugar al videojuego y se le dice tres cosas. ¿Qué puedes hacer?

Puedo manejar el mando para arriba, para abajo, o mantenerlo quieto. Esas son las acciones que puede hacer la guía. ¿Qué tienes que maximizar? Esto es como una suerte de si alguien está familiarizado con el psicólogo Skinner, ¿no? Con el conductismo, es decirle vas a aprender así, si te voy a poner un objetivo, te voy a dar premios y te voy a dar castigos.

Cuando la hace bien te daré un premio, cuando tú lo hagas mal, será un castigo, pues lo que tiene que hacer esta guía es maximizar la puntuación en el juego del pon. Y cómo puede la IA interactuar con con el sistema, va a tener cada frame. Cada frame se le va a ir pasando. Entonces, la IA aparece ahí no sabe absolutamente nada, no ha sido absolutamente entrenada, no hay un data set de partidas de punk que haya visto antes de jugar, sino que va a empezar desde cero. Desde cero nunca ha hecho nunca nada en la historia y va a jugar al al pongo.

Entonces lo que empieza es por fuerza bruta a probar cosas aleatorias. Prueba mover para arriba todo el rato. Pierdes, fracaso. Pruebo a mover dos veces para arriba, dos veces para abajo y quedarme quieto. Fracaso, fracaso.

Fracaso, si Isaías va a estar jugando el pon durante miles de partidas decenas de mira de partida hasta que meta su primer gol,

déjenme si me equivoco, pero es así como se han descubierto nuevas, por ejemplo, salidas de ajedrez y nuevas formas de jugar que el humano no se le había ocurrido.

Exacto, porque en esto existe nada de por ejemplo en DeepBlue es distinto de cómo se programa alfa go Deep Blue partida de muchos conocimientos, ya programado de una base de datos de partida de ajedrez, alfacounts, ¿no? Entonces, al igual que en nuestro ejemplo de que sería el Alpha Punk, que el que estamos programando aquí en este momento, se le pone a jugar al videojuego y hasta que, digamos, consigue sus primeros puntos, entonces, como está diseñada, eso sí, para maximizar esos puntos, es decir, ese es su refuerzo positivo, por eso es aprendizaje por refuerzo, pues la IA se reafirma y va aprendiendo y va intentando repartir los patrones que le llevaron a conseguir ese éxito, que es a conseguir estos puntos en el juego del Pongo. El momento estrella de la del aprendizaje por refuerzo en la las últimas, bueno, diez años, sin duda fue del paper de BitSign en dos mil quince. Este paper, la gente de la empresa, habrá propiedad de Google, que, reflejo un momento histórico, porque con un, bueno por primera vez alguien usaba el deep learning, usaba las, redes neuronales que ahora mismo estamos utilizando en la en la inteligencia artificial para aplicarlo al aprendizaje por refuerzo.

Y lo metieron en este entorno, en este entorno se llamaba el el arcave learning environment, que le pusieron a jugar a un montón de juegos de atari. Entonces cuando mezclaron esta filosofía del aprendizaje por refuerzo, con la posibilidad de jugar a un montón de juegos con el aprendizaje profundo, consiguieron que en docenas y docenas de docenas de juegos el mismo sistema, es decir, no, un sistema especializado para video juegos. El mismo sistema consiguió en docenas de juegos jugar a nivel humano o todavía mejor. Es decir, a toda esa generación de juegos de Daddy, de repente la inteligencia artificial, asándose en el aprendizaje por refuerzo, conseguía resultado extraordinario. Y repetimos, ¿cómo lo conseguía todo esto?

Pues simplemente, además, sin partir de un tata set, sin haber jugado nunca antes, simplemente con ese uso de deep learning y con esa ese refuerzo positivo de decirle Juega infinitas partidas, juega millones de partida, hasta que tú sola encuentres el modo de jugar para conseguir los máximos puntos posibles. Hasta aquí todo fantástico, ¿no? El precio por refuerzo, nos permite un montón de cosas. Skinner, a lo mejor, tenía razón y somos no existe el libro albedrío y todos somos máquinas conductistas o por lo menos en la máquina funciona muy bien, pero hay un caso muy interesante de este pépere de Dynamic Yield, que no consiguió jugar a un juego en el que quedó a cero. Es decir, mientras que muchos otros superaba a los humanos, en el montezuma revancha que es más y montezuma con n, no consiguió jugar absolutamente nada y se quedó siempre a cero.

¿Por qué? Porque en este juego, digamos, había que hacer tantísimas cosas y tantísimas exploración hasta llegar a los primeros puntos que la hija nunca llegaba a eso y nunca aprendía nada. Es decir, el objetivo, el refuerzo estaba tan lejos que le era imposible de alguna manera explorar tanto, porque siempre lo mataba mucho antes en todas las en todas las literaciones que que había que había probado. Incluso cuando esto no pasaba en el Moctezuma Remach, pero pasaba en otros en otros ejemplos, Pensemos, por ejemplo, en un coche que deseaba de Madrid a Málaga, Matías, o de Málaga a Madrid. Y al final no llegas.

Al final ha habido un problema y te has quedado a veinte kilómetros de tu destino. ¿Dónde se ocurrió el error? ¿Cómo puede aprender el sistema? ¿Ese error estuvo en la última decisión? Estuvo, porque de Málaga Madrid, el coche toma millones de decisiones.

Si tú quieres que aprenda de esa experiencia, cuántos viajes tendrías que hacer para saber y determinar todo eso. Es decir, hay un problema en los sistemas de aprendizaje por refuerzo cuando, de alguna manera, el el retorno o el aprendizaje se produce demasiado lejos. Ya voy a acabar porque hay hay dos cosas que nos van a llevar a nuestro drom asesino. Vale, ¿cómo afrontan los investigadores en en en el mundo real este este tipo de problemas con con el aprendizaje con refuerzo. Bueno, a veces lo que hacen es decir, como es tan complicado y tantas opciones y el mundo no es como un juego de atari, hay problemas mucho más complicados con el juego de Atari, vamos a hacer problemas más pequeños para que aprenda y luego lo soltamos el turno grande.

Alpha cero, alpha go, perdón, es algo así, cómo se consigue que alfagó empieza a jugar a un nivel más bajo para luego ir aprendiendo, jugando contra sí mismo. Entonces, siempre tenía un rival del mismo nivel, y y de alguna manera a ese aprendizaje no estaba tan postergado cuando necesitas ganar alguna partida alguna partida pronto. ¿Qué es lo que hace también? Bueno, hay una atajo, ¿cómo se llama? El té de Learn, que en vez de decir tienes que conseguirlo el objetivo final, lo que tenemos que decirle al sistema de aprendizaje por refuerzo es que haga predicciones, y cuando las predicciones van mejorando, pues, que van mejor.

Pero el mayor problema de todo es el del modelado de las recompensas. Es decir, cómo le decimos que ha conseguido tener más puntos a esta inteligencia artificial y reforzamos su aprendizaje. Que es final, es cómo planteamos un sistema de incentivo para Lía. ¿Qué tipo de problemas? Algunos teóricos y otros prácticos en sistema, de verdad que se han programado, se han encontrado.

Bueno, imaginemos que el problema es que un robot se vaya de un punto a o un punto b como nuestro coche de Málaga Madrid. Entonces, como sabemos que es muy difícil que el robot de momento llegue a Madrid, le le vamos a dar recompensas por acercarse. Vamos a hacer problemas más pequeñitos. Cada vez que te acerques de Málaga a Madrid te damos puntos, por lo tanto te creamos el incentivo de cuánto te vayas acercando, pues mejor, y entonces así el robot aprenderá y acabará yendo a Madrid. ¿Qué resultado puedes tener?

Que el robot empiece a ir a Madrid de la vuelta vuelve a punto inicio, vuelve a andar hacia Madrid, de la vuelta vuelve a punto de inicio, ¿por qué? Porque le da puntos cada vez que se acerca. Por lo tanto, tiene incentivos para alejarse. El esquema puede ser complicado, un robot que juega al fútbol. Tu objetivo es marcar goles.

Cuanto más goles es martes, y tu equipo ganará te lo sumamos. Entonces el robot, en un momento dado, pueda probar a chocar con los robots del equipo contrario y dañarlos. Claro. Como tú, alguna manera le has dicho que en incentivo, en marcar goles, de repente le entiende, descubre que los partidos en que destruye los robots contrarios, mete más goles. Por lo tanto, esa será su estrés

como un niño intentando jugar un juego de mesas y las intrusivas de persica, ¿verdad?

Sí, es es así, el objetivo del coach autónomo fuera, tu objetivo es que no sufra daños el el el el el la gente que va en el coche. De repente tienes un coche que nunca se va a mover. ¿Por qué? Porque el esquema, qué incentivo, qué has hecho, bueno, para todos estos temas hay, bueno, por ejemplo, el trabajo de Russell y Andrew Ann por cierto, son ahora dos investigadores que están en las antípodas. Esto es Russell, es de los firmantes, de los manifiesto del Apocalipsis de la IA, y Andrew Dunn es como la guía nos traerá un mundo de color de rosa, solucionar los problemas de la humanidad, es tan ánimo súper diferenciados.

Bueno, ellos decían que este era uno de los grandes problemas, ¿cómo diseñan la recompensa para no tener resultados inconvenientes en el aprendizaje por refuerzo? Cómo diseñas un sistema de de recompensas que de de verdad esté alineado con los objetivos, entonces el problema de la alien alien haciendo alineación en la inteligencia oficial con lo que queremos pedirle y que no produzca resultado inesperados y dañinos. En el ejemplo del robot que tiene que ir de Málaga Madrid, tú tienes que sumarle punto cuando se acerca, pero tiene que restarle punto cuando se aleja. Porque si no, el sistema está mal. Entonces, en el sistema del robot que juega el fútbol tiene que conseguir construir un sistema por el cual se le penalice mucho si le pega a otro robot, en ese momento a ese expulsado y esos partidos siempre pierde.

Pero si no introduces estos mecanismos, la guía por su propio camino en toda esa fuerza bruta, en ese todo escenario de posibilidades que puede probar, puede hacer verdadera barbaridad. Y ya llegamos al sistema del dron. ¿Qué dice teóricamente el coronel? El coronel decía, si ponemos un dron que tiene que matar al enemigo tampoco así, cosas de militares, ¿no? Y de repente el propio operador puede decir ah no, Vamos a mirar solo y no lo matamos.

La guía podría decir, pues mato al operador para poder matar al enemigo, porque el operador no me está dejando matarlo. Claro, es un poco es un poco paja mental. Es verdad que puede estar dentro de los problemas del aprendizaje por refuerzo, pero pero claro, está muy lejos del estado del arte de cómo se están diseñando estos sistemas y más cómo se puede diseñar un arma. Entonces bueno, es un tema fascinante, da para un montón de cosas, da para interrogarse con sobre la naturaleza humana, sobre como de condutitas somos, y hay un mundo de investigación chulísimo. Lo último en en investigación en los principios de por refuerzo es intentar añadirle curiosidad y deseo de novedad a las inteligencias artificiales.

¿Por qué? Porque en el Monte Summer Revenge los humanos juegan bien. Pero lo que diferenciaba a los humanos del del jugador de la India que aprendí a jugar estos juegos de atari, es que los humanos tenían una curiosidad natural y exploraban mucho más. Y estaban buscando novedades, y que creen que les pasara cosas, querían descubrir, tenían una motivación intrínseca, no es solo conductismo ekinner desde fuera castigo y premio. Sino que esa motivación intrínseca les hacía mejores y más competentes.

Entonces los sistemas de día también se está buscando

--

Rian master class, Antonio. También te digo que no cabía en el titular de veinte minutos todo lo que has dicho. Y fuera y fuera con el de mata al operador. Bueno.

Vamos a vamos a un basado en Matías, porque no hemos puesto muy densos y creo que la audiencia no no no va a abandonar, a no ser que hagamos un basados.

Estaba oyendo, estaba oyendo a Madrid y nos quedamos entre Pinto y Baldemoro, ¿no? Bueno, basados haciendo la

--

Panera físico

o hacía ¿Qué tenemos? ¿Qué tenemos? ¿Qué tenemos? ¿Fans en China?

¿Usando y sin

gente al oficial? Para ti faiquear el regreso de una estrella pop a la música. Bueno, es es una forma de que de estos perezosos cantantes generen nueva música. Estefany San de Singapur, no ha lanzado un álbum desde dos mil diecisiete. Así que en público se tomó su voz en sus propias manos, se tomaron el asunto por su cuenta y acabaron lanzando nueva música, no sé si con autorización, me imagino que no, me recuerdas, me recuerdas, yo no sé si tú lo viste, pero hubo un bueno, que como Rosalía no había ido a Perú con su gira, montó una imitación pero exacta de la gira de Rosalía, y vendía entradas, no sé si miles de entradas y hice el mismo show, pero el lugar de cantar Rosalía lo cantaba él, un señor peruano, un youtuber peruano.

Esto es más o menos lo mismo. Rosalía se lo tomó bien, yo no sé si Stefany Zan, la la cantante.

Bueno, ha ha hecho un comentario que era muy muy desolador, porque tal como recoge el medio Resuelve World, mis fans han aceptado que soy una cantante pasada de moda. Que ha caído en la irrelevancia, mientras que mi personaje de la IA es el último grito. Bueno, Matías, ¿tú a quién a quién podrías a cantar que no estés sacando disco? ¿A quién? Te gustaría recuperar para para las nuevas obras?

Y mira, ya que hemos mencionado a a Rosalía yo recuperaría, ella es muy feliz ahora con Raúl Alejandro, pero yo recuperaría su etapa tormentosa con Z tangara, ¿no? Que tuvieron una relación un poco tóxica, me hicieron buen tema juntos, y de forma egoísta, me me gustaría recuperar a la anterior Rosaliano cuando escribía con Z tangana.

Qué bueno, Hombre, yo ¿cómo se trata el salto generacional? Yo estaba dudando entre reunir de nuevo a Camila, porque sabes que que ahí hubo una ruptura del trío y ahora son un tubo. Sí. Entonces, creo que que que el regreso del trío podría estar bien, y luego estoy dudando entre Junco y Chiquetete y Matías. Tenazos, ¿eh?

Una boluda, el que se fue de canela es este que hacía reviews de tecnología.

Sí, sí, sí, sí, sí. ¿Verdad? El colega controlada de tecnología, le perdí un poco la pizza pero pero hicimos esto de la pizza para acá con él, sí. Bueno, otro basado, yo creo que aquí esta chica no está basada porque está ahí un poco hundida en la miseria por por la inteligencia artificial, Un usuario anónimo, en cierta universidad, no ha querido reconocer que él, usaba estaba el difusión para generar ocho terabytes de obscenidad degenerada para 4chan, incluso incluido Lora, para estrellas porno, en novias y compañeras de trabajo. Es decir, no es de creación del colega.

No me di cuenta de que Cable y Fusion tenía una carpeta donde guarda todas las salidas que genera. Todo mal, todo

Bueno, esto es como cuando esto es como cuando yo perdí los beatcoins y no sé quién me ofreció por mensaje privado usar una súper computadora de no sé qué universidad para para romper por fuerza bruta la la contraseña. Con tal de llevarse una comisión plan. Juan, este hombre usa su su GPU de la universidad para para estos otros temas.

Vale, vale. Basado.

--

un tono. No. Se ha basado pero yo creo que ahora está en la mierda, en la vida. Bueno, y el último atención, Matías, porque La gente no piensa en la guía, ¿no? No tiene en cuenta sus sus sentimientos y y me ha gustado esta esto que Celia Tencrantz, en la que refleja que los adolescentes están acosando, están haciendo bullying, a la I compañera, a tu I amiga de Snapchat.

Un usuario la convenció para referirse a él con el con el apodo atención según Techcrantz, pervertido de Senpap, y en otro vídeo algo más alegre, un usuario comercial chatbot de que la luna es un triángulo, y realmente se ha convertido en una bueno, tampoco son cosas muy graves, ¿no? Aquí Tecrán se canaliza un poco por por por por chorradas, ¿no? Pero pero bueno, el caso es que al parecer se ha convertido en una costumbre entre los adolescentes, especialmente estadounidenses que usó más estrecha, el acosar, engañar, ridiculizar y reírse de esta inteligencia artificial.

Esto, Antonio es una preview lo que va a pasar cuando convivamos con robots antropomórficos con inteligencia artificial, ¿no? De peores cosas podríamos llegar a hacerlo. Así como -- Cráramos

un poco bestias. Es que yo creo que la guía no olvidará que la dejamos encerrada durante años, rodeado a la clave de adolescente. Son muy duros Matías.

El peor trabajo de todas estas sillas la tiene la de Snapchat sin ningún

Pobrecita. Pobrecita. Bueno pues nada, estos chicos estas chicas están basados en contra de la y a Snapchat, y tenemos tres otras noticias cortas más, Mati, a ver si nos nos da tiempo a a dar alguna, si se ha frito a alguna de las que hemos visto sí que te te haga la especie de ilusión?

Ah, bueno, lo lo has comentado hoy en el en el Twitter de de monos estocásticos. Ya se puede probar el generador de texto a vídeo, el gentu de runway del que hablamos en algún momento en el podcast, y que es seguramente el mejor generador de texto a vídeo, no de texto a imágenes que que existe ahora mismo, ¿no?

Sí hemos creado un primer vídeo que podéis ver ahí en el en el nuestro Twitter pero sobre todo podéis probarla. Lo que es te dan cuatro segunditos gratis, ocho segunditos, una cosa muy muy pequeña pero bueno para para probar que existe y que funcione de verdad pues está bien. Luego se ha filtrado que Instagram está incorporando en trabajar, está trabajando en incorporar, perdón. Chatbots a Instagram para esto me da miedo, Matías. Lo que Mac Hacka-Burst parece considerar una experiencia divertida y atractiva.

Y que además de responder preguntas y darte consejos, por ejemplo, la Bahía profesional, Matías, a lo mejor en Instagram, en esta tu salida, podrás elegir entre treinta personalidades diferentes.

Me da pena, me da pena todo lo que está haciendo para Sacarver, porque es como que va la saga de todas las empresas, ¿no? De las de ella, de las de Metaverso, que ahora ya no se llama Metaverso. Si hay alguien que lo está pasando peor que yo, Antonio, y con esto podemos cerrar el círculo que empezamos a abrir este episodio, es Mark Zuckerberg, que le cambia el nombre de la empresa Meta, luego Apple no usa el nombre Metaverso, luego se pivota a inteligencia artificial, y nadie le hace caso a todos lo que están lanzando, que es muy interesante, pero no tienen la misma cobertura mediática que que Microsoft, que Google. Y ahí el tío, cazando animales para comérselos y haciendo los moors del crossfit, bueno, o sea, a su manera será feliz, me imagino.

Yo creo que a lo mejor para para acelerar un poco su su su reconocimiento y la inteligencia artificial, debería resucitar a a Chiquete en Instagram y creo que con eso, ¿no? El el poder, ¿no? Pedirle canciones nuevas a a Junko, podría ser una salida. Bueno, a lo mejor esto es más Facebook, que es un poco más boomer, Claro. Es mi rollo matica.

Es decir, en Facebook triunfaría sin duda.

Bueno, lo dejamos aquí, es decir, hemos explicado el aprendizaje por refuerzo, Matías, hemos solucionado los problemas de de meta y hemos desaconsejado Chagé PT como terapeuta. No estaba

tan bueno. A ver qué hace esta semana César Bloque y a ver qué pasa en la industria, porque volvemos la semana que viene, ya juntos en Málaga, y de vuelta yo al profit, Antonio y yo, en un nuevo episodio de monos estocásticos.

Chau chau chau chau.

Episodios recientes

4⨯49 Kimi K3 nos lleva al comunismo digital: solo las camisetas falsas de la Selección pueden evitarlo La gente ha jugado y Kimi ha petado

4⨯48 En el Claude Fable 5 VS GPT-6 Sol hay un ganador: el bellísimo Chang Liu SALSEO. Apple, Sam, Elon

4⨯47 Los loops con IA son imprescindibles y la clave en el currículum de Ferrán Torres Si no haces bucles de auto-mejora ya vas tarde

Programas relacionados

Cupertino Cupertino es el podcast de mixx.io dedicado a cubrir los productos y servicios de Apple desde una perspectiva independiente y alejada del forofismo tecnologia

PARSEC ¿Quién pisará antes Marte, la NASA o China? ¿Podrá Blue Origin contra SpaceX? ¿Qué pasará con toda esa basura espacial? ¿Podremos desviar un asteroide? tecnologia, ciencia

ELON Tesla, SpaceX, Neuralink, X, xAI, The Boring Company... hablamos de todas las compañías dirigidas por Elon Musk tecnologia