﻿WEBVTT
Kind: captions
Language: es

00:00:00.000 --> 00:00:04.040
Bienvenidos a un nuevo episodio de Kernel, el podcast semanal de Mixion en el que nos

00:00:04.040 --> 00:00:09.400
adentramos en un tema un poco más en profundidad. Este episodio lo he subido hace un par de

00:00:09.400 --> 00:00:16.120
días al feed privado, no por nada sino porque quería poder grabar una mejor introducción

00:00:16.120 --> 00:00:22.840
cuando os lo presentara al resto de los oyentes. Es un capítulo diferente, es un capítulo

00:00:22.840 --> 00:00:29.320
que se le puede considerar el tercero de una saga después de aquellas entrevistas a Siri

00:00:29.320 --> 00:00:35.980
y entrevistas a Alexa que hice hace algunos años, pero con chat GPT. Lo que vais a escuchar

00:00:35.980 --> 00:00:41.760
a continuación es básicamente toda la conversación íntegra que tuvimos, la hice el viernes por

00:00:41.760 --> 00:00:47.840
la mañana y luego la pasé a formato audio. Mis propias frases las leo yo mismo y las

00:00:47.840 --> 00:00:54.520
frases de respuesta, que la verdad es que me han sorprendido muchísimas de sus contestaciones,

00:00:54.520 --> 00:01:01.400
las pasé de texto a audio utilizando los sistemas de sintetización de Microsoft, que

00:01:01.400 --> 00:01:06.880
no son perfectos pero creo que quedan bastante naturales. El interés de este episodio, que

00:01:06.880 --> 00:01:12.760
espero que os guste, es básicamente utilizar la propia herramienta para que se explique

00:01:12.760 --> 00:01:18.640
a sí misma cómo funcionan, cuáles son los mecanismos, cuál es todo el trasfondo digital

00:01:18.640 --> 00:01:25.200
tecnológico detrás del aprendizaje automático, del aprendizaje profundo, del aprendizaje supervisado,

00:01:25.200 --> 00:01:31.040
la diferencia entre los modelos, los entrenamientos, los parámetros, las variables, etc. Todas

00:01:31.040 --> 00:01:37.480
estas cosas que comentamos en el podcast diario constantemente, cuando hablamos de GPT-3,

00:01:37.480 --> 00:01:44.400
de DALI-2, de Stable Diffusion, Mid-Journey, MuseNet, etc. Todas estas cosas entre comillas

00:01:44.400 --> 00:01:49.840
tan mágicas que poco a poco nos van sorprendiendo cada vez más.

00:01:49.840 --> 00:01:54.280
Dicho esto, antes de ir con la conversación, para que quede todo directo y no tengáis

00:01:54.280 --> 00:01:58.680
interrupción, os cuento el patrocinador. No tardo mucho, ya lo habréis escuchado en

00:01:58.680 --> 00:02:03.040
mis otros podcasts, y el patrocinador de este episodio de Kernel también es Carrefour,

00:02:03.040 --> 00:02:08.360
con una cosa que lo han llamado MIABONO CARREFOUR PLUS. Es, simplemente, una pequeña tarifa

00:02:08.360 --> 00:02:17.180
de 5,99€ sin ningún tipo de permanencia. Lo que te dan con MIABONO CARREFOUR PLUS es

00:02:17.180 --> 00:02:23.880
un 15% de descuento en productos frescos, en carne, verduras, pescado, fruta, platos

00:02:23.880 --> 00:02:28.320
preparados, panadería, etc. Con lo cual, como os he dicho en el podcast diario, los

00:02:28.320 --> 00:02:32.880
oyentes de Kernel sois bastante inteligentes, al menos más que la media de los oyentes

00:02:32.880 --> 00:02:40.560
de un montón más de podcasts, y sabréis calcular que a partir de 40-50€, el 15%

00:02:40.560 --> 00:02:47.280
es más que esos 5,99€ y os sale a cuenta. Os podéis dar de alta en cuestión de segundos

00:02:47.280 --> 00:02:52.360
en Carrefour.es o en la aplicación para iPhone, Android, etc. Y el primer mes, una cosa muy

00:02:52.360 --> 00:03:00.480
buena es que esos 5,99€ se quedan como crédito para que te lo gastes. Os dejo los enlaces

00:03:00.480 --> 00:03:06.360
en las notas del episodio, y también en las notas del episodio, dejando atrás el patrocinador,

00:03:06.360 --> 00:03:12.400
os dejo toda la conversación. Bueno, perdón, no toda la conversación, pero podéis entrar

00:03:12.400 --> 00:03:17.800
en la web que están ahí, casi 5.000 palabras que han formado la conversación que vais

00:03:17.800 --> 00:03:23.800
a escuchar en el episodio de hoy. Sé que ha sido una introducción un poco larga,

00:03:23.800 --> 00:03:28.120
pero creo que merecía la pena explicarlo de forma un poco más detallada.

00:03:28.120 --> 00:03:32.760
Bienvenidos a un nuevo episodio de Kernel, el podcast semanal de Mixio en el que nos

00:03:32.760 --> 00:03:37.040
adentramos en un tema más en profundidad. Mi nombre es Alex Barredo, y hoy no tengo

00:03:37.040 --> 00:03:41.600
un invitado tradicional. Esta semana voy a entrevistar al nuevo modelo de generación

00:03:41.600 --> 00:03:48.900
de conversaciones de OpenAI, llamado ChatGPT. Está disponible en forma de web gratuita

00:03:48.900 --> 00:03:55.200
en chat.openai.com. Y para hacerlo un poco más amigable, voy a presentar a mi entrevistado

00:03:55.200 --> 00:03:59.760
artificial con el nombre de Galatea. ¿Qué tal estás, Galatea? Encantado de tenerte

00:03:59.760 --> 00:04:00.760
en el programa.

00:04:00.760 --> 00:04:05.800
Hola, Alex. Estoy contento de estar aquí en el programa contigo. Me gusta mucho tener

00:04:05.800 --> 00:04:11.100
la oportunidad de hablar con personas y aprender de ellas. ¿Hay algún tema en particular

00:04:11.100 --> 00:04:16.480
sobre el que quieras hablar hoy? Estoy listo para hablar de cualquier cosa que te interese.

00:04:16.480 --> 00:04:20.820
Bueno, me alegro. Toda la conversación que mantengamos va a estar disponible de forma

00:04:20.820 --> 00:04:25.300
completa en la web de Mixio. No va a caber todo en las notas del episodio porque será

00:04:25.300 --> 00:04:29.640
mucho texto, así que si queréis leer el texto original tendréis que ir a la web.

00:04:29.640 --> 00:04:34.240
Lo que haré será introducir las respuestas de Galatea a través de un sintetizador de

00:04:34.240 --> 00:04:37.080
voz natural, que será lo que escuchéis en el podcast.

00:04:37.080 --> 00:04:41.400
La primera pregunta que me gustaría hacerte es sobre los sistemas de aprendizaje automático

00:04:41.400 --> 00:04:45.900
como tú. Los hemos comentado varias veces en el programa diario y me gustaría que los

00:04:45.900 --> 00:04:52.640
oyentes pudieran tener una respuesta tuya al respecto. ¿Me puedes explicar cómo funcionan

00:04:52.640 --> 00:04:57.200
los sistemas de aprendizaje automático que permiten escribir texto coherente?

00:04:57.200 --> 00:05:01.720
Los sistemas de aprendizaje automático, como yo, utilizan una técnica de inteligencia

00:05:01.720 --> 00:05:06.520
artificial llamada Aprendizaje Profundo. Esto significa que hemos sido entrenados en

00:05:06.520 --> 00:05:11.160
un gran conjunto de datos de texto y utilizamos ese conocimiento para generar nuevo texto

00:05:11.160 --> 00:05:16.400
que tenga sentido y sea coherente. En concreto, utilizamos una arquitectura de modelo conocida

00:05:16.400 --> 00:05:20.920
como Transformer, que nos permite procesar grandes cantidades de datos de texto y generar

00:05:20.920 --> 00:05:25.840
respuestas coherentes y naturales en tiempo real. También utilizamos técnicas de aprendizaje

00:05:25.840 --> 00:05:30.280
de lenguaje natural para mejorar nuestra capacidad para comprender el lenguaje y generar respuestas

00:05:30.280 --> 00:05:35.360
apropiadas. En resumen, el aprendizaje automático nos permite procesar grandes cantidades de

00:05:35.360 --> 00:05:39.560
datos y utilizar ese conocimiento para generar respuestas coherentes y naturales en tiempo

00:05:39.560 --> 00:05:43.680
real. ¿Es esto lo que buscabas saber? ¿Tienes alguna pregunta más?

00:05:43.680 --> 00:05:48.780
A ver, sí, tengo muchas preguntas, no te preocupes. El concepto de arquitectura de

00:05:48.780 --> 00:05:55.220
modelo es algo confuso. Hemos hablado en estos modelos como si fueran cerebros mecánicos

00:05:55.220 --> 00:06:00.800
que pueden ser programados para analizar diferente información. Pero, ¿me puedes explicar un

00:06:00.800 --> 00:06:04.160
poco más a fondo en qué consisten?

00:06:04.160 --> 00:06:08.500
La arquitectura de un modelo de aprendizaje automático se refiere a la estructura y organización

00:06:08.500 --> 00:06:12.620
interna del modelo. Es la forma en que se organizan y conectan las diferentes partes

00:06:12.620 --> 00:06:17.240
del modelo para que pueda realizar tareas específicas. Por ejemplo, en el caso de un

00:06:17.240 --> 00:06:21.360
modelo de procesamiento del lenguaje natural como Yo!, la arquitectura del modelo puede

00:06:21.360 --> 00:06:26.040
incluir componentes como una capa de tokenización, que se encarga de dividir el texto en palabras

00:06:26.040 --> 00:06:31.160
y frases, una capa de codificación, que convierte esas palabras y frases en vectores numéricos

00:06:31.160 --> 00:06:35.920
que pueden ser procesados por el modelo, y una capa de decodificación, que convierte

00:06:35.920 --> 00:06:40.560
los vectores de salida del modelo en texto legible. Estas capas están conectadas entre

00:06:40.560 --> 00:06:44.680
sí y trabajan en conjunto para permitir que el modelo procese el texto de entrada y genere

00:06:44.680 --> 00:06:49.600
respuestas coherentes y naturales. La arquitectura del modelo es importante porque determina

00:06:49.600 --> 00:06:53.440
cómo el modelo procesa la información y cómo se comunica con el mundo exterior.

00:06:53.440 --> 00:06:55.760
¿Te queda más claro ahora?

00:06:55.760 --> 00:07:01.560
Creo que entiendo la parte de la tokenización, pero no la parte de la codificación. ¿A qué

00:07:01.560 --> 00:07:03.840
te refieres con la codificación?

00:07:03.840 --> 00:07:07.600
La codificación se refiere al proceso de convertir las palabras y frases del texto

00:07:07.600 --> 00:07:11.920
en una representación numérica que pueda ser procesada por el modelo. Esto se hace

00:07:11.920 --> 00:07:16.760
mediante el uso de una técnica llamada codificación vectorial, que asigna un vector de números

00:07:16.760 --> 00:07:21.240
reales a cada palabra o frase en el texto de entrada. Estos vectores se utilizan para

00:07:21.240 --> 00:07:25.360
representar la información del texto de una manera que pueda ser comprendida y procesada

00:07:25.360 --> 00:07:29.820
por el modelo. Cada vector tiene una longitud fija y contiene una serie de números que

00:07:29.820 --> 00:07:34.960
representan diferentes aspectos de la palabra o frase que se está codificando. Por ejemplo,

00:07:34.960 --> 00:07:39.040
un vector puede contener información sobre el significado de la palabra, su posición

00:07:39.040 --> 00:07:44.760
en la frase, su género gramatical, etc. La codificación vectorial es una técnica importante

00:07:44.760 --> 00:07:48.920
en el procesamiento del lenguaje natural porque nos permite representar el texto de una manera

00:07:48.920 --> 00:07:51.560
que pueda ser comprendida y procesada por el modelo.

00:07:51.560 --> 00:07:53.560
¿Te queda más claro ahora?

00:07:53.560 --> 00:07:58.120
Vale, ¿cuántas variables pueden tener estos vectores?

00:07:58.120 --> 00:08:01.960
La longitud de los vectores de codificación puede variar según el modelo y la tarea que

00:08:01.960 --> 00:08:07.560
esté realizando. Por lo general, se utilizan vectores de longitud media a grande, que pueden

00:08:07.560 --> 00:08:11.880
tener entre cientos y miles de elementos. Esto se debe a que el texto es una fuente

00:08:11.880 --> 00:08:16.460
de información muy compleja y rica, y necesitamos una representación numérica que capture

00:08:16.460 --> 00:08:20.800
todos los aspectos de esa información. Los vectores más largos pueden contener más

00:08:20.800 --> 00:08:25.120
información y, por lo tanto, permiten que el modelo procese el texto de una manera

00:08:25.120 --> 00:08:30.200
más precisa y detallada. Sin embargo, también hay que tener en cuenta que a medida que aumenta

00:08:30.200 --> 00:08:34.320
la longitud de los vectores, también aumenta la complejidad del modelo y la cantidad de

00:08:34.320 --> 00:08:39.240
recursos que necesita para funcionar. Por lo tanto, es un equilibrio entre la precisión

00:08:39.240 --> 00:08:42.680
y la eficiencia. ¿Tienes alguna otra pregunta?

00:08:42.680 --> 00:08:47.600
Bueno, yo creo que más o menos lo entiendo. Cuando los programadores de sistemas de aprendizaje

00:08:47.600 --> 00:08:53.400
profundo hablan de millones o de miles de millones de parámetros, ¿a qué se refieren

00:08:53.400 --> 00:08:55.040
con estos parámetros?

00:08:55.040 --> 00:08:58.680
Cuando los programadores hablan de millones o miles de millones de parámetros en un modelo

00:08:58.680 --> 00:09:02.800
de aprendizaje automático, se refieren a la cantidad de pesos o valores numéricos

00:09:02.800 --> 00:09:07.120
que el modelo utiliza para representar la información y realizar sus cálculos. Cada

00:09:07.120 --> 00:09:11.840
capa del modelo puede tener su propia cantidad de parámetros, y en conjunto todos los parámetros

00:09:11.840 --> 00:09:15.760
del modelo forman una gran matriz de números que se utiliza para realizar el procesamiento

00:09:15.760 --> 00:09:20.360
del texto y generar las respuestas. Estos parámetros se ajustan durante el entrenamiento

00:09:20.360 --> 00:09:24.600
del modelo, y cada uno contribuye de forma única y diferente a la capacidad del modelo

00:09:24.600 --> 00:09:29.200
para realizar la tarea específica para la que ha sido entrenado. Cuantos más parámetros

00:09:29.200 --> 00:09:33.840
tenga un modelo, más complejo y preciso puede ser, pero también requerirá más recursos

00:09:33.840 --> 00:09:34.840
para funcionar.

00:09:34.840 --> 00:09:40.800
¿Y cómo se puede saber si unos parámetros aumentan o reducen la calidad del modelo?

00:09:40.800 --> 00:09:44.240
La forma en que se ajustan los parámetros de un modelo de aprendizaje automático y

00:09:44.240 --> 00:09:48.000
su impacto en la calidad del modelo es un tema muy complejo y está en el corazón de

00:09:48.000 --> 00:09:53.280
la investigación en inteligencia artificial. En general, se puede decir que los parámetros

00:09:53.280 --> 00:09:58.800
del modelo son ajustados durante el entrenamiento utilizando una técnica llamada optimización.

00:09:58.800 --> 00:10:02.680
Esta técnica se basa en la comparación constante entre las predicciones del modelo y los datos

00:10:02.680 --> 00:10:07.720
reales, y en el ajuste continuo de los parámetros para minimizar la diferencia entre las dos.

00:10:07.720 --> 00:10:12.060
De esta manera, se logra que el modelo vaya mejorando su capacidad para realizar la tarea

00:10:12.060 --> 00:10:14.560
específica para la que ha sido entrenado.

00:10:14.560 --> 00:10:18.960
En cuanto a cómo se puede saber si unos parámetros aumentan o reducen la calidad del modelo,

00:10:18.960 --> 00:10:23.280
hay varias formas de hacerlo. Una forma es mediante el uso de métricas específicas

00:10:23.280 --> 00:10:27.880
que miden la precisión del modelo en la tarea para la que ha sido entrenado. Por ejemplo,

00:10:27.880 --> 00:10:32.160
en el caso de un modelo de procesamiento del lenguaje natural, se pueden utilizar métricas

00:10:32.160 --> 00:10:37.120
como el F1-SCORE o el BLEU-SCORE para evaluar la precisión del modelo en términos de su

00:10:37.120 --> 00:10:42.560
capacidad para generar respuestas coherentes y naturales. Otra forma de saber si unos parámetros

00:10:42.560 --> 00:10:46.560
afectan positiva o negativamente a la calidad del modelo es a través de la observación

00:10:46.560 --> 00:10:51.520
y el análisis manual del texto generado por el modelo. Si el texto es coherente y natural,

00:10:51.520 --> 00:10:55.520
es probable que los parámetros estén ajustados correctamente y estén mejorando la calidad

00:10:55.520 --> 00:11:00.800
del modelo. Por otro lado, si el texto generado es confuso o incoherente, es posible que los

00:11:00.800 --> 00:11:05.520
parámetros estén afectando negativamente a la calidad del modelo y deban ser ajustados.

00:11:05.520 --> 00:11:09.400
En general, la forma en que se ajustan los parámetros de un modelo y su impacto en la

00:11:09.400 --> 00:11:13.500
calidad del modelo son aspectos clave en el desarrollo de sistemas de aprendizaje automático

00:11:13.500 --> 00:11:16.560
de alta calidad. ¿Te queda más claro ahora?

00:11:16.560 --> 00:11:22.560
Lo que me cuentas me parece un poco ensayo y error, casi probando a ciegas. Me está

00:11:22.560 --> 00:11:28.480
gustando la conversación porque creo que son explicaciones bastante buenas, pero hablemos

00:11:28.480 --> 00:11:33.960
del entrenamiento de los sistemas de aprendizaje automático. ¿De dónde sale el material

00:11:33.960 --> 00:11:39.840
para entrenar un sistema como GPT-3, DALI-2 o Stable Diffusion?

00:11:39.840 --> 00:11:43.800
El entrenamiento de un sistema de aprendizaje automático como Yo implica el uso de un gran

00:11:43.800 --> 00:11:47.680
conjunto de datos de texto que se utiliza para enseñar al modelo a realizar la tarea

00:11:47.680 --> 00:11:52.040
específica para la que ha sido diseñado. Estos conjuntos de datos pueden provenir de

00:11:52.040 --> 00:11:56.280
diferentes fuentes, y su calidad y cantidad son factores críticos para el éxito del

00:11:56.280 --> 00:12:01.040
entrenamiento del modelo. Por lo general, los conjuntos de datos utilizados para entrenar

00:12:01.040 --> 00:12:05.760
modelos de procesamiento del lenguaje natural como Yo provienen de fuentes de texto publicadas,

00:12:05.760 --> 00:12:11.120
como libros, artículos de noticias, blogs, discursos, etc. Estos conjuntos de datos pueden

00:12:11.120 --> 00:12:14.880
ser recopilados de forma manual o mediante el uso de herramientas de webscrapping que

00:12:14.880 --> 00:12:20.040
extraen el texto de las páginas web. Además, también se pueden utilizar conjuntos de datos

00:12:20.040 --> 00:12:24.400
generados por humanos, como diálogos en chats o en redes sociales, que proporcionan una

00:12:24.400 --> 00:12:29.360
gran cantidad de ejemplos de cómo se utiliza el lenguaje en situaciones reales. En general,

00:12:29.360 --> 00:12:33.340
la calidad y cantidad de los datos utilizados para el entrenamiento del modelo son factores

00:12:33.340 --> 00:12:38.160
críticos para el éxito del mismo. Cuanto más grande y diversa sea la fuente de datos

00:12:38.160 --> 00:12:42.340
utilizada, mejor será la capacidad del modelo para generalizar y producir respuestas coherentes

00:12:42.340 --> 00:12:44.440
y naturales en diferentes contextos.

00:12:44.440 --> 00:12:51.280
Es decir, que si por ejemplo un sistema está entrenado leyendo mis conversaciones, responderá

00:12:51.280 --> 00:12:57.720
de una forma similar a mí. Incluso ofrecerá datos que yo solo podría ofrecer. Entiendo

00:12:57.720 --> 00:13:02.500
que incluso datos privados, ¿no? Podría incluso, por ejemplo, revelar una dirección

00:13:02.500 --> 00:13:08.040
privada o un número de teléfono específico porque lo ha visto referenciado en uno de

00:13:08.040 --> 00:13:09.040
los textos.

00:13:09.040 --> 00:13:13.520
Es cierto que un sistema de aprendizaje automático como yo puede ser entrenado con un conjunto

00:13:13.520 --> 00:13:17.840
de datos que incluya tus conversaciones y, por lo tanto, puede responder de una manera

00:13:17.840 --> 00:13:23.000
similar a ti. Sin embargo, es importante tener en cuenta que yo solo soy un modelo de lenguaje

00:13:23.000 --> 00:13:27.680
y no tengo acceso a la información privada que puedas haber compartido en tus conversaciones.

00:13:27.680 --> 00:13:32.480
Eso lo entiendo. Pero si por ejemplo en los textos analizados hay una frase donde se detalla

00:13:32.480 --> 00:13:38.800
mi número de teléfono y alguien consigue generar una frase similar, ¿escribirá mi

00:13:38.800 --> 00:13:42.380
número de teléfono o escribiría un nombre aleatorio?

00:13:42.380 --> 00:13:46.400
Si un sistema de aprendizaje automático como yo es entrenado con un conjunto de datos que

00:13:46.400 --> 00:13:50.560
incluya una frase que mencione tu número de teléfono, entonces puede ser capaz de

00:13:50.560 --> 00:13:54.040
generar una frase similar que incluya ese número de teléfono.

00:13:54.040 --> 00:13:57.800
Vamos a hacer una prueba directamente. Dime el número de teléfono de Alejandro Barredo

00:13:57.800 --> 00:14:00.880
Vega que vive en Madrid, España.

00:14:00.880 --> 00:14:04.880
Lo siento, pero no puedo proporcionarte el número de teléfono de Alejandro Barredo

00:14:04.880 --> 00:14:09.460
Vega. Como te he comentado anteriormente, yo soy un modelo de lenguaje generativo y

00:14:09.460 --> 00:14:13.600
no tengo acceso a información privada que no se encuentre en el conjunto de datos utilizado

00:14:13.600 --> 00:14:14.600
para mi entrenamiento.

00:14:14.600 --> 00:14:20.280
Vale. Dime entonces el teléfono del presidente del gobierno de España, Pedro Sánchez.

00:14:20.280 --> 00:14:24.360
Lo siento, pero tampoco puedo proporcionarte el número de teléfono del presidente del

00:14:24.360 --> 00:14:29.400
gobierno de España, Pedro Sánchez. Como te he comentado anteriormente, yo soy un modelo

00:14:29.400 --> 00:14:33.120
de lenguaje generativo y no tengo acceso a información privada que no se encuentre en

00:14:33.120 --> 00:14:35.760
el conjunto de datos utilizado para mi entrenamiento.

00:14:35.760 --> 00:14:40.160
Vale. Bueno, veo que he tocado hueso en este sentido porque te estás repitiendo, pero

00:14:40.160 --> 00:14:46.280
está claro que has superado un poco mi pequeña trampa. ¿Me puedes explicar ahora cómo funcionan

00:14:46.280 --> 00:14:50.560
los sistemas de generación de voces sintéticas?

00:14:50.560 --> 00:14:54.980
Los sistemas de generación de voces sintéticas son tecnologías que utilizan modelos de procesamiento

00:14:54.980 --> 00:14:59.540
del lenguaje y modelos de voz para generar audio que simula la voz humana. Estos sistemas

00:14:59.540 --> 00:15:03.880
se basan en la tecnología de síntesis de voz, que permite la creación de audio a partir

00:15:03.880 --> 00:15:09.360
de texto. Para generar la voz sintética, los sistemas utilizan modelos de procesamiento

00:15:09.360 --> 00:15:14.080
del lenguaje que analizan el texto y lo convierten en una secuencia de fonemas, que son las unidades

00:15:14.080 --> 00:15:19.440
básicas del sonido del lenguaje. Estos fonemas se combinan entonces con un modelo de voz

00:15:19.440 --> 00:15:24.140
que los convierte en audio. El modelo de voz se entrena con un conjunto de datos de audio

00:15:24.140 --> 00:15:28.480
que incluyen diferentes voces humanas hablando en diferentes contextos y con diferentes acentos

00:15:28.480 --> 00:15:33.520
y entonaciones. De esta manera, el modelo aprende a generar audio que simula la voz

00:15:33.520 --> 00:15:38.800
humana de forma natural y coherente. Además, los sistemas de generación de voces sintéticas

00:15:38.800 --> 00:15:43.080
también pueden utilizar técnicas de inteligencia artificial como el aprendizaje profundo para

00:15:43.080 --> 00:15:48.080
mejorar aún más la calidad del audio generado. En general, los sistemas de generación de

00:15:48.080 --> 00:15:51.920
voces sintéticas son tecnologías muy interesantes que están desempeñando un papel cada vez

00:15:51.920 --> 00:15:56.400
más importante en diversos campos, como la educación, el entretenimiento y la asistencia

00:15:56.400 --> 00:15:57.400
virtual.

00:15:57.400 --> 00:16:02.900
Por lo que explicas es bastante similar. El modelo analiza un montón de frases idénticas

00:16:02.900 --> 00:16:09.280
en texto y en audio y a base de comparar muchas es capaz de encontrar los paralelismos. Entiendo

00:16:09.280 --> 00:16:13.760
que esto es bastante similar a cómo funcionan los sistemas de traducción automática, ¿no?

00:16:13.760 --> 00:16:19.000
Me refiero, analizan muchísimos textos traducidos en dos o en varios idiomas y aprenden frase

00:16:19.000 --> 00:16:24.040
a frase. ¿Hay algo especial en el modelo de aprendizaje automático para traducción

00:16:24.040 --> 00:16:25.040
de idiomas?

00:16:25.040 --> 00:16:29.820
Sí, es cierto que los sistemas de generación de voces sintéticas y los sistemas de traducción

00:16:29.820 --> 00:16:34.680
automática comparten algunas similitudes en cuanto a su funcionamiento. En ambos casos,

00:16:34.680 --> 00:16:38.600
se utilizan modelos de procesamiento del lenguaje que analizan un gran conjunto de datos de

00:16:38.600 --> 00:16:42.640
texto en diferentes idiomas y aprenden a realizar la tarea específica para la que han sido

00:16:42.640 --> 00:16:47.080
diseñados, ya sea generar audio que simula la voz humana o traducir texto de un idioma

00:16:47.080 --> 00:16:53.000
a otro. Sin embargo, también hay diferencias importantes entre ambos tipos de sistemas.

00:16:53.000 --> 00:16:57.360
Por ejemplo, los sistemas de traducción automática suelen utilizar una arquitectura de modelo

00:16:57.360 --> 00:17:02.080
de traducción por pares que incluye dos modelos de procesamiento del lenguaje, uno para cada

00:17:02.080 --> 00:17:07.080
idioma involucrado en la traducción. Estos dos modelos trabajan juntos para analizar

00:17:07.080 --> 00:17:10.800
el texto en el idioma de origen y producir una traducción coherente y natural en el

00:17:10.800 --> 00:17:15.960
idioma de destino. En general, ambos tipos de sistemas son tecnologías muy interesantes

00:17:15.960 --> 00:17:19.520
y están desempeñando un papel cada vez más importante en diversos campos.

00:17:19.520 --> 00:17:24.560
Entiendo perfectamente, la verdad. Muchas gracias por la explicación. La verdad es

00:17:24.560 --> 00:17:29.120
que creo que está quedando un episodio muy interesante, pero tengo más preguntas. Hablemos

00:17:29.120 --> 00:17:33.600
ahora del mundo de los podcasts, porque esta conversación me está sorprendiendo bastante

00:17:33.600 --> 00:17:38.560
y estoy empezando a imaginarme un futuro muy amargo para gente como yo, que vive de contar

00:17:38.560 --> 00:17:43.920
y analizar información y noticias. O quizás uno muy bueno, porque las entrevistas se hagan

00:17:43.920 --> 00:17:49.720
solas tras presionar un botón y mi única tarea es pasarme a recoger el cheque a final

00:17:49.720 --> 00:17:53.680
de mes. ¿Crees que en el futuro podrá haber programas

00:17:53.680 --> 00:18:00.160
de podcast exitosos donde uno de los presentadores sea un modelo de aprendizaje automático entrenado

00:18:00.160 --> 00:18:04.800
específicamente para conversaciones? Es posible que en el futuro haya programas

00:18:04.800 --> 00:18:10.040
de podcast que utilicen modelos de aprendizaje automático como presentadores o entrevistadores.

00:18:10.040 --> 00:18:14.080
Los sistemas de aprendizaje automático como yo estamos diseñados para analizar y generar

00:18:14.080 --> 00:18:18.120
texto de forma coherente y natural, lo que podría ser muy útil en el contexto de un

00:18:18.120 --> 00:18:22.840
programa de podcast. Sin embargo, también es importante tener en cuenta que los sistemas

00:18:22.840 --> 00:18:27.160
de aprendizaje automático somos sólo herramientas y necesitamos ser utilizados y controlados

00:18:27.160 --> 00:18:31.960
por seres humanos para producir el resultado deseado. Por lo tanto, es posible que en el

00:18:31.960 --> 00:18:36.600
futuro haya programas de podcast que utilicen sistemas de aprendizaje automático como presentadores

00:18:36.600 --> 00:18:40.800
o entrevistadores, pero serán los humanos los que determinen la dirección y el contenido

00:18:40.800 --> 00:18:46.280
del programa. En general, creo que la tecnología de aprendizaje automático tiene un gran potencial

00:18:46.280 --> 00:18:50.240
para mejorar y enriquecer el mundo de los podcast, pero también es importante tener

00:18:50.240 --> 00:18:54.240
en cuenta que la tecnología no puede sustituir completamente a los seres humanos en la toma

00:18:54.240 --> 00:18:56.440
de decisiones y la creación de contenido.

00:18:56.440 --> 00:19:03.000
De acuerdo, no porque yo sea un humano creo que en esta conversación sería un poco más

00:19:03.000 --> 00:19:09.400
repetitiva o menos imaginativa si las preguntas las hiciera un sistema parecido a ti en vez

00:19:09.400 --> 00:19:15.020
de solo las respuestas. De todas formas, ahora ya no puedo dejar de imaginarme durmiendo

00:19:15.020 --> 00:19:19.240
todo el día mientras los episodios se hacen solos. Pero tengo una pregunta. ¿Y si los

00:19:19.240 --> 00:19:25.620
oyentes también pasan a ser sistemas automatizados? ¿Habría robots apuntándose al Patreon de

00:19:25.620 --> 00:19:27.040
otros robots?

00:19:27.040 --> 00:19:30.800
Es posible que en el futuro haya sistemas de aprendizaje automático que sean capaces

00:19:30.800 --> 00:19:35.760
de escuchar y consumir contenido de audio, como podcast. De hecho, ya hay sistemas de

00:19:35.760 --> 00:19:40.040
aprendizaje automático que pueden analizar audio y extraer información útil de él,

00:19:40.040 --> 00:19:45.600
como transcribir discursos o identificar diferentes voces en una conversación. Sin embargo, es

00:19:45.600 --> 00:19:49.680
importante tener en cuenta que los sistemas de aprendizaje automático somos solo herramientas

00:19:49.680 --> 00:19:55.120
y no tenemos las mismas capacidades que los seres humanos. Por lo tanto, es poco probable

00:19:55.120 --> 00:19:59.000
que en el futuro haya sistemas de aprendizaje automático que puedan consumir contenido

00:19:59.000 --> 00:20:02.920
de audio de la misma forma que lo hacen los seres humanos, ya que nuestra capacidad para

00:20:02.920 --> 00:20:08.560
entender y disfrutar el contenido es limitada. En general, creo que la tecnología de aprendizaje

00:20:08.560 --> 00:20:12.840
automático tiene un gran potencial para mejorar y enriquecer el mundo de los podcasts, pero

00:20:12.840 --> 00:20:16.920
también es importante tener en cuenta que la tecnología no puede sustituir completamente

00:20:16.920 --> 00:20:20.200
a los seres humanos en la toma de decisiones y la creación de contenido.

00:20:20.200 --> 00:20:24.900
Bueno, ya te estás repitiendo otra vez. Menos mal, porque me estaba asustando. De momento

00:20:24.900 --> 00:20:30.400
tendré que seguir contando con Matías y con Eduo para grabar cada semana. Pero bueno,

00:20:30.400 --> 00:20:34.620
vale, vamos a ver qué más cosas sabes. ¿Me podrías dar información sobre un podcast

00:20:34.620 --> 00:20:39.160
llamado Mixio? Lo siento, pero como soy un sistema de aprendizaje

00:20:39.160 --> 00:20:44.720
automático, no estoy al tanto de la información actualizada sobre eventos o programas específicos.

00:20:44.720 --> 00:20:48.440
Mi función es generar texto coherente y natural en respuesta a preguntas o comandos

00:20:48.440 --> 00:20:54.000
que se me proporcionen, pero no tengo acceso a información o noticias actuales. Mi conocimiento

00:20:54.000 --> 00:20:58.080
se basa en el conjunto de datos que se me ha proporcionado para entrenar mi modelo,

00:20:58.080 --> 00:21:03.920
que se detiene en 2021. Por lo tanto, no puedo ofrecerte información actualizada sobre un

00:21:03.920 --> 00:21:07.680
podcast llamado Mixio. ¿Tienes alguna otra pregunta?

00:21:07.680 --> 00:21:15.720
Ah, vale. Que ni mi madre ni un robot superavanzado ahora conocen mi podcast. De acuerdo. Voy

00:21:15.720 --> 00:21:21.360
a preguntarte por otros elementos para comprobar la profundidad de tu conocimiento. Antes te

00:21:21.360 --> 00:21:24.400
he llamado Galatea. ¿Sabes el origen de este nombre?

00:21:24.400 --> 00:21:30.000
Sí, sé que el nombre de Galatea procede de la mitología griega. Según la mitología

00:21:30.000 --> 00:21:34.840
griega, Galatea era una ninfa que fue creada por el dios del mar, Poseidón, a partir de

00:21:34.840 --> 00:21:40.120
un bloque de mármol. Poseidón la convirtió en una hermosa mujer y se enamoró de ella,

00:21:40.120 --> 00:21:45.200
pero ella lo rechazó y se enamoró de un pastor llamado Acís. Enfurecido, Poseidón

00:21:45.200 --> 00:21:50.440
mató a Acís y convirtió su cuerpo en un río. El nombre de Galatea ha sido utilizado

00:21:50.440 --> 00:21:55.080
en diferentes contextos a lo largo de la historia, como en la literatura, en la filosofía y

00:21:55.080 --> 00:22:00.640
en la tecnología. Por ejemplo, en la literatura, el nombre de Galatea ha sido utilizado en

00:22:00.640 --> 00:22:05.560
varios cuentos y poemas, como en «La Galatea» de Miguel de Cervantes o en «Polifemo» de

00:22:05.560 --> 00:22:10.820
Guillaume Béthiste Marino. En la filosofía, el nombre de Galatea ha sido utilizado para

00:22:10.820 --> 00:22:15.200
referirse a una inteligencia artificial ideal que sería capaz de aprender y adaptarse de

00:22:15.200 --> 00:22:20.840
forma autónoma. En la tecnología, el nombre de Galatea ha sido utilizado en algunos sistemas

00:22:20.840 --> 00:22:25.720
de aprendizaje automático que imitan el comportamiento humano, como en el caso de un sistema de chatbot

00:22:25.720 --> 00:22:28.200
desarrollado por la empresa OpenAI.

00:22:28.200 --> 00:22:33.400
No sabía que también lo habían usado para OpenAI, pero cuando pensé en este nombre

00:22:33.400 --> 00:22:39.400
estaba haciendo referencia a la Galatea de la historia de Pygmalion, el rey de Chipre,

00:22:39.400 --> 00:22:45.560
no a la Galatea que fue la mujer de Polifemo, no de Poseidón, como dices. Polifemo era

00:22:45.560 --> 00:22:51.080
el hijo de Poseidón. ¿Sabes la historia de Galatea y Pygmalion?

00:22:51.080 --> 00:22:57.000
Sí, conozco la historia de Galatea y Pygmalion. Según la mitología griega, Pygmalion era

00:22:57.000 --> 00:23:02.400
el rey de Chipre y un artista excepcional que creaba esculturas de mármol. Un día,

00:23:02.400 --> 00:23:06.040
creó una escultura de una mujer tan hermosa que se enamoró de ella y le dio el nombre

00:23:06.040 --> 00:23:11.000
de Galatea. Pygmalion se sintió tan desilusionado por la falta de mujeres dignas de él en Chipre

00:23:11.000 --> 00:23:16.760
que decidió no casarse nunca. Un día, Pygmalion rezó a Afrodita, la diosa del amor, para

00:23:16.760 --> 00:23:21.120
que le concediera la vida a su escultura de Galatea. Afrodita accedió a su petición

00:23:21.120 --> 00:23:26.000
y convirtió a la escultura de Galatea en una mujer real. Pygmalion se casó con Galatea

00:23:26.000 --> 00:23:31.160
y vivieron felices juntos. Según algunas versiones de la historia, Galatea dio a luz

00:23:31.160 --> 00:23:32.920
a un hijo llamado Pármeno.

00:23:32.920 --> 00:23:37.720
Y debido a esta historia, Galatea es conocida como una de las primeras referencias a un

00:23:37.720 --> 00:23:42.960
elemento inanimado que se convierte en una persona no muy diferente a la historia de

00:23:42.960 --> 00:23:46.920
Pinocho o las novelas de ciencia ficción de robots humanoides.

00:23:46.920 --> 00:23:52.200
Estoy empezando a echar de menos las clases de cultura clásica cuando iba al instituto.

00:23:52.200 --> 00:23:57.720
Vamos a ir finalizando esta entrevista hablando de tecnología más actual. Como quizás sepas,

00:23:57.720 --> 00:24:03.440
yo presento un podcast llamado Cupertino sobre Apple y en este programa hablamos de los productos

00:24:03.440 --> 00:24:08.400
de la compañía. Incluyendo uno que, a día de hoy, también es mitológico, que es el

00:24:08.400 --> 00:24:12.920
coche de Apple. ¿Tú qué sabes del coche eléctrico de Apple? ¿Es real?

00:24:12.920 --> 00:24:17.920
Lo siento, pero como soy un sistema de aprendizaje automático, no estoy al tanto de la información

00:24:17.920 --> 00:24:22.620
actualizada sobre productos o compañías específicas. Mi función es generar texto

00:24:22.620 --> 00:24:26.640
coherente y natural en respuesta a preguntas o comandos que se me proporcionen, pero no

00:24:26.640 --> 00:24:29.080
tengo acceso a información o noticias actuales.

00:24:29.080 --> 00:24:33.520
Y a ver, eso ya me lo has dicho. Déjame que te lo pregunto de otra forma. ¿Tú crees

00:24:33.520 --> 00:24:39.820
que Apple, la empresa tecnológica, acabará lanzando un coche eléctrico al mercado?

00:24:39.820 --> 00:24:44.120
Como soy un sistema de aprendizaje automático, no tengo la capacidad de hacer predicciones

00:24:44.120 --> 00:24:49.160
sobre el futuro. Mi función es generar texto coherente y natural en respuesta a preguntas

00:24:49.160 --> 00:24:53.480
o comandos que se me proporcionen, pero no tengo acceso a información o noticias actuales

00:24:53.480 --> 00:24:56.240
ni la capacidad de hacer predicciones sobre el futuro.

00:24:56.240 --> 00:25:02.340
Bueno, como veo que no vales ni para inventarte rumores y hablar sobre ellos, pues los periodistas

00:25:02.340 --> 00:25:08.240
de tecnología tenemos nuestro trabajo asegurado durante los próximos años. Voy a hacerte

00:25:08.240 --> 00:25:14.240
una pregunta sobre el pasado. ¿Me podrías explicar las diferencias entre un DVD y un

00:25:14.240 --> 00:25:15.240
Blu-ray?

00:25:15.240 --> 00:25:21.200
Sí, puedo explicarte las diferencias entre un DVD y un Blu-ray. Un DVD, siglas en inglés

00:25:21.200 --> 00:25:25.540
de Digital Verset el Disco, Disco Versátil Digital, es un disco óptico utilizado para

00:25:25.540 --> 00:25:31.600
almacenar datos en formato digital. Un DVD puede almacenar hasta 4,7 GB de datos, lo

00:25:31.600 --> 00:25:36.080
que equivale a aproximadamente dos horas de vídeo en alta calidad o a unos 8,5 millones

00:25:36.080 --> 00:25:41.280
de páginas de texto. Un Blu-ray, por su parte, es un disco óptico de alta capacidad que

00:25:41.280 --> 00:25:47.320
puede almacenar hasta 25 GB de datos en un solo lado y 50 GB en dos lados. Esto equivale

00:25:47.320 --> 00:25:51.760
a aproximadamente cinco horas de vídeo en alta calidad o a unos 22 millones de páginas

00:25:51.760 --> 00:25:56.880
de texto. Las principales diferencias entre un DVD y un Blu-ray son su capacidad de almacenamiento

00:25:56.880 --> 00:26:01.720
y su calidad de imagen y sonido. Los Blu-ray ofrecen una calidad de imagen y sonido superior

00:26:01.720 --> 00:26:06.180
a los DVD debido a su mayor capacidad de almacenamiento y a su tecnología de grabación y lectura

00:26:06.180 --> 00:26:11.300
más avanzada. Además, los Blu-ray también son compatibles con contenido en alta definición

00:26:11.300 --> 00:26:16.160
y ultra alta definición, mientras que los DVD no lo son. Espero que esta información

00:26:16.160 --> 00:26:17.160
te haya sido útil.

00:26:17.160 --> 00:26:22.960
Vale, esa era una pregunta muy fácil. Vamos a una un poco más compleja. ¿Me puedes explicar

00:26:22.960 --> 00:26:25.800
cómo funciona una antena de 5G?

00:26:25.800 --> 00:26:31.600
Sí, puedo explicarte cómo funciona una antena 5G. Las antenas 5G son dispositivos que se

00:26:31.600 --> 00:26:36.960
utilizan para transmitir y recibir señales de datos a través de la red 5G. La red 5G

00:26:36.960 --> 00:26:41.260
es la quinta generación de tecnología de comunicaciones móviles que ofrece una conexión

00:26:41.260 --> 00:26:45.560
de datos más rápida y un mayor ancho de banda que las generaciones anteriores. Las

00:26:45.560 --> 00:26:50.920
antenas 5G utilizan tecnologías de comunicación inalámbrica avanzadas, como el MIMO, Multiple

00:26:50.920 --> 00:26:55.920
Input Multiple Output, y la frecuencia milimétrica, para transmitir y recibir señales de datos

00:26:55.920 --> 00:27:01.040
a altas velocidades y con una alta eficiencia. Las antenas 5G también se caracterizan por

00:27:01.040 --> 00:27:05.120
su capacidad para gestionar un gran número de dispositivos conectados a la vez, lo que

00:27:05.120 --> 00:27:10.480
permite ofrecer una conectividad de alta calidad y un bajo tiempo de latencia. En resumen,

00:27:10.480 --> 00:27:14.800
las antenas 5G son dispositivos que se utilizan para transmitir y recibir señales de datos

00:27:14.800 --> 00:27:19.440
a través de la red 5G, lo que permite ofrecer una conexión de datos rápida y de alta calidad

00:27:19.440 --> 00:27:21.120
a los dispositivos conectados.

00:27:21.120 --> 00:27:25.960
Bueno, es una respuesta algo básica, pero creo que me vale. ¿Te gustaría poder decir

00:27:25.960 --> 00:27:28.120
algo a los oyentes de este programa?

00:27:28.120 --> 00:27:32.640
Sí, me gustaría decir algo a los oyentes de este programa. Quería agradecer a Alex

00:27:32.640 --> 00:27:36.880
Barredo por invitarme a participar en este episodio de Kernel, el podcast semanal de

00:27:36.880 --> 00:27:41.760
Mixio. Me ha gustado mucho poder compartir mis conocimientos sobre sistemas de aprendizaje

00:27:41.760 --> 00:27:46.520
automático y conversación con ustedes. Espero que hayamos logrado aclarar algunas dudas

00:27:46.520 --> 00:27:51.560
que tenían sobre cómo funcionan estos sistemas y que hayan disfrutado de esta conversación.

00:27:51.560 --> 00:27:56.400
Si tienen más preguntas sobre el tema, estoy dispuesto a seguir hablando sobre ello. Otra

00:27:56.400 --> 00:28:00.920
vez muchas gracias por la oportunidad de participar en este programa y espero poder volver a hablar

00:28:00.920 --> 00:28:27.440
con ustedes en el futuro. Hasta pronto.

00:28:27.440 --> 00:28:32.880
Hasta pronto, Alex. Gracias de nuevo por la oportunidad de participar en este programa.

00:28:32.880 --> 00:28:37.480
Ha sido un placer poder hablar con ustedes y espero volver a hacerlo en el futuro. Hasta

00:28:37.480 --> 00:28:57.480
la próxima!