Revolución IA: Los Nuevos Modelos Lingüísticos que Sacuden la Generación de Texto

Revolución IA: Los Nuevos Modelos Lingüísticos que Sacuden la Generación de Texto

Evox News
Por
11 min de lectura

Los LLM de Difusión: Una Innovadora Alternativa a la IA Generativa Convencional

Los modelos de lenguaje de gran tamaño (LLM) de difusión representan una innovación que podría revolucionar la IA generativa convencional y obligar a los desarrolladores de IA a reconsiderar sus enfoques principales.

En el panorama actual de la inteligencia artificial, una nueva metodología para la IA generativa y los modelos de lenguaje de gran tamaño (LLM) está ganando terreno y presenta ventajas potenciales sobre los métodos tradicionales. En esencia, el camino habitual para desarrollar la IA generativa se basa en los LLM autorregresivos, mientras que la nueva y prometedora vía se conoce como LLM de difusión (dLLM).

Los dLLM podrían suponer un avance significativo. A continuación, se explica el funcionamiento de la IA generativa predominante y se presenta el enfoque de difusión. Si bien aún no está garantizado que la difusión supere a la autorregresión, existe una alta probabilidad de que la difusión provoque cambios importantes en el sector.

Este análisis forma parte de la cobertura continua de Evox News sobre los últimos avances en IA, incluyendo la identificación y explicación de diversas complejidades impactantes de la IA.

Funcionamiento Habitual de la IA Generativa

El enfoque convencional para diseñar la IA generativa y los LLM implica que la IA produzca una respuesta palabra por palabra a cualquier prompt que se introduzca. Esta técnica se conoce como autorregresiva. Un algoritmo autorregresivo intenta predecir qué palabra debería aparecer a continuación en una secuencia de oraciones que se están generando. Esta actividad tiene lugar cuando la IA está elaborando una respuesta a una consulta.

Es importante mencionar que, internamente, la IA utiliza una representación numérica de las palabras. Estas indicaciones numéricas se denominan tokens.

El proceso detallado funciona de la siguiente manera: se introduce un prompt. Esas palabras se convierten en tokens (valores numéricos). La IA utiliza los tokens para determinar qué otros tokens deben generarse, haciéndolo uno por uno. Los tokens generados paso a paso se convierten de nuevo en palabras cuando se muestra la respuesta.

Este proceso se puede observar en algunas aplicaciones de IA generativa que muestran la respuesta generada palabra por palabra. Sin embargo, hay otros factores en juego, como la velocidad de la red y la velocidad de la propia IA.

La Difusión en la Generación de Imágenes y Vídeos

El concepto de autorregresión es fundamental, pero es necesario introducir otro concepto que se relaciona directamente: la difusión, utilizada comúnmente en la generación de imágenes y vídeos mediante IA.

La difusión se puede comparar con el trabajo de un escultor. Un escultor comienza con un bloque de mármol y elimina las partes que no son necesarias para lograr la forma final deseada. Si el escultor está creando la figura de una persona, elimina el mármol para que lo que quede tenga la forma humana.

Este proceso contrasta con el de un pintor. Un pintor comienza con un lienzo en blanco y añade pintura paso a paso para crear la imagen deseada. El escultor quita material, mientras que el pintor añade material.

La IA generativa convencional actúa como un pintor. Las palabras o tokens se ensamblan uno a uno hasta que la respuesta completa está elaborada. Se podría decir que las palabras se añaden a un lienzo en blanco.

La difusión funciona de forma diferente, más parecida a la labor de un escultor.

El Mecanismo de la Difusión en Imágenes y Vídeos

Para entender el mecanismo de la difusión, consideremos el ejemplo de la generación de una imagen de un gato mediante IA.

Primero, se debe entrenar a la IA con datos sobre cómo es un gato. Una vez que la IA ha sido entrenada, se le puede pedir que produzca una imagen o un vídeo de un gato.

El proceso de entrenamiento implica los siguientes pasos: se parte de una imagen o representación existente de un gato. Luego, se «ensucia» esa imagen añadiendo ruido. El gato se vuelve menos reconocible debido a la estática o el ruido.

La IA recibe la versión original y limpia de la imagen, junto con la versión con ruido. La IA debe aprender a eliminar el ruido para llegar a la versión limpia. Elimina de la imagen «sucia» los elementos que no pertenecen a ella. Está «des-ruidificando» la versión con estática.

Si este proceso se realiza correctamente, la IA regresa a la versión original del gato.

El aspecto clave es que, cuando se introduce un prompt pidiendo a la IA basada en difusión que genere una imagen de un gato, la IA comienza con un fotograma lleno de estática. Luego, elimina la estática necesaria hasta que el fotograma muestra un gato.

La mayoría de la gente asume que la IA comienza con un lienzo en blanco y trata de dibujar un gato, como lo haría un pintor. Pero el método de difusión actúa como un escultor: comienza con un bloque de mármol (o un fotograma lleno de estática) y elimina partes hasta que queda la imagen deseada.

Este es el funcionamiento de la difusión en la IA, a menudo descrito como un enfoque de «grueso a fino».

La Difusión Aplicada al Texto

Hasta ahora, se ha explicado que la difusión en IA implica entrenar a la IA para eliminar la estática o el ruido hasta obtener una imagen deseada. Este mismo enfoque se puede aplicar a la generación de texto.

Consideremos un prompt que pide a la IA que proporcione información sobre Abraham Lincoln.

La IA generativa convencional elaboraría una respuesta ensamblando palabras una por una. Las palabras se elegirían basándose en un escaneo previo de ensayos, historias y otros materiales sobre la vida de Abraham Lincoln durante el entrenamiento inicial de la IA. Los patrones de esas historias se almacenan dentro de la IA. La IA recurre a esos patrones para producir una respuesta sobre Lincoln.

Este es el proceso autorregresivo convencional.

En un LLM de difusión, el proceso es diferente.

Al igual que en el caso anterior, se entrena a la IA con ensayos, historias y otros materiales sobre la vida de Abraham Lincoln. Sin embargo, se añade estática o ruido a ese contenido. El texto se vuelve ilegible a simple vista, con letras aleatorias y palabras desordenadas.

El proceso de difusión toma la versión «ruidosa» e intenta eliminar la estática para volver a la versión original. Este proceso es similar al que se utilizó con la imagen del gato.

Posteriormente, cuando alguien pide al LLM de difusión que comparta información sobre Abraham Lincoln, se alimenta a la IA con texto aparentemente desordenado. El LLM de difusión elimina el ruido y transforma el bloque de texto desordenado en una descripción coherente sobre Abraham Lincoln.

Ejemplo Ilustrativo: Comparación de Enfoques

Para ilustrar la diferencia entre el enfoque autorregresivo convencional y el enfoque de difusión, consideremos la pregunta: «¿Por qué el cielo es azul?».

Con cualquier tipo de IA generativa, independientemente de si es autorregresiva o de difusión, el prompt y la respuesta podrían ser los siguientes:

  • Prompt introducido: «¿Por qué el cielo es azul?»
  • Respuesta de la IA generativa: «El cielo es azul porque la luz solar se dispersa en las moléculas de aire y la luz azul es la que más se dispersa».

Si la IA generativa se basa en un enfoque de autorregresión, convertiría el prompt en una serie de tokens que representan las palabras «por», «qué», «el», «cielo», «es», «azul». Estos tokens se introducirían en el mecanismo de autorregresión. Basándose en la coincidencia de patrones de contenido escaneado previamente, la IA ensamblaría una respuesta, token por token, y luego convertiría esos tokens en palabras.

Los tokens o palabras generadas serían: «El», «cielo», «es», «azul», «porque», «la», «luz», «solar», «se», «dispersa», «en», «las», «moléculas», «de», «aire», «y», «la», «luz», «azul», «es», «la», «que», «más», «se», «dispersa». Se puede considerar que la IA «pinta» una respuesta aplicando pinceladas, una a la vez, a un lienzo en blanco.

La Difusión y el Ejemplo

Ahora, consideremos cómo un LLM de difusión manejaría esta consulta.

Supongamos que ya hemos realizado el entrenamiento de datos para el LLM de difusión. En varias etapas, el entrenamiento de datos incluyó contenido que cubría diversos aspectos de por qué el cielo es azul. Ese contenido se «ensució» añadiendo estática, y el algoritmo de difusión buscó convertirlo de nuevo en texto prístino. Se identificaron patrones sobre cómo hacerlo.

Al utilizar este LLM de difusión, se introduce un prompt que pregunta por qué el cielo es azul. Este prompt* se utiliza como semilla para producir texto desordenado. El texto parece ininteligible para el ojo humano. El LLM de difusión tomará ese texto aparentemente sin sentido y eliminará la estática y el ruido hasta que se genere un resultado final.

El proceso podría ser el siguiente:

  • Texto ruidoso inicial: «cielazul porq soluz disper molec airea yzula disper»
  • Primera pasada: «cielo azul porque soluz dispersa moleculas airea y luz azul dispersa»
  • Segunda pasada: «cielo azul porque luz solar dispersa en moleculas de aire y luz azul se dispersa»
Compartir este artículo