La Evolución del Procesamiento del Lenguaje Natural: De Sistemas Basados en Reglas a la IA Generativa
Se revela cómo la inteligencia artificial generativa actual y los modelos de lenguaje grandes (LLM) procesan el lenguaje natural con fluidez mediante la concordancia de patrones estadísticos, en contraste con los sistemas de IA más antiguos, como los pilares de Siri y Alexa, que dependían de reglas gramaticales semi-rígidas. Esta distinción surge porque una de las preguntas más frecuentes es por qué la IA anterior realizaba un trabajo tan deficiente e irritante al interactuar con los humanos. Efectivamente, las conversaciones con esos sistemas de procesamiento del lenguaje natural (PLN) más antiguos eran notablemente forzadas y exasperantes, mientras que la IA generativa contemporánea parece casi humana al mantener conversaciones.
¿Cuáles fueron los cambios en la IA que llevaron a una mejora tremenda en el PLN, pasando de ser áspero a convertirse en una navegación fluida?
Analicemos este tema.
Este análisis de un avance innovador en IA forma parte de la cobertura continua sobre lo último en inteligencia artificial, incluyendo la identificación y explicación de diversas complejidades impactantes de la IA.
Dos Enfoques Principales para el PLN
Existen dos enfoques principales sobre cómo se diseña el procesamiento del lenguaje natural:
(1) PLN Tradicional: El Enfoque Basado en Reglas. Los desarrolladores de IA configuran una IA que utiliza reglas gramaticales para que examine computacionalmente las oraciones y descifre los elementos sintácticos y semánticos basándose en las reglas convencionales del lenguaje natural.
(2) PLN Moderno: El Enfoque de Patrones de Datos. Los desarrolladores de IA configuran la IA generativa y los LLM mediante el entrenamiento de datos en una vasta gama de oraciones escritas por humanos. Esto permite identificar estadística y matemáticamente patrones computacionales subyacentes en la escritura humana, posibilitando que la IA imite o reproduzca el lenguaje natural.
Un desglose detallado de estos dos enfoques podría ser esclarecedor.
Enfoque del PLN Tradicional
El enfoque tradicional del PLN consiste en analizar oraciones basándose en las reglas gramaticales fundamentales aprendidas en la educación primaria. Seguramente se recuerdan vívidamente esas reglas. Se examina una oración para determinar dónde está el sujeto, los verbos, los sustantivos, etc.
Paso a paso, se identifica la estructura de la oración.
Esto finalmente permite interpretar el significado de la oración. El esfuerzo implica un análisis de la sintaxis o elementos sintácticos de una oración. Además, se realiza un análisis semántico, buscando comprender el mensaje subyacente de las palabras que se han unido en una formulación particular (técnicamente, esto incluye el uso de léxicos, ontologías y otras teorías y aparatos lingüísticos).
Esto se conoce convencionalmente como el método basado en reglas o simbólico para interpretar oraciones.
Enfoque del PLN Moderno
El enfoque moderno del PLN consiste en que la IA generativa y los LLM aprovechan la concordancia de patrones a gran escala de la escritura humana, típicamente escaneada a través de Internet.
La IA determina estadísticamente cómo se componen generalmente las oraciones. Usamos algunas palabras más que otras. Usamos palabras en ciertas partes de las oraciones y las seguimos con otras palabras en un patrón detectable. Si esta concordancia de patrones se realiza a una escala suficientemente grande, los patrones proporcionan un medio computacional relativamente fiable para imitar cómo escriben los humanos.
Una estructura de datos interna especial en el LLM captura los mapeos matemáticos de cómo las palabras tienden a asociarse con otras (esta estructura de datos se conoce como red neuronal artificial o RNA). Basándose en esta elaborada y extensa concordancia de patrones computacionales, una oración que se introduce en la IA generativa puede ser respondida aparentemente con oraciones de respuesta que generalmente se ajustan a lo que un humano podría haber dicho a la consulta o pregunta realizada.
Esto se conoce convencionalmente como patrón de datos o método sub-simbólico.
Comparación de los Dos Enfoques
Una comparación rápida resaltará las similitudes y diferencias entre los dos enfoques de PLN.
Primero, en el enfoque basado en reglas, un aspecto interesante es que las reglas gramaticales son fáciles de comprender para los humanos. Los desarrolladores de IA pueden programar la IA con esas reglas. Usando esas reglas, la IA procesa las oraciones y las descompone, pieza por pieza. Es casi como cuando un profesor indica descomponer una oración e indicar cuáles son sus elementos (no se implica que la IA y la mente humana estén a la par, lo cual, para aclarar, no lo están).
A diferencia del ángulo de las reglas gramaticales, el enfoque del LLM de IA generativa simplemente asocia datos en forma de texto y palabras con otros datos similares. No se necesitan ni se usan reglas per se. Asimismo, los desarrolladores de IA no necesitan alimentar a la IA generativa con las reglas del lenguaje natural.
Los desarrolladores de IA confían en cambio en la concordancia de patrones a escala masiva para encontrar automáticamente patrones en cómo los humanos componen oraciones. Por lo tanto, un aspecto crucial implica que los desarrolladores de IA obtengan una cantidad suficientemente grande de escritura que pueda ser modelada adecuadamente. Demasiados pocos datos probablemente no serán suficientes para encontrar patrones útiles y utilizables.
Con el enfoque basado en reglas, no existe una necesidad similar de alimentar toneladas de muestras de escritura. Solo se necesita lo suficiente para poder probar que las reglas de análisis funcionan de la manera esperada.
Una desventaja del enfoque de concordancia de patrones es que los patrones matemáticos y computacionales tienden a ser tan complejos que no hay una forma sencilla de poder determinar cómo la IA generativa está descifrando las respuestas que se generan. Claro, se puede rastrear que este número se convirtió en este número, y ese número se convirtió en ese número, pero no hay reglas gramaticales fácilmente aparentes que se puedan señalar en la IA. En ese sentido, el enfoque basado en reglas es algo más fácil de depurar y ver qué está haciendo la IA internamente.
El enfoque basado en reglas se considera más predecible o determinista. El enfoque de concordancia de patrones es menos predecible y se dice que es no determinista porque utiliza estadísticas y a veces puede desviarse (esto lleva a las llamadas alucinaciones de la IA, donde la IA emite erráticamente oraciones que parecen correctas pero no están basadas en hechos o verdades).
Evaluación de los Enfoques
Bien, en una comparación directa, ¿cuál de los dos enfoques es el superior?
Depende parcialmente de qué se esté utilizando como criterio para determinar la superioridad.
Si el objetivo es la fluidez, el enfoque de patrones de datos lleva la delantera. Pero si se desea precisión y alta predictibilidad, se podría optar por seguir con el PLN basado en reglas. Esa es en parte la razón por la cual los sistemas tradicionales de Siri y Alexa no cambiaron de la noche a la mañana a la IA generativa como PLN subyacente. La preocupación de los proveedores era que si hacían el cambio y su IA comenzaba a hacer cosas extrañas, la gente se enfadaría mucho (con razón). Tenía más sentido mantener el PLN tradicional en su lugar, asegurando la fiabilidad, y mientras tanto moverse gradualmente y con cautela hacia el PLN de la era moderna.
Un Ejemplo del PLN Tradicional en Acción
Se proporcionará un breve ejemplo de cómo se manejaría una oración en cada uno de los dos enfoques respectivos. La oración utilizada es esta: «El gato persiguió al ratón antes de esconderse debajo del sofá».
Observe atentamente la oración. Póngase el sombrero de las reglas gramaticales. ¿Recuerda lo suficiente de sus clases de lengua para analizar la oración?
Seguramente, rápidamente se identificaron estos elementos analizados examinando cada palabra en la oración:
«El» → Determinante.
«gato» → Sustantivo.
«persiguió» → Verbo (pretérito perfecto simple).
«al» → Contracción (a + el).
«ratón» → Sustantivo.
«antes de» → Locución preposicional.
«esconderse» → Verbo (infinitivo).
«debajo del» → Locución preposicional.
«sofá» → Sustantivo.
«.» → Puntuación.
La estructura de la oración se puede representar de esta manera:
Sujeto: [El gato]
Verbo: [persiguió]
Objeto Directo: [al ratón]
Complemento Circunstancial: [antes de esconderse debajo del sofá].
La interpretación semántica sería algo así. Hay dos agentes involucrados: un gato y un ratón. Los gatos típicamente persiguen ratones. Eso no es nada fuera de lo común. Esconderse debajo de un objeto es una relación espacial común. Esto también parece ser una actividad relativamente común o esperada. Eso es todo lo que podemos decir. Estamos limitados a identificar una imagen más amplia del significado, como un tono emocional, ya que no se nos informa si el gato está jugando o cazando.
Un Ejemplo de IA Generativa en Acción
Procedamos a que un usuario ingrese la misma oración en una aplicación de IA generativa contemporánea.
La oración sigue siendo: «El gato persiguió al ratón antes de esconderse debajo del sofá».
El primer paso consiste en que la IA convierta las palabras en números. Los números se denominan tokens, y la conversión de palabras en tokens se conoce como tokenización. A veces, las palabras se dividen en subpartes, y se utiliza más de un token para representar la palabra dada.
Aquí hay un ejemplo de las palabras siendo convertidas en sus valores numéricos de token (los números son ilustrativos):
«El»: 464
» gato»: 9226
» persiguió»: 3372
» al»: 262
» ratón»: 19530
» antes de»: 960
» esconderse»: 23478
» debajo del»: 818
» sofá»: 10550
«.»: 13
Esos números no tienen un significado particular para nosotros. Son simplemente números internos en la IA que se utilizarán para asociar estadísticamente estos tokens con otros tokens basándose en el entrenamiento inicial de datos general y la concordancia de patrones matemáticos y computacionales que se realizó.
Los tokens se mapean en las estructuras internas de la IA. Esto se conoce como usar los tokens en un espacio vectorial de alta dimensión que mostrará sus asociaciones con otros tokens.
Por ejemplo, el token 9226 (que representa «gato») estaría indudablemente asociado estadísticamente de cerca con el token 19530 (que representa «ratón»). Esto tiene sentido ya que si se observaran toneladas de oraciones en Internet, ciertamente se descubriría que la palabra «gato» y la palabra «ratón» se usan a menudo en la misma oración o en oraciones muy cercanas entre sí. Del mismo modo, el token 3372 (que representa la palabra «persiguió») estaría estrechamente asociado tanto con el token 9226 («gato») como con el 19530 («ratón»).
Después de realizar esa inspección y búsqueda, la IA generativa está diseñada para responder a una indicación que un usuario ingresa. Por lo tanto, después de mapear la oración ingresada, la IA generativa ensamblaría tokens que responderían a la indicación. Esos tokens luego se convierten de nuevo en palabras.
La respuesta generada podría ser esta: «La oración describe a un gato persiguiendo a un ratón y luego buscando refugio debajo de un sofá, posiblemente después de que terminó la persecución». Observe que esto imita el tipo de respuesta que un humano podría haber dado a esa misma oración. Nuevamente, esto se basa en la concordancia de patrones de la escritura humana.
Hacia un Enfoque Híbrido
Como quizás se haya deducido, el enfoque del PLN basado en reglas o simbólico es algo rígido debido a su dependencia de reglas gramaticales programadas. El desarrollador de IA podría haber omitido inadvertidamente algunas reglas gramaticales necesarias o no haberlas especificado todas.
El enfoque de patrones de datos o sub-simbólico tiende a ser más fluido, flexible y consciente del contexto. Sin embargo, como se señaló, es menos predecible e incluso puede producir confabulaciones o «alucinaciones».
Parece que hay desventajas en cualquier elección.
En este momento, hay pocas dudas de que el enfoque de patrones de datos está superando al enfoque de PLN tradicional. La gente anhela la fluidez. Por otro lado, si se proporciona un PLN en un entorno crítico para la vida, como el uso de un médico para la atención médica, se podría inclinar hacia la predictibilidad sobre la fluidez.
Es importante no caer en la trampa de pensar que debemos descartar por completo el enfoque basado en reglas. Eso sería un error. El enfoque basado en reglas es bastante útil en circunstancias donde se desea que el PLN sea altamente predecible. El enfoque de patrones de datos puede causar problemas si se desvía hacia terrenos inciertos.
En consecuencia, algunos abogan por un enfoque híbrido (métodos híbridos neuro-simbólicos). Sí, afortunadamente, se puede combinar el PLN basado en reglas con el PLN de patrones de datos. Si se hace con éxito, se obtiene lo mejor de ambos mundos. Cabe señalar que si se hace mal, es probable que se obtenga lo peor de ambos mundos. Es una espada de doble filo en ese sentido.
Ahora se posee un conocimiento informado sobre el PLN tradicional frente al PLN de la era moderna.
Insights de Evox News: Cómo la Evolución del PLN Puede Impactar Tu Negocio
La transición de sistemas de Procesamiento del Lenguaje Natural (PLN) basados en reglas estrictas a modelos modernos basados en patrones de datos, como la IA generativa, presenta oportunidades y desafíos significativos para las empresas:
Impacto Económico: La IA generativa puede automatizar tareas que antes requerían intervención humana intensiva, como la creación de contenido, la atención al cliente de primer nivel y el resumen de documentos. Esto puede traducirse en reducciones de costos operativos. Además, abre la puerta a nuevos modelos de negocio y flujos de ingresos basados en servicios mejorados por IA, como herramientas de marketing personalizadas o análisis de sentimiento del cliente a gran escala.
Ventaja Competitiva: Las empresas que adopten eficazmente el PLN moderno pueden obtener una ventaja competitiva significativa. La capacidad de interactuar con los clientes de manera más natural y fluida mejora la experiencia del cliente y la lealtad. Internamente, un mejor análisis de texto puede conducir a una toma de decisiones más informada basada en datos extraídos de informes, correos electrónicos y comentarios de clientes. La velocidad con la que se pueden desarrollar y probar nuevas ideas utilizando estas herramientas también puede acelerar la innovación.
* Innovación: El PLN avanzado impulsa la innovación en múltiples frentes. Permite el desarrollo de productos y servicios hiper-personalizados basados en una comprensión profunda de las necesidades y preferencias individuales expresadas en lenguaje natural. Facilita la gestión del conocimiento al hacer que la información interna sea más accesible y consultable. Además, herramientas como los asistentes de codificación basados en LLM pueden acelerar los ciclos de desarrollo de software, permitiendo a las empresas lanzar nuevas funcionalidades más rápidamente. Sin embargo, las empresas deben ser conscientes de los riesgos asociados, como las «alucinaciones» de la IA y la necesidad de garantizar la precisión y la ética en sus aplicaciones. La elección entre enfoques basados en reglas, patrones o híbridos dependerá del caso de uso específico, equilibrando la necesidad de fluidez con la de precisión y fiabilidad