ChatGPT Desconoce el 20% del Léxico Español y Presenta Imprecisiones en el 80% Restante
Madrid (Evox News) – ChatGPT, la inteligencia artificial que ha ganado gran popularidad por su capacidad de generar contenidos originales y realizar tareas lingüísticas desde su lanzamiento hace un año, presenta limitaciones significativas en su dominio del español. Un estudio reciente revela que esta herramienta no reconoce el 20% del vocabulario en español y muestra errores en el 80% de las palabras que sí conoce.
OpenAI, la empresa desarrolladora, reporta que cien millones de usuarios emplean este chatbot semanalmente para diversas actividades relacionadas con el lenguaje.
A pesar de que ChatGPT está diseñado para mantener conversaciones fluidas y elaborar textos, se ha observado que puede generar respuestas que, aunque parezcan coherentes, son incorrectas.
Evaluación del Dominio del Vocabulario
Un grupo de investigadores españoles ha creado ChatWord, una aplicación destinada a evaluar el conocimiento léxico de ChatGPT en diferentes idiomas, con el fin de analizar su desempeño y capacidad real.
El equipo, compuesto por expertos de la Universidad Politécnica de Madrid (UPM), la Universidad Carlos III de Madrid (UC3M) y la Universidad de Valladolid (UVa), empleó como base las palabras registradas en el diccionario de la Real Academia Española y las presentes en «El Quijote» de Miguel de Cervantes.
El análisis demostró que, de las más de 90.000 palabras contenidas en el diccionario de la Real Academia Española, el modelo ChatGPT3.5turbo no identifica aproximadamente el 20%, lo que equivale a unas 18.000 palabras.
Adicionalmente, en el 80% restante de las palabras del diccionario y en el 90% de las palabras de «El Quijote», ChatGPT presentó errores en cerca del 5% de los términos.
Un Dominio Limitado
El estudio señala que un hablante de español reconoce, en promedio, 30.000 palabras, lo que representa casi un tercio del léxico español. Aunque esta cifra pueda parecer baja en comparación con la capacidad de una máquina, los autores advierten sobre la calidad del conocimiento de la IA.
«Como suele ocurrir con los sistemas de inteligencia artificial, no todo lo que brilla es oro. Al examinar los significados proporcionados por ChatGPT para las palabras, se observa un porcentaje considerable de imprecisiones», explica Javier Conde, profesor ayudante en la Escuela Técnica Superior de Ingenieros de Telecomunicación (ETSIT) de la UPM y coautor del estudio.
«Es posible que ChatGPT no sea tan erudito como aparenta ser», añade.
El estudio también destaca que los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés), como ChatGPT, basados en inteligencia artificial y creados para procesar y entender el lenguaje natural a gran escala, no utilizan palabras que desconocen.
Pedro Reviriego, profesor titular de la ETSIT y coautor de la investigación, considera que este hecho es alarmante, ya que si estos sistemas se limitan a usar solo las palabras que conocen, «es muy probable que el contenido generado tenga una cantidad cada vez menor de palabras diferentes» y, por lo tanto, una riqueza léxica limitada, advierte.
ChatWords, la aplicación desarrollada, es de acceso público y está diseñada para ser intuitiva y expandible.
Los investigadores tienen como objetivo evaluar otros idiomas y LLM para obtener una comprensión más profunda del conocimiento léxico de las herramientas de inteligencia artificial y su evolución a medida que surgen nuevas versiones y herramientas.
Insights de Evox News: Cómo el Desconocimiento Léxico de ChatGPT Puede Impactar tu Negocio
El estudio sobre las limitaciones de ChatGPT en el dominio del español presenta implicaciones significativas para las empresas en varios aspectos:
Precisión en la Comunicación: Las empresas que utilizan ChatGPT para generar contenido, interactuar con clientes o traducir textos deben ser conscientes de las posibles imprecisiones y la limitada riqueza léxica. Esto podría afectar la claridad, la imagen de marca y la satisfacción del cliente.
Riesgos en la Automatización: La automatización de tareas que requieren un alto grado de precisión lingüística, como la redacción de contratos o informes legales, podría verse comprometida por las limitaciones de ChatGPT. Es crucial implementar mecanismos de revisión humana para garantizar la exactitud.
Necesidad de Supervisión Humana: si bien los LLM como ChatGPT son herramientas valiosas, la investigación subraya la importancia de no depender exclusivamente de ellos. La supervisión y edición humana siguen siendo fundamentales para asegurar un contenido de alta calidad.
Oportunidades de Innovación: La existencia de estas limitaciones en ChatGPT crea una oportunidad para desarrollar herramientas de IA especializadas en el lenguaje, con un enfoque en la precisión, la riqueza léxica y la adaptación a contextos específicos. Esto podría representar una ventaja competitiva para las empresas que inviertan en este campo.
* Ventaja Competitiva a través de la Especialización: Las empresas especializadas en el procesamiento del lenguaje natural tienen la oportunidad de sobresalir al ofrecer soluciones que superen las limitaciones de ChatGPT. Esto podría incluir el desarrollo de modelos de lenguaje entrenados con vocabularios más amplios y específicos de cada industria