
El procesamiento del lenguaje natural (NLP, Natural Language Processing), es la rama de la Inteligencia artificial que capacita a sistemas y aplicaciones para comprender textos y palabras igual que los seres humanos.
La unión de las tecnologías de lingüística computacional (modelado basado en reglas del lenguaje humano), el machine learning y el deep learning, permiten a los ordenadores procesar el lenguaje humano y «comprender» su significado.
Tabla de contenidos
Casos de uso del NLP
El NLP es ampliamente utilizado en el mundo empresarial, con muchos casos de uso, como:
- Interacción con clientes. Las tecnologías NLP permiten habilitar chatbots que literalmente hablan con los clientes, con la consiguiente reducción de costes, así como redirigen consultas más complejas al servicio de atención telefónica.
- Marketing. Se Analizan comentarios y conversaciones telefónicas de los clientes. Con ellos, se evalúa la percepción del cliente sobre los productos/servicios de una empresa.
- Capacitación. Los investigadores utilizan los datos para entrenar modelos NLP para que realicen aplicaciones específicas.
Tareas de un NLP
Algunas de las tareas que el NLP trata de resolver son:
- El reconocimiento de voz, también denominado software de voz a texto
- El etiquetado gramatical, determina qué es un adjetivo, un sustantivo, un verbo, etc.
- La desambiguación del sentido de la palabra. A partir del un análisis semántico, se determina qué significado es el adecuado para una palabra con diferentes significados, etc.
- […]
NLP vs LLM vs ASR
A menudo se utilizan indistinta o confusamente términos como NLP (Procesamiento del Lenguaje Natural) y LLM (Large Language Model). Sin embargo, «NLP» es un concepto más amplio que abarca los principios y directrices para el desarrollo de sistemas de procesamiento del lenguaje natural.
- Procesamiento del Lenguaje Natural (NLP)
- Reconocimiento de voz (ASR)
- modelo de lenguaje grande (LLM)
El ejemplo más popular de LLM actualmente es ChatGPT, creación de OpenAI, aunque actualmente existen muchos más, algunos de ellos libres.
Python y el kit de herramientas de lenguaje natural (NLTK)
NLTK es conjunto de bibliotecas y herramientas para el procesamiento del lenguaje natural, para el lenguaje de programación Python.
Es un poderoso kit de utilidades para crear aplicaciones Python que trabajan con el lenguaje humano.
Está disponible para Linux, Windows y Mac OS. Es gratuito, libre y conducido por la comunidad.
¿ASR con tecnología basada en cloud o local?
Ambos enfoques, cloud y aplicación local, tienen ventajas y desventajas.
- Cloud. Alto rendimiento. Integración más fácil.
- Local. Mayor seguridad, privacidad, control, posibilidad de ejecución offline (trabajar sin necesidad de Internet). Reducción de costes, en el caso de usar soluciones libres como Whisper o VOSK.
VOSK
| Sitio web | Repositorio en Githubd e VOSK-API |
VOSK es una herramienta offline de reconocimiento de voz, de tipo ASR, que convierte audio en texto, disponible para Linux, Android, iOS, Raspberry Pi y servidores con Python, Java, C#, Node, y otros.
VOSK es libre (open source) bajo licencia Apache 2.0. y a pesar de que los ASR libres tienden a ser inferiores que los comerciales, VOSK tiene una calidad sorprendente.
VOSK no es un modelo de lenguaje grande (LLM). No comprende ni genera texto, si bien utiliza técnicas de aprendizaje profundo.
VOSK soporta más de 20 idiomas, entre ellos el inglés y el español. Está escrito en Python, funciona sin necesidad de una conexión a Internet, y genera transcripciones de voz a texto automáticamente, con una calidad considerablemente buena.
VOSK y VOSK-API
Mientras que VOSK se refiere a la colección de modelos de reconocimiento de voz, VOSK-API es la implementación de la API que permite usar los modelos VOSK en diferentes plataformas y lenguajes de programación. En otras palabras, VOSK-API es la interfaz que facilita integrar VOSK en aplicaciones.
Integración de VOSK en Kdenlive
[docs.kdenlive.org] El editor de vídeo libre y gratuito Kdenlive se integra con VOSK para proporcionar la utilidad de transcripción directamente, desde su línea de tiempo.
Recursos
🌐 [docs.kdenlive.org] Speech to Text > VOSK
Whisper de OpenAI
| Repositorio en Github de whisper |
Whisper es un software de reconocimiento de voz desarrollado por OpenAI, y liberado bajo licencia MIT.
Whisper es una herramienta en la categoría de las de Reconocimiento de voz (ASR)
Funciona offline (no necesita Internet para funcionar), con sus consiguientes ventajas, como la privacidad y seguridad de los datos tratados con la herramienta.
Soporta los idiomas inglés y español, entre muchos otros.
Whisper y VOSK
Whisper es superior a VOSK en cuanto a precisión en la transcripción, aunque más pesado.
Whisper ha sido entrenado con una gran cantidad de datos, y lo que le otorga una muy alta precisión en la transcripción, especialmente en condiciones no óptimas, como reconociendo acentos, con ruido de fondo, etc.
Por otra parte, los modelos de whisper son a menudo más grandes, y por consiguiente más lentos y exigentes en recursos de computación. En contrapartida, VOSK es ligero y funciona en dispositivos limitados, como una Raspberry Pi y teléfonos móviles.
En resumen, Whisper es adecuado para proyectos donde la capacidad de cómputo no es una limitación.
Por otra parte, tanto whisper como VOSK tienen soporte completo del idioma español, y son relativamente fáciles de utilizar e integrar en otras aplicaciones, cualidades que probablemente los convierten en las dos herramientas libres que reúnen las mejores cualidades.