Autor: Jonathan Rosenberg, chief technology officer de Five9
Esta avalancha de noticias hace que parezca que la IA acaba de llegar. Por supuesto, en el sector de la colaboración llevamos mucho tiempo utilizando tecnologías de IA. A grandes rasgos, podemos pensar que la tecnología para la colaboración se divide en dos categorías: el habla (reconocimiento de voz y conversión de texto a voz) y el lenguaje (los principales casos de uso son la comprensión del lenguaje, la clasificación de textos y el resumen). Estas tecnologías han pasado por distintas épocas, y creo que la llegada de esta nueva tecnología marca la tercera y más importante de todas.
La primera era es prácticamente todo lo anterior a la llegada del aprendizaje profundo. Podría decirse que esta era comienza con el inicio del uso de ordenadores en los años cincuenta o sesenta. Ya en 1951, Marvin Minsky y Dean Edmunds construyeron una red neuronal artificial utilizando 3000 tubos de vacío, y en 1952 Arthur.
Uno de los rasgos distintivos de la tecnología del habla y del lenguaje natural de esta época es que estaba hecha a medida. Esto significa que, era posible construir modelos de IA para realizar esta tarea. Sin embargo, para obtener buenos resultados, la tecnología tenía que personalizarse para cada caso de uso. Para el reconocimiento de voz, las empresas creaban sus propias gramáticas que representaban sus vocabularios particulares. Eran inversiones costosas, que llevaban meses y mucho dinero. Por eso, en esta época, sólo las grandes empresas podían sacar partido de esta tecnología. Se utilizaba sobre todo para sistemas de respuesta de voz en centros de contacto.
La segunda era comenzó en 2012 con la aplicación de las redes neuronales profundas (DNN). Comenzó con un artículo histórico que supuso un gran avance en la precisión del reconocimiento de voz y, más tarde, también en las tareas de comprensión del lenguaje natural. Esto, a su vez, permitió aplicaciones como Siri y Alexa en el espacio de consumo. En el ámbito empresarial, significó que las empresas podían utilizar sistemas de reconocimiento de voz de proveedores como Google, Amazon e IBM, sin necesidad de crear gramáticas o vocabularios personalizados. Estos modelos genéricos eran suficientemente buenos. Los proveedores de reuniones ya podían ofrecer funciones de transcripción y traducción automatizadas.
En el centro de contacto, esta era permitió a muchas empresas implantar IVR de diálogo dirigido. En lugar de «pulse uno para ventas, 2 para asistencia», los usuarios podían limitarse a decir «ventas» o «asistencia». También se generalizó su uso. El procesamiento del lenguaje también mejoró, con herramientas como Dialogflow de Google. Pero seguía siendo necesario definir modelos a medida (intenciones, frases de entrenamiento y entidades) e iterar sobre ellos hasta alcanzar la precisión deseada. Era posible, pero no se había generalizado porque resultaba difícil y caro a gran escala. Esto ha impedido la adopción generalizada de productos más avanzados, como los chatbots y bots de voz en lenguaje natural, los asistentes de agentes y el QM automatizado.
Esto está cambiando con la llegada de los grandes modelos lingüísticos (LLM), sobre todo GPT3 y ChatGPT de OpenAI. La mayoría de la gente habla de lo bueno que es generando contenidos y de lo bueno que es como chatbot. Todo esto es cierto, pero pasa por alto la verdadera innovación. Técnicamente, esta innovación se llama «aprendizaje de tiro cero». Lo que significa es que puedes conseguir resultados para una tarea deseada sin necesidad de recopilar datos de entrenamiento, entrenar el modelo, medir la precisión e iterar.
En lugar de eso, basta con describir la tarea deseada en un lenguaje sencillo, y el modelo lo hace por usted. Esto significa que las tecnologías del lenguaje natural también pasan a ser genéricas. Sólo se necesita un modelo, y puede aplicarse a muchas empresas y casos de uso diferentes, igual que el reconocimiento de voz en la era anterior. Ya no es necesario recopilar montones de datos para obtener grandes resultados.
No se puede subestimar la importancia de un modelo genérico de lenguaje natural. Reducirá drásticamente el coste de entrada de las aplicaciones de IA que utilizan el lenguaje natural, desde el resumen de reuniones hasta el resumen de llamadas en centros de contacto, desde los bots de voz y chat hasta la puntuación automática de llamadas. Prácticamente ningún sector de nuestra industria dejará de verse afectado.
Va a ser la llave que abra una generación completamente nueva de productos y servicios en el sector de la colaboración. Abróchense los cinturones, las cosas se van a poner muy interesantes.