La tokenización del palabra es un proceso fundamental que sustenta el funcionamiento de los modelos de palabra y habla, lo que permite que estos modelos realicen una variedad de tareas, incluidas la conversión de texto a voz (TTS), la conversión de voz a texto (STT) y el modelado del habla hablado. La tokenización ofrece la estructura que estos modelos necesitan para analizar, procesar y crear palabra de modo válido al convertir las señales de voz sin procesar en tokens discretos. Sin incautación, en muchos métodos convencionales, la tokenización se entrena por separado del propio maniquí de habla. Esta división puede suscitar una discrepancia entre la engendramiento de los tokens y su posterior aplicación en actividades como la síntesis o el agradecimiento de voz.
Los modelos convencionales de tokenizadores de voz se basan en representaciones discretas de señales de voz continuas creadas mediante técnicas de cuantificación y modelos acústicos independientes. Con frecuencia, el mejora de estos tokenizadores se produce independientemente de los modelos de habla que admiten que se están entrenando. En consecuencia, existe la posibilidad de que la forma en que el maniquí de habla interpreta y utiliza los tokens de voz producidos durante la escalón de tokenización no coincida. Correcto a este desajuste, el rendimiento del maniquí de lenguaje-voz puede encontrarse acotado. Esto se debe a que el proceso de tokenización puede no coincidir exactamente con los objetivos de estudios del maniquí de habla.
Para pasar algunos de estos problemas, un equipo de investigadores de la Universidad Hebrea de Jerusalén ha presentado el método LAST (Language Model Aware Speech Tokenisation). Con este enfoque, el procedimiento de tokenización del palabra incorpora un maniquí de habla (LM) de texto previamente entrenado. El método LAST consta de tres partes principales, que son las siguientes:
- Se extrae una representación de voz contextualizada a través de un maniquí SSL de voz congelada y entrenada previamente.
- Estas representaciones se transforman en tokens discretos mediante un módulo de cuantificación del adaptador.
- Un maniquí de estudios de texto congelado ya entrenado que dirige el proceso de tokenización, lo que lo hace más apropiado para el modelado secuencial.
Esta técnica sondeo proporcionar representaciones de voz discretas que sean más apropiadas para el modelado del habla hablado y la conversión de voz a texto al incorporar los objetivos de estos modelos basados en texto en el proceso de tokenización. Este método crea un nuevo espacio de características que es más apropiado para la agrupación y representación del maniquí de habla del palabra al modificar las características adquiridas a partir de un maniquí de palabra entrenado previamente.
Esta adscripción de los modelos de palabra y de texto tiene varias ventajas. En primer puesto, permite que el proceso de tokenización de voz esté más influenciado por la estructura fundamental del habla, lo que permite que los tokens representen medios lingüísticos pertinentes a la comunicación escrita y hablada. La adscripción de la tokenización con los objetivos del maniquí de habla reduce la posibilidad de desajustes, lo que conduce a un rendimiento más preciso y válido en múltiples tareas de palabra.
El trabajo que presenta este enfoque asimismo incluye los existencias de decisiones de diseño importantes, como el tamaño del maniquí de habla basado en texto y el vocabulario de voz. Al comprobar con varias configuraciones, los investigadores pudieron determinar cómo estas variables afectan el rendimiento universal del maniquí de habla y la eficiencia del proceso de tokenización. Según su investigación, la logística de tokenización integrada funciona mejor que las técnicas convencionales en tareas de modelado de habla hablado y de conversión de voz a texto.
Uno de los resultados más importantes de este enfoque es la capacidad de interpretar entradas de voz y texto con un único maniquí de habla previamente entrenado. Esto supone una diferencia significativa con respecto a los enfoques tradicionales, que suelen requerir modelos distintos para estas diversas modalidades. El método de tokenización sugerido mejoría la eficiencia y el rendimiento al facilitar el proceso con un único maniquí que puede manejar tanto el palabra como el texto.
En conclusión, este enfoque de tokenización de voz representa una mejoría importante con respecto a los métodos convencionales al certificar una maduro adscripción entre el proceso de tokenización y los objetivos del maniquí de habla. Las características del palabra se convierten en un nuevo espacio que permite una agrupación y representación más eficientes al incorporar objetivos del maniquí de texto-lenguaje previamente entrenados. Como resultado, se puede utilizar un único maniquí tanto para entradas de voz como de texto, lo que da puesto a un maniquí de habla-lenguaje más confiable y adaptable que funciona mejor en una variedad de tareas, incluido el modelado de voz a texto y habla hablado.
Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este tesina. Encima, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡En lo alto!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios
Tanya Malhotra es una estudiante de postrer año de la Universidad de Estudios de Petróleo y Energía, Dehradun, que cursa BTech en Ingeniería Informática con una especialización en Inteligencia Fabricado y Formación Inevitable.
Es una entusiasta de la ciencia de datos con un buen pensamiento analítico y crítico, yuxtapuesto con un gran interés en coger nuevas habilidades, liderar grupos y administrar el trabajo de modo organizada.