Abstract:
RESUMEN: Dentro de las recientes investigaciones del procesamiento del habla se encuentra la diarización de locutores la cual es utilizada para la indexación de audio con la finalidad de obtener información de este contestando la pregunta “¿Quién habla y cuándo?”. Basado en este nuevo enfoque dentro del área de procesamiento del habla se encuentra el objetivo de esta tesis. En esta tesis se realiza un análisis profundo de los algoritmos implementados dentro de los módulos claves que conforman un sistema de diarización; para l caracterización de la señal de audio se desarrollan los coeficientes cepstrales en las frecuencias de Mel y los vectores identidad, los cuales trabajan en conjunto a las mezclas gaussianas. En este trabajo de tesis se desarrolla una red neuronal profunda recurrente para el sistema de diarización, utilizando como información las características de los coeficientes cepstrales en las frecuencias Mel. El sistema de diarización desarrollado tiene como base el idioma nativo español de México, basado en esto se presenta un análisis de la base de datos CIEMPIESS de la cual se genera la base de datos con las características necesarias para ser utilizadas en los desarrollos de este trabajo de tesis. Por lo anterior se propone un sistema de diarización con los desarrollos necesarios para su correcto funcionamiento con la utilización de esquemas profundos, utilizando una base de datos concebida en el idioma español nativo de México.
ABSTRACT: To answer the question “Who speaks when?” in recent speech processing research efforts, speaker diarization is used for audio indexing in order to obtain information that helps answer that question. This thesis work is based on this new approach.
An in-depth analysis of the algorithms implemented within the key modules that make up a diarization systems is carried out. For the characterization of the audio signal, the cepstral coefficients in the Mel frequencies and the identity vectors were developed, along with Gaussian mixtures. A deep recurrent neural netwoork is developed for the diarization systems, using as information the features of the cepstral coefficients in Mel frequencies. The developed diarization systems is based on the Spanish language native of Mexico, based on this is an analysis of the CIEMPIESS datebase from which the database with the necessary characteristics to be used in the developments of this work of thesis is generated.
In this work, a diarization systems is proposed with the necessary developments for its correct operation with the use of deep schemes, using a database conceived in the Spanish language native of Mexico.
Description:
Tesis (Maestría en Ciencias en Sistemas Digitales), Instituto Politécnico Nacional, CITEDI, 2019, 1 archivo PDF, (62 páginas).tesis.ipn.mx