DSpace Repository

Latent memory-based neural models for sentiment analysis of multimodal multi-party conversations

Show simple item record

dc.contributor.author Majumder, Navonil
dc.date.accessioned 2021-11-24T03:30:34Z
dc.date.available 2021-11-24T03:30:34Z
dc.date.created 2020-03-02
dc.date.issued 2021-11-17
dc.identifier.citation Majumder, Navonil. (2020). Latent memory-mased neural models for sentiment analysis of multimodal multi-party conversations (Doctorado en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México. es
dc.identifier.uri http://tesis.ipn.mx/handle/123456789/29900
dc.description Tesis (Doctorado en Ciencias de la Computación), Instituto Politécnico Nacional, CIC, 2020, 1 archivo PDF, (94 páginas). tesis.ipn.mx es
dc.description.abstract RESUMEN: Debido a la rápida expansión de Internet y la proliferación de dispositivos inteligentes, el uso compartido y el consumo del contenido del usuario a través de estos medios han explotado a un nivel sin precedentes. Una parte importante de este contenido compartido comprende opiniones sobre diversos temas, como revisiones de productos, comentarios políticos. Muchas grandes empresas están interesadas en aprovechar esta información abiertamente disponible para su beneficio. Específicamente, tienen la intención de construir sistemas que recopilen automáticamente los comentarios de los usuarios al examinar un gran volumen de contenido del usuario. Dicha información podría ayudar a tomar decisiones comerciales, asignación de recursos, evaluación de riesgos, estudios de mercado, por mencionar algunos. Esta recopilación de comentarios suele ser conveniente y completa en términos de sentimiento y emoción. Con este fin, en esta tesis, presentamos métodos basados en redes neuronales que se adaptan al análisis de sentimientos y emociones en diferentes escenarios. Recientemente ha habido un aumento en el intercambio de opiniones a través de videos debido a la mayor accesibilidad de la cámara de teléfono inteligente de buena calidad. Como los videos a menudo contienen tres modalidades: textual, acústica y visual, el análisis de sentimientos y emociones de estos videos requiere algoritmos de análisis de emociones y sentimientos multimodales. Un componente clave de cualquier algoritmo multimodal es la fusión multimodal. Como tal, proponemos un algoritmo de fusión basado en codificador automático variacional no supervisado cuya representación latente se utiliza como representación multimodal. A menudo, el sentimiento del usuario sobre aspectos específicos de un objeto es más útil que la impresión general. El análisis de sentimientos basado en aspectos (ASBA) se vuelve relevante en tales escenarios. Sin embargo, la mayoría de los trabajos existentes sobre ASBA no consideran la coexistencia de múltiples aspectos en una sola oración. Presentamos un método que ajusta las representaciones de aspecto comparándolo con los aspectos vecinos usando la red de memoria. Como consecuencia de las personas que interactúan y discuten en plataformas como Facebook, YouTube, Reddit, la estructura general del contenido termina siendo conversacional. Estas conversaciones a menudo contienen más de dos partes. El análisis de sentimientos y emociones de tales conversaciones multipartitas requiere algoritmos conscientes de la parte. Por lo tanto, presentamos un modelo basado en redes neuronales recurrentes (RNR) para el reconocimiento de emociones en la conversación (REC) que es capaz de una clasificación de emociones de nivel de expresión específica del hablante. A diferencia de los enfoques existentes, nuestro método no está limitado por el número de hablantes definidos por la arquitectura del modelo o el conjunto de entrenamiento. Esto se logra mediante el perfil dinámico de las partes a lo largo de la conversación utilizando la estructura similar a RNR. Como tal, obtenemos un rendimiento de vanguardia en conjuntos de datos REC diádicos y multipartitos. ABSTRACT: Owing to the quick expansion of internet and proliferation of smart-devices, sharing and consumption of user content through these means have exploded to unprecedented level. A significant portion of this shared content comprises of opinion on various topics, such as, product reviews, political commentary. Many large enterprises are keen on leveraging this openly available data to their benefit. Specifically, they intend to build systems that would automatically gather user feedback by sifting through huge volume of user content. Such information could aid in making business decisions, resource allocation, risk assessment, market survey to mention a few. This feedback gathering is often convenient and comprehensive in terms of sentiment and emotion. To this end, in this thesis, we present neural network-based methods that cater to sentiment and emotion analysis in different scenarios. There has been a recent surge in opinion sharing via videos due to increased accessibility of good quality smartphone camera. As videos often contain three modalities—textual, acoustic, and visual — sentiment and emotion analysis of these videos calls for multimodal sentiment and emotion analysis algorithms. A key component of any multimodal algorithm is multimodal fusion. As such, we propose an unsupervised variational auto-encoder-based fusion algorithm whose latent representation is used as multimodal representation. We gain improvement over the state-of-the-art multimodal sentiment and emotion analysis algorithms with this method. Often user sentiment on specific aspects of an object is more useful than overall impression. Aspect-based sentiment analysis (ABSA) becomes relevant in such scenarios. However, most existing works on ABSA do not consider co-existence of multiple aspects in a single sentence. We present a method that fine-tunes the aspect representations by comparing with the neighboring aspects using memory network. We empirically show that this approach beats the state of the art on multiple domains. As a consequence of people interacting and arguing on platforms like Facebook, YouTube, Reddit, the overall content structure ends up conversational. These conversations often contain more than two parties. Sentiment and emotion analysis of such multi-party conversations requires party-aware algorithms. Hence, we present a recurrent neural network- (RNN) based model for emotion recognition in conversation (ERC) that is capable of speaker-specific utterance-level emotion classification. Unlike the existing approaches, our method is not bound by the number of speakers defined by model architecture or training set. This is achieved by dynamic profiling of the parties along the conversation using the RNN-like structure. As such, we obtain state-of-the-art performance on both dyadic and multi-party ERC datasets. es
dc.description.sponsorship Consejo Nacional de Ciencia y Tecnología (CONACYT) es
dc.language.iso en_US es
dc.subject Inteligencia artificial es
dc.subject Redes neuronales es
dc.subject Aprendizaje de conversaciónes es
dc.subject Análisis de sentimientos y emociones es
dc.subject Datos multimodales es
dc.subject Artificial intelligence es
dc.subject Neural networks es
dc.subject Conversation learning es
dc.subject Analysis of feelings and emotions es
dc.subject Multimodal data es
dc.title Latent memory-based neural models for sentiment analysis of multimodal multi-party conversations es
dc.type TESIS es
dc.contributor.advisor Gelbukh, Alexander
dc.contributor.advisor Poria, Soujanya


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account