Abstract:
RESUMEN: La clasificación de texto en dominios de nicho es un desafío debido a sus requisitos típicos en términos de registro y estilo. En esta tesis, estudiamos la aplicación de redes neuronales profundas al texto en dominios especializados (principalmente redes
sociales). El advenimiento de las plataformas de redes sociales ha facilitado el acceso a datos generados por los usuarios que pueden ser útiles para promover el bien social y la preservación de la civilidad en los espacios en línea. En este sentido, presentamos los desafíos y soluciones para la aplicación de redes de aprendizaje profundo a esta fuente de datos para la moderación de contenidos y la vigilancia de la salud pública. Presentamos un enfoque para lidiar con el ruido de los datos de las redes sociales en la tarea de detección de agresiones. Abordamos el desafío del rendimiento multiplataforma de nuestro método propuesto para garantizar la generalización. Para la vigilancia de la salud pública, propusimos un modelo para identificar menciones de medicamentos y reacciones adversas a medicamentos en las redes sociales. Además, evaluamos la idoneidad de los diferentes enfoques para la representación del texto. Finalmente, estudiamos la viabilidad de identificar la valoración en expresiones cotidianas mediante la predicción de dimensiones de juicio.
ABSTRACT: Text classification in niche domains is challenging because of their typical requirements in terms of register and style. In this thesis, we study the application of deep neural networks to text in specialized domains (mainly social media). The advent of social
media platforms has facilitated access to user-generated data which can be useful for advancing societal good and the preservation of civility in online spaces. In this regard, we present the challenges and solutions to the application of deep learning networks to this source of data for content moderation and public health surveillance. We present an approach to deal with the noisiness of social media data on the task of aggression detection. We addressed the challenge of cross-platform performance of our proposed method to ensure generalization. For public health surveillance, we proposed a model to identify mention of drug and adverse drug reaction in social media. Also, we assessed the suitability of the different approaches to text representation. Finally, we study the feasibility of identifying appraisal in everyday expressions by predicting judgement dimensions.
Description:
Tesis (Doctorado en Ciencias de la Computación), Instituto Politécnico Nacional, CIC, 2021, 1 archivo PDF, (104 páginas). tesis.ipn.mx