DSpace Repository

Depression detection in social media with psychologically-motivated features

Show simple item record

dc.contributor.author Besharati, Sara
dc.date.accessioned 2022-03-31T17:23:14Z
dc.date.available 2022-03-31T17:23:14Z
dc.date.created 2021-11-11
dc.date.issued 2022-03-30
dc.identifier.citation Besharati, Sara. (2021). Depression detection in social media with psychologically-motivated features (Maestría en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México. es
dc.identifier.uri http://tesis.ipn.mx/handle/123456789/30252
dc.description Tesis (Maestría en Ciencias de la Computación), Instituto Politécnico Nacional, CIC, 2021, 1 archivo PDF, (55 páginas). tesis.ipn.mx es
dc.description.abstract RESUMEN: En esta tesis presentamos nuestros modelos automatizados para detectar el riesgo de depresión y medir la gravedad de signos de depresión en usuarios de redes sociales, utilizando texto Ejemplos recopilados de publicaciones de usuarios de Reddit. Usando un combinación de coseno, distancias de Chebyshev y Manhattan a Para obtener la similitud entre los documentos de texto, presentamos tres modelos (Modelo-A1, Modelo-A2, Modelo-A3) para la detección de depresión. Las características que usamos en nuestros modelos son las palabras más frecuentes en los datos de entrenamiento, respaldadas por nuestras características externas recolectadas de estudios psicológicos, palabras emocionales y medicamentos. Además, utilizando un perceptrón multicapa (MLP) y un clasificador de máquina de vectores de soporte (SVM), desarrollamos dos modelos de referencia para comparar nuestros modelos. Los datos que utilizamos para esta tarea tienen un diseño desequilibrado para acercar la condición de investigación a las condiciones del mundo real, lo que ha hecho que la detección de la depresión con estos datos sea una tarea desafiante; sin embargo, nuestros mejores modelos lograron con éxito resultados altos en comparación con los resultados obtenidos por trabajos relacionados. Obtuvimos puntuaciones F1 de 0,60 y 0,64 de nuestros modelos de referencia y basados en similitud, respectivamente, que son bastante satisfactorios en comparación con las mejores puntuaciones de F1 en el estado de la técnica para esta tarea, que se encuentran entre 0,51 y 0,64. Además, desarrollamos seis modelos de línea base basados en algoritmos de clasificación conocidos y dos modelos innovadores (Modelo-B1, Modelo-B2) basados en la regla de multiplicación para medir la severidad de los signos de depresión en redes sociales medios de comunicación. Los conjuntos de datos que utilizamos en nuestra metodología contienen texto ejemplos recopilados de mensajes de usuarios de Reddit que respondieron a las 21 preguntas de un cuestionario diseñado en base al cuestionario del Inventario de Depresión de Beck (BDI), que fue diseñado para medir las manifestaciones conductuales de la depresión en 21 categorías de síntomas y actitudes. En nuestros modelos, los usuarios se clasifican en cuatro clases 0, 1, 2, 3, cada una de las cuales representa una declaración en las categorías del cuestionario. La clase 0 se refiere a la ausencia de signos de depresión, y las clases 1 a 3 representan la presencia de signos de depresión de más leve (1) a más fuerte (3). En nuestros modelos de línea de base y nuestro Modelo-B1, usamos 21 conjuntos de características separados que están diseñados para representar 21 categorías de BDI, pero, en nuestro Modelo-B2, asumiendo dependencias entre las categorías de BDI, usamos un solo conjunto de características que contiene todas las características de los 21 conjuntos de características se desarrollan para nuestros modelos básicos y nuestro Modelo-B1. Nuestros mejores modelos superó el estado de la técnica, alcanzando un 43,8 % en la tasa de aciertos promedio (AHR), el 75,2 % en la tasa de cercanía promedio (ACR), el 85,8 % en la diferencia promedio entre los niveles generales de depresión (ADODL) y 65,0 % en la tasa de aciertos de la categoría de depresión (DCHR). La detección temprana del riesgo de autolesión en las redes sociales es un área de investigación interdisciplinaria donde los hallazgos teóricos en psicología tienen información esencial que puede usarse para mejorar el desempeño de sistemas inteligentes que están diseñados para detectar signos tempranos de autolesión en los usuarios de redes sociales. medios de comunicación. Aunque la autolesión en sí misma no es una enfermedad mental, está estrechamente relacionada con la depresión como trastorno de salud mental. Por lo tanto, en esta investigación, apoyamos nuestros modelos para la detección temprana del riesgo de autolesión con nuestras características inspiradas en la psicología, utilizando un inventario que hace observaciones y registros sistemáticos de las actitudes y síntomas característicos de los pacientes deprimidos. Usamos ejemplos de texto recopilados de mensajes de usuarios de Reddit como nuestro conjunto de datos. En comparación con la mejor puntuación de F1 reportada por los trabajos relacionados que usaron el mismo conjunto de datos (52 %), nuestro profundo perceptrón multicapa respaldado por nuestras características inspiradas en la psicología mejoró con éxito los resultados en gran medida logrando el mejor rendimiento con 73.2 % De puntuación F1. ABSTRACT: In this thesis, we present our automated models for detecting risk of depression and measuring the severity of signs of depression in users of social media, using text examples collected from messages of Reddit users. Using a combination of cosine, Chebyshev and Manhattan distances to obtain the similarity between the text documents, we present three models (Model-A1, Model-A2, Model-A3) for depression detection. The features we use in our models are the most frequent words of the training data, supported by our external features collected from psychological studies, emotional words, and medications. In addition, using a multi-layer perceptron (MLP) and a support vector machine (SVM) classifier, we develop two baseline models in order to compare our models with them. The data we use for this task has an unbalanced design in order to make research condition close to conditions of real world, which has made depression detection with this data a challenging task; nevertheless, our best models successfully achieved high results in comparison with the results achieved by related works. We obtained 0.60 and 0.64 F1 scores from our similarity-based and baseline models respectively, which are quite satisfying in comparison with the best F1 scores of the state-of-the-art for this task, which are between 0.51 and 0.64. In addition, we develop six baseline models based on well-known classification algorithms and two innovative models (Model-B1, Model-B2) based on the rule of multiplication for measuring the severity of the signs of depression in social media. The datasets we use in our methodology contain text examples collected from messages of Reddit users who answered to the 21 questions of a questionnaire designed based on Beck’s Depression Inventory (BDI) questionnaire, which was designed to measure the behavioral manifestations of depression in 21 categories of symptoms and attitudes. In our models, users are classified in four classes 0, 1, 2, 3, each representing a statement in the categories of the questionnaire. Class 0 refers to the absence of signs of depression, and classes 1 to 3 represent the presence of signs of depression from milder (1) to stronger (3). In our baseline models and our Model-B1, we use 21 separate feature sets that are designed to represent 21 categories of BDI, but, in our Model-B2, assuming dependencies between the BDI categories, we use a single feature set that contains all the features in the 21 feature sets develop for our baseline models and our Model-B1. Our best models outperformed the state-of-the-art, achieving 43.8% in Average Hit Rate (AHR), 75.2% in Average Closeness Rate (ACR), 85.8% in Average Difference between Overall Depression Levels (ADODL), and 65.0% in Depression Category Hit Rate (DCHR). Detecting early risk of self-harm in social media is an interdisciplinary research area where theoretical findings in psychology have essential information that can be used to improve the performance of intelligent systems that are designed to detect early signs of Self-harm in the users of social media. Although self-harm by itself is not a mental illness, it is closely related to depression as a mental health disorder. Therefore, in this research, we support our models for detecting early risk of self-harm with our psychology-inspired features, using an inventory that makes systematic observations and records of the characteristic attitudes and symptoms of depressed patients. We use text examples collected from messages of Reddit users as our dataset. Comparing with the best F1 score reported by the related works that used the same dataset (52%), our deep Multi-Layer Perceptron supported by our psychology-inspired features successfully improved the results to a large extent achieving the best performance with 73.2% F1 score. es
dc.description.sponsorship CONACYT es
dc.language.iso en es
dc.subject Aprendizaje automático es
dc.subject Inteligencia artificial es
dc.subject Detección de depresión es
dc.subject Machine learning es
dc.subject Artificial intelligence es
dc.subject Depression detection es
dc.title Depression detection in social media with psychologically-motivated features es
dc.contributor.advisor Gelbukh, Alexander
dc.programa.academico Maestría en ciencias de la computación es


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account