DSpace Repository

Detección de patrones de interés en noticias mediante procesamiento masivo

Show simple item record

dc.contributor.author Hernández Cruz, Estela Yadira
dc.date.accessioned 2020-10-20T22:29:14Z
dc.date.available 2020-10-20T22:29:14Z
dc.date.created 2020-05
dc.date.issued 2020-10-15
dc.identifier.citation Hernández Cruz, Estela Yadira. (2020). Detección de patrones de interés en noticias mediante procesamiento masivo. (Maestría en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México. es
dc.identifier.uri http://tesis.ipn.mx/handle/123456789/28533
dc.description Tesis (Maestría en Ciencias de la Computación), Instituto Politécnico Nacional, CIC, 2020, 1 archivo PDF, (87 páginas). tesis.ipn.mx es
dc.description.abstract RESUMEN: El volumen de información que actualmente se encuentra publicado en internet, sobrepasa las capacidades de lectura y análisis de cualquier persona u organización, además los contenidos en línea crecen de manera exponencial haciendo imposible que un solo individuo pueda encontrar, revisar, y estudiar los textos de cualquier tema que le sea relevante en un tiempo adecuado; dado este problema, se desarrolló el sistema VisualExplorer, que apoya a diferentes tipos de usuarios para que puedan obtener noticias relacionadas con un tema especificó, con una categoría de su interés, y el periodo de tiempo que le sea más conveniente. El sistema VisualExplorer aplica diferentes técnicas de recuperación de la información textual, procesamiento de lenguaje natural, minería de datos, machine learning, visualización de datos, entre otras, fue desarrollado de manera que primero extrae la base de datos de noticias con las entidades nombradas que se mencionan, eliminando los documentos que se encuentran repetidos, después prepara los contenidos aplicando una tokenización, lematiza los textos, elimina los caracteres especiales y unifica los términos con el mismo significado, posteriormente se almacena esta información dentro de un índice invertido que nos ayuda a optimizar la búsqueda de documentos que contengan las palabras clave que requiera consultar el usuario, así como delimitar los contenidos por su categoría o fecha en la que se publicaron, con esto se logra proporcionar una herramienta en la cual se puedan identificar patrones frecuentes de los eventos reportados en las noticias. Con la herramienta VisualExplorer se han analizado diferentes eventos como por ejemplo el robo de automóviles, en donde encontramos algunos patrones temporales, en donde se observa que los días miércoles de todas las semanas es cuando hay una mayor frecuencia de este crimen, lo mismo ocurre en la segunda quincena de cada mes, y el mes de mayo sobre todo en los días previos al 10 de mayo, también se pueden observar patrones geográficos sobre los lugares que tienen más reportes y como estas se asocian a ciertas organizaciones y marcas de vehículos, esto puede ser analizado con la evolución temporal de las redes de entidades nombradas; se han estudiado otros temas referentes al robo de gasolina, feminicidios, etc, además la herramienta se comparte con estudiantes e investigadores para que la valoren. Como subproducto de trabajo fue generado un artículo describiendo la preparación aplicada a las noticias, y como estas se utilizaron para probar diferentes algoritmos de clasificación para etiquetarlas en categorías semánticas, por ejemplo: “Cultura”, “Salud” y “Deportes”. Un segundo subproducto de trabajo es un diccionario de sinónimos que se construyó a partir de publicaciones en internet de manera automática con un programa desarrollado durante este proyecto, dicho catálogo cuenta con 3,820 conceptos (correspondientes a las palabras más comunes en español) entre todos suman 14,103 sinónimos, cada palabra tiene un promedio de 3.7 sinónimos. ABSTRACT: The quantity of information that is now published on internet, exceed the capabilities of any person or organization to read, synthesize and analyze, additionally the volume of on-line contents is growing exponentially making impossible for a single individual to find, review, and study the texts of any topic that could be relevant in an adequate time; Given this problem, the VisualExplorer system was developed, to help different types of users so they can obtain news related to a specific topic, specifying the category of their interest, and the period of time that is more convenient for them. VisualExplorer is a complete system that applies different techniques such as retrieving textual information, natural language processing, data mining, machine learning, data visualization, among others, it was developed in such a way that it first extracts the news database with the named entities that They are mentioned, eliminating the documents that are repeated, then prepare the contents by applying a tokenization, lemmatize the texts, eliminate the special characters and unify the terms with the same meaning, later this information is stored within an inverted index that helps us to optimize the search for documents that contain the keywords that the user requires to consult, as well as delimiting the contents by their category or date in which they were published, with this it is possible to provide a tool in which frequent patterns can be identified using the events reported in the news. With the VisualExplorer tool, different events have been analyzed such as car theft, where we find some temporal patterns, for example it is observed that on Wednesdays of every week is when there is a greater frequency of this crime, the same occurs in the second fortnight of each month, and the month of May especially in the days prior to May 10, you can also see geographic patterns on the places that have more reports and how these are associated with certain organizations and brands of vehicles, this it can be analyzed with the time evolution of the networks of named entities; Other topics related to the theft of gasoline, femicides, etc. have been studied, in addition the tool is left available so that it can be used by other students and researchers. Another work product is an article that describes the preparation applied to the news, and how these were used to test different classification algorithms to label news in semantic categories such as: "Culture", "Health" and "Sports". A third work product is a thesaurus that was automatically downloaded from the internet with a program developed during this project. This catalog has 3,820 concepts (corresponding to the most common words in Spanish), in total it contains 14,103 synonyms, and each concept has an average of 3.7 synonyms. es
dc.language.iso es es
dc.subject Minería de datos es
dc.subject Aprendizaje automático es
dc.subject Procesamiento de lenguaje natural es
dc.subject Recuperación de la información textual es
dc.subject Procesamiento, análisis y seguimiento de noticias es
dc.title Detección de patrones de interés en noticias mediante procesamiento masivo es
dc.contributor.advisor Martínez Luna, Gilberto Lorenzo
dc.contributor.advisor Guzmán Arenas, Adolfo


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account