Abstract:
RESUMEN: En este trabajo de tesis se desarrolló un algoritmo de ciencia de datos para la detección automática de estrellas variables mediante un proceso de clasificación con arquitecturas de redes neuronales.
La investigación se divide en tres etapas: Recopilación y preprocesamiento de datos, procesamiento de datos y post-procesamiento de datos. En la primera etapa se adquirieron los datos de estrellas variables del catálogo DR2 de Gaia y curvas de luz de estrellas no variables del catálogo Hipparcos, utilizadas para generar datos sintéticos de estrellas no variables.
En la segunda etapa, el problema de detección de estrellas variables se soluciona como un problema de clasificación binaria entre dos clases: Estrella variable y estrella no variable. Para ello se emplea una arquitectura de red neuronal CNN-LSTM, la cual, toma como entrada las diferencias de las magnitudes de las curvas de luz para entrenar el modelo con los conjuntos de entrenamiento y validación. En la tercera etapa se realizan predicciones sobre conjuntos de datos para evaluar el desempeño del modelo y aplicarlo a un conjunto de aplicación.
El algoritmo se compara con el algoritmo de bosques aleatorios, obteniendo una exactitud promedio de 96.54% en el conjunto de prueba contra 93.50% de bosque aleatorio, así como 88386 estrellas detectadas como variables en un conjunto de datos de curvas de luz no determinadas, contra 70806 estrellas detectadas por el algoritmo de bosque aleatorio.
ABSTRACT: In this thesis work, a data science algorithm was developed for the automatic detection of variable stars through a classifi cation process with neural network architectures.
The research is divided into three stages: data collection and pre-processing, data processing and data post-processing. In the fi rst stage, variable star data from Gaia's DR2 catalog and nonvariable starlight curves from the Hipparcos catalog were acquired, used to generate synthetic data for non-variable stars.
In the second stage, the variable star detection problem is solved as a binary classi cation
problem between two classes: Variable star and non-variable star. For this, a CNN-LSTM neural network architecture is used, which takes as input the differences in the magnitudes of the light curves to train the model with the training and validation sets. In the third stage, predictions are made on data sets to evaluate the performance of the model and apply it to an application set.
The algorithm is compared with the random forest algorithm, obtaining an average accuracy of 96.54% in the test set against 93.50% of random forest, as well as 88386 stars detected as variables in a data set of undetermined light curves, against 70806 stars detected by the algorithm of random forest.
Description:
Tesis (Maestría en Ciencias en Sistemas Digitales), Instituto Politécnico Nacional, CITEDI, 2021, 1 archivo PDF, (84 páginas). tesis.ipn.mx