DSpace Repository

Latices y otras estructuras para acelerar búsquedas en minería de datos

Show simple item record

dc.contributor.author Martínez Luna, Gilberto Lorenzo
dc.date.accessioned 2017-03-31T04:28:31Z
dc.date.available 2017-03-31T04:28:31Z
dc.date.created 2007-06
dc.date.issued 2017-03-24
dc.identifier.citation Martínez Luna, Gilberto Lorenzo. Latices y otras estructuras para acelerar búsquedas en minería de datos. Tesis (Doctorado en Ciencias de la Computación). Ciudad de México, Instituto Politécnico Nacional, Sección de Estudios de Posgrado e Investigación, Centro de Investigación en Computación. 2007. 82 p. es
dc.identifier.uri http://tesis.ipn.mx/handle/123456789/21048
dc.description.abstract En esta tesis se presenta el diseño de una estructura de datos llamada Arblis a utilizar en memoria principal como un almacén persistente de bases de datos de solo lectura, de un tamaño “considerable”, donde realizar búsquedas para realizar análisis de datos. Por el diseño de la estructura para ligar y ordenar su contenido, la consulta sobre conjuntos de datos de diferentes tamaños se comporta en forma lineal. Sus tiempos de respuesta son hasta 50 veces menores que el leer los conjuntos de datos de disco, reducción deseable en sistemas de información que realizan análisis de datos y apoyan la toma de decisiones, por lo cual los datos fueron ya validados y no hay proceso de modificación, solo de regeneración de estructura. La estructura se forma de arreglos ligados entre si y es utilizada por una herramienta (prototipo) de software llamada Antecumem. La herramienta trabaja en modo monousuario, llena la estructura Arblis, captura las tareas deseadas a desarrollar, realiza los correspondientes análisis de datos y obtiene los resultados de las tareas. Los análisis de datos son sobre preguntas de negocios que trabajan con rangos de datos en diferentes variables de interés. Para obtener la respuesta de las preguntas de negocio generalmente se requiere de reunir miles y a veces millones de registros, por lo cual, los procesos no solo son demandantes en acceso a datos (a memoria o a disco), sino también en el número de operaciones entre registros. Los rangos de datos en las variables hacen factible que la herramienta Antecumem tenga como unidad de trabajo a los cubos de datos. Esta unidad permite definir operaciones de unión, intersección y la diferencia sobre los resultados obtenidos. Estos nuevos resultados son de interés tanto en cambios que ocurren a través del tiempo, pero que pueden ocurrir cuando varía cualquier dimensión. Además los cubos permiten definir otras operaciones sobre los hechos, como el porcentaje de incremento de un período a otro. Con la identificación de los elementos claves (parámetros y cubos) de las preguntas de negocios al realizar una clasificación de ellas, se obtuvo un modelo de trabajo que facilito la creación de los correspondientes algoritmos para resolver las preguntas. Este modelo permite ver la base como una base de datos multi-dimensional. La flexibilidad del modelo permite contestar más preguntas de negocio que no se plantearon resolver. Basada en el modelo, la herramienta Antecumem usa una pantalla de entrada para recibir los parámetros o partes que definen a las preguntas de negocio, aceptar los rangos de datos para definir los cubos donde analizar y la parte correspondiente donde regresar los resultados para su interpretación. Como una demostración más de la utilidad de esta estructura Arblis, se utilizó para modelar los nodos de una estructura llamada latice. La latice almacena las vistas que forman o complementan al cubo de datos. Esta estructura permite de acuerdo a los rangos de la pregunta, seleccionar el leer el detalle de registros o tomar la decisión de ir directamente a leer los registros ya acumulados dentro de los nodos de la latice. Está decisión ayuda a reducir más el tiempo de respuesta, en otros tipos de preguntas, además de los modeladas inicialmente. Las aportaciones principales de la tesis son: el diseño de una estructura de datos llamada Arblis que facilita el análisis de datos con un algoritmo de recuperación de datos de complejidad lineal, el diseño de un modelo de datos que ayuda a responder un conjunto de preguntas de negocios, la construcción de Antecumem, que contesta preguntas de negocio de ese modelo, y una herramienta de minería de datos basada en el conjunto de preguntas de negocio, cuyos algoritmos son de una complejidad lineal, por lo que se puede predecir el tiempo de respuesta. es
dc.description.sponsorship CONACYT es
dc.language.iso es_MX es
dc.publisher Martínez Luna, Gilberto Lorenzo es
dc.subject Bases de Datos Relacionales, Cubo en Memoria, Datos en Memoria, Minería de Datos, Minería Incremental, Ajuste de Curvas, Bases de Datos Multidimensionales, OLAP, Cubos de Datos y Lattices. es
dc.title Latices y otras estructuras para acelerar búsquedas en minería de datos es
dc.type Tesis es
dc.contributor.advisor Guzmán Arenas, Adolfo


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account