Abstract:
RESUMEN:
Describir automáticamente el contenido de una imagen se requiere reconocer objetos importantes, atributos y la relación entre ellos. También se necesita generar frases sintáctica y semánticamente correctas.
El ser humano a través del sentido de la vista, el lenguaje y el conocimiento sobre los objetos que percibe mediante la vista es capaz de realizar el etiquetado de una imagen. Sin embargo, implementar una solución en una computadora para realizar el etiquetado de manera automática de la manera que se mencionó anteriormente, resultar difícil de implementar.
La descripción automática de imágenes es un problema desafiante en la inteligencia artificial. Haciendo uso de variedad de dominios como visión por computadora, procesamiento de lenguaje
natural y aprendizaje máquina.
Este trabajo describe automáticamente imágenes en lenguaje natural por medio de aprendizaje profundo, es decir utilizar redes neuronales convolucionales para extraer la información visual de las imágenes y redes neuronales recurrentes para generar las descripciones. Esta tarea se ha abordado con diferentes métodos de aprendizaje profundo.
En este trabajo proponemos dos soluciones capaces de describir automáticamente el con-tenido de una imagen tanto en inglés como en español, usando la arquitectura codificador-decodificador y el mecanismo de atención.
Los resultados obtenidos donde se utilizó la arquitectura codificador-decodificador y el mecanismo de atención resultaron mejores respecto al modelo que solo utiliza la arquitectura codificador-decodificador sin el mecanismo de atención.
ABSTRACT:
Image captioning requires object detection, attributes, and the relationship between them. In addition, syntactically and semantically correct phrases need to be generated. The human being through the sense of sight, language and knowledge about the objects he perceives is able to describe the content of an image. However, implementing a solution on a computer to perform image captioning like a human being, it is a complex task.
Image captioning is a challenging problem in artificial intelligence domain. Making use of a variety of areas such as computer vision, natural language processing and machine learning.
In this work, we will focus on automatically describing the content of images in natural language using deep learning techniques, i.e. using convolutional neural networks to extract visual information from images and recurrent neural networks to generate descriptions. This task has been studied with different methods of deep learning, in this case we used the encoder-decoder architecture and the attention mechanism that have been applied in automatic translation. We propose two solutions capable of automatically describing the content of an image in both English and Spanish, using the encoder-decoder architecture and the attention mechanism.
The results obtained with the model that uses the encoder-decoder architecture and the attention mechanism were better than the model that only uses the encoder-decoder architecture without the attention mechanism.
Description:
Tesis (Maestría en Ciencias de la Computación), Instituto Politécnico Nacional, CIC, 2019, 1 archivo PDF, (66 páginas). tesis.ipn.mx