Abstract:
RESUMEN:
El lenguaje humano es ampliamente ambiguo como variable, los seres humanos somos capaces de producir y entender el lenguaje, sin embargo, existe muy poca formalidad para comprender y describir las reglas que lo rigen; a ello se suma la diversidad de lenguajes y la amplia disponibilidad de información existente a través de los medios de difusión formales e informales, por lo que, entender y producir lenguaje a través de una computadora es un reto de grandes proporciones.
Las funciones léxicas son un formalismo lingüístico para realizar de forma automática, el análisis semántico de la información en forma de lenguaje humano. En este trabajo se aborda de forma particular las estructuras del lenguaje llamadas colocaciones verbales, cuyo significado no puede predecirse mediante el significado de sus elementos.
Para abatir el problema de depurar una gran cantidad de información, se hace uso del aprenzaje máquina, en especial de la arquitectura "word embeddings", que parte del modelo de bolsa de palabras y mediante el uso de algoritmos de aprendizaje no supervisado produce un vector denso que permite recuperar información semántica.
El método de aprendizaje máquina empleado en el presente trabajo, se basa en tensores, como alternativa a los métodos tradicionales basados en kernel. Lamentablemente los resultados obtenidos con éste método se encuentran por debajo de los métodos tradicionales, ya que por ahora, el diseño de este tipo de arquitecturas es a prueba y error, por lo que es muy probable que con algunas modificaciones se obtengan mejores resultados.
ABSTRACT:
Human language is widely ambiguous as a variable, human beings are able to produce and understand language, however there is very little formality to understand and describe the rules that govern it; to this is added the diversity of languages and the wide availability of existing information through formal and informal media, so understanding and producing language through a computer is a challenge of great proportions.
The lexical functions are a linguistic formalism to carry out automatically, the semantic analysis of information in the form of human language. In this work we deal in a particular way with the structures of language called verbal collocations, whose meaning cannot be predicted by the meaning of its elements.
To tackle the problem of debugging a large amount of information, we use machine learning algorithms, especially the "word embeddings” architecture, which starts from the word bag model and through the use of unsupervised learning algorithms produces a dense vector that allows to recover semantic information.
The machine learning method used in the present work is based on tensors, as an alternative to traditional kernel-based methods. Unfortunately, the results obtained with this method are below traditional methods, because for now, the design of this type of architecture is trial and error, so it is very likely that with some modifications can get better results.
Description:
Tesis (Maestría en Ciencias de la Computación), Instituto Politécnico Nacional, CIC, 2018, 1 archivo PDF, (50 páginas). tesis.ipn.mx