Geintra

Departamento de electronica Universidad de Alcala

Research lines

Access information on the Geintra research activity structure. More information


Work with us

Access to our current offer of grants and contracts. More information


Contact

You can contact us using different means. More information

    Aportación a la predicción de palabras en castellano y su integración en sistemas de ayuda a personas con discapacidad física (Contribution to word prediction in Spanish and its integration in technical aids for people with physical disabilities)

    TitleAportación a la predicción de palabras en castellano y su integración en sistemas de ayuda a personas con discapacidad física (Contribution to word prediction in Spanish and its integration in technical aids for people with physical disabilities)
    Publication TypePhD Thesis
    Año de publicación2001
    Thesis Advisor(s)Aguilera Navarro, S
    AutoresPalazuelos, SE
    Idioma de publicaciónEnglish
    Degree

    PhD. in Telecommunication Engineering

    Academic DepartmentElectronic Engineering
    UniversityPolitecnica de Madrid
    Numero de volúmenes1
    Number of Pages254
    CityMadrid
    Fecha de publicación05/2001
    Palabras claveaugmentative and alternative comunication, ayudas a la comunicación, communication aids, comunicación aumentativa y alternativa, people with disabilities, personas con discapacidad, predicción de palabras, word prediction in Spanish
    Abstract

    This Ph.D. thesis is aimed at the study of including linguistic information in word prediction for Spanish, with the main objective of improving the writing aids available for people with different kind of disabilities. In order to include linguistic information, we propose a novel architecture that allows the development of an original methodology in order to combine the different sources of information we have explored (mainly in the lexical, morphological and syntactic levels), thanks to the inclusion of a management module, able to deal with and combine the different information ows used, and to the strict separation between the lexicons (main, custom and subject) and the prediction methods themselves.
    The prediction methods included use two main modeling strategies for the linguistic information: stochastic modeling (unigrams, bigrams, bipos and tripos) and formal modelling (using a probabilistic context free grammar strengthened with additional characteristics).
    In every module including linguistic knowledge, we have made specific contributions, both in the design and organization of the information (mainly oriented to be used in the formal grammar) and in the particular methodology of using this information when facing word prediction and the adequate cooperation with other modules.
    We also consider a significant contribution of this thesis the design criterion and the definition of the grammatical parts-of-speech (pos) used, in order to better connect with the observed syntactic behavior, along with the design of a feature set towards which we have shifted part of the expressive content. In order to deal with both pos and features, we also propose some original mechanisms included in the design of the formal grammar.
    With respect to the formal model, the detailed study of linguistic phenomena (both theoretically and empirically) has led us to design a probabilistic context free grammar that uses an original interweaving of different mechanisms (terminal symbol feature concordance, imposition and prohibition; powerful feature management also in non terminal symbols; lemma and word imposition and prohibition; and the possibility of dealing with optional symbols) that endow it with a significant descriptive power of the language, while keeping the number of rules and the search process computationally tractable.
    Our work is not only limited to a theoretical study. We have also implemented and evaluated a working system, built following the proposed architecture in which, additionally, we have taken into account specific considerations on the user interface design. We also contribute a detailed study on the different factors that affect the quantitative evaluation (where a normalization effort should be done, given the lack of defined standards on this topic), proposing metrics able to analyze the power of the information sources that allows us to select the best combination strategy leading to actual improvements for the users of this technology. In this combination, we prioritize the words coming from the subject and custom lexicons using a bigram model. After this, we use the stochastic pos models, applied first to the subject lexicon and afterwards, with an adequate weighting, to the custom and main lexicons.
    With respect to the word prediction method based in the formal grammar, the overall set of contributions allowed us to get results close to those obtained with the stochastic pos models, leaving for future research the completion of its descriptive capabilities. The modularity and flexibility of the architecture will allow us to carry out this research work taking great advantage of the effort already invested here.

    Resumen

    La presente tesis doctoral aborda el estudio de la inclusión de información lingüística en la predicción de palabras en castellano, con el objetivo de mejorar los sistemas de ayuda a la escritura de personas que pueden tener distintos tipos de discapacidad.
    Para la inclusión de la información lingüística proponemos una arquitectura novedosa que permite desarrollar una metodología original de combinación de las diversas fuentes de información exploradas (fundamentalmente en los niveles léxico, morfológico y sintáctico), gracias a la inclusión de un módulo de gestión y combinación de los flujos de información utilizados y a la separación estricta entre los distintos diccionarios (general, personal y temático) y los métodos de predicción en sí.
    Los métodos de predicción que se han incluido utilizan dos estrategias fundamentales de modelado de la información lingüística: el modelado estocástico (unigramas, bigramas, bipos y tripos) y el formal (que hace uso de una gramática probabilística independiente del contexto a la que hemos dotado de potencia adicional).
    En cada uno de los módulos que realizan la inclusión del conocimiento lingüístico se han realizado también aportaciones específicas, tanto en el diseño y organización de la información (fundamentalmente orientada a su uso en la gramática formal), como en la metodología particular de uso de la misma de cara a la predicción de palabras y a la mejor colaboración con otros módulos.
    Consideramos también una contribución destacable de esta tesis el criterio de diseño y la definición de las categorías, para conectar mejor con los comportamientos sintácticos reales observados, junto con el diseño de un conjunto de rasgos hacia los que se desplaza parte de la carga expresiva y, por supuesto, los originales mecanismos de manejo de los mismos que hemos incluido en el diseño de la gramática formal.
    Con respecto al modelado formal, el estudio detallado de los fenómenos lingüístico tanto teórica como empíricamente, nos ha llevado a diseñar una gramática probabilística independiente de contexto que contempla una original imbricación de mecanismos (concordancia, imposición y prohibición de rasgos en símbolos terminales, potente gestión de rasgos también en símbolos no terminales, imposición y prohibición tanto de lemas como de significantes y la presencia de elementos opcionales) que la dotan de una importante potencia descriptiva del lenguaje, al tiempo que el número de reglas se mantiene controlado dentro de unos márgenes razonables para su tratamiento computacional.
    En este trabajo no nos hemos limitado a realizar un planteamiento teórico, sino que hemos implementado y evaluado un sistema construido según la arquitectura propuesta, en la que, además, se han tenido en cuenta consideraciones específicas para el diseño de su interfaz de usuario.
    Se aporta igualmente un estudio detallado de los diversos factores que incluyen en la evaluación cuantitativa (sobre los cuales sería necesario realizar un esfuerzo de normalización, dada la ausencia de estándares definidos al respecto), proponiendo métricas que analizan la potencia de las fuentes de información y que permiten elegir la mejor estrategia de combinación de métodos que represente de hecho una ayuda para los usuarios de esta tecnología. En dicha combinación se da prioridad a las palabras que aporta el modelo basado en bigramas de los diccionarios temático y personal. A continuación se utilizan los modelos estocásticos categoriales, aplicados primero al diccionario temático correspondiente y, posteriormente, con una adecuada ponderación, a los diccionarios personal y general.
    En cuanto al método de predicción basado en la gramática formal, el conjunto de aportaciones realizadas ha permitido obtener resultados cercanos a los de los métodos basados en modelos estocásticos categoriales, quedando para las líneas de trabajo futuras el completar su capacidad descriptiva. La modularidad y flexibilidad con que se ha dotado a la arquitectura permitirán realizar esta investigación aprovechándose del gran esfuerzo ya invertido aquí.

    AttachmentSize
    PhDThesisSpanishFull-SiraPalazuelos.pdf1.89 MB
    PhDThesisEnglishSummary-SiraPalazuelos.pdf518.33 KB

    Geintra © 2008-2024

    Diseño web por Hazhistoria