ADE (Analizador Del Discurso Educativo)

Coordinador: Ing. Ernesto A. Meier
Integrantes: Viviana Cardozo
Mario Chiarvetti
Ileana Gueler
Pablo Kaúl
Josefina Morais
Juan SampietroG.I.A.I.T. (Grupo de Informática Aplicada al Inglés Técnico)
Universidad Tecnológica Nacional (Regional Santa Fe)
Lavaisse 610
3000 - Santa Fe Argentina
T.E. 54-42-602390/601579
FAX 54-42-690348
E-mail giait@utnrsf.edu.ar



El objetivo de este proyecto es desarrollar un análisis del discurso que se encuentra en lenguaje natural (LN). Los estudios comenzaron a mediados de Marzo del año 1995, como parte del Proyecto S.A.E. (Sistema de Autoría Educativa). El proyecto ADE es llevado adelante por un grupo de estudiantes de la carrera de Ingeniería en Sistemas de Información de la Universidad Tecnológica Nacional (U.T.N.), pertenecientes al G.I.A.I.T. (Grupo de Investigación Aplicado al Inglés Técnico), bajo la coordinación del Ing. Ernesto A. Meier docente de esta Universidad.

La meta de este proyecto es servir de herramienta en el proceso educativo; brindando así una ayuda al docente o profesor para el tratamiento de los textos educativos. Sirviendo además de soporte para el apredizaje del alumno mediante un sistema interactivo. No obstante, puede ser utilizada en otras actividades que requieran del tratamiento del discurso, tales como: procesamiento de texto informativos, de información contable, etc.

Introducción:

Este proyecto posee como sustento teórico de fondo el método de Segmentación y Jerarquización desarrollado por integrantes de este grupo de investigación. Este en un principio fue utilizado y desarrollado para facilitar la traducción del idioma Inglés al Castellano, basándose en la división del texto a ser traducido en segmentos conceptuales más pequeños y de traducción directa. Dicho método fue desarrollado por el Ing. Ernesto Meier, presentado en el año 1988, luego de cuatro años de pruebas y experiencias.

Cabe mencionar que para poder realizar una segmentación en el idioma Castellano se debieron realizar muchos estudios, comenzando por interiorizarnos de la estructura, métodos e ideas generales utilizados por el segmentador para el Ingles. Esto nos permitió conocer las políticas a seguir y principales puntos a considerar. Las diferencias esenciales se dan a causa de la riqueza en estructuras que posee el idioma castellano y fundamentalmente porque el método fue ideado con mira a la utilización por parte de las personas y no para el tratamiento mediante un computador. Los puntos de mayor dificultad los encontramos al tratar de jerarquizar el documento procesado con el fín de brindar una correcta visualización de la ideas intervinientes y la importacia de estas dentro del discurso.

Mediante el análisis del discurso se desea lograr los siguientes resultados:

Dado el tipo de análisis que debemos llevar a cabo, hemos elegido como lenguaje de programación el Prolog, puesto que es un lenguaje declarativo, en el que el conocimiento puede representarse de forma sencilla por medio de un conjunto de reglas de decisión. Aclarando que los módulos encargados de la iteración con el usuario (alumno o profesor) serán realizados en otros lenguajes dado que el prolog no posee un interfaz amigable.

También será incluido una análisis gramatical mediante los métodos convencionales, es decir clasificando dentro de las oraciones las distintas partes, como ser: verbos, complementos, predicativos, etc. Este análisis servirá de apoyo en el tratamiento del texto discursivo al método antes mencionado y como una herramienta más de validación en cuanto a la correcta salida del discurso procesado mediante el segmentador/jerarquizador.

2 . Estructura del Proyecto "ADE"

Consta de una serie de módulos, los cuales se encargan de diferentes tareas y no necesariamente serán desarrollados en Prolog. Los módulos que conforman el proyecto son los siguientes:

  • 2-1 Conversor de Texto a Lista
  • Convierte un texto (en lenguaje natural) a una lista de elementos (palabras), normalizando el discurso mediante un conjunto de pautas tendientes a evitar los conflictos que puedan surgir al momento de realizar la segmentación. Esta lista servirá de entrada para el módulo Segmentador/Jerarquizador. Para lograr esta normalización se eliminan los caracteres especiales que no aportan información al documento, como ser subrayados, resaltados, viñetas, etc. (en lugar de ellas se coloca una marca para reconocer su función dentro del documento). A su vez coloca marcas a: títulos, subtítulos, referencias, dibujos.

    A aquellos signos de puntuación que poseen la misma forma pero no cumplen con la misma función (ej: punto y aparte vs. punto y seguido) los individualiza y marca su función; evitando así posibles conflictos en el posterior tratamiento del texto.

  • 2-2 Segmentador/Jerarquizador
  • Es uno de los módulos más importantes, puesto que sirve de base a todos los demás, se encarga de segmentar (dividir el texto en partes conceptuales más pequeñas) y de realizar la jerarquización de éstos según su importancia en la oración.

    La segmentación o corte se realiza en los lugares claves donde se agrega información al discurso. Una vez segmentado se procede con la jerarquización, teniendo en cuenta para esto la importancia de los distintos segmentos y sus relaciones; como por ejemplo: los segmentos que forman parte de una enumeración poseerán la misma jerarquía. Este último concepto se extenderá también a las proposiciones.

    Pondremos un ejemplo de este proceso jerarquizando y segmentando la siguiente oración:

  • La mesa de roble es muy hermosa

  • que sería segmentada de la siguiente manera:
    La mesa |de roble | es |muy hermosa.
    Podemos ver como la división es realizada en los lugares claves, donde estamos agregando más información a la oración; de esta manera podemos separar el texto en distintos segmentos conceptuales. Cada segmento cumple con distintas funciones dentro de una oración, estas pueden ser obtenidas según el tipo de palabra que realizó el corte. Podemos observar también que mediante este método la mayor parte de las palabras gramaticales estarán formando parte de los cortes (estas se encuentran en negritas dentro del ejemplo); por lo tanto si no las consideramos podemos obtener los nucleos de los sintagmas o frases que conforman la oración.

    Con el texto segmentado se realiza una jerarquización, el objetivo de la misma es la de otorgar una clasificación de dentro de la oración a los distintos segmentos, de acuerdo a su importancia. El ejemplo dado con anterioridad se vería jerarquizado de la siguiente manera:

  • La mesa

  • de roble

    es

    muy hermosa.

    como se puede observar las jerarquías van agregando información adicional a la oración; sin embargo, podemos tomar la primera o primeras jerarquías para obtener un resumen o tema del discurso.

    Cabe mencionar que se realiza también una separación del texto en párrafos, oraciones y proposiciones, teniendo en cuenta las relaciones que poseen estas.

  • 2-3 Generador de Resúmenes
  • Recibe como entrada el texto procesado por el segmentador/jerarquizador y produce con la ayuda del profesor o alumno un resumen como salida, adecuándose a las necesidades de los mismos. Esto requiere que el sistema interactúe con el profesor o alumno. Este punto es posible debido a que al segmentar, cortamos donde se agrega información y que al jerarquizar le otoragamos distintos niveles según su importacia; pudiendo concluir que si tomamos los primeros niveles de la jerarquía obtenemos un resumen.
  • 2-4 Clasificador de Frases/Palabras o Sintagmas
  • Recibe como entrada el texto procesado por el segmentador/jerarquizador y produce una lista de frases clasificadas según su importancia dentro del documento, como ser: frase conocidas (C), nuevas (N), triviales (T), etc. Esta clasificación es suministrada por el profesor, dado que este es el único que sabe que es lo importante para el alumno y que es lo que el alumno debería saber. El sistema se encargará de suministrar todas las frases que posea el documento, previo filtro de aquellas que ya hayan sido clasificadas anteriormente por el docente.

    Con el objeto de suministrar las frases a ser clasificadas se toma el texto procesado y se considera a cada segmento como una posible frase a ser clasificada. Debemos notar que la clasificación de las frases es realizada por el usuario del sistema y no por este último. Previa visualización de las frases para su clasificación por el usuario deben pasar por un filtro que permite mediante una consulta a un diccionario obtener las palabras que fuerón clasificadas anteriormente, como así también aquellas frases que en este mismo tratamiento fuerón clasificadas como triviales, conocidas o nuevas y de esta manera prescindir de una nueva clasificación.

    El usuario podrá a su vez realizar la unión de segmentos adyacentes, puesto que el tema que está siendo obejeto de estudio, puede estar distribuido en varios segmentos. En este caso sí son considerados los cortes como parte de la frase; en el caso de ser la frase un solo segmento el corte no es considerado, puesto que éste es una palabra puramente gramatical (realiza las veces de concectivo entre segmentos) y no introduce ninguna información de importancia en la frase.

  • 2-5 Evaluador de la carga conceptual
  • Evalúa la carga conceptual del texto procesado, recibiendo como entrada la lista de frases clasificadas en el punto anterior. Dando a conocer luego al docente los párrafos que posean una carga conceptual alta para la correcta compresión del alumno y aquellos párrafos que no introducen información nueva o imporatante.

    El procedimiento a seguir es recorrer nuevamente el documento obteniendo un valor de carga conceptual para cada párrafo del mismo; para ésto se realiza un conteo de la cantidad de palabras nuevas que posee cada párrafo. Por ejemplo se puede determinar que un párrafo con un contenido de 7% de palabras nuevas es conceptualmente muy cargado para un entendimiento correcto por parte del lector. También se pueden obtener los párrafos que no introducen información nueva, puesto que no poseen frases nuevas.

    Como se puede observar el objetivo de este módulo es ayudar a realizar documentos o discursos educativos y científicos/técnicos de una calidad mayor. El parámetro indicador de carga conceptual puede ser introducido por el docente y puede ser actualizado automáticamente de la siguiente manera: al generar preguntas y evaluar las respuestas obtenidas con los módulos correspondientes; se puede evaluar la cantidad de respuestas correctas y de acuerdo a ellas determinar si el texto es de buena calidad; luego de obtener si es o no un buen texto se puede obtener el porcentaje medio de palabras nuevas que hay por párrafos y con este valor actualizar el parámetro anterior. Por ejemplo: si el resultado de las preguntas realizadas sobre el texto determina que el texto procesado es de buena calidad y obteniendo como promedio de palabras nuevas en los párrafos un valor de 8,6%, entonces este pasará a ser el valor actualizado del parámetro de evaluación de carga conceptual.

    A su vez se evaluará si los párrafos resultan redundantes, cosa que sucedería si se da una repetición de frases triviales o conocidas dentro de éste.

  • 2-6 Desarrollador de Diagramas conceptuales
  • Generación automática de diagramas conceptuales. El automatismo mensionado no descarta que el docente o profesor pueda cambiar estos diagramas según su criterio; sino por el contrario estimula a ello. Para realizar esta tarea se obtendrán los conceptos nuevos y conocidos de la clasificación anteriormente nombrada y en un procesado posterior del documento se obtendrán las relaciones entre estos. Las relaciones mensionadas se obtendrán mediante un estudio del lunguaje y sus relaciones sintácticas.
  • 2-7 Conversor a formato gramatical
  • Transforma el texto segmentado/jerarquizado a un formato gramatical, es decir clasificado según las partes funcionales de la oración, como ser: sustantivo, objeto directo, predicativo obligatorio, etc. Esta formato puede ser utilizado tanto para la generación de preguntas y evaluación de las repuestas obtenidas, como así también como ayuda en el apredizaje sirviendo como sistema iteractivo donde el alumno introduce la oración y recibe la clasificación en sus partes.

    Para lograr este objetivo se evalúa primero el tipo de verbo de cada oración y de acuerdo a éste se buscan todos los modificadores que puede tener o admiten, así como también el sujeto de la oración y de acuerdo a éste los modificadores para él. Por ejemplo: si el verbo es transitivo se intentará obtener el predicativo obligatorio, puesto que este tipo de verbos requieren de dicho modificador; también la conjugación del verbo nos presentará información sobre la posible posición del sujeto(antes o después del verbo).

    Esta transformación será llevada a cabo según las reglas de la gramática estructural.

  • 2-8 Generador automático de preguntas
  • Basándose en el formato gramatical desarrolla en forma automática preguntas sobre los temas tratados en el documento. Los coceptos que serán objeto de las preguntas serán obtenidos de la lista de frases nuevas.

    Una vez obtenidas las frases nuevas se procede al llenado de las preguntas que se encuentran con un formato general.

    Según la parte de la oración que intervenga en la pregunta, la respuesta esperada deberá contener alguna de las otras partes. Por ejemplo si en la pregunta interviene el sujeto y su formato orienta hacia la acción que realiza éste, entonces las respuesta esperada será el verbo de la oración.

  • 2-9 Evaluador automático de respuestas
  • Evalúa las respuestas recibidas en lenguaje natural y las compara con la respuesta esperada por el sistema. La respuesta esperada dependerá del lugar que ocupa el concepto que intervino en la consulta dentro de la oración y según el tipo de pregunta que se halla generado. Habrá con este fín un grupo de formatos generales de consultas.
  • 2-10 Generador de preguntas a bases de datos (SQL) o bases de conocimiento
  • Para ello recibe como entrada la pregunta en forma interactiva, formato al cuál debe ser transformada la pregunta (formato del lenguaje) y las equivalencias entre palabras del lenguaje natural y las reservadas del lenguaje.
  • 2-11 Extractor del Tema e idea principal
  • Determina teniendo como entrada el texto segmentado/jerarquizado el tema del discurso y su sus ideas principales. Con este fín se extraerán las frases o sintagmas del documento y se compararán con las frases mas usadas en los distintos temas; otorgándole distintos puntajes.

    El puntaje que se asignará a cada tema dependerá de algunos de los siguientes puntos:

    Luego el tema que posea más puntaje será el tema propuesto. Todas las frases nuevas serán introducidas en un archivo de frases usadas por este tema (luego de establecerse el tema de que se trata).

    Luego mediante una análisis de aquellos conceptos que posean mayor coincidencias se obtendrá el tema general del discurso. La idea principal será obtendida extrayendo un resumen de aquellos párrafos del documento donde se encuentre las frases más significativa del discurso.

    3 - Conclusión:

    Mediante éste trabajo ponemos de relieve la importancia del tratamiento estructurado del discurso y los usos que sobre un discurso procesado se pueden obtener, como ser: tratamiento de información periodística, contable, etc. Y de que manera puede ayudar en el proceso educativo.

    Como un aspecto más de este informe subrayamos la importancia que tiene el tratamiento de los texto educativos; brindando así una herramienta más al docente. La cual sirve de ayuda en la elavoración de textos educativos más depurados e informativos; como así también permite la insercción de los alumnos en el mundo de la conputación (iteracción del alumno con la máquina por medio de los módulos de preguntas y respuestas). A su vez los resultados arrojados por estos módulos pueden ser introducidos en un sistema de evaluación del aprendizaje, como de echo sucederá en el Sistema de Autoría Educativa (S.A.E.).

    Un último aspecto, aún no tenido en cuenta, que resalta el proyecto, es el procesamiento del discurso en busca de una reducción en los volúmenes de información que se manejan a diario, objetivo muy deseado en estos días, en que las cantidades de datos a procesar aumenta en forma inversamente proporcional al tiempo de que se dispone para su tratamiento.

    4 - Bibliografía: