Sistemas de información y aplicaciones interactivas para no videntes.
    Estado del arte de la tecnología.
 
    La tecnología a lo largo de los años ha provisto diferentes alternativas para el acceso a la información por no videntes. Posteriormente, revisaremos cómo nuevas aplicaciones de cómputo y tecnologías de interacción son utilizadas sin pistas visuales y así dan un legado que contextualiza al presente trabajo en el área.

    Desde el sistema Braille a las GUIs

    Una de las técnicas más tradicionales para la transferencia de información y almacenamiento para no videntes surge de la creación de caracteres explorados táctilmente. Louis Braille, creó un sistema basados en puntos dispuestos en dos columnas de tres, determinando una celda que representa un carácter. Las hojas de papel o plástico grabadas con estos caracteres constituyen para las personas ciegas elementos permanentes de lectura, tales como los libros tradicionales funcionan para los videntes. Actualmente existen lo que se conocen como células braille, que es un conjunto de elementos eléctricamente móviles los cuales dispuestos en línea constituye una línea braille. Esta línea usada como terminal de la computadora, es capaz de reproducir en braille, mediante software y la interfaz adecuada, una línea de texto convencional. El usuario lee esa línea pasando el dedo sobre ella como si se tratara de una línea impresa. Una vez leída, un nuevo conjunto de caracteres ocupa el lugar de los anteriores, y de esta manera se prosigue hasta completar un texto dado. El uso de mecanismo bidimensionales usando líneas braille y dispositivos hápticos se muestra también como una alternativa viable a través de una mejora del confort [Ram96].

    Hay que tener en cuenta que la salida táctil no es la única manera para transmitir a la persona ciega la información de textos codificados en memoria del computador. Los sintetizadores de voz permiten a la información escrita hacerla inteligible a través del oído. El hardware suele constar de tarjetas que se adicionan a la computadora, diseñadas usando chips dedicados o cierto software que utiliza alguna placa de sonido estándar. El sintetizador de voz puede leer una pantalla en modo texto, pero no es suficiente para manejar programas y formatos complicados de pantalla. Para conseguirlo es necesario utilizar además un software lector de pantalla (screen reader). Este software permite recorrer la pantalla y así acceder a cualquier software basado en modo texto. De esta manera, un no-vidente puede aprovechar gran parte de las posibilidades de una computadora. Un elemento crítico en este tipo de interfaces es el diseño adecuado del diálogo establecido entre el usuario y la computadora pues sino la usabilidad cae a un nivel inoperable [PE96]. Inclusive este es uno de los primeros trabajos que comienza a hablar de usabilidad para usuarios no videntes.

    El advenimiento y proliferación de GUIs durante la última década y la reciente introducción de conceptos multimediales en la interacción humano-computador trae consigo nuevas posibilidades, pero también muchos problemas para usuarios ciegos con referencia al acceso a sistemas de cómputo e información digitalmente soportada. Hasta hace poco, las GUIs fueron totalmente inaccesibles para usuarios ciegos. Estas interfaces han sido diseñadas para explotar las capacidades visuales de videntes por medio de complicadas representaciones pictóricas, haciendo para los screen readers la tarea sumamente difícil. Dado el estado del arte de los lectores de pantalla, dos proyectos intentan generar un acceso genérico a aplicaciones basadas en GUI. Ellos son el proyecto GUIB [WK93], auspiciado por el consorcio TIDE de la CEE (Comunidad Económica Europea); y el otro, el proyecto denominado Mercator, desarrollado en el Instituto de Tecnológico de Georgia, USA [ME92]. 

    El proyecto GUIB (GUI for the Blind) se basa fundamentalmente en el uso de un dispositivo especial que integra líneas braille, sonido estéreo, un panel sensitivo a la presión y teclas para manipulación del cursor [WK93]. La idea es remapear los eventos y simbología de cada artefacto gráfico de Windows a este dispositivo. Por medio de las líneas braile, el usuario es capaz de explorar la pantalla. Teclas especiales permiten activar un sintetizador de voz que describe el estado de la interfaz y lee caracteres ingresados. La idea del proyecto Mercator [ME92] es diferente a la de GUIB, pues no utiliza dispositivos especiales y además impone un cambio de metáfora en la representación de la interfaz. La plataforma de uso de Mercator es cualquiera que corra el protocolo X ( X-Windows ). La información referente a la interfaz gráfica es modelada como una estructura de árbol, la cual representa los objetos gráficos en la interfaz (botones, menús, áreas de texto, etc.) y la relación jerárquica entre estos objetos. De esta manera, un ciego interactúa con el sistema independientemente de su representación gráfica. Es decir, hay un cambio de metáfora. El contenido de la interfaz es expresado a través de voz sintetizada y nonspeech audio (audio que no representa voz). 

    Acceso a WWW para no videntes

    Si bien una solución que permita acceso genérico a una GUI permitiría acceder a cualquier aplicación y por ende a un browser o navegador de la World Wide Web (WWW), existen aproximaciones que intentan ofrecer un browser especial para acceder a la WWW evitando representaciones visuales y con presentación de información totalmente acústica. El problema fundamental proviene del hecho que mucha de la información en la WWW es de carácter gráfico y que además todos los browsers corrientes se basan en la metáfora point-and-click para acceder a un documento. Sin embargo, gran cantidad de información es textual y se podría pensar en un esquema que filtre la información y asi sea accesible a un no vidente. El caso de V-Lynx [KC96] es uno de ellos. Por medio de síntesis de voz y una adaptación al browser de modo texto llamado Lynx, los autores implementaron una adaptación de él, en el cual el usuario navega secuencialmente el documento a través de síntesis de voz y puede obtener meta-información para determinar la estructura del documento. Si bien esta iniciativa es interesante, [PMM97] explora cómo debe ser diseñado un documento hipermedial para un no vidente. Una esquema interesante es el que existe operacional a través de un proxy en el ETH [ETH98]. Si uno configura su browser o navegador para que el proxy sea ea.ethz.ch:8080, entonces obtendrá todas las páginas filtradas y estructuradas en modo texto. De tal modo, si usamos un navegador de solo texto y un sintetizador de voz, podremos interpretar y conocer una vasta cantidad de páginas web. Mas recientemente [Roth99] establece como browsers multimodales intentan proveer acceso a la WWW para no videntes.

    Acceso a información sin pistas visuales

    Si un sistema interactivo intenta transferir un contenido a un niño no vidente deberemos conocer como se puede expresar información estructurada más allá de un simple cassette de audio. Uno de los trabajos más interesantes surge con HyperPhone [MFC92], un prototipo experimental para comunicaciones de voz soportadas por computadora desarrollado en Bellcore, en el cual se provee un ambiente para interactuar con entidades denominadas voice documents (documentos acústicos) y aplicaciones operadas por la voz o para potenciales usuarios que no pueden acceder a displays o teclados. La idea de proveer interfaces de audio, y adicionarle inteligencia haciéndolas fáciles de operar inclusive vía telefónica por reconocimiento de voz y minimizando las interacciones innecesarias es tratado en [YLM95]. En este trabajo se rescata la importancia de un modelo conversacional como modo de interacción con el sistema y el error que ocurre al tratar de trasladar las modalidades gráficas de interacción a una modalidad enteramente auditiva. Con respecto a la organización de información acústica automática [Aro93] exhibe técnicas para segmentar automáticamente grabaciones monolíticas en pequeños chunks o porciones atómicas de información en un sistema denominado Speech Skimer de modo de incluir automáticamente tramos de conversaciones en sistemas de información acústica. Asociada a la idea de la organización automática de documentos de voz [SAS93] presenta con Voice Notes, un esquema para controlar un pequeño dispositivo que se puede llevar en forma autónoma y portátil, que permite capturar, manejar y obtener lo que denominan voice notes o clips de audio. Plantea un simple modelo jerárquico basado en categorías y notas dependientes, como el más favorable para este dominio. Interfaces modales vs. no modales, señales no vocales como feedback de interacción, conservación fundamental del recurso tiempo y estructuración de la información en forma dinámica, son los puntos interesantes a tener en cuenta en un sistema interactivo para niños no videntes.

    Si la información no va a ser organizada de manera jerárquica sino a modo de hipertexto, [Aro91] describe en Hyperspeech, como se puede navegar en una hiper base de información acústica. Los resultados más relevantes indican la dificultad en la autoría de documentos de esta naturaleza, la posibilidad de efectos de audio para indicar algún atributo de la información que se va recibir, la posibilidad de crear conversaciones virtuales entre locutores que nunca se reunieron en la realidad, la fuerte tendencia a la desorientación en un ambiente sin pistas visuales, etc. De aquí se extraen ideas para desarrollar un soporte hipertextual a un sistema interactivo.

    Interfaces y esquemas de interacción sin pistas visuales

    Si bien [Aro91] con su Hyperspeech no utiliza una metáfora espacial, deja abierto el interrogante de cómo realizar algo tal como "point & click" en un medio acústico. Por ello, la utilización de una metáfora espacial asociada a un modelo funcional conversacional a través de sonido 3D y manipulación kinestésica, es un trabajo desarrollado y propuesto por [LR95, Lum96, LSB96] en el cual existe una manera de hacer point & click sobre un medio altamente temporal como es el sonido. Este sistema se provee el acceso a información hipermedial a través de un esquema de interacción con locutores virtuales previamente digitalizados, los cuales son involucrados en una conversación en la cual el usuario puede regular el flujo de la información, seleccionando qué locutor es el que puede hablar. Uno de los legados interesantes de este trabajo es la inclusión de unas entidades acústicas denominadas audicons, las cuales juegan un papel similar al icono en su contraparte gráfica. Otro resultado interesante que surge es que la interacción con dispositivos físicos que impliquen manipulación háptica son más adecuados para aplicaciones de entretenimientos que para uso y acceso a sistemas de información, siendo este un resultado relevante para aprovechar en este proyecto. [RV95] presenta un excelente resumen del de interfaces de audio, tratando de extender la idea básica de menúes, listas y formularios. Como resultado más importante se destaca la economía de espacio que se debe hacer en una interfaz, en este caso el ahorro pasa por el tiempo, debido a que el display es acústico y no gráfico.

    Uno de los resultados más categóricos al respecto de sistemas interactivos basados en sonido 3D aparece en [LS98, LS99] en el cual a través de un test experimental con un sistema denominado AudioDoom los autores presentan evidencias sustanciales que niños no videntes pueden percibir un ambiente acústico 3D, navegarlo y crear representaciones espaciales usando bloques LEGO. Los resultados de estos trabajos sirven como prueba del concepto y señalan importantes hipótesis para la continuación de esta labor, las cuales se plasman en este proyecto y tienen concordancia con lo presentado en [Ken97, Sat96]. Más aún, existen excelentes medios para recrear y estudiar como funciona la navegación en no videntes y videntes usando los mecanismos acústicos, extendiendo el estudio de la navegación de [LKG93]. La evaluación realizada en [LS99] siguió un esquema de experimento, pero es de recalcar que ya hay delineado un esquema para evaluar este tipo de tecnologías asistivas[SE96].


[volver]