Un sistema hipermedial para no videntes usando sonido 3D


 


Mauricio Lumbreras

LIFIA - Laboratorio de Investigación y Formación en Informática de Avanzada 

Dto. Informática - Fac. Cs. Exactas - Universidad Nacional de La Plata ARGENTINA

e-mail: mauricio@sol.info.unlp.edu.ar

Resumen

Se presenta en este trabajo una metáfora conversacional que permite el acceso a una base de información hipermedial, presentada esta enteramente a través de sonido 3D. El uso de esta tecnología intenta explotar el sentido del oído al máximo, pues el destinatario final del sistema será un usuario no vidente. Mostraremos como este modelo nos permite construir sistemas basados en el modelo hipermedial, de tal manera que estos puedan ser utilizados por personas no videntes. Bajo el contexto de la metáfora propuesta, discutiremos como el usuario obtiene información, la maneja y controla su flujo. Además se explicará una novedosa técnica de interación basada en una entidad acústica denominada audicon. Se explicarán los items a tener en cuenta en el diseño de un sistema de hiperaudio tal como el propuesto y se mostrarán la herramientas para la edición del hiperaudio y características de la implementación. Finalmente se explicaran algunos resultados preliminares mostrando que elementos de interacción son deseables y cuales se muestran confusos

Keywords: Hipermedia, I/O acústico, ayudas para el discapacitado, metáforas, VR, interacción hombre-maquina, sonido 3D

1. Introducción

Es ampliamente conocido que las aplicaciones hipermediales, en particular aquellas presentadas en CD-ROM o a través de WWW, serán preponderantes en ciertos dominios, tal como los educativos. Desafortunadamente, las metáforas de presentación y acceso hacen una profusa utilización de gráficos, imágenes dinámicas, íconos, etc., sin tener en cuenta la brecha que producen estas entre usuarios vidente e impedidos visuales. Actualmente existen varias iniciativas que permiten al impedido visual, tener acceso a sistemas de cómputo en forma genérica, o sea a cualquier aplicación. Como ejemplos de ello tenemos el proyecto Mercator para plataformas basadas en XWindows [MynattÝ92] o el proyecto TIDE GUIB para plataformas MS Windows [WeberÝ93]. Nuestra aproximación es diferente , mas específica al problema, y está referida al acceso a sistemas de información. Antes de diseñar nuestro sistema deberíamos examinar que sistemas de información existen hoy para no videntes:

* El texto Braille es aceptado pero posee algunas desventajas, tal como la dificultad en la búsqueda de información, el tamaño de los libros (debido a la baja densidad inherente de los caracteres Braille), la interactividad nula debido al medio utilizado, el problema de mantener la información actualizada (por el costo de reimpresión y mantención), el problema que presenta aprender esta nueva forma de describir el alfabeto (Ýsolo el 10% de no videntes maneja Braille [Vanderheiden 92]).

* Los cassettes de audio son otro medio. Aunque su costo es bajo y permite secuenciamiento, no soportan interacción del usuario, no existen presentaciones especiales de su contenido para buscar información en ellos o algún tipo de computación incluida.

Otras corrientes importantes con referncia al acceso a sistemas de cómputo para no videntes provienen de las aplicaciones lectoras de pantalla o screen readers las cuales permiten tener una representación acústica de la información disponible en pantalla visualmente, o de la posibilidad de adaptar browsers de WWW para que personas no videntes puedan acceder a la impresionante cantidad de recursos de Internet. Si bien estas aplicaciones son de suma importancia, este trabajo se centra en la exploración de modalidades de interacción usando sonido 3D y manipulación kinestésica/háptica del ambiente. Es por ello que el ánimo del trabajo es poder incorporar el legado de estas tecnologías a la mejora de las aplicaciones anteriormente mencionadas.

Por medio de una nueva tecnología que proviene de las aplicaciones de realidad virtual, podemos generar una clase especial de sonido, un sonido espacializado, genericamente denominado sonido 3D, que permite construir cierto display virtual acústico y el cual será el medio subyacente para poder representar la información para el usuario

1.1 Trabajos previos 

El campo de aplicación de sistemas de información enteramente acústicos esta siempre obviamente caracterizado por la falta de pistas visuales para seleccionar y navegar la información. Este detalle hace interesante el estudio de ellos, para aplicar sus resultados a sistemas de información para no videntes. La navegación de información en forma hipertextual enteramente acústica es introducida en el sistema HyperSpeech [AronsÝ91], en el cual diferentes reportajes a diferentes personas son estructurados de manera hipertextual, y por medio de reconocimento de voz, el usuario puede seleccionar uno de varios nodos. Los comentarios del usuario pertenecen a un conjunto fijo de palabras donde cada uno representa un comando en especial. En SpeechSkimmer [AronsÝ94] presenta un sistema en el cual, aislando trozos de información verbal acústica digitalizadas de una conversación unipersonal, se puede automáticamente estructurar la información en diferentes niveles de abstracción y velocidad de reproducción. Este último tópico plantea interesantes ideas tal como reproducción de sonido dicótica, o sea un sample o muestra elemental de sonido alternativamente a cada oído, con el objetivo de minimizar el tiempo de escucha sin pérdida de inteligibilidad. En [StifelmanÝ93] se presenta un prototipo portátil de hardware para digitalizar trozos de información grabada espontáneamente. La idea es la de generar un anotador sin lapiz ni papel. Allí se tratan problemas acerca de la estructuración de la información acústica. La generación de voice documents es tratada en [MullerÝ92], donde la idea de browser, utilización de reconocimiento de voz para navegar una aplicación hipermedial y estudio de interfaces de acceso a bases de datos por medio telefónico es discutido. En [BeaudouinÝ94] se trata la idea de creación de un un ambiente acústico estructurado, donde uno interactúa con sonidos en términos de alto nivel de abstracción, interacciones y atributos, en lugar de tratar con los sonidos en términos de sus características físicas.

Con respecto a sistemas para personas ciegas, el proyecto Mercator [MynattÝ92] provee acceso genérico a plataformas X-Windows, organizando jerárquicamente el desktop o escritorio presentado en pantalla como una serie de cajas que poseen un sonido en particular, permitiendo recorrer el arbol que generan las aplicaciones al abrir ventanas y anidar estas. Por ejemplo en la raíz esta el desktop, y de allí surgen las aplicaciones como hijos del arbol. Se utiliza síntesis de voz para leer el contenido de cada ventana y el pad o panel numérico para navegar el arbol de ventanas. El proyecto TIDE GUIB [Weber 93] utiliza un hardware especial que permite mapear la pantalla de una aplicación MS Windows a una gran grilla de pequeños puntos manipulados electromagnéticamente que representan cada pixel de pantalla, permitiendo hacer un mapping o representación táctil de la pantalla. Además provee lineas braille para poder leer el texto de cada ícono o el texto que está en cierta ventana. Existe además una convención especial para mapear cada tipo de botón, scroll bar, etc. a esta modalidad. Esta aproximación parecería mágica para solucionar el problema de acceso genérico a cualquier aplicación, pero la metáfora visual mapeada a otra modalidad y la dificultad de capturar algunas características incluidas en cada artefacto gráfico de MS Windows impone algunas restricciones.

2. Que es el sonido 3D

Para entender que es el sonido 3D, revisemos como una persona determina la posición en el espacio de una cierta fuente de sonido. Las primeras teorías de localización provienen de la clásica "teoría dúplex" [Rayleigh 07] la cual enfatiza el rol de dos componentes fundamentales de la señal de audio que arriba a nuestros oídos: la diferencia interaural en tiempo (ITD) y la diferencia interaural de intensidad (IID) (fig.Ý1). Esta teoría resulta incompleta, pues no tiene en cuenta la habilidad que poseen las personas de localizar sonidos sobre el plano medio vertical ( sobre sus cabezas ) , en frente o detrás, donde las diferencias interaurales son mínimas para estas posiciones.
 



 


Fig. 1: Dos pistas fundamentales para determinar la posición de una fuente sonora en el espacio provienen de la diferencia de intensidad y retardo de tiempo con que arriba la señal a los oidos. Igualmente este modelo resulta incompleto. Gráfico adaptado de [Wenzel 92] )

Similarmente , cuando una persona escucha un estímulo con auriculares en los que solo están incluídas las diferencias interaurales en tiempo y amplitud, el sonido resultante aparece como si estuvieran dentro de la cabeza del oyente y no en el espacio. Inclusive existe una pérdida de la sensación de elevación, y notable confusión de atrás-adelante de la fuente sonora presentada. Así, la simulación teniendo como parámetro este modelo es deficiente.

Muchos estudios sugieren que esta deficiencia en la teoría dúplex reflejan la importante contribución en la localización que produce el filtrado dependiente de la dirección que ocurre cuando un sonido arriba al oído externo o pabellón de la oreja. Un sonido se propaga desde una fuente generadora hasta los oídos del receptor, pero las reflexiones y refracciones impuestas por la morfología física de la cabeza tienden a alterar el sonido de manera sutil. Estos efectos son dependientes de la frecuencia de la fuente sonora. Este filtrado tambien varia en función de la posición del espacio de la fuente. Experimentos muestran que la respuesta del pabellón de la oreja es altamente dependiente de la dirección del sonido [Blauert 83], y que la ausencia del pabellón degrada la capacidad de localización y externalización (fuera de la cabeza) del sonido. Así, la forma y tamaño de la oreja, inclusive la cabeza y el torso, imponen un complejo efecto en las señales de audio, atenuando y cambiando la fase selectivamente para cada frecuencia y cada posición del espacio. La adición de un procesamiento que imponga todas estas modificaciones en una señal de audio, puede lograr un sentido mas amplio de espacialización. Existen muchos efectos acumulativos desde que el sonido sale de la fuente hasta que este arriba al tímpano, pero todos ellos pueden ser expresados en una sola operación de filtrado, parcialmente similar a la que realiza un ecualizador gráfico de audio. Se han realizado varias mediciones sobre personas reales [WightmanÝ89] y maniquíes con morfología humana de estas características de filtrado, básicamente poniendo pequeños micrófonos tan cerca como fuera posible del tímpano. Bajo las condiciones de una camara anecoica (es decir que no genera ecos), una señal analítica o un impulso brevísimo es emitido de una posición determinada del espacio y este impulso es grabado con los micrófonos. Un pulso posee componentes frecuenciales en casi todo el espectro útil, asi que el resultado obtenido en la grabación contendrá la función de transferencia impuesta por el oído. Realizando la transformada de Fourier se pueden cuantificar estos valores. Así en esta grabación realizada simultaneamente en ambos oídos, esta inmersa la información de diferencia de intensidad, retardo en tiempo, atenuación frecuencial y cambio de fase para la posición del espacio de la fuente emisora, como si fuera una huella dactilar de las características físicas del oído del usuario sometido a la grabación. La representación en el dominio del tiempo de estas características asociadas al oído es llamada genericamente filtro FIR (Finite Impulse Response) y la representación en el dominio frecuencial de estas funciones de transferencia del oído o ìhuella dactilar acústicaî es conocida como HRTF (Head Related Transfer Functions). Informalmente podemos decir que filtrar en el dominio frecuencial es una operación de multiplicación punto a punto, mientras tanto el filtrado en el dominio del tiempo puede realizarse con una operacion mas compleja denominada convolución [Oppenheim 89]. Este ultimo proceso solo exige operaciones de multiplicación y adición, siendo posible realizar este en tiempo real por medio de chips DSP. 
 



 


Fig 2:Representación de las variables percibidas en la localización espacial de una fuente de sonido desde la perspectiva del oyente.

Asi filtrando un sonido arbitrario con estos filtros HRTF, se puede imponer una característica espacial al sonido de tal manera que al ser presentado este con auriculares, parece emanar de la posición deseada en el espacio (fig.Ý2). La localización depende de otros factores tal como: contenido espectral de la fuente original, ancho de banda de la fuente, diferencias entre la HRTF del usuario destino y de la persona de la cual se tomaron las mediciones, etc. Otros problemas como inversión adelante-atrás, cono de confusión, etc. son tratados en [Wenzel 92]. Esta posibilidad de crear sonidos en posiciones del espacio usando auriculares, facilita la creación de cierta pantalla virtual acústica de tal manera de poder generar una interfaz adecuada para un sistema de información para no videntes. Este ambiente virtual acústico nos permite sacar provecho de una de las más importante modalidades que un no vidente posee. Pero la solo presentación de sonidos espacializados, no resuelve la complejidad de un sistema de informacion amigable. La pregunta es: ¿Cómo podemos generar una metáfora útil? Existen varios trabajos que tratan acerca de sonido 3D, pero pocos de ellos tratan con modelos o metáforas que exploten estas capacidades.

Nuestra idea se basa subyacentemente en la idea de pantalla virtual acústica, la cual puede ser definida como un medio preciso para transferir información a un ser humano usando modalidades auditoriales, las cuales combinan características direccionales y semánticas de objetos dinámicos, los cuales representan entidades de un ambiente simulado.

3. La metáfora

Con estas ideas en mente deberíamos proponer un modelo que resuelva :

Como los usarios no videntes pueden sacar ventaja de la tecnología de sonido 3D, y Como podemos generar metáforas adecuadas para examinar información en este contexto

En nuestra aproximación, usamos una versión especial del bien conocido modelo de hipertextos. Este está basado en un grafo dirigido, compuesto de nodos y links. Los nodos representan documentos o porciones de información. Los links reflejan relaciones semánticas entre documentos [Conklin 87]. Normalmente los links son mostrados en pantalla, explícitamente como un menú de opciones o implícitamente como alguna acción que es realizada por el usuario sobre cierto elemento en la interfaz. El modelo subyacente de hipertexto ofrece muchas ventajas, como manejo de información referenciada, contenido no fijo a una estructura, interacción dinámica, etc.

Nuestro sistema es un modelo especial de hipermedia (concepto de hipertexto + nodos con contenido mutimedial ) que denominaremos hiperaudio. En este sistema cada nodo es presentado por medio de voz digitalizada, el cual posee un cierto tipo que refleja la clase de información que este contiene. Cada tipo de nodo es mapeado a un cierto locutor en una posición determinada del espacio, extendiendo el trabajo de [AronsÝ91]. Por ejemplo en el contexto de un hiperaudio que trate de física los nodos podrian estar tipados en: aplicaciones prácticas, conceptos teóricos y referencias historicas (fig.Ý3). El rol de cada locutor es establecer una conversación, de tal manera que el usuario puede controlar el flujo y dirigir la conversación presentada. 

La posibilidad más interesante para el usuario es la selección de links. Si en cierta parte de la conversación, existe un link a otro concepto, el locutor encargado de hablar acerca de eso, realiza un breve comentario. Si el usuario esta interesado en ello, por medio de un joystick o guante de realidad virtaul indica la dirección del locutor deseado, activando un audicon. De esta manera le pasa el control al locutor deseado, navegando así el espacio de información. El usuario conoce al locutor, pues posee dos importantes pistas: la voz específica del locutor y la más importante, su posición en el espacio. La asignación de tipos a los locutores, provee un cierto punto de vista del tópico en cuestión y de alguna manera se esta asignando un característica antropomórfica al contenido de la información. [Muller 92].
 



 


Fig 3a. Sin una metáfora espacial el usuario en el mejor de los casos tendría un conjunto de comandos para navegar en un espacio plano de información.
 



 


Fig 3b. Adicionando un dispositivo físico que mejore la sensación espacial y adicionando una metáfora espacial adecuada, la modalidad espacialíacústica cruzada se muestra como una solución mejor que el espacio plano de navegación.
 



 


Fig 3c. La metáfora finalemnte presentada es la de una conversación virtual entre diferentes locutores que haban de un cierto tema, en este caso conceptos de física. El usuario maneja el flujo de la conversación a su gusto y además posee un mecanismode manipulación virtual de entidades acústicas (audicons), los cuales le permiten contrlar el sistema.

Al tipar los nodos por medio de locutores, nuestra metáfora mejora el problema que aparece al navegar segmentos de información hablada, lo cual es dificil, debido a la naturaleza secuencial, lenta y transitoria de la voz, ya que esta no deja trazo de su existencia [StifelmanÝ93]. La voz específica y la posición en el espacio ayudan a mejorar el backtracking o el deshacer el camino recorrido en el hiperaudio. Hay que tener en cuenta que cuando observamos informacion escrita, el ojo puede rápidamente examinar una página usando pistas visuales tal como tipo y tamaño de letra y configuración espacial del texto, permitiendo moverse entre ideas o tópicos rapidamente. La asignación de tipos a los nodos permite de alguna manera suplir esta característica, manejando la expectativa con respecto al tipo de información que proximamente puede recibir el usuario. 

La voz de cada locutor fue grabada de diferentes personas reales que leen un cierto script previamente confeccionado o responden a un reportaje . De esta manera, el usuario sin saberlo, esta utilizando un modelo hipermedial, pues la conversación contiene una estructura hipermedial. Mas aún, cada link refleja diferentes características de interacción conversacional tal como requerimientos, asentimientos, contra ofertas, renegociación de condiciones, etc. Hay que tener en cuenta que la comunicación entre personas varía notablemente dependiendo de la presencia y tipos de medios utilizados. Por ejemplo, en una conversación uno puede observar asentimientos con la vista, gestos faciales, movimiento de la cabeza para sugerir el próximo locutor, etc. Estas pistas están ausentes en un sistema enteramente acústico limitando parcialmente el control y la previsión del flujo de información [Preece 94] . Por ejemplo, para palear estas desventajas se debe tener especial cuidado en proveer expresividad a cada una de los fragmentos digitalizados para enfatizar el contenido del mensaje y atraer más la atención.

Debido al limitado ancho de banda del medio utilizado ( el sonido ), el usuario debe poseer no solo control sobre la información presentada, sino tambien del cómo y cuando. Para ello nuestro sistema posee facilidades de pausa, repetición de tópico y modificación de parámetros del sonido presentado. El sistema de hiperaudio hace que la información presentada sea de grano fino, no lineal y altamente interconectada. La asignación de tipos a los locutores y la estructuración de la información en el hiperaudio es dependiente del dominio de aplicación. 

4. El ambiente

El ambiente presenta dos situaciones al usuario: la interacción en la conversación y la navegación en un ambiente estático, el cual es simulado usando una versión acústica de la metáfora de rooms, perimitiendo modelizar la característica estructural de la información. Así, el usuario puede caminar a lo largo de un pasillo con habitaciones dispuestas al lo largo de el, simulando el interior de un edificio (fig. 4). En cada habitación existe una conversación, relacionada con el tema del hiperaudio en cuestión. La organización de las habitaciones a lo largo del corredor no es arbitraria. Ella prove un cierto índice espacial de conversaciones.

Existen estudios en el cual se verifica que el grado de desorientación que un usuario obtiene al recorrer un edificio depende de la estructura global que este posee. Aquellos edificios con muchos pasillos cortos con conexión no perpendicular o cambios de nivel son los mas difíciles de asimilar en el mapa mental, no siendo así los que poseen grandes espacios centrales y estructuras simples y jerárquicas. Estas ideas permiten especular en la extensión del sistema, en el cual no solo existiría un pasillo que nuclea a las habitaciones, sino varios pisos conectados entre sí a través de un elevador. Esta estructura jerárquica permitiría organizar por temas y subtemas todo el sistema de hiperaudio. Hay que tener en cuenta que los impedidos visuales sufren de una limitación en la representación de información espacial, exigiendo alta carga cognitiva para procesar estas estructuras [Hatwell 93].
 



 


Fig 4. Por medio de una simulación acústica el usuario se puede mover en un pasillo virtual, en el cual están varias habitaciones permiten organizar diferentes conversaciones de un cierto tema general del hiperaudio. En el caso del hiperaudio de física, una organización posible de temas puede ser la que se muestra en la figura. Si bien gráficamente el sistema se visualiza facilmente, no es tan trivial su interpretación de manera acústica.

Tendiendo en cuenta que el sistema genera una simulación acústica de un ambiente sin señales visuales se debe realizar un balisamiento acústico de puntos claves de orientación, notificación de posición via verbal por medio del asistente, realimentacion acústica para estimación de distancia relativa de objetos, etc. En interfases gráficas el espacio usado en la pantalla es el recurso mas limitado, en interfases acústicas el recurso mas limitado es el tiempo. En nuestra simulación el feedback es breve para ser conservativo de tiempo, reduciendo también así la cantidad de información que el usuario debe retener en la memoria de trabajo [Stifelman 93]. Este ambiente altamente interactivo promueve la construcción de robustos mapas de navegación en el usuario, tal como avala [Canter 77].Si bien estas opciones de navegación espacial virtual parecen prometedoras, veremos finalmente algunos resultados que merecen mucho cuidado 

Las opciones seleccionables son activadas por medio de íconos auditoriales 3D, los cuales son presentados en el espacio en el plano horizontal de la cabeza, y seleccionados estos con un joystick. De esta manera el usuario posee un tipo de manipulación directa de sonidos. Sacando ventaja del sonido 3D, el usuario puede seleccionar uno de varios íconos 3D simultaneos. Esta característica es denominada "cocktail party effect".

Para llevar a cabo tareas de control, existe un locutor especial, llamado el asistente, el cual permanece todo el tiempo en una posición fija relacionada con la posición del usuario. La función del asistente es la de proveer facilidades de backtracking y orientación por medio de avisos especiales. Cuando sus servicios son requeridos y dependiendo del contexto, el asistente despliega un set de íconos auditoriales 3D, los cuales representan las diferentes acciones disponibles para ese estado del sistema. De esta manera las tareas de control y el acceso a la información son presentadas de manera homogéneaÝ:Ýel usuario interactua con diferentes personas. Cuando el usuario lo desea, la simulación del ambiente virtual es reforzada por medio de descripciones verbales presentadas por el asistente. Existe evidencia indica que esta modalidad crea isomofismos entre el modelo mental y el espacio simulado [Denis 93].

5. Implementación

La implementación tiene en cuenta dos tópicos fundamentales: el editor del hiperaudio y la simulación del ambiente navegable.

5.1 el editor

No existen herramientas comerciales que soporten la creación de un hiperaudio, por lo tanto este fue creado desde el "scratch". La elección de lenguaje de implementación fue Smalltalk for Windows debido al mapping casi directo de un diseño orientado a objetos, la rapidez y flexibilidad en el prototipado, y las facilidades gráficas que provee esta herramienta en el entorno MS Windows.

Fig 5. Snapshot de una sesión de trabajo con el editor en el cual se crea un hiperaudio que habla acerca de usos y aplicaciones de la hipermedia. Cada nodo posee un tipo, el cual es representado por un ícono de la cara del locutor. Las flechas finas indican links normales. Las flechas gruesas indican un link especial llamado link directo. Si al escuchar un cierto nodo, no hay selección de links por parte del usuario, la conversación sigue automáticamente según el link directo. Los círculos pequeños sobre la linea de flechas permite editar el comentario que sirve de link al nodo destino. 

Este editor de hiperaudio permite: 

Agregar/borrar nodos y links, Agrupar nodos/grupos en un "supergrupo" por medio de tecnica de drag & drop ( los nodos pueden ser agrupados entre sí, de la misma manera que un capitulo de un libro agrupa diferentes topicos entre sí ) Reproducir y grabar los sonidos digitales asociados a nodos y links, Navegar por todo el hiperaudio, Editar propiedades de todas las entidades ( tal como tipo e ícono asociado en la edición) Compilar un hiperaudio, es decir generar un archivo de texto cuya utilidad reside en que puede ser interpretado y ejecutado por una pequeña aplicación stand-alone. 

Al final de la edición, el editor genera un archivo de especificación del hiperaudio, el cual será leído por otra aplicación stand-alone escrita en C++ (ejecutor) , la cual recrea la estructura del grafo, gestiona todo lo asociado a la detección de la posición del joystick o guante de realidad virtual y la ejecución de los archivos de audio. Asi el editor gestiona el enlace de los nodos ( y una descripción de la posición de cada locutor en el espacio ) y el ejecutor gestiona el uso del sistema con sonido 3D. Explicaremos como se genera este en las 3 versiones testeadas

5.2 generación de sonido 3D

Analizaremos las tres versiones testeadas, las cuales corren en plataforma PC.

5.2.1 Versión 1 : procesamiento off-line

Cada archivo de audio es digitalizado a 44Khz, 16 bits y es procesado de manera off-line para crear un sonido 3D. Para realizar este procesamiento se creo un programa especialmente hecho para realizar la convolución del archivo de sonido con un par de filtros FIR, adecuados a la posición del espacio donde se quiere ubicar al sonido. Estos filtros fueron cedidos por el Dr. Fred Wightman, Waisman Center, University of Wisconsin. Las mediciones obtenidas permiten discretizar el espacio circundante en 144 posiciones, con 24 posibles azimuths (cada 15 grados) y 6 posibles elevaciones (desde -36° a 54°). Así, cada sonido fue procesado off-line y ejecutado directamente usando las llamadas de la MCI (Media Control Interface) de Windows [Microsoft 91]. La desventaja de este método es que no es posible realizar un tracking de la cabeza del usuario. Esto quiere decir que si el usuario gira la cabeza para desambiguar la posicion de la fuente de sonido, el usuario "arrastra" todas las fuentes a la par del giro de la cabeza. Otra desventaja es el tamaño de los archivos, pues para lograr un alto grado de calidad se precisan 176K de almacenamiento por segundo de voz digitalizada. La ventaja es que el procesamiento off-line no exige ninguna plataforma especial en la maquina destino ( solo una placa de sonido decente )

5.2.2 Versión 2 : procesamiento mixto 

Utilizando un hardware no muy caro es posible crear una cierta interactividad en tiempo real. El hardware utilizado es una placa Gravis Ultrasound que utiliza una tecnología denominada comercialmente Focal Point [Gehring 90], la cual posee una cierta facilidad de sonido 3D en tiempo real y funciona así: para cada sonido 3D se debe realizar un procesamiento previo con un software especial llamado FP3D, el cual genera un archivo especial de sonido, en el cual se procesa el sonido original con 6 HRTF distintas para 6 posiciones del espacio, generando 6 copias procesadas del sonido (arriba, abajo, al frente, atrás, derecha, e izquierda). Luego en la ejecución , dada una posición en especial, se calcula el sonido final interpolando adecuadamente con los cuatro sonidos mas cercanos a la posicion deseada. El efecto es bueno pero no tan natural como el anterior. La desventaja es que para un buen funcionamiento los sonidos 3D deben ser cargados en la RAM de la placa, y esta solo posee 1 MB. Con este panorama se puede realizar una implementacion mixta, en la cual los íconos auditoriales 3D son ejecutados con esta modalidad y las voces con sonido procesado off-line.

5.2.3 Versión 3 : procesamiento en tiempo real

Esta es la que estamos utilizando actualmente y utiliza 2 componentes de hardware mas costosos. Para la generacion de sonido 3D se utiliza una placa ISA para PC llamada Alphatron, la cual posee un chip DSP Motorola 56001. Este hardware permite espacializar hasta 4 fuentes simultáneas de sonido en tiempo real a 22Khz de frecuencia de sampling y a 16 bits de cuantificación con efecto Doppler, o 2 fuentes a 44Khz y 16 bits [Alpha 95]. Un punto importantísimo en el incremento del grado de realismo es la posibilidad de incluir tracking de la posición de la cabeza. Esto quiere decir groseramente que si escuchamos un sonido frente nuestro y giramos la cabeza hacia la derecha, el sonido se debe presentar mas intenso en el oído izquierdo (tal como ocurre en la realidad). Para lograr eso usamos un HMD (Head Mounted Display) CyberMaxx. Este casco utilizado para aplicaciones de realidad virtual basadas en PC, posee facilidad de tracking con 3 grados de libertad ( elevación, giro, e inclinación ) y un visor stereo de LCD (que no es usado por razones obvias). Este prototipo que exige hardware mas costoso es el que mejor perfomance presenta pues el sonido 3D es gestionado en tiempo real permitiendo alta interactividad en la simulación y ahorro de espacio de almacenamiento (pues el sonido almacenado es monofónico). La facilidad de tracking es altamente favorable para la simulación de un ambiente estático de navegación, tal como lo presenta la metáfora del edificio anteriormente propuesta, trabajando actualmente en una extensión.

6. Conclusión y desarrollo futuro

La simulación completa del ambiente es un tópico en el cual estramos trabajando aún y al finalizar esta se probará con usuarios no videntes, los cuales darán la validación final del sistema. La metáfora conversacional+rooms provee al usuario la funcionalidad del sistema, y el sonido 3D explota una dimensión auditorial muy importante: la posición en el espacio. De esta manera tratamos de resolver la dificultad presente cuando se navega una interfaz enteramente acústica. Algunos tópicos como íconos auditoriales 3D o la manipulación directa de sonido presenta nuevos desafios en los cuales se esta trabajando actualmente. Una de las posibilidades mas atractivas es la producción de un material autocontenido , presentado en CD-ROM. Con ciertos trade-off relacionados a la manipulación en tiempo real de objetos, el producto final contendría un gran conjunto de íconos auditoriales 3D que producirán la simulación del ambiente tambien como las voces de los diferentes locutores. Es bien conocido que que el precio del hardware para producir sonido 3D en tiempo real esta bajando, pero la opción propuesta requiere sólo una plataforma barata.

7. Referencias

[Alpha 95] Alphatron Userís Manual, Crystal River Engineering Inc., 490 California Ave, Suite 200, Palo Alto, CA 94306, 1994. 

[Arons 91] Arons B., "Hyperspeech: Navigating in speech-only hypermedia",. En Proceedings of Hypertext ë91, pp.133-146. ACM, 1991 

[Arons 94] Arons B., "Interactively Skimming Recorded Speech", MIT Ph. Thesis, Enero 1994 

[Beaudo 94] Beaudouin-Lafon M., Gaver W., "ENO: Synthesizing Structured Sound Spaces" , Proceedings of UIST 94 , pp. 49-57, ACM, Noviembre 1994 

[Blauert 83] Blauert ,J. 1983, Spatial Hearing: the Psychophysics of Human Sound Localization, Cambridge, MA, MIT Press 

[Canter 77] Canter D., The psychology of place, London: Architectural Press, 1977 

[Conklin 87] Conklin J.,"Hypertext: An introduction and Survey", IEEE Computer, September 1987, pp. 17-41 

[Denis 93] Denis M.," Visual Images a Models of Described Environments", en Proceedings of the INSERM-SETAA conference Non-Visual HCI, Paris, March 1993 , pp. 3-12 

[Gehring 90] Gehring B., "Focal Point 3D Sound User's Manual", Gehring Research Corporation, 189 Madison Avenue, Toronto, Ontario, Canada, M5R 2S6 

[Hatwell 93] Hatwell Y.,"Images and non-visual spatial representations in the blind", in Proceedings of the INSERM-SETAA conference Non-Visual HCI, Paris, March 1993 , pp. 13-34 

[Microsoft 91] Microsoft Multimedia Development Kit, Programmer's Reference, 1991

[Muller 92] Muller M., Farrel R., Cebulka K., Smith J., "Issues in the Usability of Time-Varying Multimedia", Multimedia Design, ACM Press, 1992, pp.7-38 

[Mynatt 92] Mynatt E., Edwards W., "The Mercator Environment. A Non Visual Interface to X Window and Unix Workstation". GVU Tech Report GIT GVU-92-05, February 1992. 

[Oppen 89] Oppenheim A.V., Schafer R.W., Discrete-time Signal Processing, Englewood Cliffs, NJ:Prentice Hall [Preece 94] Preece J., Human Computer Interaction, Addisson Wesley, 1994 

[Rayleigh 07] Lord Rayleigh 

[Strutt,J.W.] 1907."On our perception of Sound Direction". Philosophy Magazine, 13 , pp.214-232 

[Stifelman 93] Stifelman L., Arons B., Schmandt C., Hulteen E., "VoiceNotes: A Speech Interface for a Hand-Held Voice Notetaker", en proceeding of INTERCHIÝ93 April 1993, pp.179-186 

[Vander 92] Vanderheiden,G.C 1992, "A white paper on the design of software application programs to increase their accessibilty for people with disabilities". Madison: University of Winsconsin-Madison, Trace R&D Center 

[Weber 93] Weber, G., Kochanek D., Stephanidis C., Homatas G., "Access by blind people to interaction objects in MS Windows", in Proc. ECART 2 European Conference on the Advancement of Rehabilitation Technology , Stockholm, May 1993 , pp.2.2 

[Wenzel 92] Wenzel E.M., "Localization in Virtual Acoustic Displays",. Presence , vol. 1 number 1 ,1992, pp. 80-107 [Wightman 89] Wightman,F.L, Kistler D J, 1989 "Headphone Simulation of Free Field Listening: Stimulus Synthesis", Journal of the acosutical Society of America,85 pp 858-867
 


(Home) (Prefacio) (Programa) (Organizadores) (Charlas) (Papers) (Posters)