Dra Leonor Aronson
Departamento de Implante Coclear de la Fundación Arauz (DICFA)
Perón 2150 PB 1040 Capital, Buenos Aires
laronson@sinfomed.org.ar
Marzo de 2002
ABSTRACT
El estudio central al que se abocan desde hace varios años los
diseñadores de prótesis auditivas implantables, es el de
la transferencia de la información relevante contenida en el habla
Los desarrollos alcanzados y los beneficios obtenidos por los pacientes
con pérdidas profundas de la función auditiva son notables.
El alto desarrollo tecnológico ha permitido, mediante la estimulación
a altas velocidades del tejido neural residual, reproducir la función
coclear normal con una alta resolución en la información
temporal codificada. Pero aún queda mucho por andar y faltan muchas
respuestas para lograr establecer ó reestablecer la comunicación
de los sujetos con pérdidas auditivas sensorineurales mediante
la estimulación eléctrica del nervio auditivo.
Se presentan los puntos relevantes que se toman en cuenta para mejorar
la codificación de las señales acústicas para ser
enviadas a través de una prótesis multicanal. Se hará
mención de los resultados obtenidos en la percepción del
habla en pacientes adultos referentes al número de electrodos activos
y a la frecuencia de repetición del estímulo por canal activo.
El análisis del habla y de las capacidades propias de cada individuo,
permitirán organizar la información relevante contenida
en el mensaje acústico para optimizar la comunicación del
paciente con implante coclear.
Introducción
La función básica de un implante coclear es proveer información
del lenguaje mediante estímulos eléctricos aplicados a la
cóclea.
En los últimos 10 años, los avances tecnológicos
en esta área han sido enormes. El límite de la velocidad
con que actualmente se estimula el tejido neural en una prótesis
coclear, parece estar dado por limitaciones biológicas más
que técnicas. Las estrategias de codificación de la voz
tienden a enviar información a velocidades que permitan una representación
temporal del habla fluida con mínima pérdida de información.
La estimulación eléctrica en zonas específicas de
la cóclea, lograda con los modos bipolares, que en teoría
proveen mejor separación entre canales, se realiza ahora en diversas
prótesis, con estimulación monopolar. Esta permite en la
práctica, sin desmejorar la discriminación del lenguaje,
la utilización de pulsos muy angostos, mayor velocidad de repetición
por canal y menor consumo de baterías.
Las técnicas de calibración de los parámetros eléctricos
del procesador de sonidos de un implante coclear, tienden a refinarse
para tomar en cuenta aspectos fisiológicos de cada paciente. En
suma, se producen cambios muy importantes tendientes a lograr que el procesamiento
de la información provea al paciente implantado, una señal
eléctrica que copie más fielmente la señal del habla.
Se producen cambios en los dispositivos, en las estrategias de codificación
del habla, en los criterios de selección de pacientes y en la información
electrofisiológica que se dispone del paciente.
Actualmente, la investigación está centrada en los siguientes
puntos :
* el mecanismo utilizado para recuperar la carga eléctrica
* el acoplamiento capacitivo versus “electrode shorting”
* la telemetría disponible: impedancia, complianza, respuesta
neural
* las estrategias de codificación de la voz: máximos
espectrales (1),
muestreo continuo no simultáneo (2-3), combinación de
ambos aspectos: número
de máximos “ n of m “ (4).
Blake
Wilson (5) señala que las posibilidades fundamentales de futuro
desarrollo de las estrategias de codificación del habla son :aumento
de la velocidad de estimulación para mejorar la representación
neural de los cambios temporales rápidos del habla; reducción
de la interacción entre canales a través del uso de nuevas
formas de onda; nuevas formas de enviar información de la envolvente
para cada canal, basadas en modelos de compresión no instantánea
a nivel de la sinapsis entre las células ciliadas cocleares y las
neuronas adyacentes;uso de relativamente pocos canales y sus correspondientes
electrodos, con la posibilidad de elegirlos entre todos los activos; uso
de arreglo de electrodos que puedan proveer de múltiples puntos
de estimulación (dentro de una banda crítica); técnicas
refinadas de calibración del procesador del habla, basadas en el
registro de potenciales evocados intracocleares (uso de la respuesta neural
del paciente para la calibración de su procesador de habla).
Los
componentes principales de la transferencia de la información son:
· Sustrato neural: células del ganglio espiral (CGEs) estimulables
y confiabilidad de la interacción electrodo-tejido neural
· Codificación de las CGEs
· Reconocimiento del código: cómo interpreta el sistema
nervioso central los estímulos eléctricos
Los
objetivos de este trabajo son : señalar los elementos esenciales
del análisis del habla sobre los cuales se trabaja hoy en la transferencia
de información vía implante coclear; reseñar la evolución
de las estrategias de codificación de la voz ; mencionar algunos
de los resultados a los que se ha arribado, con participación de
pacientes de este Departamento, en lo que respecta al estudio del número
de canales activos y frecuencia de estimulación por canal.
Análisis
de las señales del habla
Para lograr algún reconocimiento del lenguaje a través de
un implante coclear multicanal , es fundamental estudiar cuáles
son los parámetros básicos del lenguaje que deben ser transmitidos:
cuál es la información que es necesario transmitir a través
de la prótesis y cómo representar esa información
mediante estímulos eléctricos para que puedan ser analizados
optimamente por el sistema auditivo.
En el análisis espectrográfico de palabras aparecen alternadamente
espacios sucesivos de unos 200 – 300 mseg, de consonantes-sordas,
vocales, silencio, consonantes-sonoras. Los espacios que corresponden
a las vocales son intensos, de mucha energía y los de las consonantes
son débiles, poco energéticos. Esta alternancia entre segmentos
fuertes y débiles puede ser identificada por el paciente hipoacúsico
como un patrón rítmico de ayuda. Las regiones entre segmentos
adyacentes, sirven de puente y también ayudan al paciente, porque
esos cambios en el patrón rítmico, dan información
acerca de unidades menores como frases ó palabras en el habla lentificada.
Los segmentos sonoros están caracterizados por componentes de baja
frecuencia, por dabajo de 1 KHz y forma de onda cuasi-periódica,
donde la periodicidad está dada por la frecuencia glótica
(F0). Esta periodicidad ocurre cada 6-12 msg para voces masculinas y 3-6
msg para voces femeninas. La variación de F0 durante la alocución,
contiene información de la actitud del locutor, canto, entonación,
frases. Los segmentos sonoros aparecen en vocales, consonantes nasales
(/m/,/n/), laterales (/l/) y oclusivas sonoras. La información
contenida en las vocales no está dada sólo por sus formantes
sino más bien por la variación de los formantes en el tiempo:
F1(t), F2(t), F3(t) con F1, F2 y F3 significando primer, segundo y tercer
formante respectivamente . Esta variación es especialmente importante
para el reconocimiento de consonantes sordas (6). Para los oyentes normales,
las principales pistas para la identificación de las vocales son
F1 y F2. La ubicación de F3 es importante para algunas vocales
del español. Las pistas secundarias son duración e intensidad.
Los segmentos no sonoros ó sordos, son bien diferentes: la ausencia
de F0 significa forma de onda no periódica y por lo mismo tienen
un aspecto irregular. Casi toda la energía está en las altas
frecuencias, 2-3 KHz. Incluye las consonantes fricativas (/y/, /f/, /ch/)
y porciones de las oclusivas sordas (/p/,/t/,/k/) que aparecen después
de la oclusión.
La sílaba consonante oclusiva-vocal (ejemplo: /pa/), tiene dos
puntos de cambio: uno de silencio-ruido (oclusión de la /p/ y plosión)
y otro de ruido vocal. El intervalo entre esos dos puntos de cambio es
la pista más importante para distinguir oclusivas sonoras de oclusivas
sordas (ejemplo: diferencia entre /pa/ y /ba/). La distinción está
dada por la duración del intervalo de cierre de la consonante,
en la carga de sonoridad del intervalo (contiene F0 la /b/, no contiene
F0 la /p/) y en la energía de la plosión. De acuerdo con
el clásico trabajo de Malmberg (7) la información contenida
en las consonantes oclusivas está en su espectro y en las transiciones
del mismo con el F2 de la vocal adyacente. En este caso, es importante
la dirección de las transiciones formánticas.
El contraste fonético es esencial en cualquier sistema de comunicación
ya que la fonética tiene que ver con la naturaleza de los contrastes
de los sonidos del lenguaje. Los sistemas de implante coclear multicanal
toman en cuenta los contrastes fonéticos y, en la búsqueda
de diferentes estrategias que permitan enviar información, tratan
de organizar las variaciones rápidas de los parámetros del
habla y su representación en la cóclea del paciente. El
sujeto con deficiencias auditivas no puede leer en los labios el contraste
fonético entre /pa/ y /ba/.
En los sistemas de implante multicanal, la información contenida
en los contrastes fonéticos es proporcionada a través del
contenido espectral de la señal. Se pretende que, a través
de la prótesis, el paciente pueda seguir los cambios rápidos
en el espectro de la señal acústica, discrimine cambios
graduales ó rápidos en la amplitud de la señal, diferencie
estímulos de distinta duración y, distinga entre sonidos
que contienen ó no F0. Es decir que el paciente debiera recibir
información de la proyección del mensaje sonoro sobre el
plano frecuencia-tiempo. Esto es precisamente lo que se persigue al estudiar
y analizar las palabras: ver cómo las bandas de frecuencia que
la componen se mueven en el tiempo.
Si el paciente es capaz de extraer información intensidad-tiempo
(envolvente) de la señal con fidelidad, entonces podrá diferenciar
ciertas distinciones en el modo articulatorio.
En lo que respecta a la intensidad, el rango dinámico para el estímulo
eléctrico es menor que para el acústico, pero los umbrales
diferenciales en intensidad son relativamente pequeños. Por eso
es posible, si se consigue un apropiado rango dinámico perceptivo
y una adecuada compresión, lograr producir diferentes niveles de
sonoridad de una forma casi normal. La resolución fina de los cambios
en amplitud de los distintos sonidos del habla usados por diferentes sujetos,
debe caber en el rango dinámico del paciente. En la mayoría
de los sistema multicanal se utiliza una función de compresión
logarítmica de la señal de entrada.
La percepción de la intensidad sonora (sonoridad) depende del número
de fibras activadas y de la frecuencia de repetición con que ocurre
la estimulación. Ambos parámetros son manejables parcialmente
mediante el control de la intensidad del estímulo y por supuesto
mediante la velocidad de repetición del estímulo.
La percepción de la frecuencia en los implantes multicanales, depende
del lugar de la cóclea que se estimula. Así, las variaciones
en función del tiempo de la sonoridad y la altura tonal de la señal
acústica, van a ser la información que será transmitida
a los altos centros auditivos mediante pulsos eléctricos en los
electrodos situados a lo largo de la cóclea.
Estrategias
de codificación de las señales del habla
Estrategia F0F1F2: Presentada en 1985. Por cada “barrido”,
el procesador selecciona 2 electrodos para estimular. Uno es seleccionado
por el valor del primer formante F1 y el otro por el valor de F2. Esto
está diciendo que los formantes van a ser codificados por el lugar
donde se produce el estímulo. La frecuencia glótica decide
cuando el estímulo se repite sobre cada electrodo (frecuencia de
repetición por canal). Para intervalos sonoros la frecuencia de
repetición por canal está dada por F0 (entre 80 y 300 pulsos
por segundo) y para intervalos no sonoros la frecuencia de repetición
por canal se produce al azar, alrededor de 100 pulsos por segundo (pps)
en promedio. El tiempo entre pulsos es de 800µs. El paciente tendrá
una representación F1-F2 de la señal, cada 1/F0 msg. Lo
que está ocurriendo en intervalos menores a 1/F0 msg no le es enviado
y de los picos espectrales de la señal, sólo posee información
de los dos primeros. La señal es analizada hasta 4 KHz. En esta
estrategia no se envía información espectral sino de ciertos
parámetros del habla, la frecuencia glótica y los dos primeros
formantes, los que se consideró, en el año 1985, con las
herramientas de que se disponía, los más importantes para
la transmisión de la información. Los resultados de tests
del habla aplicados a pacientes con este tipo de estrategia, mostró
que la discriminación de palabras era de aproximadamente 63% (8).
Estrategia MPEAK(Multiple Peaks): Suma a la estrategia
anterior, 3 bandas de alta frecuencia, lo que extiende el rango de análisis
hasta los 6KHz. Por cada barrido el procesador selecciona 4 electrodos
para estimular. Como se mantiene la frecuencia de repetición sobre
cada electrodo en el valor de F0, el tiempo entre estímulos de
electrodos sucesivos es menor. La representación de la señal
ofrece ahora 4 picos espectrales. Las consonantes que contienen alta frecuencia
son mejor percibidas en esta estrategia, pero los movimientos temporales
de los parámetros del habla se perciben de igual forma que en la
estrategia mencionada anteriormente. Debido al mayor número de
parámetros que se extraen de la señal entrante, se obtienen
mejoras en los porcentajes de reconocimiento del habla; la introducción
de información de alta frecuencia en el procesado de la señal
se refleja en un aumento en la discriminación de consonantes. Fue
presentada en el año 1990 (9).
Estrategia SPEAK (Spectral Peaks): En esta estrategia,
se mide continuamente la energía en cada una de las 20 bandas de
frecuencia que determinan 20 filtros programables. El rango de análisis
de la frecuencia de la señal entrante se extiende hasta 10 KHz.
Se seleccionan las bandas de mayor energía correspondientes a los
máximos espectrales y se estimulan los electrodos asociados a cada
banda, hasta un máximo de 10. La velocidad de repetición
sobre cada electrodo se adapta a las características espectrales
de la señal de entrada. Una señal de entrada de banda ancha,
produce muchos máximos y una de banda estrecha, produce pocos máximos.
Así la poca información espacial de las señales poco
energéticas (pocos electrodos estimulados) se compensa con una
mayor velocidad de estimulación. Para sonidos sonoros, hay muchos
electrodos estimulados a baja frecuencia de repetición y para sonidos
sordos hay pocos electrodos estimulados a altas frecuencias de repetición.
La frecuencia de repetición se encuentra en el rango de 180-300
pps pero se estimulan más electrodos por barrido (6 en promedio,
máximo 10). La estrategia SPECTRA pone de manifiesto que es necesario
una descripción del espectro relativamente rica para que puedan
obtenerse niveles muy altos de percepción del habla y de sonidos
no-verbales.
Los pacientes que utilizan esta estrategia (10), aumentan notablemente
los porcentajes de aciertos en los diferentes tests que se realizan. En
la representación de la señal en la cóclea, el espectro
de la señal queda “ dibujado” debido a que no se estimula
un electrodo por formante sino varios electrodos adyacentes. El aumento
en la información que se envía conduce a una mejor comprensión
de las variaciones rápidas del habla. Las transiciones entre formantes
producidas en diptongos están mejor representadas. En esta estrategia
donde el número de máximos está determinado por la
energía de la señal, el nivel de voz del locutor puede jugar
un papel muy determinante en la discriminación del paciente.
Estrategia
CA (Compressed Analog). Esta estrategia se utiliza desde el año
1980 aproximadamente. Fue utilizada por Eddington (11) con mucho éxito
en los primeros sistemas de implante multicanal. Actualmente lo utiliza
el dispositivo Clarion en sus estrategias de estimulación analógica
simultánea. Existe un filtro por cada electrodo activo. La corriente
enviada a cada electrodo deriva de la señal analógica a
la salida de cada filtro.
Estrategia
CIS (Continuous Interleaved Sampling). Se estimulan todos los
electrodos (2-3) secuencialmente produciéndose un muestreo continuo
de la señal de entrada y una alta velocidad de repetición
por canal. Cada filtro está asociado a un electrodo y por lo tanto
hay el mismo número de filtros que de electrodos activos. El número
de electrodos y la frecuencia de estimulación por canal depende
del sistema de que se trate: en el sistema Med El Combi 40+ se estimulan
hasta 12 electrodos con una frecuencia de repetición de 1515 pps
por canal (pps/ch) generando un total de 18000 pps para todo el arreglo
de electrodos; en el sistema Nucleus 24 es posible estimular 8, 10 ó
12 electrodos a una frecuencia de estimulación por canal desde
900 hasta 1800 pps/ch teniendo un máximo de 14700 pps para todo
el arreglo de electrodos que se activen. Las amplitudes de los pulsos
enviados a cada electrodo derivan de las envolventes a la salida de cada
uno de los filtros pasabanda. De este modo, las variaciones en las bandas
acústicas de la señal del habla están continuamente
representadas sin extracción de ningún rasgo ó pista
de la señal. El análisis de rasgos del habla indican que
la nasalidad, fricación, lugar y envolvente son mejor transmitidos
por la estrategia CIS (12). Una variación de la CIS implementada
por el sistema Clarion es la estrategia PPS (Paired Pulsatile Sampler).
Se estimulan simultaneamente dos electrodos con la consiguiente duplicación
de la frecuencia de estimulación (Clarion S-Series, Advance Bionics,
CA 1997).
Estrategia
n of m (número de máximos) y ACE (Advance Combined Encoding).
La estrategia “n of m” (número de máximos) está
implementada en el sistema Med-El. La señal se filtra en “n”
bandas de “m” posibles (4). El procesador selecciona de las
m posibles, las n de mayor energía y por lo tanto serán
estimulados en cada barrido “n” electrodos. Estos electrodos
no son los mismos en cada barrido, sino que serán seleccionados
de acuerdo a las características espectrales de la señal
entrante. La estrategia ACE (Advance Combined Encoding) implementada en
el N24 esta basada en el mismo criterio ,, con la diferencia de que se
dispone de más electrodos entre los cuales pueden ser seleccionados
los máximos. La velocidad de repetición por canal, para
ambos sistemas, dependerá del número “n” de
canales elegidos para ser activados. En ambas estrategias se combina la
extracción de características del habla (máximos
del espectro) con la representación de la forma de onda.
Efecto
del número de canales diferenciales
De acuerdo a las experiencias realizadas con vocoder de canales, que determinaron
que 10 era el número de canales mínimo necesario para transmitir
voz inteligible, se espera que suceda lo mismo con el implante coclear.
El paciente debería tener así 10 umbrales diferenciales
de frecuencia en la zona de transmisión de la información
de las señales del habla. Se entiende por canal diferencial en
frecuencia, la mínima distancia entre electrodos que produce percepción
discriminada de la frecuencia. Es decir: si estimulando los electrodos
10 y 9 el paciente no percibe diferencias de “pitch” pero
sí la percibe entre el 10 y el 8, entre esos dos electrodos 10
y 8 se considera que hay un canal diferencial de frecuencia. Los umbrales
diferenciales de frecuencia para estímulos acústicos son
del orden de 1/6-1/3 de octava. Los umbrales diferenciales experimentales
para estímulos eléctricos varían entre 8 y 10 %.
En general, las mediciones psicoacústicas de la resolución
temporal y resolución frecuencial están relacionadas con
la comprensión del habla. Los pacientes con pobre resolución
temporal y umbral diferencial temporal elevado, evidencian poca comprensión
del habla. Por el contrario, buena resolución temporal puede ó
no dar buena discriminación.
Efecto
del número de electrodo activos
El número de electrodos activos afectará la resolución
en frecuencias del paciente. El rango en frecuencia de la señal
a ser transmitida va a repartirse entre los electrodos activos. Un mayor
número de electrodos activos va a significar mayor resolución
en frecuencia y por lo tanto los mecanismos de tonotopicidad de la cóclea
quedarán mejor preservados. Pero como en definitiva la codificación
de la frecuencia va a depender muy fuertemente del número de neuronas
residuales, el aumento del número de electrodos activos puede no
significar mejoras en la percepción para todos los pacientes. Deberá
tomarse en consideración cuál es el número óptimo
de electrodos para cada paciente y consecuentemente cuál es la
frecuencia de estimulación por canal que se adecua a las condiciones
particulares de cada individuo. En 8 pacientes adultos que utilizan la
estrategia CIS, se midió (13) el efecto producido en la percepción
del habla cuando se reduce el número de electrodos activos, en
dos condiciones: en una primera serie de mediciones, manteniendo la frecuencia
de repetición por canal en un valor fijo de 1515 pps por canal
y en una segunda serie, aumentando la frecuencia de repetición
por canal (manteniendo fijo la frecuencia de repetición completa).
La figura 1 muestra el resultado del test de identificación de
consonantes en contexto vocálico /VCV/ con V= /a/ para pacientes
usando el sistema COMBI 40+. Los cuadrados representan los resultados
de la medición en la que la frecuencia de repetición por
canal se incrementa (frci) a medida que se reduce el número de
electrodos activos y los círculos representan los valores obtenidos
cuando al disminuir el número de canales activos, se mantiene la
frecuencia de repetición por canal constante (frcc) en 1515 pps
por canal. En las ordenadas se representan el número de electrodos
activos y la frecuencia de repetición por canal que se incrementa
y en las abscisas se encuentran los porcentajes de discriminación.
La figura 2 representa los resultados obtenidos al medir las transiciones
vocálicas en los mismos pacientes bajo las mismas condiciones.
Con este sistema los resultados para 3 y 4 electrodos activos en la condición
frcc parecen ser mejores que para la condición frci; para 5 a 12
electrodos activos, los resultados son mejores para la condición
frci. Esto podría deberse al hecho de que estos pacientes no se
estarían beneficiando con la velocidad de estimulación muy
alta. Los resultados para la condición frci alcanzan el máximo
valor para 9 electrodos activos; electrodos adicionales no parecen ser
de ayuda, indicando quizá que los pacientes no están usando
la información espectral completa provista por el sistema. Es interesante
notar que con sólo 3 electrodos para ambas condiciones de estimulación,,
los pacientes alcanzaron altos porcentajes de respuestas correctas en
la identificación de consonantes, a pesar de la complejidad del
test. Esto podría demostrar que la utilización de sólo
pistas temporales podría ser suficiente para la identificación
de las consonantes (14).
Quizá una de las ventajas más grandes de la alta velocidad
de estimulación es la influencia que ejerce en la percepción
de transiciones vocálicas. Con sólo 3 electrodos activos,
los pacientes alcanzan muy altos porcentajes de respuestas correctas para
ambas condiciones. Los resultados en la condición frci son ligeramente
mejores que los frcc. Electrodos adicionales por arriba de 8-9, no producen
mejoras en los resultados obtenidos.
La información espectral parecería ser útil hasta
8 electrodos y las pistas temporales parecen ser muy útiles cuando
están activados muy pocos electrodos. Canales adicionales por arriba
de 8 electrodos parecen no contribuir a brindar información espectral
de la señal entrante. Para todos los tests, se observan mejoras
en el rendimiento cuando el número de electrodos activos aumenta
de 3 a 8 pero por arriba de 8 electrodos no se observa un aumento significativo
en los porcentajes de respuestas correctas. Este resultado coincide con
el observado por Dorman (12) y Brill (14). Las observaciones parecerían
indicar que los pacientes no utilizan la información espectral
completa provista por el sistema C40+ quizá debido a varias limitaciones
individuales tales como población neuronal superviviente y experiencias
personales, entre otras.

Figura
1. Porcentajes de respuestas correctas para /VCV/ en función del
número de electrodos activos
para frci y para frcc para el sistema C40+ . Valores medios y desviación
standard con N = 4.

Figura 2. Porcentajes de respuestas correctas para transiciones vocálicas
en función del número de
electrodos activos para frci y para frcc . Valores medios y desviación
standard con N = 4.
En
general, la información relacionada con el “place”
cae mucho cuando se reduce el número de electrodos activos; la
información relacionada con la envolvente se mantiene cuando el
número de electrodos activos se reduce; la relacionada con el “voicing”,
la nasalidad y la fricación se mantienen aún con muy pocos
electrodos activos.
Efecto
de la frecuencia de repetición por canal (FR/ch)
La frecuencia de repetición por canal se define como el número
de pulsos por segundo sobre cada electrodo. Elevadas frecuencias de repetición
por canal significan una mejor representación de las variaciones
temporales finas contenidas en la señal del habla. Sin embargo,
no siempre resulta que la máxima frecuencia de repetición
por canal provista por un sistema es la óptima para todos los pacientes.
Variaciones en las características individuales como resto neuronal,
patología, antigüedad de la sordera, podrían influir
en el valor de la óptima FR/ch para cada individuo.
Resultados interesantes al respecto se obtuvieron en numerosos trabajos
tales como el realizado por Wilson y colaboradores (15). En un trabajo
realizado en sujetos utilizando la estrategia SPEAK a 250, 800 y 1600
pps, Vandali (16) demostró que los pacientes, en términos
generales, respondían significativamente peor a medida que aumentaban
las frecuencias de estimulación por canal. Asimismo observó
importantes diferencias inter-sujeto. Para algunos de ellos, la alta frecuencia
resultaba beneficiosa mientras que para otros, era mejor la baja frecuencia
de estimulación.
En un trabajo realizado en 12 pacientes adultos calibrados con estrategia
CIS se estudió la influencia de la frecuencia de repetición
por canal sobre la percepción del habla (17). Se observó
que para todos los pacientes y todos los tests administrados, los porcentajes
de aciertos decrecen al disminuir la frecuencia de repetición del
estímulo, indicando la influencia de este parámetro en la
percepción. Esta influencia parece estar relacionada con el tipo
de test administrado. La figura 3 permite ver los porcentajes de aciertos
obtenidos en pacientes a los que se les suministró el test de identificación
de consonantes en contexto vocálico /VCV/ en función de
la frecuencia de repetición por canal, la que se varió desde
1515 hasta 200 pps/ch. La figura 4 muestra el mismo tipo de estudio donde
los pacientes fueron expuestos a tests de identificación de transiciones
formánticas de vocales. La figura 5 ilustra la influencia de la
FR/ch en la velocidad de comunicación (habla fluida) medida en
palabras por minuto (ppm).

Figura 3. Identificación de consonantes en función
de la FR/ch. Valor medio para
8 pacientes.

Figura
4. Idem para identificación de transiciones vocálicas en
función de la FRC.

Figura
5. Idem para la velocidad de comunicación medida en ppm en función
de la FR/ch.
Discusión
y Conclusiones
La cóclea actúa como un analizador de espectros: descompone
los sonidos complejos en sus componentes espectrales. Actualmente, los
sistemas de implante multicanal abordan la modalidad de trasmisión
de la información del habla reproduciendo lo más fielmente
posible el comportamiento coclear normal, a través de la codificación
de las señales acústicas. Las técnicas de procesamiento
de señales apuntan a copiar el comportamiento de una cóclea
sana.
Respecto a la codificación de los estímulos auditivos, es
necesario recordar que los espectros de los fonemas cambian con el tiempo
y que la máxima información está en las transiciones
que sufren esos espectros y no en sus estados estacionarios, los que sólo
proveen información redundante (18).
La trayectoria de los formantes, como se mencionó, da información
acerca de sonidos continuos ó transicionales tales como vocales
ó consonantes plosivas y movimientos temporales del habla fluida
en general.
Para poder transportar las características de la voz, los formantes
altos y las componentes de alta frecuencia de las consonantes, es necesario
trasmitir en un rango de frecuencias entre 0.1 y 8 KHz.
Clark (19) señala que para comprender cómo mejorar el procesamiento
de las señales, es útil pensar que un implante coclear es
un “cuello de botella neural” que restringe el flujo de la
información acústica al cerebro. Para mejorar la recepción
del habla y lograr sonidos de alta fidelidad es necesario, según
Clark, seleccionar las mejores características del habla para pasarlas
a través del “cuello de botella”, presentar la información
a altas velocidades y reproducir la codificación del sonido más
efectivamente. Propone lograr lo mencionado en primer lugar mediante la
técnica de optimización del rango dinámico (ADRO,
Adaptive Dynamic Range Optimizacion) y el énfasis de las transiciones
formánticas (20). Con esta técnica, basicamente, un algoritmo
matemático ajusta los niveles de corriente con que van a ser estimulados
cada uno de los electrodos activos de acuerdo a la señal entrante
en cada banda, actuando de modo diferente a como lo hace un AGC. Como
resultado de la acción del AGC, cuando la señal entrante
contiene ruido, el rango de intensidad de la estimulación eléctrica
se reduce para todas las frecuencias; la técnica ADRO reduce la
compresión en las zonas correspondientes a las frecuencias del
habla y permite un mayor rango de estimulación eléctrica.
Es decir, ajusta el rango dinámico para cada banda de la señal
entrante, al rango dinámico de cada electrodo.
En lo que respecta a las transiciones formánticas, la propuesta
que sugiere Vandali (21) es enfatizar las amplitud de la transición
formántica para las vocales, utilizando el procesador TESM (Transient
Emphasis Speech Processor).
Referente
a la codificación más efectiva del sonido, la propuesta
de los investigadores es la de lograr mejor reproducción de la
codificación de las frecuencias mediante la producción de
patrones de respuestas temporo-espaciales finos en grupos pequeños
de fibras neuronales (22).
En lo que respecta al mecanismo de procesamiento de la información,
es bueno recordar que muchos pacientes pueden tener el mismo procesador
del habla, pero muy diferente mecanismo de procesamiento de la información
que reciben. Existen importantes diferencias individuales en la habilidad
para procesar la información. Puede ocurrir que el brindar información
adicional signifique proveer de elementos que interfieran en la percepción
del habla. Cada paciente tiene su propia capacidad de canal que puede
no permitirle utilizar la ventajas de ciertos sistema de estimulación
muy rápida: cada paciente tiene su propio sistema de canales diferenciales
en intensidad, frecuencia y tiempo. El procesador propio de cada paciente,
o sea su propio procesador central, puede no ser capaz de usar la información
contenida en los fonemas o entre sus transiciones como para procesarla
en tiempo real.
Puesto que los sistemas de implante posibilitan, actualmente, elegir entre
un amplio rango de frecuencias de estimulación por canal, una correcta
actitud clínica podría ser que el paciente experimente diferentes
condiciones de estimulación en lo que a FR/ch respecta, para poder
determinar en forma individual la mejor condición posible.
La elección del óptimo número de canales para cada
individuo, así como la determinación de qué canales
son los más adecuados para ser estimulados cuando se le ofrece
al paciente estrategias CIS de diferente número de canales activos,
parecen ser de relevancia para optimizar la calidad de la percepción.
Sabemos que en los tests de habilidad auditiva administrados a pacientes
con prótesis multicanal, independiente del idioma del paciente,
se observan grandes diferencias entre los resultados obtenidos. Los factores
que producen estas diferencias están en la cantidad de neuronas
supervivientes como así también en la localización
de las mismas, en la ubicación y número de electrodos implantados,
en la permeabilidad del las vías auditivas y en diferencias individuales
en el desarrollo de los procesos cognitivos (22).
La posibilidad de realizar ajustes individuales utilizando elementos “fisiológicos”
de cada paciente, como su respuesta neural y los valores telemétricos
que puedan obtenerse, debe usarse en forma muy cuidadosa, detallada y
sistemática.
Pero quizá antes de usar esos lujos tecnológicos, la principal
ocupación de los que trabajan para optimizar los beneficios de
las prótesis multicanal debiera ser investigar las características
particulares de percepción de cada paciente, o más bien
su capacidad de discriminar elementos del habla, para luego adaptar las
características del respectivo implante a las específicas
condiciones del paciente.
REFERENCIAS
1.
Seligman P, Mc Dermott H. Architecture of the Spectra 22 speech processor.
Annals of Otology, Rhinology and Laryngology 1994; Suppl 2, Vol 15: 15-27.
2. Wilson BS, Lawson DT, Zerbi M, & Finley CC, Recent Development
with the CIS strategies. In Hochmair – Desoyer IJ, Hochmair ES,
eds. Advances in Cochlear Implants. Vienna: Manz, 1994:103-112.
3. Wilson BS, Lawson DT, Finley CC & Wolford RD. New processing strategies
in cochlear implantation. American Journal of Otology 1995; 16: 669-675.
4. Wilson BS , Finley C et al. Comparative studies of speech processing
strategies for cochlear implants. Laryngoscope 1988; 98: 1069-1077.
5. Wilson BS , Finley CC, Lawson Dt & Zerbi M. Temporal representations
with cochlear implants. The American Journal of Otology 1997; 18 S30-S34.
6. Borden G, Harris K y Raphael L. Speech Science Primer: Physiology Acoustics
and Perception of Speech. Baltimore, Maryland: Williams and Wilkins, 1994
7. Malmberg B. La Fonética. 1954.
8. Tye-Murray, Lowder M, Tyler R. Comparison of the F0/F2 and the F0/F1/F2
processing sytrategies for the Cochlear Corporation Implant. Ear and Hearing
1990; 11: 195-200
9. Patrick J, Seligman P, Money D, Kuzma J. Engineering in Cochlear Prostheses.
Edit: Clark G Tong Y , Patrick J. Edinburgh: Churchill Livingstone 1990:
99-124.
10. McDermott HJ, McKay CM & Vandali AE. A new portable sound processor
for The University of Melbourne/Nucleus Limited multielectrode cochlear
implant. Journal of the Acoustical Society of America 1992, 91:3367-3371.
11. Eddington DK. Speech discrimination in deaf subjects with cochlear
implants. Journal Acoustical Society of America 1980; 68:885-891.
12. Dorman MF. Cochlear Implants. Audiological Foundations. RS Tyler Editor.
Singular Publishing 1993.
13. Aronson L, Cansler A y Alietti M. Percepción del habla variando
el número de electrodos activos y la velocidad de estimulación
por canal en pacientes con prótesis coclear con estrategia CIS.
Otolaringológica 2000, XXII: 21-29.
14. Brill S, Gstöttner W, Helms J, Ilberg C, Baumgartner W, Müller
J & KieFER J. Optimization of Electrode Number and Stimulation Rate
for the Fast Continuous Interleaved Sampling Strategy in the COMBI 40+.
The American Journal of Otology 1997; 18:S104-S106.
15. Wilson BS, Lawson D & Zerbi M. Advances in coding strategies for
cochlear implants. Advances in Otolaryngology. Head and Neck Surgery 1995,
Vol 9: 105-129.
16. Vandali A E, Whitford LA , Olant KL , Clark GM. Speech perception
as a function of electrical stimulation rate: using the Nucleus 24 cochlear
implant system. Ear and Hearing 2000, 21: 608-624.
17. Aronson L, Pallares N. Efectos de la frecuencia de estimulación
en la percepción del habla en pacientes con prótesis coclear
con estrategia CIS. Otolaringológica 2000, XXIII: 37-43.
18. Dowel R, Selligman P, Blamey P & Clark G. Evaluation of a two-formant
speech processig strategy for a multichannel cochlear prosthesis. Anals
of Otology, Rhinology and Laryngology 1987, Vol 96 (Suppl 128): 132-134
19. Clark G. Cochlear implants: climbing new mountains. The Graham Frase
Memorial Lecture 2001. Cochlear Implants International 2001, 2(2):75-97.
20. Clark GM , Carte TD, Maffi CL,Shepherde RK. Temporal coding of frequency:
neuron firing probabilities for acoustic and electric stimulation of the
auditory nerve. Annals of Otology, Rhinology and Laryngology 1995. Suppl
166: 109-111.
21. Vandali. Emphasis of short-duration acoustic speech cues for cochlear
implant users. Journal of Acoustical Society of America 2001, 109: 2049-2061.
22. Wilson BS. The future of cochlear implants. British Journal of Audiology
1997, 31: 205-225.
Sitios
en Internet consultados
www.bionics.com
www.cochlear.com
www.medel.com
www.rti.org/capr
|