• Inteligibilidad y su medición, predicción y mejora. STI

    La inteligibilidad es esencial para la comunicación. En este artículo describiremos en detalle los diferentes aspectos que afectan a la inteligibilidad, la forma de medirla así como medidas para mejorarla.

    1. ¿Que es la inteligibilidad?

    La “inteligibilidad” es la cualidad de ser entendido. Esto puede aplicarse a una idea o un escrito, pero en nuestro contexto hace relación al habla y, menos habitualmente, a la música.

    Aunque a los profesionales del audio les preocupa que la inteligibilidad de los sistemas que venden o alquilan no sea un problema en las aplicaciones y lugares en los que se utilizan, es un concepto que se podía aplicar a una fuente de sonido sin amplificar. Por ejemplo, en las escaleras de un edificio de 20 pisos será difícil que dos personas se entiendan, aunque hablen a voz en grito, si están separados por muchos pisos. O, si un párroco decide dar misa sin amplificación en un día de poca asistencia en una reverberante catedral católica, será difícil que las personas puedan entender el sermón desde los bancos más alejados incluso si el sacerdote cuenta con una voz poderosa. Igualmente, nos costará trabajo hacernos entender en la calle por encima del estruendo de una taladradora neumática o una manifestación concurrida (incluso con el Efecto Lombard EL), y apenas alcanzaremos a descifrar que pieza está tocando un músico callejero en esas mismas condiciones.

    Aunque la inteligibilidad puede depender de la calidad de un sistema de sonido, el ruido ambiente o la reverberación, también resulta afectada por la inteligibilidad de la propia palabra. Por ejemplo, un hablante con mala dicción, un acento diferente, una voz apagada o un discurso demasiado rápido puede ser difícil de entender en cualquier situación. Asimismo, no todos los idiomas son igualmente inteligibles y los oyentes pueden no ser hablantes nativos con diferentes niveles de comprensión oral. De igual manera, unas palabras sencillas en un contexto familiar serán más fáciles de entender. (Cuando hay hambre en casa, todo el mundo entiende el "¡A comer!"...)

    2. ¿Me s’entiende?
    Formas de medición de la inteligibilidad: objetiva y subjetiva

    Normalmente, la inteligibilidad es importante, particularmente si es del habla; al fin y al cabo, para eso se habla o se reproduce un mensaje grabado (¡aunque a veces preferíamos que un discurso aburrido e innecesariamente largo se perdiera entre el eco de la sala!). En ciertas aplicaciones, esa importancia puede significar incluso la diferencia entre la vida y la muerte, como en el caso de los sistemas de evacuación por voz.

    Por ello se intenta cuantificar el grado de inteligibilidad, lo cual puede hacerse de forma subjetiva u objetiva.

    2.1 Medición subjetiva

    En este primer caso podríamos preguntar a la audiencia si todo el mundo entiende. De forma más científica, lo que se suele hacer es utilizar listas de sílabas o palabras específicamente diseñadas para el propósito con un equilibrio fonético. Las palabras pueden situarse dentro de una frase que aporte un contexto que facilite entenderlas, o bien ser pronunciadas o reproducidas una a una. Un grupo de personas realizan un examen en el que, o bien seleccionan cada palabra de una lista de ellas, o bien deben escribirla. Para que estas pruebas sean estadísticamente válidas las listas deben contener las suficientes palabras (un mínimo de 50), y es imprescindible que se lleven que se lleven a cabo con el número suficiente de personas (con audición comprobada), sesiones y (si procede) lugares.

    2.2 Medición objetiva

    Las personas somos poco fiables en lo subjetivo, ya que dependemos de muchas variables como nuestro estado de ánimo, así que las pruebas subjetivas de inteligibilidad son caras y laboriosas para lograr un resultado fidedigno.

    Por ello existen diferentes métodos objetivos de medición (o, más bien de predicción, puesto que la inteligibilidad no se mide directamente) de la inteligibilidad del habla.

    %ALC (%Alcons)
    Dentro de una palabra o una sílaba, las consonantes desempeñan un papel más importante de cara a la compresión del habla que las vocales, particularmente en las lenguas no tonales como el español (en el chino, por ejemplo, una lengua tonal, las inflexiones tonales son un elemento lingüístico adicional que ayuda a la inteligibilidad). Curiosamente, además, cuando tenemos que hacernos entender por encima del ruido ambiente e intentamos gritar, los resultados no suelen ser los esperados, y esto se debe en gran medida a que, así como podemos gritar una vocal, resulta difícil pronunciar la mayor parte de las consonantes a un volumen elevado (¡pruebe a gritar la letra 't'!).

    De esta importancia de las consonantes nace en 1971 de la mano de Victor Peutz uno de los primeros indicadores que se usaron para la inteligibilidad del habla, el %Alcons, acrónimo de Articulation Loss of Consonants, que trata de traducir a disminución en la percepción de las consonantes la inteligibilidad de una sala calculada en base bien a la medición de los niveles de sonido directo y reflejado, o bien en base a los parámetros principalmente arquitectónicos de la sala. La fórmula en este último caso es:

    200 D² T² (n+1)
    %Alcons = ————————————— + K
    Q V M


    Donde:
    D = distancia entre el oyente y la fuente de sonido
    T = tiempo de reverberación (RT60) en segundos para 1400 Hz
    K = corrección de hablante/oyente (entre un 1% para buenos hablantes/oyentes hasta un 15% para malas
    condiciones)
    Q = factor de directividad del altavoz (o hablante)
    n = el número de altavoces
    V = volumen de la sala en m³
    M = coeficiente de absorción del área cubierta por los altavoces

    (la fórmula original de Peutz era algo más sencilla, sin los parámetros M y n)


    Puede verse que los parámetros más importantes (puesto que están elevados al cuadrado en la fórmula) son la distancia (D) entre la persona y la fuente así como el tiempo de reverberación (T), y como parámetros secundarios el número y directividad de los altavoces,

    Existen también fórmulas más complejas para el cálculo del %ALC en base a las mediciones de niveles de sonido directo, sonido reflejado y ruido ambiente de un analizador.

    Se considera que un %ALC por encima del 15% es inaceptable, aceptable para mensajes poco complejos de 15% a 10%, bueno entre 10% y 5%, y excelente por debajo de esto.

    El %ALC ha caído mayormente en desuso, en parte porque se calcula solamente para una frecuencia.


    STI

    Un elemento que encontraremos en común entre las técnicas posteriores de medición objetiva es que se evalúan separadamente las diferentes bandas de frecuencia y se da más peso (importancia) en la nota final general a aquellas cuya contribución a la inteligibilidad de la palabra es mayor. Por ejemplo, la octava de 2k Hz es la más importante, y supone más del 30% de la inteligibilidad, y será la que más cuente. Asimismo, entre las bandas de 1000, 2000 Hz y 4000 Hz se dirime más del 75% de la inteligibilidad del habla. En el gráfico siguiente se muestra la contribución a la inteligibilidad para las diferentes bandas de octava.

    Contribución a la inteligibilidad por bandas de octava


    En el caso del STI (siglas de Speech Transmission Index o, en español, Índice de Transmisión del Habla), desarrollado a principios de los años 70 por los holandeses Tammo Houtgast y Herman Steeneken, y basado en bandas de octava de ruido rosa moduladas de amplitud (es decir, el volumen sube y baja como en un efecto de trémolo) a diferentes velocidades (basadas en las inflexiones de volumen del habla real) y que predice la inteligibilidad de la palabra hablada transmitida por un sistema que se sitúa entre la persona que habla y la que escucha, y cuyos valores oscilan entre 0 (completamente ininteligible) y 1 (completamente inteligible). El STI utiliza 14 velocidades (frecuencias) de modulación (de 0,63 a 12,5 Hz) del nivel de las bandas de octavas entre 125 y 8k Hz (por tanto, 7 bandas), aplicándose pesos diferentes a cada una de las bandas. La reducción en la profundidad de modulación (causada principalmente por reverberación y ruido) se asocia a pérdida de inteligibilidad; viene a ser algo parecido a medir el margen dinámico de la señal recogida por el micrófono (en cierta manera buscamos medir el nivel en los silencios de la señal de prueba).


    Algo parecido podemos ver en este vídeo en el que se reproduce primero una octava de ruido centrada en 1000 Hz que es modulada en amplitud a 1 ciclo por segundo y luego esta misma señal pulsante con reverberación añadida, de forma que se reduce audible y visiblemente la relación de nivel máximo a nivel mínimo.


    Si tenemos que modular 7 bandas diferentes de ruido a 14 velocidades diferentes, el resultado son 98 pruebas diferentes para obtener otros tantos Índices de Transmisión (TI, Transmission Index), que vienen a ser relaciones entre la señal y el ruido (siendo éste ruido propiamente dicho o bien cualquiera otra cosa que no sea la señal original, como reverberación, ecos o distorsión). Luego se calcula la media de los índices de transmisión para las diferentes velocidades de modulación de cada banda, lo que da lugar al Índice de transferencia de modulación (MTI, Modulation Transfer Index) para cada una de las 7 bandas. Después se combinan estos MTI de cada banda en un único valor STI, para cuyo cálculo las diferentes bandas de octava reciben diferentes pesos en función de su contribución a la inteligibilidad del habla. Por ejemplo, la banda de octava centrada en 2000 Hz es la que tiene mayor peso, puesto que la importancia de los 2k es mayor que el resto de las bandas con respecto a la inteligibilidad del habla.

    Cuando las diferentes bandas de octava y velocidades de modulación se aplican de forma completa secuencialmente (para un cálculo directo), la duración de la prueba es de alrededor de 15 minutos, aunque, bajo ciertos supuestos, se admite un cálculo indirecto (que se ha convertido en el método habitual y sobre el que hablaremos más adelante) a partir de una respuesta al impulso, en cuyo caso puede obtenerse un resultado en pocos segundos. En ambos casos, en presencia de ruido fluctuante las pruebas se han de realizar un mínimo de 3 veces.

    Hasta finales de la década de los 80 no comenzaría a despegar el uso del STI tras la definición de un método acelerado de medida, el RaSTI, la aparición en 1985 del primer sistema comercial de medición (de Brüel & Kjaer) y la publicación de métodos de medida estandarizados en la norma IEC 60268-16 (Objective rating of speech intelligibility by speech transmission index) en 1988 (también en su traducción como norma española UNE-EN 60268-16, "Evaluación objetiva de la inteligibilidad del habla mediante el índice de transmisión del habla").

    El algoritmo de cálculo que se especifica en la referida norma ha ido cambiando con las sucesivas ediciones. Además, la edición de 1998 añadió una diferenciación entre habla femenina y masculina que no existía originalmente, aunque fue eliminada en la edición de 2020.

    A diferencia del %ALC, el STI es mejor cuanto más alto sea el valor. Así, podemos establecer esta escala de inteligibilidad en función de los valores de STI para hablantes nativos y oyentes sin problemas de audición o comprensión.

    Cualificación de inteligibilidad para oyentes nativos
    Horquilla de STI
    Inteligibilidad según IEC 60268-16
    Inteligibilidad de sílabas en %
    Inteligibilidad de palabras en % Inteligibilidad de frases en %
    0–0,3 Mala 0–34 0–67 0–89
    0,3–0,45 Pobre 34–48 67–78 89–92
    0,45–0,6 Aceptable 48–67 78–87 92–95
    0,6–0,75 Buena 67–90 87–94 95–96
    0,75–1 Excelente 90–96 94–96 94–100


    La cuarta edición (2011) de la norma IEC 60268-16 establece una clasificación alfabética que va desde "U" hasta "A+":

    Bandas de cualificación del STI y aplicaciones típicas
    Categoría
    Valor nominal de STI
    Tipo de información del mensaje
    Ejemplos de uso típico
    (para voz natural o grabada)
    Comentario
    A+ >0,76 Estudios de grabación Inteligibilidad excelente para raramente conseguible en entornos habituales
    A 0,74 Mensajes complejos, palabras no familiares Teatros, auditorios para palabra, juzgados, sistema de escucha asistida Alta inteligibilidad de palabra
    B 0,7 Mensajes complejos, palabras no familiares Teatros, auditorios para palabra, juzgados, sistema de escucha asistida Alta inteligibilidad de palabra
    C 0,66 Mensajes complejos, palabras no familiares Teatros, auditorios para palabra, teleconferencia, parlamentos, juzgados Alta inteligibilidad de palabra
    D 0,62 Mensajes complejos, palabras familiares Auditorios, aulas, salas de concierto Buena inteligibilidad de palabra
    E 0,58 Mensajes complejos, contexto familiar Salas de concierto, iglesias modernas Sistemas de refuerzo sonoro de alta calidad
    F 0,54 Mensajes complejos, contexto familiar Sistemas de avisos en centros comerciales, oficinas de edificios públicos, sistemas de evacuación por voz, catedrales Sistemas de refuerzo sonoro de buena calidad
    G 0,5 Mensajes complejos, contexto familiar Centros comerciales, oficinas de edificios públicos, sistemas de evacuación por voz Valor buscado para sistemas de evacuación por voz
    H 0,46 Mensajes sencillos, palabras familiares Sistemas de evacuación y avisos en entornos acústicos difíciles Límite inferior normal para sistemas de evacuación por voz
    I 0,42 Mensajes sencillos, contexto familiar Sistemas de evacuación y avisos espacios muy difíciles
    J 0,38
    U <0,36

    Nota 1: Estos valores deben considerarse valores mínimos deseables.
    Nota 2: La inteligibilidad percibida para cada categoría dependerá también de la respuesta en frecuencia en cada posición de escucha.

    El STI debe evaluarse en posiciones representativas de la sala, espaciadas entre 6 y 12 metros. En cada una de ellas deberá evaluarse varias veces, particularmente si el ruido ambiente no es constante y los valores resultantes de STI son muy cambiantes. Alguno sistemas de medida permite introducir el ruido de forma separada (por ejemplo, medimos el STI la sala con el sistema de sonido cuando no hay ruido, y posteriormente medimos solamente el rudo, combinando ambos datos mediante post-procesado para obtener un STI final.

    Las normas europeas UNE 23007-32 y TS54-32 para sistemas de alarma y evacuación por voz especifican que el STI medio en el 90% de cada 'área acústicamente diferenciable' (ADA, una zona con un tiempo de reverberación o un nivel de ruido diferenciable) que definamos no puede ser menor a 0,5, con un STI mínimo absoluto permitido de 0,45.

    Existen fórmulas que correlacionan el %Alcons con el STI. Igualmente, los programas de modelización calculan el STI en base a fórmulas que utilizan parámetros arquitectónicos y que intentan aproximarse a los resultados de mediciones reales.

    La quinta edición (2020) de la norma IEC 60268-16, una revisión técnica, añade información sobre los procedimientos de predicción y medición, actualiza las relaciones entre el STI y otras medidas de inteligibilidad, reduce el peso de las bandas de 125 y 250 Hz y elimina la diferenciación entre el habla femenina y masculina, optando por el peor de los casos (el habla masculina es menos inteligible que la femenina).

    RaSTI
    Cada una de estas pruebas de las que se extrae cada uno de los 98 índices de transmisión dura una media de unos 10 segundos, así que una prueba de STI directa y completa (Full direct STI, en la que cada frecuencia se reproduce para cada velocidad de modulación) dura unos 15 minutos, lo cual supone mucho tiempo teniendo en cuenta que cualquier forma de STI debe medirse en diferentes posiciones de una sala (y realizarse varias medidas en cada una de ellas). Para acelerar este proceso, ya desde la primera edición del IEC 60268-16 se daba la posibilidad de una medición abreviada (el RaSTI, acrónimo de Rapid STI o STI rápido) en la que solo se utilizaban dos bandas: la banda de 2000 Hz (con 5 velocidades de modulación) y la de 500 Hz (con 4 velocidades, diferentes las usadas para los 2000 Hz); además, para mayor rapidez, actualmente se suele reproducir una única señal que contiene las dos bandas y todas las modulaciones, separándose luego las bandas mediante procesado.

    Hoy en día el RaSTI ha caído en desuso, ya que existen formas rápidas de evaluar todas las bandas necesarias.


    STIPA
    La segunda edición de la norma IEC 60268-16 introduce en 1998 el STIPA, una versión mejorada del RaSTI que utiliza las siete bandas de frecuencia con velocidades de modulación para cada una (todas ellas diferentes para lograr las 14 velocidades diferentes de la medición completa del STI). De esta forma se tenía una medición rápida (originalmente unos 60 segundos) de forma más fiable que con el RaSTI, que con el tiempo se ha quedado obsoleto, aunque se sigue usando como referencia.

    Con el abaratamiento de la tecnología digital, la medición del STIPA se aceleró aún más ya que se reproducía una única señal con todas las frecuencias moduladas. En el reproductor que sigue podemos escuchar la señal para la medición del STIPA de un analizador del fabricante NTI. Suena estático porque hay siete bandas diferentes de ruido con volúmenes que suben y bajan a diferentes velocidades en cada una).




    STITEL
    En nuestra profesión el elemento que más dificulta la inteligibilidad del habla es la reverberación. Sin embargo, el STI está concebido para incluir el efecto de cualquier elemento que se sitúe entre la persona que habla y la que escucha, incluyendo la microfonía y cualquier otro tipo de distorsión, como por ejemplo, dificultades de recepción de una radio o TV. El STITEL se define también en la norma IEC 60268-16 específicamente para evaluar sistemas de telecomunicación y es parecido al STIPA, aunque con una única velocidad de modulación para cada una de las siete bandas de frecuencia.

    Hoy en día existen multitud de equipos en el marcado que permiten la medición del STI y derivados, ya sea de mano o basados en una computadora. Debe medirse en diferentes posiciones, y realizarse varias medidas en cada posición, particularmente si el ruido ambiente no es constante. Algunos analizadores permiten medir por separado el ruido ambiente y la señal de la prueba, calculando luego el índice, lo que resulta práctico en ciertas aplicaciones en las que las personas generan el grueso del ruido ambiente (por ejemplo, en un estadio, donde reproducir la señal con el público presente quizá no sea una opción). La señal de prueba puede ser introducida en el mezclador del sistema de refuerzo, o bien puede hacerse uso de una voz artificial o una pequeña caja acústica específica (suele usarse el término 'Talkbox') que reproduzca la señal frente al micrófono, de forma que se incluya éste y la acústica que lo circunda.


    Métodos indirectos
    Las mediciones objetivas de inteligibilidad que hemos descrito hasta la fecha son métodos directos de medición. Ya se reproduzcan bandas sueltas moduladas a una velocidad diferente cada vez, o bien se sume todo ello en una única señal (como la del STIPA del reproductor) y luego se descomponga en cada una de bandas de frecuencia para proceder al cálculo, la medición es directa.

    Sin embargo, versiones posteriores de la norma del STI permiten el cálculo en base a una respuesta al impulso (normalmente calculada desde una respuesta en frecuencia con amplitud y fase, ya sea de tipo MLS o sinusoide barrida), con lo que la medición pasa a ser realmente rápida.

    Una limitación tanto del método indirecto como que la medición con una señal única con todas las frecuencias reproducidas al mismo tiempo es que no son capaces de incluir el efecto del ruido ambiente, ya que el volumen de la señal nunca es cero (aunque existe la posibilidad de añadir un parámetro de nivel de ruido posteriormente). Tampoco es posible incluir el posible efecto que puedan tener unas bandas sobre otras.


    Predicción
    Además de las mediciones más o menos completas, directas o indirectas, los programas informáticos de modelización de sistemas electroacústicos también ofrecen la posibilidad de mapear los niveles de inteligibilidad en base a los niveles de sonido directo, una predicción de los niveles de sonido reflejado y unos niveles de ruido que pueden especificarse. En la imagen puede verse la variación del STI en un recinto reverberante de tipo estación en la que se pasa de un nivel óptimo junto enfrente del único altavoz situado a nivel del oído a unos valores de inteligibilidad muy baja en el fondo del edificio. En gran medida esas variaciones de STI (y, por tanto, de inteligibilidad) reflejan las variaciones de la relación entre el nivel de sonido directo y el reflejado. Si la absorción sonora de las superficies no es uniforme, la modelización deberá usar trazado de rayos (ray tracing) para una predicción precisa. Igualmente, para tipos de recintos como los túneles de carreteras (particularmente críticos por el peligro así como la combinación de reverberación y el ruido de las turbinas de ventilación) una predicción sencilla de tipo estadístico tampoco será válida.


    Otros índices
    Existen otros índices de inteligibilidad que hemos preferido no incluir para facilitar la comprensión y porque no son tan ampliamente utilizados.

    • El AI (Articulation Index o Índice de Articulación) es un índice antiguo similar al STI pero que no considera el efecto de la reverberación sobre la inteligibilidad, basándose principalmente en el efecto del ruido ambiente.
    • El CIS (Common Intelligibility Scale o Escala Común de Inteligibilidad), propuesto a finales del siglo pasado, proporciona una lectura diferente del STI, aplicando la fórmula CIS = 1 + log (STI).
    • Mención aparte merecen los indicadores C de Claridad (clarity), que expresan, en decibelios, la relación entre el sonido que llega inicialmente y el que llega después, estableciéndose en el nombre del indicador el tiempo en milisegundos que separa ambos. Por ejemplo, en los indicadores de claridad C7, C50 y C80 esa división está en 7, 50, y 80 milisegundos, respectivamente. El C50 suele tomarse como indicador de claridad de palabra (recomendándose un valor superior a 0 dB para este fin), mientras que el C80 se usa para claridad musical y no debiera ser inferior a -3 dB (un requerimiento que podría reducirse a -5 dB, para música sacra), mientras que el C7 debería ser superior a -10 o -15 dB, según el criterio sea más o menos estricto.
    • Algo similar a los C, son los indicadores D (Definition, definición), que expresan, en porcentaje, la relación entre el sonido que llega inicialmente y el nivel total, estableciéndose igualmente en el nombre del indicador el tiempo en milisegundos donde se considera que acaba la energía inicial. En el caso del D50, recomienda un valor superior al 50% (una relación mayor a 0,5).
    • Los parámetros U pretenden expresar principalmente la relación entre el sonido útil y el dañino (useful-to-detrimental sound ratio). Vienen a ser algo parecido a los indicadores C pero incorporando, asimismo, el nivel de ruido y permitiendo también definir la división entre las reflexiones iniciales y las tardías (por ejemplo, U50, para el que se recomiendan valores superiores a +2 dB para la banda de 1kHz en aplicaciones de inteligibillidad del habla) y proporcionándose en decibelios.



    3. Mejoras en la inteligibilidad

    Como hemos visto, hay dos factores principales que dificultan la inteligibilidad, el ruido y la reverberación.

    • Ruido
      En cuanto al ruido ambiente, en muchas ocasiones no podremos hacer mucho al respecto (por ejemplo, en un estadio, donde el ruido de la multitud puede ser ensordecedor). En cualquier caso, para que el mensaje sea comprensible deberemos diseñar un sistema que pueda generar una presión sonora continua real (teniendo en cuenta factores como la dinámica de la señal, lo que implica no usar la máxima potencia del amplificador para hacer los cálculos, y tener en cuenta otros factores que puedan predecir la presión sonora como el calentamiento de las bobinas de los altavoces) al menos 10 dB por encima del ruido.

      Esto es imperativo en aplicaciones de sistemas de avisos de evacuación por voz. Si el edificio no está construido o se va a reformar, el ruido deberá ser un factor en el diseño. Por ejemplo, asegurando el suficiente aislamiento acústico para reducir suficientemente el ruido exterior. O, por ejemplo, en un túnel de carretera, evitando que el ruido de las turbinas de ventilación pueda ser un problema. Si se usa una sala de control desde la que se habla, también deberá prestarse atención a este ruido.

    • Reverberación
      La relación entre el sonido directo y el reflejado es normalmente el elemento más importante que determinará la inteligibilidad. Aunque el tiempo de reverberación no ayuda, es sobre todo una baja relación entre ambos lo que reducirá el STI. En una reverberante iglesia o estación, podremos entender perfectamente a una persona que habla al lado nuestro o el mensaje reproducido cuando estamos justo enfrente de un altavoz; el problema surge al alejarnos puesto que el nivel del campo reverberante compite con el sonido directo.

      En ese sentido el diseño del sistema de sonido deberá evitar enviar mucho sonido a las superficies vivas que generen la reverberación tales como techos y paredes, pero también zonas del recinto donde no haya público. Cuando la cantidad de público sea variable, podemos considerar apagar la emisión hacia las zonas vacías mediante una memoria que reconfigure el sistema de forma sencilla para el usuario. Dependiendo de la aplicación, puede preferirse un sistema distribuido que acerque las fuentes sonoras a la audiencia, o un sistema central con buen control de la directividad en todas las frecuencias que puedan ser problemáticas (y aquí recordamos que para generar directividad en bajas frecuencias el tamaño importa, y puede que se necesario, por ejemplo, una formación de cajas lo suficientemente grande para lograr control de directividad en las frecuencias problemáticas). La modelización en estos casos nos podrá dar una estimación antes de elegir el tipo de sistema, proporcionando medias y otras estadísticas, ya que a veces es difícil estimar en base a mapas de colores. Si se usa una sala de control desde la que se habla, también deberá prestarse atención a su reverberación por si perjudicara a la intelibilidad (la señal que llega al micrófono deberá ser lo más limpia posible, así como la respuesta de éste).

    • Otros
      La calidad sonora y la inteligibilidad suelen ir de la mano, pero no son lo mismo. Un sistema para voz puede ser muy inteligible pero poco natural. En cualquier caso, los componentes del sistema deben ser de calidad suficiente. Probablemente todos hemos escuchado alguna vez esos megáfonos baratos usados en manifestaciones en los que incluso al aire libre y cerca del dispositivo es casi imposible entender las consignas si no las conocemos previamente. Los micrófonos son particularmente importantes, y deberán ser capaces de captar la voz de forma clara; ésta es a veces la forma más económica de mejorar la inteligibilidad de un sistema de avisos.

      La distorsión puede ser un factor crítico, aunque su efecto no suele verse en las mediciones de inteligibilidad. Si el audio proviene de una videoconferencia, una velocidad adecuada de conexión será importante para lograr y mantener una suficiente calidad de audio. Por otro lado, no siempre la distorsión es negativa para la inteligibilidad: existen también formas de distorsión cuyos armónicos adicionales pueden mejorar la compresión de un mensaje de voz como un cierto nivel de recorte (clip) o saturación.

      El nivel de presión sonora es importante ya que afecta directamente a la relación señal/ruido (aunque la relación entre la señal y la reverberación será constante con el nivel de presión sonora). Por tanto, si la inteligibilidad es baja porque el ruido es alto, podemos subir el nivel, siempre que el sistema lo permita (o hablar más alto, si no hay un sistema de refuerzo sonoro), aunque a partir de cierto nivel vuelve a perjudicarse la inteligibilidad. Este último efecto lo recoge la norma IEC a partir del año 2003, de forma que los niveles óptimos para la inteligibilidad (y la medición o predicción del STI) se sitúan entre 60 y 80 dBAeq, reduciéndose el STI por encima y por debajo.

      Ecualización y otros procesos. Idealmente la respuesta en frecuencia carecerá de irregularidades y no mostrará Ecualización y otros procesos. Idealmente la respuesta en frecuencia carecerá de irregularidades y no mostrará cambios entre diferentes posiciones más allá de la natural pérdida en agudos por el ángulo de cobertura. Los picos o valles en la respuesta de frecuencia que sean comunes a todas las posiciones pueden beneficiarse de ecualización correctiva. En sistemas de baja calidad con pocos agudos, aumentar el nivel de las bandas de 2k y 4k Hz aumentará la inteligibilidad; igualmente usar un filtro paso-alto para cortar bajos y medios-bajos puede ayudar al entendimiento del mensaje si hay excesiva reverberación en esas bandas de frecuencia. En relación al ruido, existen sistemas que monitorizan el ruido ambiente y adaptan el volumen de la señal de forma que esté por encima, evitando un exceso de nivel de presión sonora cuando el ruido ambiente sea bajo. Igualmente, para avisos con micrófono, un compresor puede ayudar a lograr el nivel adecuado.

      Conocimiento del usuario. La persona que realiza avisos con micrófono debe recibir un mínimo de formación. Si no lleva un micrófono de cabeza o solapa, deberá saber que no debe hablar con los labios en el micrófono (quizá un pequeño filtro anti-pop puede ayudar) y tampoco alejarse o moverse en exceso. Igualmente deberá hablar con el nivel adecuado, vocalizar y hablar de forma lo más inteligible posible en lugares con acústica difícil.


    EL Efecto Lombard. El efecto o reflejo Lombard es la tendencia natural involuntaria de modificar el habla para aumentar la inteligibilidad en condiciones de alto ruido de fondo. Además de un aumento de volumen, los cambios incluyen modificaciones en la velocidad, la frecuencia, el espectro y la duración de las vocales (se alargan). También se exageran los movimientos faciales. Un efecto equivalente también se observa cuando tocan o cantan varios músicos juntos, y también entre los animales.