El ENMASCARAMIENTO del área de la boca PERJUDICA la reconstrucción de las características acústicas del habla y las características de segmentación de nivel superior en presencia de un hablante que distrae

Masking of the mouth area impairs reconstruction of acoustic speech features and higher-level segmentational features in the presence of a distractor speaker

Haider, Suess, Hauswald, Park & Weisz (2022)

Traducción libre: Este documento fue traducido con el uso de un traductor online, esta página no se responsabiliza por algunos errores de traducción. 

Artículos original aquí  Download – Descargar

 

Puntos a destacar

  • Las máscaras faciales quirúrgicas perjudican el seguimiento neural de las características del habla.

  • El seguimiento de las características acústicas generalmente se ve afectado, mientras que las características de segmentación de nivel superior muestran sus efectos, especialmente en situaciones auditivas difíciles.

  • Una explicación es la prevención de un visuo-fonológico. transformación contribuyendo a la integración multisensorial audiovisual .

Resumen

La integración multisensorial permite la representación de estímulos incluso cuando la entrada sensorial en una sola modalidad es débil. En el contexto del habla, cuando se enfrenta a una señal acústica degradada, las entradas visuales congruentes promueven la comprensión. Cuando esta entrada está enmascarada, la comprensión del habla, en consecuencia, se vuelve más difícil. Pero aún no es concluyente qué niveles de procesamiento del habla se ven afectados bajo qué circunstancias al ocluir el área de la boca. Para responder a esta pregunta, llevamos a cabo un experimento audiovisual (AV) de múltiples hablantes utilizando un discurso naturalista. En la mitad de los ensayos, el orador objetivo usó una máscara facial (quirúrgica), mientras que medimos la actividad cerebral de los participantes con audición normal a través de magnetoencefalografía (MEG). Además, agregamos un altavoz distractor en la mitad de las pruebas para crear una situación auditiva ecológicamente difícil. Se entrenó y usó un modelo de decodificación en el habla AV clara para reconstruir las características cruciales del habla en cada condición. Encontramos efectos principales significativos de las máscaras faciales en la reconstrucción de características acústicas, como la envolvente del habla y las características espectrales del habla (es decir, frecuencias de tono y formantes), mientras que la reconstrucción de características de nivel superior de segmentación del habla (comienzos de fonemas y palabras) se vio especialmente afectada a través de máscaras en situaciones auditivas difíciles. Como usamos máscaras faciales quirúrgicas en nuestro estudio, que solo muestran efectos leves en la acústica del habla, interpretamos nuestros hallazgos como el resultado de la falta de información visual. Nuestros hallazgos amplían los resultados conductuales previos. 

1 . Introducción

A pesar de ser procesada inicialmente por diferentes órganos sensoriales y regiones del cerebro, la información de diferentes modalidades se utiliza para construir una experiencia perceptiva coherente. Dado que las fuentes de información sensorial suelen ser multimodales en entornos naturales, el cerebro ha desarrollado mecanismos para utilizar información de una modalidad a fin de facilitar el procesamiento de otra. Centrándose en la visión y la audición, estudios anteriores mostraron respuestas a patrones visuales regulares en la corteza auditiva , lo que indica una influencia moduladora de las regiones visuales tempranas en las regiones auditivas primarias ( Suess et al., 2021 ; para una revisión, consulte: Bauer et al., 2020). Este proceso no se restringe a estímulos simples como secuencias de tonos o destellos de luz, sino que se puede observar en estímulos más complejos como el habla ( Peelle y Sommers, 2015 ). Después de establecer la mejora audiovisual de la comprensión del habla conductualmente ( Sumby y Pollack, 1954 ), estudios más recientes siguieron la investigación de estímulos simples y trataron de explorar el procesamiento del habla audiovisual a nivel neuronal ( Crosse et al., 2015 ; Crosse et al. , 2016 ; Golumbic et al., 2013 ; Park et al., 2016 , Peele & Sommer, 2015). Un enfoque prometedor para investigar estos efectos es el uso de modelos de codificación y decodificación. De este modo, la respuesta cerebral del participante obtenida mediante electroencefalografía (EEG) o magnetoencefalografía (MEG) se vincula con el estímulo presentado para medir qué tan bien se codifica una determinada característica en el cerebro ( Crosse, Di Liberto, Bednar, et al., 2016 ). Usando estos y otros enfoques similares, estudios anteriores mostraron que el cerebro rastrea directamente los componentes específicos del habla, como la envolvente del habla ( Brodbeck & Simon, 2020 ; Ding and Simon, 2014). Más importante aún, un estudio demostró que en situaciones auditivas desafiantes, la ganancia audiovisual se puede cuantificar no solo a nivel de comportamiento, sino que también se puede evaluar a nivel neuronal utilizando el seguimiento de la envolvente del habla como indicador de comprensión del habla ( Crosse et al. ., 2016 ). Estos resultados están en línea con el concepto denominado “efectividad inversa” ( Meredith y Stein, 1986 ), que establece que la ganancia multisensorial aumenta cuando las modalidades individuales son de baja calidad en comparación con un entorno ideal (es decir, la ganancia visual aumenta cuando la señal acústica del habla es ruidoso en una situación de escucha audiovisual (AV)) .

Por un lado, esta facilitación audiovisual mencionada podría explicarse al proporcionar señales temporales simples (es decir, abrir y cerrar la boca) cuando se tiene que atender a los estímulos auditivos ( Van Engen et al., 2019 ). Por otro lado, la información visual podría preseleccionar ciertos estímulos posibles (por ejemplo, fonemas) y, por lo tanto, mejorar el procesamiento auditivo posterior como una forma de integración cruzada . Al utilizar el modelo aditivo (es decir, comparar los potenciales relacionados con eventos (ERP) con los estímulos de audio + los ERP de los estímulos visuales (A+V) con los ERP de los estímulos audiovisuales (AV)), los estudios anteriores sugirieron que el cerebro integra información temprana de lo visible. movimientos de los labios en la corteza auditiva para un procesamiento eficiente del habla (Beslé et al., 2004 , 2009 ).

Además de estos efectos en las regiones de procesamiento auditivo, hemos proporcionado evidencia de una transformación viso-fonológica directa cuando las personas solo procesan información visual (es decir, grabaciones de video mudas de hablantes), al mostrar que la envolvente del habla acústica se rastrea en regiones corticales visuales cuando los individuos observan movimientos de los labios ( Hauswald et al., 2018 ; Suess et al., 2022 ). Esto es importante porque la envoltura del habla se ha asociado con la transmisión de información crucial sobre la estructura sintáctica del habla ( Giraud y Poeppel, 2012 ; Poeppel y Assaneo, 2020 ). Además, cuando se le proporciona habla sólo visual, la corteza visualtambién rastrea modulaciones espectrales en el rango del tono, así como en el segundo (F2) y tercer formante (F3), que reflejan principalmente sonidos producidos con la parte visible de la boca ( Suess et al., 2022 ). Estos resultados se alinean bien con los hallazgos previos de Chandrasekaran et al. (2009) , quienes indican que el área de apertura de la boca se correlaciona más fuertemente con los componentes espectrales del habla en el rango de 1 kHz – 3 kHz, correspondiente al rango de frecuencia de F2 y F3. El tono, por un lado, está asociado con la segregación de flujos de audio (por ejemplo, dos hablantes hablando al mismo tiempo) ( Bregman, 1990 ), mientras que, por otro lado, los formantes están asociados con la transmisión de información sobre los componentes sonoros del habla (vocales en particular) ( Peterson y Barney ). , 1952). Plass y colegas (2020) publicaron otro estudio que destaca la importancia de los formantes . Mostraron una mejora audiovisual aún más fuerte a través de frecuencias formantes que la envolvente del habla bien establecida. Juntos, estos resultados revelan que los movimientos de los labios se transforman para rastrear las características acústicas del habla, como la envolvente del habla y las frecuencias formantes, lo que conduce a un procesamiento eficiente, especialmente cuando la acústica está distorsionada. Además de los movimientos de los labios, otros movimientos faciales relacionados con el habla (p. ej., movimientos de la mandíbula) también pueden proporcionar señales visuotemporales sobre cuándo prestar atención al habla auditiva ( Thomas & Jordan, 2004).). En conclusión, estos hallazgos son aún más importantes cuando se colocan en el contexto de la pandemia de Covid-19 en curso, ya que el uso de máscaras faciales como una intervención eficaz contra la transmisión por aerosol podría al mismo tiempo dificultar la integración de información visual y acústica para un habla óptima. comprensión.

De hecho, un gran estudio en línea investigó los efectos de las máscaras faciales en la comprensión conductual del habla audiovisual (AV) ( Brown et al., 2021). No encontraron diferencias en la inteligibilidad de las oraciones entre el habla AV clara (es decir, sin máscara facial) y máscaras faciales de varios tipos (p. ej., máscara facial quirúrgica y máscara N95) en condiciones con un fondo silencioso, pero las diferencias se hicieron evidentes en condiciones con un fondo moderado y alto. ruido. A pesar de estos efectos bien establecidos, los estudios de comportamiento han dejado abierta qué características del habla (degradadas) están impulsando estos hallazgos. La decodificación de distintas características del habla a partir de la señal neuronal podría usarse para abordar este problema. Al juntar los hallazgos antes mencionados, las máscaras faciales pueden afectar negativamente la capacidad de integrar información visual y auditiva de diversas características del habla en diferentes niveles jerárquicos, lo que resulta en un desempeño conductual deficiente. Dado que las máscaras faciales siguen siendo comunes en la vida cotidiana como medida contra el covid-19 y continúan siendo importantes en entornos médicos, comprender con precisión qué características del habla son menos rastreadas por el cerebro puede ayudar a guiar las decisiones sobre qué máscara facial usar. Estas consideraciones son especialmente importantes cuando se trata de personas con discapacidad auditiva (Puschmann et al., 2019 ).

En el estudio MEG actual, investigamos cómo el seguimiento neuronal de una variedad de características del habla (límites puramente acústicos y léxicos/fonéticos) en un paradigma de habla naturalista audiovisual se ve afectado a través de máscaras faciales (quirúrgicas). Se pone especial énfasis en la interacción entre las máscaras faciales y las situaciones auditivas difíciles inducidas a través de un altavoz distractor de solo audio, ya que los estudios enfatizaron el beneficio visual cuando la acústica no es clara ( Brown et al., 2021 ; Crosse et al., 2016 ; Mitchel and Weiss, 2014 ; Park et al., 2016 ; Sumby y Pollack, 1954 ).

2 . Métodos

2.1 . Participantes

Participaron en nuestro estudio 29 hablantes nativos de alemán (12 mujeres) de entre 22 y 41 años ( M = 26,79, SD = 4,86 ). Todos los participantes tenían una audición normal autoinformada, verificada por una audiometría clínica estándar . Otros criterios de exclusión fueron objetos magnéticos no extraíbles, así como antecedentes de afecciones psiquiátricas o neurológicas. El reclutamiento se realizó a través de las redes sociales y conferencias universitarias. Se excluyó a un participante porque la separación de la fuente de la señal no se pudo aplicar al conjunto de datos MEG . Todos los participantes firmaron un consentimiento informadoformulario y fueron compensados ​​con 10 € por hora o crédito del curso. El protocolo experimental fue aprobado por el comité de ética de la Universidad de Salzburgo y se llevó a cabo de acuerdo con la Declaración de Helsinki.

2.2 . Estímulos

Usamos extractos de cuatro historias diferentes para nuestra grabación leídas en alemán. ‘Die Schokoladenvilla – Zeit des Schicksals. Die Vorgeschichte zu Band 3’ (“La mansión de chocolate, El legado” – precuela del Volumen 3”) de Maria Nikolai y ‘Die Federn des Windes’ (“Las plumas del viento”) de Manuel Timm fueron leídos por una mujer altavoz. ‘Das Gestüt am See. Charlottes großer Traum’ (“La yeguada junto al lago. El gran sueño de Charlotte”) de Paula Mattis y ‘Gegen den Willen der Väter’ (“Contra la voluntad de sus padres”) de Klaus Tiberius Schmidt fueron leídos por un locutor masculino .

Los estímulos se registraron utilizando una cámara Sony FS100 con una frecuencia de muestreo de 25 Hz y un micrófono Rode NTG 2 con una frecuencia de muestreo de 48 kHz. Apuntamos a una duración de cada historia de aproximadamente diez minutos, que se dividieron en diez videos de alrededor de un minuto cada uno ( rango: 56–76 s, M = 64 s, SD = 4,8 s) . Todas las historias se grabaron dos veces, una vez sin que el hablante usara una mascarilla quirúrgica y otra vez con el hablante usando una mascarilla quirúrgica (Tipo IIR, mascarilla médica de tres capas de un solo uso, ver Fig. 1A). Después de cortar los videos, terminamos con 80 videos de aproximadamente un minuto cada uno. Cuarenta de ellos fueron presentados a cada participante (20 con un hablante femenino, 20 con un hablante masculino) para descartar efectos específicos del sexo. La pista de audio se extrajo y almacenó por separado. Luego, los archivos de audio se normalizaron utilizando la función de Python ‘ffmpeg-normalise’ con opciones predeterminadas. Se usaron audiolibros pregrabados leídos por diferentes oradores (una mujer, un hombre) para el orador distractor y se normalizaron usando el mismo método. Estos archivos de audio contenían un solo orador (diferente) masculino o femenino. El ritmo silábico se analizó utilizando un guión Praat ( Boersma y Weenink, 2001 ; de Jong y Wempe, 2009). Las tasas de sílabas de los hablantes objetivo variaron entre 3,7 Hz y 4,6 Hz ( M = 4,1 Hz ). Todos los estímulos de destino y distractor se reprodujeron al participante al mismo volumen, que se estableció individualmente a un nivel cómodo al comienzo del experimento.

Figura 1

Figura 1 . Procedimiento experimental y características del habla.

Amuestra dos bloques de ejemplo con un hablante de destino masculino. En el bloque de la izquierda, el orador no usó una máscara facial en los diez ensayos por bloque. En el 70 % de los ensayos, el orador objetivo se presentó solo, en el 30 % se agregó un parlante distractor de solo audio del mismo sexo al mismo volumen (indicado por el segundo ícono de sonido). Después de cada uno de los diez intentos por bloque, se presentaron al participante dos preguntas de comprensión de «verdadero o falso» (las letras en cursiva debajo representan la traducción al inglés). Los participantes respondieron presionando un botón (botón izquierdo o derecho). A la derecha, se representa un bloque con el hablante masculino con una máscara facial en los diez intentos del bloque. De lo contrario, el procedimiento es el mismo que el bloque sin máscara facial. El habla clara se define como la condición sin máscara y sin un hablante distractor.muestra las características del habla investigadas. Los formantes (F1 – F3) se muestran en rojo superpuestos en el espectrograma de voz. La segmentación en fonemas y palabras (fila superior: palabra ortográfica; fila intermedia: palabra fonética; fila inferior: fonema) se realizó mediante alineación forzada. Esta segmentación se puede ver en la parte inferior del espectrograma. El sobre de voz se puede ver en la parte inferior izquierda de la figura. En la parte inferior derecha de la figura, se representa el tono o la frecuencia fundamental (F0) del altavoz. Todas las representaciones se basan en el mismo intervalo de voz de dos segundos de duración.

2.3 . Procedimiento experimental

Antes del comienzo del experimento, realizamos una audiometría clínica estándar utilizando un AS608 Basic (Interacoustics, Middelfart, Dinamarca) para evaluar la capacidad auditiva individual de los participantes. Posteriormente, los participantes se prepararon para MEG (ver Adquisición de datos ).

Comenzamos la medición de MEG con cinco minutos de actividad en estado de reposo (no incluida en este manuscrito). Luego evaluamos el umbral auditivo individual de los participantespara ajustar nuestro volumen de estimulación. Si el participante decía después que la estimulación no era cómoda o no era lo suficientemente alta, volvíamos a ajustar el volumen manualmente según los requisitos del participante. De las cuatro historias, la mitad se eligieron al azar con los oradores objetivo usando máscaras faciales en la grabación. En la mitad restante, los oradores no usaron cubrebocas. Cada presentación de la historia funcionó como un bloque de estimulación, lo que resultó en cuatro bloques en total. Un bloque constaba de diez pruebas de ∼ 1 min de duración. En tres ensayos seleccionados al azar por bloque (es decir, el 30 % de los ensayos), se añadió un altavoz distractor del mismo sexo solo con audio al mismo volumen que el altavoz objetivo. Solo agregamos un altavoz distractor en el 30 % de las pruebas para retener suficientes datos para entrenar nuestro modelo inverso en un habla clara (consulte la sección de reconstrucción de estímulos). La presentación del orador distractor comenzó cinco segundos después del inicio del video y el audio del orador objetivo para que los participantes tuvieran tiempo de prestar atención al orador objetivo. Dentro de los bloques, la presentación de la historia siguió una línea argumental constante en todas las pruebas. Después de cada prueba, se pidieron dos afirmaciones no estandarizadas de «verdadero o falso» con respecto al contenido semántico para evaluar el rendimiento de comprensión y mantener a los participantes enfocados (Figura 1A ). Además, los participantes calificaron la dificultad subjetiva y la motivación cuatro veces por bloque en una escala Likert de cinco puntos (no representada en la Fig. 1 A). Las respuestas de los participantes se dieron presionando botones. En la mitad de los cuatro bloques se presentó un orador objetivo femenino, en la otra mitad un orador objetivo masculino. Los videos se retroproyectaron en una pantalla translúcida con una diagonal de pantalla de 74 cm a través de un proyector Propixx DLP (Vpixx technologies, Canadá) ~ 110 cm frente a los participantes. Se proyectó con una frecuencia de actualización de 120 Hz y una resolución de 1920 × 1080 píxeles. Incluyendo la preparación, el experimento tomó alrededor de 2 h por participante. El experimento fue codificado y realizado con Psychtoolbox-3 ( Brainard, 1997 ;Kleiner et al., 2007 ; Pelli, 1997 ) con una biblioteca adicional basada en clases (‘ Caja de herramientas de psicofísica objetiva ‘, o_ptb) encima ( Hartmann y Weisz, 2020 ).

2.4 . Adquisición de datos

Registramos datos cerebrales con una frecuencia de muestreo de 1 kHz en 306 canales (204 gradiómetros planos de primer orden y 102 magnetómetros) con un sistema Triux MEG (MEGIN, Helsinki, Finlandia). La adquisición se realizó en una sala protegida magnéticamente (AK3B, Vacuumschmelze, Hanau, Alemania). El filtrado de paso de banda en línea se realizó desde 0,1 Hz hasta 330 Hz. Antes de la adquisición, los puntos cardinales de la cabeza (nasión y puntos preauriculares) se digitalizaron con un digitalizador Polhemus FASTRAK (Polhemus, Colchester, Vermont, EE. UU.) junto con alrededor de 300 puntos en el cuero cabelludo .para evaluar las formas individuales de la cabeza. Usando un algoritmo de separación de espacio de señal proporcionado por el fabricante de MEG (Maxfilter, versión 2.2.15), filtramos el ruido resultante de fuentes fuera de la cabeza y realineamos los datos a una posición de cabeza estándar, que se midió al comienzo de cada bloque.

2.5 . Extracción de funciones de voz

Todas las características del habla investigadas se representan en la Fig. 1 B. El sobre del habla se extrajo utilizando la caja de herramientas Chimera. Al usar las opciones predeterminadas , la señal de voz se filtró hacia adelante y hacia atrás con un filtro de paso de banda Butterworth de cuarto orden en nueve bandas de frecuencia diferentes espaciadas equidistantemente entre 100 y 10000 Hz correspondientes al mapa coclear ( Smith et al., 2002 ). Luego, se realizó una transformación de Hilbert para extraer las envolventes de las señales resultantes. Estos nueve sobres luego se resumieron en un sobre de voz general y se normalizaron.

El tono (frecuencia fundamental, F0) se extrajo utilizando la función pitch.m incorporada de la caja de herramientas de Matlab Audio y se redujo la muestra a 50 Hz. Los formantes del habla (primero, segundo, tercero y el segundo y tercer formantes promediados) se extrajeron utilizando FormantPro ( Xu y Gao, 2018 ), una herramienta para la detección automática de formantes a través de Praat ( Boersma y Weenink, 2001 ) a 50 Hz con una integración longitud de ventana de 20 ms para evitar la superposición, y una ventana de suavizado predeterminada de 10 ms de longitud.

Los valores de inicio de fonemas y palabras se generaron utilizando la alineación forzada con los servicios web de MAUS ( Kisler et al., 2017 ; Schiel, 1999 ) para obtener una medida para la segmentación del habla. Generamos dos series de tiempo con valores binarios que indican un inicio de fonema o palabra, respectivamente. Luego, suavizamos la serie temporal de valores binarios utilizando una ventana gaussiana con un ancho de 10 ms. Al final, todas las funciones se remuestrearon a 50 Hz para que coincidieran con la frecuencia de muestreo de la señal cerebral correspondiente, ya que la mayoría de las señales relevantes para el habla se presentan por debajo de los 25 Hz ( Crosse et al., 2021 ).

2.6 . Preprocesamiento de MEG

Los datos sin procesar se analizaron con Matlab R2020b (The MathWorks, Natick, Massachusetts, EE. UU.) y la caja de herramientas FieldTrip ( Oostenveld et al., 2011 ). Como parte de nuestra canalización estándar, primero calculamos 50 componentes independientes para eliminar los artefactos del ojo y el corazón. Eliminamos en promedio 2,38 componentes por participante ( DE = 0,68 ). Filtramos aún más los datos utilizando un filtro de paso de banda Butterworth de fase cero de sexto orden entre 0,1 y 25 Hz. Posteriormente, dividimos los datos en segmentos de 2,5 s. Finalmente, redujimos la muestra de nuestros datos a 50 Hz para un cálculo más eficiente y, al mismo tiempo, preservamos suficiente información de nuestros datos ( Crosse et al., 2021 ).

2.7 . Reconstrucción de estímulo

Para reconstruir las diferentes características del habla (envolvente del habla, tono, frecuencias resonantes, así como inicios de palabras y fonemas) a partir de los datos cerebrales, utilizamos mTRF Toolbox ( Crosse, Di Liberto, Bednar, et al., 2016).). El objetivo de este enfoque es mapear las respuestas cerebrales (es decir, todos los canales de 306 MEG) de regreso al estímulo (característica) (por ejemplo, la envolvente del habla) utilizando modelos lineales para obtener una medida de qué tan bien se codifica una determinada característica en el cerebro. . A diferencia de un modelo directo, que ofrece la posibilidad de evaluar la representación de estímulos en canales individuales, el enfoque inverso tiene en cuenta todos los canales y es sólido para la información compartida entre canales. En nuestro caso, por lo tanto, es un enfoque más adecuado para responder a la cuestión de la representación de las características del estímulo en todo el cerebro ( Crosse, Di Liberto, Bednar, et al., 2016). De acuerdo con nuestro diseño experimental 2 × 2, las características del estímulo se reconstruyeron para cada condición. Como el altavoz del distractor comienza después de cinco segundos del inicio de la prueba, estos cinco segundos no se asignaron a la condición del Distractor , sino que se reasignaron a su condición respectiva con un solo altavoz.

Las características del estímulo y los datos del cerebro en todos los canales de 306 MEG se puntuaron en z y se barajaron las épocas. Luego usamos la condición de habla clara (sin máscaras y sin altavoz distractor presentado) para entrenar el modelo hacia atrás con regresión de cresta. Para probar el modelo también en un conjunto claro de datos de audio, lo dividimos en siete partes y entrenamos nuestro modelo en seis partes, mientras usamos la parte restante para probarlo. Esto da como resultado aproximadamente doce minutos de datos para entrenar el modelo. Definimos nuestros retrasos de tiempo para entrenar nuestro modelo de -150 ms a 450 ms. Luego, realizamos una validación cruzada siete veces de exclusión en nuestro conjunto de datos de entrenamiento para encontrar el parámetro de regularización óptimo ( Willmore and Smyth, 2003 ) en el rango de 10 0 … 10 5. Usamos los mismos datos con el parámetro de regularización obtenido para entrenar nuestro modelo inverso. Para cada condición, usamos el mismo modelo inverso entrenado en habla clara para reconstruir las características del habla de interés, a saber, la envolvente del habla, el tono, las frecuencias resonantes (F1-3 y F2/3) y las características segmentarias (fonemas y comienzos de palabras). Como usamos pruebas de audio claras para entrenar el modelo de decodificación y agregamos un altavoz distractor solo en el 30% de las pruebas (ver Procedimiento experimental , Fig. 1A), esto resultó en una longitud variable de conjuntos de datos de prueba. En la condición ‘sin máscara/sin distractor’ fue ~ 2 min, en la condición ‘máscara/sin distractor’ fue ∼ 14 min y para la condición ‘sin máscara/distractor’ así como con ‘máscara/distractor’ fue ∼ 6 minutos cada uno. El proceso se repitió seis veces, de modo que cada subconjunto de la condición de habla clara se utilizó como conjunto de prueba, mientras que todos los demás subconjuntos se utilizaron para el entrenamiento. Para cada participante, cada característica del habla y cada una de las cuatro condiciones, calculamos el coeficiente de correlación ( r de Pearson) de la característica reconstruida y la característica original como medida de la precisión de la reconstrucción. Esto se hizo mediante la transformación z de Fisher y promediando todos los coeficientes de correlación respectivos para cada conjunto de pruebas y cada una de las siete repeticiones obtenidas a través del procedimiento mencionado anteriormente.

2.8 . análisis estadístico

Realizamos un ANOVA de medidas repetidas con la Máscara dentro de los factores ( sin máscara facial frente a máscara facial) y Distractor (sin altavoz distractor frente a altavoz distractor) y los coeficientes de correlación transformados en z de Fisher obtenidos (es decir, precisión de reconstrucción) como variables dependientes.

Para los resultados conductuales (rendimiento de comprensión y dificultad subjetiva), también utilizamos un ANOVA de medidas repetidas con los mismos factores Máscara y Distractor . Utilizamos puntajes de rendimiento de comprensión (es decir, el porcentaje de respuestas correctas) y calificaciones de dificultad subjetiva promedio, respectivamente, como variables dependientes.

Los análisis estadísticos para la precisión de la reconstrucción y los datos de comportamiento se realizaron utilizando pingouin , un paquete de estadísticas para Python 3 ( Vallat, 2018 ). En el caso de una interacción significativa o una tendencia, se realizó una prueba de efecto simple a través de la caja de herramientas de aprendizaje automático y estadísticas de Matlab para identificar la naturaleza de la interacción. Además, las comparaciones de detalles espectrales finos entre máscaras faciales y sin máscaras se calcularon en Matlab con la caja de herramientas Medidas del tamaño del efecto ( Hentschke y Stüttgen, 2011 , consulte la Tabla S2).

3 . Resultados

3.1 . resultados de comportamiento

Las puntuaciones de rendimiento de comprensión se generaron utilizando dos preguntas de comprensión de «verdadero o falso» al final de cada uno de los 40 intentos. Utilizamos un ANOVA de medidas repetidas de dos vías para investigar la influencia de los factores Máscara y Distractor en el rendimiento de comprensión. Aparte del efecto del altavoz distractor ( F(1,28) = 26,15, p < ,001, η p ² = ,48) , los resultados no mostraron una influencia significativa de las máscaras faciales ( F(1,28) = 1,03, p = .32, η p ² = .04 ) y ninguna interacción significativa ( F(1,28) = .02, p = .88, η p ² = .001 ) entre los dos factores.

Además, analizamos la dificultad reportada subjetivamente para cada condición. Nuevamente usamos ANOVA de medidas repetidas de dos vías, que mostró un efecto significativo para el altavoz distractor ( F(1,28) = 101.83, p < .001, η p ² = .78 ) así como para la máscara facial ( F( 1,28) = 13.78, p = .001, η p ² = .33 ), sin mostrar un efecto significativo para la interacción ( F(1,28) = 1.33, p = .26, η p ² = .06 ). Estos resultados sugieren que, si bien las máscaras faciales no reducen el rendimiento de comprensión en nuestro entorno, sí conducen a un aumento significativo en la dificultad auditiva percibida.

3.2 . Análisis de reconstrucción de estímulos

Usando un modelo de reconstrucción hacia atrás ( Crosse, Di Liberto, Bednar, et al., 2016 ), generamos un coeficiente de correlación para cada condición por participante. Este proceso se repitió para cada característica del habla de interés. Para analizar el efecto de la máscara facial y el altavoz distractor, realizamos un ANOVA de medidas repetidas de dos vías, con los coeficientes de correlación transformados en z de Fisher como variables dependientes. Los resultados detallados y los valores estadísticos se encuentran en el material complementario (consulte la Tabla S1). Como era de esperar, los resultados muestran un fuerte efecto (todas las p < .001 y todas las η p ² > .6, consulte la Tabla S1) del altavoz distractor en la reconstrucción del estímulo en todas las características de interés del estímulo. Figura 2A muestra ejemplos de reconstrucciones para la envolvente del habla y el segundo y tercer formante promediados (Formante 2/3 o F2/3), así como las precisiones de reconstrucción media para un habla audiovisual clara (es decir, material de estimulación sin máscara ni distractor) en la Fig. 2 B.

Figura 2

figura 2 Representación descriptiva de las precisiones de reconstrucción de estímulos.

A Dos reconstrucciones de estímulo de ejemplo de la envolvente del habla y el promedio de F2 y F3 (Formant 2/3, F2/3) para un participante, estimulado con un habla audiovisual clara (es decir, estímulos sin máscara ni distractor). B Exactitud media de la reconstrucción del estímulo para un discurso audiovisual claro (es decir, estímulos sin máscara ni distractor) entre los participantes. Las barras de error indican un intervalo de confianza del 95 %.

3.3 . La reconstrucción de la envoltura del habla generalmente se ve afectada por las máscaras faciales.

Investigamos cómo la reconstrucción de estímulos de la envolvente del habla se ve afectada a través de máscaras faciales, con un enfoque particular en situaciones auditivas difíciles inducidas por un hablante distractor. Además del impacto negativo del hablante distractor ( F(1,28) = 161.09, p < .001, η p ² = .85 ), observamos un fuerte efecto negativo de las máscaras faciales en las precisiones de reconstrucción de la envolvente del habla ( F (1,28) = 24.42, p  < .001, η p ²  = .47, Fig. 3 A). No encontramos interacción significativa entre los factores Máscara y Distractor ( F(1,28) = .25, p = .619, η p ² = .01 ,Fig. 3 B y Fig. 3 C).

Fig. 3

Figura 3 . Representación de los efectos de las máscaras faciales en varias características del habla.

Una representación gráfica del tamaño del efecto para el efecto principal del factor Máscara . Los asteriscos indican la importancia del efecto de la máscara facial con respecto a cada característica. B Representación gráfica del tamaño del efecto de la interacción de los factores Máscara y Distractor . Los asteriscos indican la importancia de la interacción. Representación de los efectos para las características del habla envolvente del habla, F2 y F3 promediados (formante 2/3, F2/3), y los inicios de fonemas y palabras divididos para los efectos de la máscara facial y el distractor. Las barras de error muestran un IC del 95 %. Los asteriscos indican la importancia de las pruebas de comparación de efectos simples. ns: p > .1, °: p< .1, *: p < .05, **: p < .01, ***: p < .001

3.4 . La reconstrucción de los detalles finos espectrales generalmente se ve afectada por las máscaras faciales.

Además, queríamos investigar la influencia de las máscaras faciales en los detalles espectrales finos del habla. En este estudio, analizamos específicamente el tono (o frecuencia fundamental, F0), el primer formante (F1), el segundo formante (F2) y el tercer formante (F3). Además, investigamos el promedio de F2 y F3 (F2/3), ya que estos dos formantes generados en la cavidad frontal convergen en ‘puntos focales’ después de combinaciones específicas de vocales y consonantes ( Badin et al., 1990 ). Con un altavoz distractor, reconstrucción de tono ( F(1,28) = 89.18, p < .001, η p ² = .76 ) y F2/3 ( F(1,28) = 75.81, p < .001, η  = .73 ) se redujo. La reconstrucción del terreno de juego muestra un deterioro a través de máscaras faciales (F(1,28) = 7.26, p = .018, η p ² = .21 ) sin interacción significativa ( F(2,28) = .49, p = .487, η p ² = .02 ). Lo mismo ocurre con F2/3, que mostró una reducción significativa de la precisión de la reconstrucción mediante máscaras faciales ( F(1,28) = 14,78, p < 0,001, η p ² = 0,35 ). Mientras que la reconstrucción de F2/3 no se vio afectada a través de una máscara facial cuando no había distractor presente (No Distractor: MD (SE) = .011 (.006), p = .107 ), se redujo en presencia de un distractor (Distractor : MD (SE) = .025 (.007), p < .001 ). Sin embargo, esta interacción no fue significativa ( F(1,28) = 2.76, p = .108, η p ² = .09). Estos resultados sugieren que las máscaras faciales perjudican el seguimiento de los detalles espectrales finos del espectro relevante del habla, en general, independientemente de un hablante distractor. Los resultados detallados para F1, F2, F3 se muestran en la Tabla S1 (ver Material complementario). Los tamaños del efecto del efecto principal se presentan gráficamente en la Fig. 3 A y para las interacciones en la Fig. 3 B.

3.5 . La reconstrucción de los límites fonéticos y léxicos se ve afectada por las máscaras faciales, específicamente en situaciones auditivas difíciles

La detección de límites léxicos es importante para fragmentar el flujo continuo de voz en unidades interpretables significativas. Por lo tanto, como último paso, investigamos cómo las máscaras faciales perjudican la reconstrucción de los inicios de fonemas y palabras.

Para los inicios de fonemas, encontramos efectos principales significativos de las precisiones de reconstrucción para el factor Distractor (F(1,28) = 187.81, p < .001, η p ² = .87 ) y Máscara (F(1,28) = 16.63, p < .001, η p ² = .37 ), así como una fuerte interacción significativa de Máscara y Distractor ( F(1,28) = 10.75, p = .003, η p ² = .28 ). Se pueden mostrar resultados similares para las precisiones de reconstrucción de inicio de palabra con efectos principales significativos del Distractor ( F(1,28) = 278.19, p < .001, η p ² = .91 ), Máscara ( F(1,28) = 19.95 , p < .001, η p² = .42 ) y la interacción ( F(1,28) = 11.46, p = .002, η p ² = .29 ). Para el inicio de fonemas, las pruebas de efecto simple post-hoc revelaron diferencias significativas para el factor Máscara cuando había un distractor presente, mientras que solo mostró una tendencia cuando no se presentó ningún distractor (No Distractor: MD (SE) = .008 (.004), p = .058 Distractor: MD (SE) = .020 (.004), p < .001 , ver Fig. 3 C). Para los inicios de palabras, encontramos diferencias significativas independientemente de un hablante distractor, pero un efecto fuertemente creciente cuando se presentó un hablante distractor al lado (Sin Distractor: MD (SE) = .004 (.002), p = .017 ; Distractor: MD (SE) = .012 (.003), p < .001). Después de esto, las máscaras faciales parecen disminuir la capacidad de segmentar el flujo de voz en unidades significativas cuando los oyentes se encuentran en situaciones auditivas desafiantes.

4 . Discusión

Los efectos de las máscaras faciales en la comprensión del habla se han investigado en varios estudios a nivel conductual ( Brown et al., 2021 ; Giovanelli et al., 2021 ; Rahne et al., 2021 ; Toscano and Toscano, 2021 ; Yi et al. , 2021 ). A pesar del acuerdo general sobre los efectos adversos de las máscaras faciales en la comprensión del habla, no ha quedado claro qué características del procesamiento del habla se ven afectadas específicamente.

Nuestros resultados muestran que el seguimiento de las características responsables del procesamiento exitoso del habla naturalista se ve afectado por las máscaras faciales (quirúrgicas). Desde modulaciones temporales generales de la envolvente del habla hasta modulaciones de detalles espectrales finos (tono y formantes) y segmentación del habla (comienzos de fonemas y palabras), una máscara facial reduce significativamente la decodificación de estas características a partir de datos cerebrales. Sin embargo, no todas estas características del habla se ven afectadas por la máscara facial de la misma manera. Mientras que el seguimiento del cerebro de las características acústicas de bajo nivel (es decir, la envolvente del habla y los detalles espectrales finos) generalmente se ven afectados, el fonema de las características de segmentación de nivel superioronset y word onset muestran una reducción particularmente fuerte de la precisión de la reconstrucción a través de máscaras faciales cuando se enfrentan a una situación auditiva desafiante (es decir, al usar un altavoz distractor).

4.1 . El enmascaramiento del área de la boca aumenta la dificultad auditiva subjetiva, mientras que la comprensión del habla no se ve afectada

Con respecto a nuestros resultados de comportamiento, observamos una disminución significativa del rendimiento a través de un altavoz distractor, pero no a través de la máscara facial. Esto está en línea con los hallazgos anteriores sobre el habla de solo audio ( Toscano y Toscano, 2021 ) que no encontraron un efecto significativo de las máscaras faciales quirúrgicas en el reconocimiento de palabras en situaciones auditivas fáciles y desafiantes. Sin embargo, otro estudio con habla audiovisual encontró efectos significativos de una máscara facial quirúrgica en condiciones de ruido rosa de fondo moderado (-5 dB SNR) y alto (-9 dB SNR) en la inteligibilidad de oraciones ( Brown et al., 2021).). Dado que nuestro estudio utilizó audiolibros de mayor duración, es posible que nuestras mediciones de comportamiento no hayan sido lo suficientemente precisas (es decir, solo dos afirmaciones binarias no estandarizadas de «verdadero o falso» al final de cada prueba con respecto a la comprensión semántica) para detectar esta influencia.

También descubrimos que las calificaciones subjetivas de la dificultad auditiva eran significativamente mayores cuando los oradores usaban una máscara facial independiente de un orador distractor. Una explicación de esto es que eliminar las señales visuales informativas conduce a un aumento de la ambigüedad lingüística, lo que resulta en una corrección mental más esforzada por parte del oyente ( Hughes et al., 2018 ). Sin embargo, este mayor esfuerzo podría estar compensando al mismo tiempo la influencia de las máscaras faciales en el rendimiento de comprensión antes mencionado ( Winn y Teece, 2021 ). A pesar de un desempeño comparable en la comprensión del habla entre condiciones con y sin máscaras, escuchar a un orador usando una máscara aumenta el esfuerzo auditivo subjetivo. Tal mayor esfuerzo se ha asociado con el aislamiento social.en la población con discapacidad auditiva ( Hughes et al., 2018 ) y no debe descartarse. Aún así, nuestros resultados de comportamiento contradicen los hallazgos anteriores, que solo mostraron un efecto de las máscaras faciales en el esfuerzo auditivo cuando se combina con el ruido de fondo ( Brown et al., 2021 ). Una vez más, las diferencias en el diseño del estudio (audiolibros de un minuto frente a una sola oración) pueden explicar esta diferencia.

4.2 . El enmascaramiento del área de la boca perjudica el seguimiento de características cruciales del habla acústica en general

La envolvente del habla, asociada principalmente con la transmisión de información sintáctica y fonética ( Giraud y Poeppel, 2012 ; Poeppel y Assaneo, 2020 ), se ha considerado una característica central del seguimiento del habla ( Brodbeck y Simon, 2020 ). En situaciones de escucha de varios hablantes, prestar atención al hablante objetivo está relacionado con un seguimiento mejorado de la envolvente del habla atendida en comparación con la del habla desatendido ( O’Sullivan et al., 2015 ; Park et al., 2016 ; Golumbic et al. , 2013). El seguimiento reducido de esta función de voz puede representar una dificultad para seguir y segmentar el flujo de voz de destino cuando se enfrenta a máscaras faciales. También utilizando el habla AV, un estudio mostró los beneficios audiovisuales para el seguimiento de la envolvente del habla, especialmente en el contexto del ruido de fondo (-9 SNR) ( Crosse et al., 2016 ). Nuestros resultados no confirman este efecto de eficacia inversa para el seguimiento de la envolvente del habla y otras características acústicas. En cambio, vemos un fuerte efecto que sugiere efectos visuales independientes del ruido acústico. Estas diferencias pueden explicarse por las diferencias en el diseño del estudio, ya que utilizamos un altavoz distractor con una SNR de 0 dB en comparación con el ruido de fondo con una SNR de -9 dB. Si bien no confirma la noción de efectividad inversa, nuestros resultados están en línea con un estudio realizado por (Golumbic et al., 2013 ) que muestra una mayor respuesta en la corteza auditiva a los estímulos AV en comparación con los estímulos solo de audio, independientemente de un altavoz distractor. Sus resultados apuntan a una influencia moduladora del habla visual sobre el procesamiento auditivo.

Independientemente de la importancia de la envolvente del habla, no transmite información específica sobre ciertos objetos fonéticos, como las vocales y las combinaciones de vocales y consonantes. Los formantes del otro lado definen las vocales directamente ( Peterson y Barney, 1952 ). Si bien el primer (F1) y el segundo formante (F2) generalmente se consideran formantes centrales en el habla ( Peterson & Barney, 1952 ), el uso de un promedio de F2 y F3 (F2/3) en lugar de F2 ha demostrado ser beneficioso ya que suaviza las transiciones. de una vocal a otra ( Stevens, 2000 ) y por su convergencia en la cavidad anterior ( Badin et al., 1990 ). Con respecto al seguimiento del habla visual, las frecuencias abarcadas de F2 y F3 se correlacionan fuertemente con los movimientos de los labios (Chandrasekaran et al., 2009 ), por lo que estas frecuencias probablemente contribuyan a una transformación visual-fonológica (cf. Hauswald et al. (2018) .). Mientras Hauswald et al. (2018) propusieron un papel de la información de la envolvente transmitida visualmente para una transformación viso-fonológica, otro estudio de nuestro grupo sugiere además que también la información del formante transportada visualmente pasa por tal transformación ( Suess et al., 2022 ), que posiblemente sea aún más relevante para el procesamiento del habla visual que la transformación de la envolvente del habla ( Plass et al., 2020 ). Finalmente, la reconstrucción del tono de voz o frecuencia fundamental, utilizada para segregar flujos de voz concurrentes ( Bregman, 1990), también se reduce a través de máscaras faciales, lo que podría generar dificultades para desenredar el flujo de voz de destino y el flujo de voz distractor. Tomando los efectos que las máscaras faciales tienen en la envoltura, el tono y los formantes juntos, los revestimientos faciales pueden conducir a dificultades posteriores en la identificación de fonemas y, como consecuencia, también de palabras. Como usamos máscaras faciales quirúrgicas en nuestro estudio, que tienen una pequeña influencia en la acústica del habla y atenúan solo las frecuencias más altas por encima de 3 kHz ( Corey et al., 2020 ; Toscano y Toscano, 2021 ).) y solo encontraron pequeñas diferencias entre los estímulos con y sin máscara facial (efecto más grande: g de Hedge de .26, consulte la Tabla S2), atribuimos estos hallazgos principalmente a la falta de información visual. Esto está respaldado por el hecho de que los detalles finos espectrales investigados (a saber, tono y formantes) se presentan en frecuencias por debajo de 3 kHz ( Peterson y Barney, 1952 ).). Reforzando aún más este punto es que las características de segmentación del habla (inicio de palabra e inicio de fonema) muestran fuertes efectos sin que las características mismas se vean influenciadas por una acústica degradada. Por lo tanto, interpretamos los efectos antes mencionados como el resultado de una falta de entrada visual y una posterior imposibilidad de integrar la información acústica y visual en contraste con los efectos de la acústica distorsionada a través de la mascarilla quirúrgica. Sin embargo, para obtener una comprensión completa de estos efectos, se necesita investigación futura para abordar la cuestión de los efectos auditivos y visuales.

4.3 . El enmascaramiento del área de la boca dificulta el seguimiento de las características de segmentación de nivel superior, especialmente en situaciones auditivas difíciles

El seguimiento de los inicios de fonemas y palabras se ve afectado de tal manera que las máscaras faciales dificultan especialmente la fragmentación en situaciones auditivas difíciles. Los estudios que investigaron los ERP simples al escuchar un discurso continuo encontraron respuestas mejoradas a los inicios de palabras ( Sanders et al., 2002 ; Sanders y Neville, 2003 ), lo que apunta a un mecanismo interno de fragmentación del cerebro para un procesamiento óptimo del habla. En un nivel más bajo, las respuestas cerebrales inducidas por la aparición de fonemas se predicen de forma fiable mediante modelos de codificación ( Brodbeck et al., 2018 ; Daube et al., 2019 ; Di Liberto et al., 2015).), lo que implica fragmentación ya en este nivel. Cuando se les priva de señales visuales (a través de máscaras faciales) y en ambientes acústicos ruidosos, nuestros hallazgos sugieren que las personas enfrentan problemas para segmentar el flujo continuo del habla en unidades significativas (es decir, palabras y fonemas). Además, las frecuencias de los formantes también podrían desempeñar un papel importante en la detección de sílabas y, lo que es más importante, fonemas y sus límites ( Plass et al., 2020 ). Para compensar esta degradación en situaciones auditivas desafiantes, mirar la cara del hablante proporciona información importante ( Mitchel y Weiss, 2014 ) para la segmentación de palabras. Destacando esto aún más, se ha descubierto que las señales visuales del área de la boca mejoran la discriminación fonética, al proporcionar información visémica ( Fisher, 1968 ).). En conjunto, privar a los oyentes de estas señales visuales al cubrirse la boca afecta un paso importante en la identificación de unidades (palabras y fonemas), lo que ayuda a fragmentar el flujo para su posterior procesamiento. Estos resultados confirman que la ganancia multisensorial aumenta cuando la entrada individual de una modalidad es débil o distorsionada ( Crosse et al., 2016 ). Curiosamente, en nuestros resultados solo encontramos este efecto para las funciones de segmentación de nivel superior, mientras que todas las funciones de nivel inferior muestran efectos generales de la máscara facial.

Con este estudio, ampliamos el conocimiento sobre el procesamiento del habla AV multisensorial al poner los hallazgos anteriores en el contexto de las máscaras faciales. Las expectativas sobre la influencia de las máscaras faciales en las características del habla se confirmaron en la forma en que perjudica la reconstrucción de las características del estímulo en situaciones auditivas difíciles, siguiendo el concepto de efectividad inversa. Este efecto se puede mostrar en características de alto nivel de segmentación del habla (es decir, inicios de fonemas y de palabras) en forma de una interacción entre la máscara facial y el hablante distractor, mientras que la reconstrucción de la información acústica generalmente se ve afectada. Esto podría apuntar nuevamente a un proceso de transformación viso-fonológico de la entrada visual a una representación fonética en el rango de F2 y F3, que sin embargo no es posible cuando los hablantes usan una máscara facial.la corteza visual podría estar influyendo en el procesamiento posterior de la señal del habla compleja en la corteza auditiva a través de vías directas desde las regiones visuales a las auditivas ( Besle et al., 2004 , 2009 ; Golumbic et al., 2013 ) o al influir en la conectividad entre la corteza auditiva y regiones de nivel superior especializadas en el procesamiento del habla ( Giordano et al., 2017 ). Otro posible proceso inhibido a través del enmascaramiento del área de la boca se presentó en un estudio reciente ( Nidiffer et al., 2021 ). Proporcionaron evidencia de una representación lingüística en la corteza visual derivada de la información visémica del habla, un proceso independiente del procesamiento auditivo asociado con la lectura de labios.Nidiffer et al., 2021 ).

Nuestro estudio, por el contrario, no puede proporcionar evidencia a favor o en contra de una especialización local de características del habla individuales, ya que utilizamos un enfoque de modelado hacia atrás que no ofrece la posibilidad de evaluar la contribución de diferentes regiones del cerebro. Esto podría ser una limitación crucial en los casos en que el enfoque de la investigación se encuentra en la resolución espacial de los efectos, por ejemplo, desentrañar las contribuciones de las áreas cerebrales visuales y multisensoriales. Sin embargo, nuestra pregunta de investigación se adaptaba mejor a un enfoque de modelado inverso, ya que nuestro objetivo principal era evaluar la influencia de enmascarar la cara en diferentes características del habla en general, es decir, en todo el cerebro. Esto erradica la necesidad de preseleccionar ciertos canales ( Mesgarani et al., 2009). Por un lado, el uso de todos los sensores en lugar de un grupo seleccionado, por supuesto, aumenta las demandas de cómputo en comparación con la codificación directa. Por otro lado, también ofrece la posibilidad de asignar pesos bajos a los canales que no son particularmente importantes en el proceso de reconstrucción, al mismo tiempo que incluye canales que pueden capturar varianza adicional ( Pasley et al., 2012).). El modelado hacia atrás también tiene una mayor sensibilidad para las diferencias entre los canales que están espacialmente cerca y, por lo tanto, comparten información similar, lo que da como resultado señales altamente correlacionadas. Esos patrones se pueden reconocer ya que todos los canales de respuesta se usan simultáneamente en el modelo hacia atrás, mientras que en un modelo hacia adelante, los canales se tratan de forma independiente y, por lo tanto, no pueden proporcionar información sobre los canales intercorrelacionados ( Crosse, Di Liberto, Bednar, et al. , 2016 ). Es importante destacar que los resultados del modelado directo no cuestionarían nuestra conclusión principal, es decir, el papel crucial del habla visual en situaciones auditivas desafiantes, lo cual está en línea con ( Brown et al., 2021 ; Crosse et al., 2016).) pero posiblemente extenderlo por información espacial. Para una discusión detallada de las ventajas y desventajas del modelado hacia adelante y hacia atrás y su posibilidad de complementarse entre sí, consulte Crosse, Di Liberto, Bednar, et al. (2016) .

4.4 . Implicaciones prácticas

Según nuestros hallazgos, el uso de máscaras faciales transparentes es principalmente favorable. Sin embargo, algunos de los modelos transparentes actuales vienen con una transmisión de detalles acústicos significativamente reducida ( Corey et al., 2020 ), lo que resulta en una inteligibilidad reducida y mayores índices de dificultad, cuando se presentan en entornos ruidosos ( Brown et al., 2021 ). También es importante considerar que este estudio investigó sujetos con audición normal y que los resultados para individuos con pérdida auditiva podrían ser diferentes ( Puschmann et al., 2019 ). De acuerdo con esta noción, los datos recopilados antes de la pandemia de Covid-19 sugieren grandes beneficios de las máscaras faciales transparentes para los oyentes con pérdida auditiva ( Atcherson et al., 2017).) permitiéndoles integrar información visual para el procesamiento del habla. Un estudio reciente lo confirma al comparar el impacto de las mascarillas quirúrgicas con los protectores faciales (transparentes) ( Homans y Vroegop, 2021 ). A pesar del mayor impacto del protector facial en la acústica en comparación con las máscaras faciales quirúrgicas, las personas con pérdida auditiva no mostraron una disminución significativa en la inteligibilidad del habla cuando se enfrentaron con un protector facial en comparación con las que no las usaron, mientras que las puntuaciones fueron significativamente peores cuando se usó una máscara facial quirúrgica. .

5 . Conclusión

Con este estudio, investigamos los efectos de las máscaras faciales en el procesamiento multisensorial del habla. Usando un enfoque de reconstrucción de estímulos, encontramos un deterioro general de la integración del habla AV a través de máscaras faciales, mientras que los efectos de las características segmentarias de nivel superior fueron más pronunciados cuando se presentó un distractor junto con una máscara facial que usaba el hablante objetivo. Este último hallazgo está en línea con el concepto de efectividad inversa, lo que sugiere una mayor ganancia multisensorial en el contexto de una modalidad única débil, que sin embargo no es posible cuando se ocluye el área de la boca. Aquí, por lo tanto, podemos mostrar los efectos diferenciales para la acústica de bajo nivel (envolvente, tono y formantes) y las características de segmentación del habla de nivel superior. Nuestros resultados fortalecen el concepto de una transformación visual-fonológica que mejora el seguimiento de las características del habla a través de la información visual. Los presentes hallazgos podrían tener implicaciones importantes para decidir qué máscaras faciales usar, especialmente cuando se trata de personas con discapacidad auditiva.

Declaración de declaración de intereses en competencia

Los autores han declarado no tener intereses en competencia.

Agradecimientos

Este trabajo cuenta con el apoyo del Austrian Science Fund, P31230 («Aprendizaje del habla audiovisual en la sordera») y P34237 («Impacto de las máscaras faciales en la comprensión del habla»). Ícono de sonido creado por Smashicon de www.flaticon.com .

Gracias a todo el equipo de investigación. Un agradecimiento especial a Fabian Schmidt por brindar soporte para el diseño gráfico.

Disponibilidad de código

El código para recrear cifras y estadísticas está disponible en el repositorio de GitLab del autor correspondiente ( https://gitlab.com/CLH96/facemasktracking ). Se puede proporcionar información adicional y más detallada sobre el método a pedido.