El nuevo modelo puede localizar sonidos en el mundo real

El nuevo modelo puede localizar sonidos en el mundo real

El cerebro humano está finamente sintonizado no solo para reconocer ciertos sonidos, sino también para determinar de qué dirección provienen. Al comparar las diferencias en los sonidos que llegan al oído derecho e izquierdo, el cerebro puede estimar la ubicación de un perro que ladra, un camión de bomberos que aúlla o un automóvil que se aproxima.

Ahora, los neurocientíficos del Instituto Tecnológico de Massachusetts han desarrollado un modelo informático que también puede realizar esta compleja tarea. El modelo, que consta de varias redes neuronales convolucionales, no solo realiza la tarea como lo hacen los humanos, sino que también lucha de la misma manera que lo hacen los humanos.

Ahora tenemos un modelo que puede traducir sonidos en el mundo real. Y cuando tratamos al modelo como un participante experimental humano y simulamos este gran conjunto de experiencias que las personas han tenido en humanos en el pasado, lo que encontramos una y otra vez es que el modelo resume los resultados que se ven en los humanos».

Josh McDermott, Profesor Asociado de Cerebro y Ciencias Cognitivas y miembro del Instituto McGovern para la Investigación del Cerebro del MIT

Los resultados del nuevo estudio también sugieren que la capacidad de los humanos para percibir la ubicación se adapta a los desafíos específicos de nuestro entorno, dice McDermott, quien también es miembro del Centro de Mentes, Mentes y Máquinas del MIT.

McDermott es el autor principal del artículo, que aparece hoy en La naturaleza del comportamiento humano.. El autor principal del artículo es el estudiante graduado del MIT Andrew Frankel.

modelado de localización

Cuando escuchamos un sonido como el silbato de un tren, las ondas de sonido llegan a los oídos izquierdo y derecho en momentos e intensidades ligeramente diferentes, según la dirección de la que provenga el sonido. Partes del mesencéfalo se dedican a comparar estas diferencias sutiles para ayudar a estimar de qué dirección proviene el sonido, una tarea también conocida como localización.

READ  El implante cerebral ayuda perfectamente a un hombre a comunicarse

Esta tarea se vuelve notablemente más difícil en condiciones del mundo real; El entorno hace eco y escucha muchos sonidos simultáneamente.

Los científicos han buscado durante mucho tiempo construir modelos informáticos que pudieran realizar el mismo tipo de cálculos que utiliza el cerebro para localizar sonidos. Estos modelos a veces funcionan bien en entornos ideales sin ruido de fondo, pero nunca en entornos del mundo real, con su ruido y eco.

Para desarrollar un modelo de localización más complejo, el equipo del MIT recurrió a las redes neuronales convolucionales. Este tipo de modelado por computadora se ha utilizado ampliamente para modelar el sistema visual humano y, más recientemente, McDermott y otros científicos también han comenzado a aplicarlo a las pruebas.

Las redes neuronales convolucionales se pueden diseñar utilizando muchas arquitecturas diferentes, por lo que para ayudarlos a encontrar las que funcionan mejor en la localización, el equipo del MIT utilizó una supercomputadora que les permitió entrenar y probar alrededor de 1500 modelos diferentes. Esta investigación identificó 10 que parecían más adecuados para la localización, que los investigadores entrenaron y utilizaron en todos sus estudios posteriores.

Para entrenar a los modelos, los investigadores crearon un mundo virtual en el que podían controlar el tamaño de la habitación y las propiedades reflectantes de las paredes de la habitación. Todos los sonidos que se alimentan a los modelos se originaron en algún lugar de una de estas salas virtuales. La colección de más de 400 sonidos de entrenamiento incluía sonidos humanos, sonidos de animales, sonidos de máquinas como motores de automóviles y sonidos naturales como truenos.

Los investigadores también enfatizaron que el modelo comenzó con la misma información proporcionada por los oídos humanos. El oído externo, o pabellón auricular, tiene muchos pliegues que reflejan el sonido, cambiando las frecuencias que ingresan al oído, y estos reflejos varían según la fuente del sonido. Los investigadores simularon este efecto reproduciendo cada sonido a través de una función matemática especializada antes de ingresar a un modelo de computadora.

READ  Las mujeres embarazadas con COVID-19 enfrentan tasas más altas de enfermedad grave y parto prematuro. ¿Por qué tan pocas vacunas?

«Esto nos permite darle al modelo el mismo tipo de información que podría tener una persona», dice Frankel.

Después de entrenar a los modelos, los investigadores los probaron en un entorno real. Colocaron un modelo con micrófonos en sus oídos en una habitación real y reprodujeron sonidos desde diferentes direcciones, luego enviaron esas grabaciones a los modelos. Los modelos se comportaron de manera muy similar a los humanos cuando se les pidió que localizaran estos sonidos.

«Aunque el modelo se entrenó en un mundo virtual, cuando lo evaluamos, pudo localizar sonidos en el mundo real», dice Frankel.

Patrones similares

Luego, los investigadores sometieron los modelos a una serie de pruebas que los científicos han usado en el pasado para estudiar las capacidades de localización de los humanos.

Además de analizar la diferencia en el tiempo de llegada a los oídos derecho e izquierdo, el cerebro humano también basa los juicios de su ubicación en las diferencias en la intensidad del sonido que llega a cada oído. Estudios previos han demostrado que el éxito de ambas estrategias varía con la frecuencia del sonido entrante. En el nuevo estudio, el equipo del MIT descubrió que los modelos mostraban el mismo patrón de sensibilidad de frecuencia.

«El modelo parece usar las diferencias en el tiempo y el nivel entre los dos oídos de la misma manera que las personas usan, de manera dependiente de la frecuencia», dice McDermott.

Los investigadores también demostraron que cuando hicieron que las tareas de localización fueran más desafiantes, al agregar múltiples fuentes de audio que se ejecutaban al mismo tiempo, el rendimiento de los modelos de computadora disminuyó de una manera que imitaba más de cerca los patrones de falla humanos en las mismas condiciones.

READ  Detección de potentes anticuerpos neutralizantes frente a variantes del SARS-CoV-2

«A medida que agrega más y más fuentes, obtiene un cierto patrón de deterioro en la capacidad de los humanos para juzgar con precisión cuántas fuentes hay y su capacidad para localizar esas fuentes», dice Frankel. «Los humanos parecen estar limitados a localizar unas tres fuentes simultáneamente, y cuando realizamos la misma prueba en el modelo, vimos un patrón de comportamiento realmente similar».

A medida que los investigadores utilizaron el mundo virtual para entrenar a sus modelos, también pudieron explorar qué sucede cuando su modelo aprende a localizarse en diferentes tipos de condiciones anormales. Los investigadores entrenaron un conjunto de modelos en un mundo virtual sin ecos y otro en un mundo en el que solo se escuchaba un sonido a la vez. En un tercer modelo, los modelos solo fueron expuestos a sonidos con bandas de frecuencia estrechas, en lugar de sonidos naturales.

Cuando los modelos entrenados en estos mundos antinaturales se evaluaron en el mismo conjunto de pruebas de comportamiento, los modelos se desviaron del comportamiento humano y las formas en que fallaron variaron según el tipo de entorno en el que fueron entrenados. Estos hallazgos respaldan la idea de que las capacidades de localización del cerebro humano se adaptan a los entornos en los que evolucionaron los humanos, dicen los investigadores.

Los investigadores ahora están aplicando este tipo de modelado a otros aspectos de las pruebas, como la percepción del tono y el reconocimiento del habla, y creen que también se puede usar para comprender otros fenómenos cognitivos, como las limitaciones a las que una persona puede prestar atención o recordar. dice McDermott.

La investigación fue financiada por la Fundación Nacional de Ciencias y el Instituto Nacional de Sordera y Otros Trastornos de la Comunicación.

Custodia Zayas

"Organizador. Geek de las redes sociales. Comunicador general. Erudito de Bacon. Orgulloso pionero de la cultura pop".

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Renuncia el entrenador de la Liga de Hockey Rick Bennett
Previous Post Renuncia el entrenador de la Liga de Hockey Rick Bennett
Paris y Kathy Hilton se ahogan por el abuso del internado en el show de Drew Barrymore
Next Post Paris y Kathy Hilton se ahogan por el abuso del internado en el show de Drew Barrymore