Éléments de la perception sonore humaine

Cet article porte maintenant sur l’acoustique psychologique, qui traite de la perception sonore humaine.

Avant de se pencher sur l’audio 3D, nous devons au moins être clairs sur les éléments de base de la perception sonore humaine. Cela vous permet de comprendre pourquoi l’audio 3D fonctionne. Ainsi, on peut aussi tirer des conclusions sur la façon d’influencer un mix de manière naturelle.

L’audio immersif réfère acoustiquement aux sons provenant de toutes les directions autour de l’auditeur. Il s’agit d’un état normal et inévitable de l’audition humaine naturelle dans un milieu aérien. Les sources sonores acoustiques peuvent être trouvées partout où les ondes sonores se propagent et sont reflétées par l’environnement de l’auditeur.

Le sens courant de l’immersion dans l’audio et l’acoustique renvoie à la sensation psychologique d’être enveloppé par certaines sources sonores et le bruit ambiant.

L’audition binaurale

Binaural signifie littéralement « à deux oreilles ». Avec l’ouïe binaurale, les humains peuvent déterminer la direction et l’origine des sons. Cette performance est obtenue en comprenant les signaux que chaque oreille entend.

Les signaux binauraux

Un signal binaural nous aide à comprendre la différence entre les signaux reçus par chaque oreille. Les trois signaux binauraux les plus importants sont le niveau et la différence de temps entre les différentes fréquences de deux signaux. Ces valeurs sont la différence de niveau interaural (engl. : interaural level difference, ILD) et la différence de temps interaural (engl. : interaural time difference ITD). Un autre facteur pour l’analyse directionnelle est la différence de couleur des sons. Les signaux binauraux sont également utilisés pour détecter la direction du son (azimut) sur un plan horizontal. Par exemple, s’il y a une source sonore sur le côté droit de votre tête, l’oreille droite reçoit le son directement, l’oreille gauche ne le reçoit qu’après un certain délai. Cet écart est dû à la distance entre les deux oreilles. En outre, l’oreille gauche reçoit le son avec plus d’ombre de tête parce que le signal est distrait et reflété par la tête, le torse, le pavillon et cetera. Essentiellement, les oreilles humaines reconnaissent la direction du son sur un plan horizontal au moyen de la différence de temps (ITD) et de la différence de niveau (ILD).

Signaux monauraux

Les signaux binauraux ne donnent pas une image complète de la localisation sonore, car l’oreille humaine est parallèle au plan horizontal. En outre des indices binauraux, l’homme utilise aussi des indices monauraux pour déterminer l’emplacement et l’origine d’un son dans l’espace. Plus précisément, un signal monophonique est utilisé pour détecter le niveau sonore, car les caractéristiques de fréquence d’un signal d’entrée varient en fonction de l’angle d’élévation. Par exemple, un son qui est à la même hauteur que l’oreille et un autre son qui est au-dessus de l’oreille ont des fréquences de résonance différentes avec des reflets différents sur le pavillon, conduisant à des pics ou des encoches différents dans le spectre.

La perception auditive

La perception auditive est un phénomène complexe, déterminé par la physiologie de l’ouïe et influencé par les phénomènes cognitifs.

L’oreille humaine

image de l'oreille humaine externe

L’oreille externe se compose du pavillon et du conduit auditif. Le pavillon sert à focaliser le signal sonore et provoque une modification du son en fonction de sa direction d’incidence.

Le conduit auditif dirige le son concentré vers le tympan, où une vibration mécanique est convertie en une impulsion électrique.

Le conduit auditif a une longueur approximative de 2,3 cm et est un résonateur à quart d’onde. Un résonateur à quart d’onde est un tube fermé d’un côté.  Si un quart d’onde correspond à la longueur du conduit auditif, il y a résonance. Cela augmente une certaine gamme de fréquences, ce qui est particulièrement important pour la perception des sons naturels et l’intelligibilité de la parole.

Audition spatiale et la localisation sonore

La localisation est la identification de la direction et de la distance d’une source sonore. Dans l’audition spatiale et la perception directionnelle, une distinction est faite entre le plan horizontal (azimut), le plan vertical (élévation) et le plan frontal (distance). Les facteurs déterminants sont les différences d’intensité, de durée et de timbre. La localisation des sources sonores résulte à la fois de l’écoute binaurale – dans le plan horizontal – et monaurale – dans le plan médian. Il fonctionne mieux avant que latéral, et les fréquences inférieures à 100Hz sont difficiles ou impossibles à localiser.

Le plan horizontal

image localisation sonore horizontale

Les différences d’intensité sonore (ILD) dans le plan horizontal sont causées par l’ombre à travers la tête. Pour une incidence latérale du son à partir de la direction 90°, une incidence acoustique plus silencieuse de 7dB est détectée du côté opposé de l’oreille. La perception de la musique est inférieure de 7 à 10 dB en fonction de la fréquence.

Les différences de temps de transit (ITD), c’est-à-dire que le son arrive à l’oreille face à la source sonore plutôt qu’ à l’oreille opposée, sont dues au fait que le son doit parcourir une distance supplémentaire. A partir de la direction 90°, le son tombe environ 65ms dans l’oreille face à la source sonore. La plus petite différence perceptible est de 0,03 ms. Cela correspond à un changement de direction de 3°. Le seul critère de localisation est le décalage horaire dans une gamme de fréquences comprise entre 100Hz et 1600Hz.

Entre 300 Hz et 1,6 kHz, les différences de temps de transit plus les différences d’intensité sonore sont évaluées, de sorte qu’ à partir de 2 kHz, seules les différences d’intensité sont importantes pour localiser une source sonore.

Les différences de timbre décrivent le phénomène selon lequel le son du côté opposé à la source est plus mat. Cela peut s’expliquer par le fait que la tête est un obstacle naturel au son. À des fréquences plus élevées, le son est réfléchi par la tête, ce qui fait que les basses fréquences sont courbées autour de la forme de la tête mais arrivent toujours de l’autre côté.

Le plan vertical

image localisation sonore verticale

L’indicateur le plus important par lequel l’oreille humaine détermine la hauteur d’une source sonore est le spectre monaural. Il est déterminé par l’interaction du son avec le bruit du pavillon. Des expériences ont montré que la formation spectrale à travers le pavillon est fortement directionnelle. L’absence de toute indication du pavillon affecte la précision de la localisation.

Le plan frontal

L’estimation de la distance dans le plan frontal est principalement basée sur trois facteurs. Tout d’abord, les différences de volume signifient que le signal est plus éloigné, plus il est silencieux. Deuxièmement, plus grande est la distance par rapport à la source sonore, plus les réverbérations et les réflexions s’ajoutent au son direct. Et troisièmement, les différences de tonalité sont perçues lorsque la source sonore est éloignée. Plus la distance est grande, moins les hautes fréquences atteignent l’oreille.

image localisation sonore frontale

Écoute via casque ou haut-parleurs

Par rapport aux casques, les haut-parleurs ne sont pas une option souhaitable lorsqu’il s’agit de convertisseurs sonores pour les applications de réalité virtuelle. Si vous écoutez par haut-parleurs, vous pourrez aussi entendre les artefacts de la pièce. Cela rend le potentiel immersif d’une expérience de RV beaucoup plus difficile.

D’autre part, les écouteurs bloquent complètement le son du monde physique, empêchent l’écoute des artefacts dans l’espace local et permettent d’être « pleinement présents »dans le monde virtuel. De plus, la configuration d’un haut-parleur virtuel est limitée par la taille de la pièce avec les haut-parleurs, tandis que l’utilisation du casque permet un espace virtuel illimité. La chose peut-être la plus importante est que les écouteurs permettent l’interactivité, qui est un élément central de l’expérience de la RV. Les utilisateurs doivent pouvoir se déplacer dans la scène et les haut-parleurs fixes rendent extrêmement difficile de suivre leurs mouvements.

Écoute via casque

Le son émis par les haut-parleurs du casque est transmis directement sur l’oreille affectée à la coque du casque et non sur la tête et les deux oreilles, comme dans l’audition naturelle. Dans le cas des bouchons intra-auriculaires, l’effet de filtre acoustique causé par l’anatomie du conduit auditif, est également annulé. Cela signifie que le cerveau ne dispose pas des informations nécessaires à une évaluation adéquate du son. En particulier, les informations directionnelles indispensables à la localisation acoustique des sources sonores sont inexistantes. Au lieu d’une position frontale naturelle, la séparation stricte des deux signaux stéréo par les écouteurs résulte en une localisation peu naturelle du casque. L’image sonore semble exister entièrement à l’intérieur ou au bord de la tête plutôt qu’ à l’extérieur de l’auditeur.

Cet effet est évité au moment de l’enregistrement et de la lecture binaural. Toutefois, si vous souhaitez optimiser les mixages basés sur des objets pour une lecture naturelle via un casque, vous devez introduire les fonctions de transfert relative à la tête (engl. :HRTF ; Head Related Transfer Functions) dans la chaîne de traitement. Ils sont utilisés pour reproduire les fonctions filtrantes du pavillon sur une base computationnelle.

Reproduction de l’audition binaurale avec la fonction de transfert relative à la tête (HRTF)

image hrtf mesures pavillon

L’audition binaurale peut être reproduite approximativement avec la fonction de transfert relative à la tête (HRTF). Elle est utilisée pour générer et afficher des environnements virtuels acoustiques 3D. Les HRTFs varient considérablement selon la tête et la géométrie de l’oreille externe. Les enregistrements HRTF fournissent des informations sur la façon dont les sources sonores sonnent à chaque oreille à une certaine distance et dans une certaine direction. Lorsqu’un signal mono brut traverse un filtre HRTF particulier, il reçoit des données de position et émet un son comme s’il venait d’un emplacement spécifique. Les appareils HRTF sont mesurés/enregistrés dans une pièce à faible réflexion de sorte qu’il n’ y ait pas de réverbération. Dans la vraie vie, cependant, on n’a pas l’habitude d’être dans une pièce à faible réflexion, de sorte que l’enregistrement HRTF peut sembler désagréable. Pour atténuer ces inconvénients, une technique appelée Binaural Room Transfer Function (BRTF) peut être utilisée. Cependant, un BRTF contient une réverbération d’une certaine pièce. Si elle est utilisée, elle peut sembler désagréable dans une autre pièce avec des propriétés différentes.