Le signal acoustique de la parole

Samedi 22 juillet 2006, par ph@ln // Parole

1) Description.

La parole est un signal réel, continu, d’énergie finie et non stationnaire. Sa structure est complexe et variable avec le temps. Sa composition, figure 2, est la suivante :
- Pseudo-périodique (D) : sons voisés ;
- Aléatoire (A) : sons fricatifs ;
- Impulsionel (C) : phase explosive des sons occlusifs. (B est du bruit)

Figure 2 : Représentation temporelle du signal acoustique de la parole.

Une manière aisée de décrire le signal acoustique est d’utiliser une représentation sous forme de spectrogramme (les termes couramment employés de Sonagraph et Sonagram sont des marques déposées), comme dans la figure 3.

Le spectrogramme est une représentation tridimensionnelle, où le temps est représenté sur l’axe X, la fréquence sur l’axe Y et le niveau de chaque fréquence, sur l’axe Z, est symbolisé par le niveau de noir. Cette analyse temps-fréquence, d’abord réalisée de manière analogique à l’aide de bancs de filtres, est maintenant réalisée de manière numérique par TFR. Elle sera détaillée dans le chapitre consacré aux outils d’analyse et de traitement du signal.

Figure 3. Spectrogramme de "Samedi".

2) Structure des voyelles en français.

Un des traits caractéristiques des voyelles, lorsqu’on les observe dans le domaine spectral, est la présence de formants, c’est à dire de bandes de fréquence dont l’énergie est particulièrement élevée. Dans le spectrogramme, les formants apparaissent sous la forme de bandes sensiblement parallèles à l’abscisse.

Chez un locuteur masculin, tous les formants sont inférieurs à 5000 Hz. Si les formants F1 et F2, voire F3, sont bien marqués, les formants F4 et F5 sont plus difficiles à retrouver dans le spectre. Ils peuvent d’ailleurs être regroupés en un pic unique et intense pour la voix chantée.

Il apparaît parfois, surtout pour les voyelles de faible intensité, un formant vers 200 Hz (le formant glottal) dont on ne tient pas compte.

Les voyelles sont souvent représentées positionnées sur un plan, dont les axes sont les formants F1 et F2. Elles tracent alors un triangle dont les extrémités sont occupées par les voyelles "extrêmes", c’est-à-dire [a], [u], [i]. Ce triangle représente également, de manière assez grossière, les positions de la langue dans la bouche selon deux axes :
- Antérieur à postérieur ;
- Fermé à ouvert.
Les différents traits acoustiques, aussi bien pour les voyelles que pour les consonnes, peuvent servir de paramètres pour une reconnaissance [GAL 90] et [JUN 90].

3) Les consonnes en français.

Les consonnes peuvent être rangées en trois catégories :
- les occlusives ;
- les fricatives ;
- les sonnantes.

3.1. Les occlusives.

Les occlusives sont caractérisées par un silence provenant de la fermeture complète du conduit vocal (occlusion) en un point précis. Ce point d’occlusion peut être :
- les lèvres (labiale) pour [b] et [p] ;
- les dents (dentale ou post-dentale) pour [t] ou [d], elles sont dites alvéolaires ;
- le palais (palato-vélaire ou vélaire) pour [k] ou [g] ;

La durée du silence, influencée par l’entourage phonétique et par le débit de parole, est comprise entre 50 et 120 ms.. Mais ce silence peut ne pas être total (dans le cas des occlusives sonores) car il peut se former une " barre de voisement ", est produite par une vibration des cordes vocales. Cette barre, de faible énergie, est concentrée dans les basses fréquences (100 à 300 Hz).

La fin de l’occlusion provoque une perturbation acoustique, sous la forme d’une onde de pression due au relâchement de l’air qui était comprimé par l’occlusion. Cette perturbation est de courte durée (5 à 35 ms) mais peut être intense (sauf dans le cas des occlusives sonores).

Il peut exister une zone avec du bruit de friction. La durée de cette zone est liée au lieu où se produit l’occlusion. Elle sera brève pour les labiales, en raison de la vélocité des lèvres, et plus longue pour les vélaires car la partie postérieure de la langue est moins agile.Le passage d’une consonne à une voyelle, ainsi que l’étape inverse, produit des transitions formantiques, c’est à dire des variations dans la position des formants.

3.2. Les fricatives.

Les fricatives (ou constrictives), sont des bruits produits par l’écoulement turbulent de l’air. Lorsque cet écoulement rencontre un rétrécissement, un lieu de constriction, il se produit un bruit de friction.Sur un spectrogramme, le bruit de friction apparaît comme une zone diffuse. Elle est localisée :
- Entre 4 et 8 kHz pour les consonnes [s] ou [z] ;
- Entre 1,6 et 7 kHz pour les consonnes [ò] ou [z ], avec deux concentrations vers 2 et 4,5 kHz.
- Sous forme de formants de bruits vers 3, 5 et 8 kHz pour [f] et [v].

3.3. Les sonnantes.

Les consonnes sonnantes (c’est à dire les liquides, les nasales et les semi-consonnes) présentent la particularité de posséder des formants et peu ou pas de bruit.