• Nenhum resultado encontrado

Introduction de la premi` ere partie

B. D´ etection des segments d’attaques

Les caract´eristiques des attaques de notes de musique sont connues pour ˆetre des ´el´ements importants de diff´erenciation des timbres d’instruments. Nous nous int´eressons par suite `a des techniques permettant de d´etecter les transitoires d’attaque afin de pouvoir envisager un traitement particulier de ces ´el´ements du son.

Plusieurs m´ethodes ont ´et´e propos´ees dans des travaux pr´ec´edents (voir [Bello et al., 2005]

pour une synth`ese). Nous avons pour notre part explor´e diff´erentes techniques, des plus simples, se basant sur la variation de l’´energie du signal en amont et en aval de l’attaque, aux plus

´elabor´ees, con¸cues dans le contexte de la d´etection du rythme et qui font appel `a une analyse du signal par banc de filtre (cf. [Klapuri, 1999] par exemple). Nous avons retenu une approche qui a ´et´e d´evelopp´ee par Leveau & Daudet [Leveau et al., 2004] avec qui nous avons collabor´e sur cette probl´ematique. Cette approche d´etecte des instants d’attaque et s´electionne, `a partir de ces instants un nombre fixe de fenˆetres comme faisant partie du segment transitoire.

L’algorithme de d´etection des transitoires utilise une fonction de d´etection bas´ee sur une diff´erence spectrale qui prend en compte un incr´ement de phase. La version originale de cette

3Linear Prediction Coding

III-3. Segmentation du signal 37

m´ethode a ´et´e introduite dans [Bello et al., 2004]. En supposant que le signal se compose de sinuso¨ıdes stationnaires, l’incr´ement de phase est constant sur deux fenˆetres successives : φ(k, m)−φ(k, m−1) =φ(k, m−1)−φ(k, m−2), et la pr´ediction au premier ordre du spectre X(k, m), `a la fr´equence k et sur la fenˆetre m est :

X(k, m) =ˆ |X(k, m−1)|exp{j[2φ(k, m−1)−φ(k, m−2)]}. (III.9) Lorsqu’un transitoire apparaˆıt, cela provoque une rupture de la “pr´edictibilit´e” qui se traduit par un maximum local sur l’erreur de pr´ediction ρ(m), d´efinie par :

ρ(m) = ΣKk=1|X(k, m−X(k, m)|. (III.10) Pour une meilleure localisation des instants d’attaques, Leveau & Daudet pr´econisent l’utili- sation d’une fonction de d´ecision modifi´ee γ(m), d´efinie par :

γ(m) = max(δρ(m),0), (III.11)

o`u δ d´enote une d´erivation temporelle. Les maxima locaux de cette fonction de d´etection qui se retrouvent au-dessus d’un seuil sont s´electionn´es, et les fenˆetres correspondantes consid´er´ees comme des fenˆetres de transitoire d’attaque. Le seuil utilis´e est fix´e de fa¸con adaptative selon :

θ(m) =θstatic+λm´ediane(m−S), ..., γ(m+S)}, (III.12) o`u θstatic permet de contrˆoler le compromis entre les fausses d´etections et les faux rejets de transitoires (fix´e `a 0.1),Sd´enote le nombre de fenˆetres, pr´ec´edent et suivant la fenˆetre en cours, qui sont utilis´ees pour l’adaptation du seuil (fix´e `a 10), etλpermet de “balancer” les deux termes du membre droit de (III.12).

La fenˆetre contenant l’attaque ainsi qu’un nombre fix´e (de 2 `a 4) de fenˆetres qui la suivent constituent ainsi un segment que nous marquons comme transitoire.

Cet algorithme se montre performant en comparaison avec d’autres algorithmes de l’´etat-de- l’art. Pour plus de d´etails nous invitons le lecteur `a consulter [Leveauet al., 2004,Leveau, 2004].

38 III. Pr´e-traitements et segmentation des signaux audio

39

IV. Descripteurs pour la classification audio

Nous pr´esentons dans ce chapitre les descripteurs que nous avons examin´e. Ceux-ci ayant fait l’objet d’une litt´erature abondante, nous adoptons une pr´esentation succincte indiquant bri`evement la proc´edure de calcul et proposant, si possible, une interpr´etation physique.

Il est important de noter que l’utilisation et le calcul des descripteurs sont rarement rigoureuse- ment justifi´es. Les approches suivies sont, en effet, purement heuristiques. Cela n’est pas gˆenant dans la mesure o`u nous envisageons une ´etape de s´election automatique des descripteurs efficaces,

`

a l’issue de la phase d’extraction. De fait, les descripteurs que nous d´ecrivons ici doivent ˆetre consid´er´es comme des candidats qui ne seront pas tous retenus dans le sch´ema de classification.

IV-1. G´ en´ eralit´ es

Les attributs que nous avons retenus sont mesur´es sur des fenˆetres d’analyse temporelles successives : il s’agit dedescripteurs instantan´es. La plupart de ces attributs sont calcul´es sur les fenˆetres d’analyse courtes. Ceux qui sont calcul´es sur les fenˆetres longues sont r´ep´et´es sur autant de fenˆetres courtes correspondant au mˆeme segment de signal analys´e. Cela permet d’int´egrer les diff´erents attributs (issus de fenˆetres d’analyse courtes ou longues) au sein d’un mˆeme vecteur d’observation associ´e `a une fenˆetre d’analyse courte. La figure IV.1 illustre cette op´eration.

Nous avons choisi des attributs qui peuvent ˆetre extraits de fa¸con robuste et syst´ematique

`

a partir d’un contenu audio quelconque, ´eventuellement polyphonique (plusieurs notes simul- tan´ement), impliquant des instruments percussifs (par exemple de la batterie), et/ou bruit´e (enregistrements en direct ou Live, compression du signal, etc.). De telles conditions rendent difficile l’extraction de fr´equences fondamentales multiples, ce qui explique que les attributs calcul´es `a partir de ces derni`eres (par exemple, l’inharmonicit´e, la d´eviation harmonique ou le tristimulus [Peeters, 2004]) ont ´et´e ´evit´es.

40 IV. Descripteurs pour la classification audio

Fig. IV.1 Int´egration des descripteurs issus de fenˆetres longues et courtes au sein des vecteurs d’observation.

IV-2. Descripteurs classiques 41

IV-2. Descripteurs classiques