jeudi 9 août 2012

La notion de pertinence est très complexe :




eRikm, ici. 

Il n’y a donc pas d’espoir :
Dans le domaine musical, la méthode de classification par compression produit aussi des résultats inespérés. Partant de morceaux de musiques codés dans le format MIDI (Musical Instrumental Digital Interface ), les chercheurs ont constitué des fichiers normalisés de 36 morceaux de musique. La normalisation consiste pour chaque morceau à produire une version pour piano, qui elle-même détermine un fichier de données (une suite de nombres codés sur huit chiffres binaires). Sans cette normalisation, qui est une pure extraction d’informations, rien ne fonctionnerait ; il n’y a donc pas d’espoir d’obtenir de bons résultats de classification avec les compresseurs MP3  (qui d’ailleurs sont des compresseurs avec pertes, ce que la méthode interdit). Les fichiers numériques élaborés à partir de morceaux musicaux sont confiés à la méthode automatique de classification par compression, ce qui conduit à des arbres. Ceux-ci sont conformes à ce que chacun obtiendrait en classant les morceaux en fonction de leurs ressemblances musicales.

Classer musiques, langues, images, textes et génomes, Interstices.info,  ici.






Epurer les régions de parole :
L’emploi de méthodes automatiques de sélection se justifie par le fait que la notion de pertinence est très complexe et ne peut être jugée indépendamment sur chaque descripteur. Alors que la plupart des auteurs comparent directement les performances du classifieur sur chaque groupe de descripteurs, l’automatisation du processus nous permet d’introduire une large collection de descripteurs, dont la plupart sont populaires dans la littérature pour leurs propriétés discriminantes entre parole et musique.
(...)
Nous avons également mentionné le problème des classes mixtes, qui reste la source d’erreur principale sur la tâche de classification audio. Nous avons entrepris des recherches pour le développement d’un nouveau descripteur basé sur la détection du pitch prédominant afin d’estimer la puissance du spectre résiduel (après soustraction des partiels du pitch). Ainsi on détecte sur les zones de parole visée dominant la présence d’une autre source acoustique. Néanmoins, cette approche est très coûteuse et ne se révèle efficace que dans les cas où la musique en fond est limitée en fréquences. En effet, si celle-ci s’étale sur un spectre plus large que la parole, on détecte facilement sa présence par l’estimation de la puissance sur les bandes de hautes fréquences. De plus, la définition de la classe de parole sur fond musical reste très hétérogène dans les corpus disponibles puisque les rapports signaux à bruit des deux sources ne sont pas considérés. Ainsi on réunit des exemples où la musique est prédominante à des exemples où elle est quasiment inaudible. Un contrôle rigoureux de ce paramètre apporterait une clarification nécessaire sur le problème étudié. Enfin, outre le fond musical, le bruit de fond constitue également une source de confusion significative dans l’identification de la parole. La réduction de bruit est un domaine à part entière du traitement de la parole, et son application préalable sur les signaux audio pourrait épurer les régions de parole. Ainsi, l’apprentissage et le test s’appuieraient sur des classes mieux définies, et donc plus clairement identifiables.
Thèse présentée pour obtenir le grade de docteur de l’Ecole Télécom ParisTech
Spécialité : Signal et Images
Mathieu RAMONA
Classification automatique de flux radiophoniques par Machines à Vecteurs de Support 
ici.

Liste des genres musicaux, ici.
Liste des genres musicaux par zone géographique, là.
d'après le jardin des délices, ici.