A new relativistic vision in speaker discrimination

Auteurs-es

  • S. Ouamour USTHB University, USTHB, Institut d'Electronique, BP 32, Bab-Ezzouar, Alger, Algeria
  • M. Guerti Ecole Nationale Polytechnique, USTHB, Institut d'Electronique, BP 32, Bab-Ezzouar, Alger, Algeria
  • H. Sayoud USTHB University, USTHB, Institut d'Electronique, BP 32, Bab-Ezzouar, Alger, Algeria

Mots-clés :

Classifiers, Learning systems, Neural networks, Speech recognition, Discrimination accuracies, Document indexing, Learning time, Multi-Layer Perceptron, Neural network classifiers, New models, Speaker models, Speaker verifications, Speech database, Speech signals

Résumé

Le présent papier s’intéresse à la tâche de discrimination du locuteur en utilisant une nouvelle approche relativiste. La discrimination du locuteur a deux applications pratiques : la vérification du locuteur et l’indexation des documents audio. Dans de telles applications, le modèle du locuteur est extrait directement de son propre signal de parole et en utilisant ses propres caractéristiques. Mais ce type de modèle peut être rigide, imprécis et non approprié dans les environnements fluctuants, où un changement dans les conditions d’enregistrement risque d’arriver. Par exemple, durant les communications téléphoniques, les caractéristiques vocales pour un même locuteur peuvent changer considérablement. Ceci nous a incité à introduire une nouvelle modélisation relative du locuteur. Ce nouveau modèle est basé sur une caractérisation relative du locuteur, appelée Caractéristique Relative du Locuteur (RSC). La RSC consiste à modéliser un locuteur relativement à un autre ; ce qui signifie que pour chaque modèle de locuteur nous avons besoin en même temps de son signal de parole et de son signal dual (signal de parole du locuteur à faire comparer avec). Cette étude montre que le modèle relatif, utilisé comme entrée d’un classifieur connexionniste, permet d’optimiser l’entraînement du classifieur, d’accélérer son temps d’apprentissage et d’améliorer aussi la précision de discrimination. Les expériences de discrimination de locuteur sont effectuées sur deux bases de données : Hub4 Broadcast- News et une base de données d’enregistrements téléphoniques, en employant un Perceptron Multi-couches (MLP) avec plusieurs caractéristiques d’entrée. Les résultats indiquent que la meilleure caractéristique est la RSC, comparativement à d’autres caractéristiques réduites qui sont évaluées de la même manière.

Fichiers supplémentaires

Publié-e

2008-12-01

Comment citer

1.
Ouamour S, Guerti M, Sayoud H. A new relativistic vision in speaker discrimination. Canadian Acoustics [Internet]. 1 déc. 2008 [cité 7 mai 2026];36(4):24-35. Disponible à: https://jcaa.caa-aca.ca/index.php/jcaa/article/view/2101

Numéro

Rubrique

Articles techniques