A new relativistic vision in speaker discrimination
Mots-clés :
Classifiers, Learning systems, Neural networks, Speech recognition, Discrimination accuracies, Document indexing, Learning time, Multi-Layer Perceptron, Neural network classifiers, New models, Speaker models, Speaker verifications, Speech database, Speech signalsRésumé
Le présent papier s’intéresse à la tâche de discrimination du locuteur en utilisant une nouvelle approche relativiste. La discrimination du locuteur a deux applications pratiques : la vérification du locuteur et l’indexation des documents audio. Dans de telles applications, le modèle du locuteur est extrait directement de son propre signal de parole et en utilisant ses propres caractéristiques. Mais ce type de modèle peut être rigide, imprécis et non approprié dans les environnements fluctuants, où un changement dans les conditions d’enregistrement risque d’arriver. Par exemple, durant les communications téléphoniques, les caractéristiques vocales pour un même locuteur peuvent changer considérablement. Ceci nous a incité à introduire une nouvelle modélisation relative du locuteur. Ce nouveau modèle est basé sur une caractérisation relative du locuteur, appelée Caractéristique Relative du Locuteur (RSC). La RSC consiste à modéliser un locuteur relativement à un autre ; ce qui signifie que pour chaque modèle de locuteur nous avons besoin en même temps de son signal de parole et de son signal dual (signal de parole du locuteur à faire comparer avec). Cette étude montre que le modèle relatif, utilisé comme entrée d’un classifieur connexionniste, permet d’optimiser l’entraînement du classifieur, d’accélérer son temps d’apprentissage et d’améliorer aussi la précision de discrimination. Les expériences de discrimination de locuteur sont effectuées sur deux bases de données : Hub4 Broadcast- News et une base de données d’enregistrements téléphoniques, en employant un Perceptron Multi-couches (MLP) avec plusieurs caractéristiques d’entrée. Les résultats indiquent que la meilleure caractéristique est la RSC, comparativement à d’autres caractéristiques réduites qui sont évaluées de la même manière.Fichiers supplémentaires
Publié-e
Comment citer
Numéro
Rubrique
Licence
Author Licensing Addendum
This Licensing Addendum ("Addendum") is entered into between the undersigned Author(s) and Canadian Acoustics journal published by the Canadian Acoustical Association (hereinafter referred to as the "Publisher"). The Author(s) and the Publisher agree as follows:
-
Retained Rights: The Author(s) retain(s) the following rights:
- The right to reproduce, distribute, and publicly display the Work on the Author's personal website or the website of the Author's institution.
- The right to use the Work in the Author's teaching activities and presentations.
- The right to include the Work in a compilation for the Author's personal use, not for sale.
-
Grant of License: The Author(s) grant(s) to the Publisher a worldwide exclusive license to publish, reproduce, distribute, and display the Work in Canadian Acoustics and any other formats and media deemed appropriate by the Publisher.
-
Attribution: The Publisher agrees to include proper attribution to the Author(s) in all publications and reproductions of the Work.
-
No Conflict: This Addendum is intended to be in harmony with, and not in conflict with, the terms and conditions of the original agreement entered into between the Author(s) and the Publisher.
-
Copyright Clause: Copyright on articles is held by the Author(s). The corresponding Author has the right to grant on behalf of all Authors and does grant on behalf of all Authors, a worldwide exclusive license to the Publisher and its licensees in perpetuity, in all forms, formats, and media (whether known now or created in the future), including but not limited to the rights to publish, reproduce, distribute, display, store, translate, create adaptations, reprints, include within collections, and create summaries, extracts, and/or abstracts of the Contribution.