Si vous vous êtes déjà demandé à quoi ressemblent des milliers de voix humaines réelles — différents âges, accents, langues — il existe un jeu de données pour ça. Il s’appelle Mozilla Common Voice, et c’est l’une des plus grandes collections ouvertes d’enregistrements de parole au monde.
Des gens du monde entier lisent volontairement des phrases à voix haute et font don de leurs enregistrements. Le résultat est une immense bibliothèque multilingue de voix réelles — librement accessible à tous.
Il n’y a qu’un seul problème : l’explorer vraiment est difficile.
Le jeu de données est énorme, pas les outils
Common Voice contient des millions de clips audio dans des dizaines de langues. Pour le parcourir, il faut généralement télécharger des gigaoctets de données, écrire des scripts pour analyser les fichiers de métadonnées et mettre en place sa propre chaîne de lecture. C’est très bien si vous êtes développeur, mais cela exclut tous les autres — chercheurs, linguistes, équipes produit, curieux qui veulent simplement entendre à quoi ressemblent les données.
Nous y avons vu une occasion manquée.
Alors nous avons créé Common Voice Explorer
Common Voice Explorer est un outil web simple qui vous permet de parcourir le jeu de données directement dans votre navigateur. Aucun téléchargement, aucun script, aucune configuration.

Voici ce que vous pouvez faire :
- Rechercher par phrase — tapez un mot ou une expression et trouvez instantanément les clips qui le contiennent
- Filtrer par locuteur — affinez les résultats par genre, tranche d’âge ou langue
- Filtrer par durée — trouvez des phrases courtes ou longues, selon vos besoins
- Écouter immédiatement — cliquez sur n’importe quel clip et écoutez-le avec une forme d’onde visuelle, ajustez la vitesse de lecture, avancez ou reculez
- Télécharger des clips — enregistrez des enregistrements individuels pour les consulter hors ligne
Il est conçu pour donner l’impression de parcourir une bibliothèque musicale, sauf qu’au lieu de chansons, vous explorez de la parole réelle de personnes réelles du monde entier.
À qui s’adresse-t-il ?
Honnêtement — à toute personne curieuse des données vocales.
- Les chercheurs qui étudient les schémas de parole, les accents ou la diversité linguistique
- Les équipes produit qui évaluent si Common Voice répond à leurs besoins avant de s’engager
- Les linguistes et les enseignants en quête d’exemples authentiques de langue parlée
- Les créateurs d’IA vocale qui veulent vérifier rapidement la qualité des données
- Toute personne qui trouve simplement fascinant d’entendre comment différentes personnes prononcent la même phrase
Nul besoin d’être technique pour l’utiliser. Si vous savez vous servir d’une barre de recherche et cliquer sur lecture, vous êtes prêt.
Pourquoi cela compte pour nous
Chez WaveKat, nous construisons des outils d’IA vocale pour les petites entreprises. Ce travail dépend de données vocales de haute qualité. Common Voice est l’une des ressources ouvertes les plus importantes dans ce domaine, et nous pensons que la rendre plus accessible profite à tout le monde — pas seulement aux ingénieurs.
Les données ouvertes n’ont de valeur que si les gens peuvent réellement les explorer. C’est le fossé que nous voulions combler.
Essayez-le
Common Voice Explorer est en ligne à l’adresse commonvoice-explorer.wavekat.com. Connectez-vous avec GitHub, acceptez les conditions d’utilisation et commencez à explorer.
Il y a aussi une courte démo sur YouTube si vous voulez d’abord la voir en action.