Sveriges mest populÀra poddar
Monde Numérique - Actu Tech

đŸŽ€ Interview – L’IA qui reconnaĂźt toutes les voix : Pyannote rĂ©volutionne la diarisation

12 min‱9 december 2025

La technologie française Pyannote est devenue l'outil IA indispensable pour comprendre "qui" parle dans un enregistrement audio. De la transcription d'interviews au doublage de vidéos, de nombreuses applications sont possibles.

Interview : Vincent Molina, cofondateur de PyannoteEn quoi consiste votre technologie de "diarisation" ?

La diarisation consiste Ă  identifier les locuteurs dans un enregistrement audio. Avec Pyannote Audio, nous avons dĂ©veloppĂ© une technologie capable de reconnaĂźtre des voix qu’elle n’a jamais entendues, quelle que soit la langue, ce qui reprĂ©sente une difficultĂ© scientifique majeure. L’histoire de Pyannote remonte Ă  prĂšs de 15 ans : mon cofondateur, chercheur au CNRS, avait lancĂ© une bibliothĂšque open source devenue la rĂ©fĂ©rence mondiale, avec plus de 150 000 utilisateurs. Depuis un an et demi, nous avons bĂąti une sociĂ©tĂ© pour porter ces avancĂ©es et proposer des modĂšles commerciaux dĂ©jĂ  utilisĂ©s en production.

Quels sont les principaux cas d’usage ?

Notre brique technologique s’intĂšgre dans de nombreux pipelines audio : transcription d’interviews, rendez-vous mĂ©dicaux, audiences judiciaires, rĂ©unions d’entreprise
 partout oĂč il faut identifier qui parle. Nous sommes aussi trĂšs prĂ©sents dans le doublage, le sous-titrage ou l’entraĂźnement de grands modĂšles audio. TrĂšs souvent, on nous associe Ă  des outils de transcription comme Whisper pour obtenir un traitement complet de la voix. Notre rĂŽle, c’est d’indiquer prĂ©cisĂ©ment quand une voix apparaĂźt, ce qui est essentiel pour synchroniser une voix de synthĂšse ou des sous-titres. Et tout cela fonctionne avec des modĂšles suffisamment lĂ©gers pour tourner sur un tĂ©lĂ©phone, et bientĂŽt sur un Raspberry Pi.

Jusqu’oĂč peut aller l’analyse de la voix ?

La voix transporte bien plus que des mots : prosodie, rythme, chevauchements, indices contextuels
 Sans aller jusqu’à interprĂ©ter les sentiments — notion trop subjective d’un pays Ă  l’autre — nous pouvons fournir des mĂ©tadonnĂ©es riches qui aident Ă  comprendre la dynamique d’un Ă©change. Pour l’instant, la plupart des usages sont en traitement diffĂ©rĂ©, mais nous prĂ©parons une bascule vers le temps rĂ©el : retranscriptions d’évĂ©nements, analyses en direct, signaux d’intensitĂ© vocale, etc.

Hébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.

Fler avsnitt av Monde Numérique - Actu Tech

Visa alla avsnitt av Monde Numérique - Actu Tech

Monde Numérique - Actu Tech med Jerome Colombain finns tillgÀnglig pÄ flera plattformar. Informationen pÄ denna sida kommer frÄn offentliga podd-flöden.