La technologie française Pyannote est devenue l'outil IA indispensable pour comprendre "qui" parle dans un enregistrement audio. De la transcription d'interviews au doublage de vidéos, de nombreuses applications sont possibles.
Interview : Vincent Molina, cofondateur de PyannoteEn quoi consiste votre technologie de "diarisation" ?La diarisation consiste Ă identifier les locuteurs dans un enregistrement audio. Avec Pyannote Audio, nous avons dĂ©veloppĂ© une technologie capable de reconnaĂźtre des voix quâelle nâa jamais entendues, quelle que soit la langue, ce qui reprĂ©sente une difficultĂ© scientifique majeure. Lâhistoire de Pyannote remonte Ă prĂšs de 15 ans : mon cofondateur, chercheur au CNRS, avait lancĂ© une bibliothĂšque open source devenue la rĂ©fĂ©rence mondiale, avec plus de 150 000 utilisateurs. Depuis un an et demi, nous avons bĂąti une sociĂ©tĂ© pour porter ces avancĂ©es et proposer des modĂšles commerciaux dĂ©jĂ utilisĂ©s en production.
Quels sont les principaux cas dâusage ?Notre brique technologique sâintĂšgre dans de nombreux pipelines audio : transcription dâinterviews, rendez-vous mĂ©dicaux, audiences judiciaires, rĂ©unions dâentreprise⊠partout oĂč il faut identifier qui parle. Nous sommes aussi trĂšs prĂ©sents dans le doublage, le sous-titrage ou lâentraĂźnement de grands modĂšles audio. TrĂšs souvent, on nous associe Ă des outils de transcription comme Whisper pour obtenir un traitement complet de la voix. Notre rĂŽle, câest dâindiquer prĂ©cisĂ©ment quand une voix apparaĂźt, ce qui est essentiel pour synchroniser une voix de synthĂšse ou des sous-titres. Et tout cela fonctionne avec des modĂšles suffisamment lĂ©gers pour tourner sur un tĂ©lĂ©phone, et bientĂŽt sur un Raspberry Pi.
JusquâoĂč peut aller lâanalyse de la voix ?La voix transporte bien plus que des mots : prosodie, rythme, chevauchements, indices contextuels⊠Sans aller jusquâĂ interprĂ©ter les sentiments â notion trop subjective dâun pays Ă lâautre â nous pouvons fournir des mĂ©tadonnĂ©es riches qui aident Ă comprendre la dynamique dâun Ă©change. Pour lâinstant, la plupart des usages sont en traitement diffĂ©rĂ©, mais nous prĂ©parons une bascule vers le temps rĂ©el : retranscriptions dâĂ©vĂ©nements, analyses en direct, signaux dâintensitĂ© vocale, etc.
Hébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.
Fler avsnitt av Monde Numérique - Actu Tech
Visa alla avsnitt av Monde Numérique - Actu TechMonde Numérique - Actu Tech med Jerome Colombain finns tillgÀnglig pÄ flera plattformar. Informationen pÄ denna sida kommer frÄn offentliga podd-flöden.
