L’occasion était trop belle pour ne pas la saisir. Alors que la Semaine pour l’action sur l’intelligence artificielle a débuté ce jeudi en région parisienne, avec deux journées dédiées aux débats scientifiques sur le plateau de Saclay, Kyutai en a profité pour dévoiler une nouvelle avancée dans ses travaux.

En effet, le laboratoire de recherche open source lancé en novembre 2023 à l’initiative de Xavier Niel (Iliad), Rodolphe Saadé (CMA CGM) et Eric Schmidt (ex-Google), a annoncé le lancement d’un modèle de traduction vocale. Baptisé «Hibiki» («écho» en japonais), celui-ci est capable d’assurer la traduction simultanée d’un utilisateur en temps réel. Cette traduction peut être effectuée à l’oral comme à l’écrit dans la langue ciblée. Pour l’heure, le modèle a seulement été entraîné pour traduire du français vers l’anglais.

Kyutai maintient le cap dans l’open source

Hibiki est entraîné sur des données publiques et, en matière de traduction, «dépasse sur cette tâche l’état de l’art actuel, en termes de qualité de traduction, de fidélité vocale du locuteur et de naturel», assure Kyutai. Conformément à l’esprit dans lequel le laboratoire a été créé, ce nouveau modèle est proposé gratuitement en open source. Avec des acteurs comme Hugging Face, également partisan de l’open source, Kyutai se distingue de certains géants de l’IA, comme OpenAI, qui ont choisi de basculer sur des modèles fermés pour accroître leur force de frappe commerciale.

Dans le cadre de son approche open source, visant à publier l’ensemble de ses découvertes, le laboratoire tricolore indique qu’elle va partager dès aujourd’hui les codes d’inférence, les poids du modèle français-anglais et un rapport technique pour son nouveau modèle Hibiki. «Les chercheurs et la communauté de l’IA pourront ainsi reprendre Hibiki dans leurs projets, et l’étendre à d’autres langues. Il s’agit d’une nouvelle étape pour les technologies de la voix. Elle ouvre des opportunités extraordinaires en matière de communication et d’accessibilité», estime la structure dirigée par Patric Pérez. Le chercheur, passé par l’Inria, Microsoft ou encore Valeo est venu présenter ce jeudi Hibiki lors de la conférence scientifique internationale qui s’est tenue à l’Institut Polytechnique de Paris dans le cadre de la Semaine pour l’action sur l’IA.

Vers des modèles de plus petite taille ?

Le lancement de ce modèle de traduction vocale intervient à peine six mois après celui de Moshi, son intelligence artificielle multimodale et générative vocale. Elle est capable de générer du texte mais aussi de discuter vocalement avec un humain, et reconnaît jusqu’à 70 émotions. Une première mondiale. Néanmoins, le laboratoire ne souhaite pas se concentrer uniquement sur des modèles généralistes, «lourds à concevoir et à déployer», de l’aveu de Patrick Pérez dans un grand entretien accordé à Maddyness. Elle planche ainsi sur des modèles de plus petite taille, capables de fonctionner localement, sur un ordinateur ou un smartphone par exemple.

Dans un contexte d’effervescence sans précédent autour de l’IA, Kyutai profite donc de cette semaine de l’IA en France pour occuper l’espace médiatique, alors que le plan américain Stargate de 500 milliards de dollars et la percée spectaculaire de la pépite chinoise DeepSeek ont fait sensation ces dernières semaines.