cDiscussion.com, première plateforme d'offres d'emploi en Afrique de l'Ouest


Postdoc - Localisation ambisonique 3D augmentée et renforcée par apprentissage progressif de l'environnement acoustique - sur 12 mois - F/H

orange

CESSON SEVIGNE, France
Informatiques, Télécommunications
Postdoc - Localisation ambisonique 3D augmentée et renforcée par apprentissage progressif de l'environnement acoustique - sur 12 mois - F/H

Ref : 0033497 | 15 juin 2021

Date limite de candidature : 19 sept. 2021

4 rue du clos Courtel 35510 CESSON SEVIGNE - France
Leaflet

Votre rôle
Votre rôle est d'effectuer un travail de post-doc sur la localisation ambisonique 3D augmentée et renforcée par apprentissage progressif de l'environnement acoustique.

Contexte global du sujet

Les performances de localisation acoustique à partir d'une antenne de microphone continuent de constituer un enjeu pour nombre d'applications d'interaction et/ou communication vocale, et/ou d'immersion sonore. La précision angulaire de la localisation conditionne la qualité de séparation spatiale vis-à-vis de sources perturbatrices et/ou de l'effet de salle, et par conséquent le réhaussement de la voix pour des besoins d'intelligibilité et/ou de reconnaissance vocale. Par ailleurs, une localisation enrichie dimensionnellement (par la distance de la source voire des caractéristiques de l'environnement) apporterait des paramètres utiles à une expérience immersive en réalité virtuelle ou augmentée en 6DoF.

L'environnement de la captation (e.g. une salle) est responsable de trajets acoustiques indirects interférant avec l'onde qui provient directement de la source à localiser. Si ce phénomène est la plupart du temps considéré comme une gêne causant un biais de localisation, des travaux récents ont mis en évidence qu'il contient des informations exploitables pour une variété de cas d'usage : estimation de la distance à la source [1], inférence de la géométrie d'une salle [2], séparation renforcée par des échos [3], ou localisation des sources cachées par un obstacle [4].

On s'intéresse ici à la captation par une antenne acoustique 3D compacte telle qu'un microphone ambisonique, dont on dérive une quantité acoustique utile à la localisation : le vecteur vélocité. En introduisant des moyens d'interprétation d'une nouvelle donnée d'analyse appelée Time Domain Velocity Vector (TDVV), la référence [1] ouvre la voie à une localisation exempte de biais et enrichie par l'estimation de distance de la source et de parois.

- Objectif scientifique - verrous à lever

L'objectif du post-doc est d'approfondir et concrétiser les solutions algorithmiques des différents problèmes inverses, pour aboutir à un moteur de localisation « au fil de l'eau ». Celui-ci devra apprendre et exploiter progressivement les positions et orientations des réflecteurs acoustiques constituant l'environnement (murs, sol, table, écran…), grâce auxquels il va apporter progressivement plus de précision et de robustesse aux paramètres estimés.

Il s'agit entre autres de formaliser les relations structurelles et le transfert des incertitudes entre paramètres issus du signal analysé et ceux de nature géométrique, d'améliorer l'empreinte du canal acoustique par le TDVV en lui adaptant des procédés d'estimation robuste de Relative Transfer Function [5] (dont le vecteur vélocité est un cas particulier), et/ou de contribuer au développement d'approches novatrices encore non publiées sur l'extraction de paramètres spatiotemporels à partir du TDVV. L'exploration algorithmique pourra s'orienter selon les préférences et domaines d'expertise du post-doctorant.

Une partie expérimentale permettra d'évaluer les performances et ajuster les approches, sur la base de scènes sonores synthétisées artificiellement (simulation d'effet de salle avancée) mais aussi issues de captations réelles.

Votre profil
Doctorat en traitement / analyse du signal, en particulier audio voire également acoustique, et/ou Machine Learning appliqué à l'audio.

Toute expérience complémentaire à la formation suivie, dans les domaines précédemment cités sera appréciée.

Les approches algorithmiques envisagées étant de natures diverses, celles spécifiquement explorées par le post-doctorant pourront être orientées en fonction de ses compétences et préférences scientifiques. Nous sommes donc intéressés par une gamme de profils dont l'expertise peut se situer avec plus ou moins de pondération entre le traitement du signal et le machine learning, incluant selon les domaines : les méthodes probabilistes, l'optimisation, la résolution de problèmes inverses et/ou le deep learning.

Des compétences et expériences dans les domaines d'application suivants nous semblent des atouts précieux : analyse du signal audio notamment 3D/multi-canal ; si possible, traitement d'antenne ; une bonne appréhension des fondamentaux de l'audio 3D (notamment Higher Order Ambisonics) et de l'acoustique des salles.

Une bonne alliance de rigueur (théorique et expérimentale) et d'esprit pratique est une qualité scientifique souhaitée.

En termes d'outils de simulation numérique, une bonne maîtrise de matlab et/ou Python est requise.

Sur le plan humain, les qualités suivantes sont particulièrement appréciées : enthousiasme, envie de partager, aptitude à communiquer, esprit d'équipe.

Références : voir la section le plus de l'offre

Le plus de l'offre
L'équipe -répartie sur les sites de Rennes et de Lannion- possède une riche expérience en audio 3D (binaural, HOA, WFS), traitement du son et de la parole, codage audio, et Machine Learning. Elle dispose de dispositifs de pointe pour la captation (microphones HOA 3D : eigenmike®, Zylia®, SoundField…) et la restitution immersive (tout nouveau studio 3D équipé d'une trentaine de haut-parleurs, sur le site de Rennes), et des briques technologiques associées. Des simulations très réalistes d'acoustiques de salles complexes, et dans de multiples formats, sont possibles grâce à une licence et la maîtrise du logiciel Icare (CSTB). Par ailleurs, une salle anéchoïque (située sur le site de Lannion) est susceptible d'être mise à profit pour des mesures acoustiques spécifiques lorsque les modèles de simulation sont mis en question, voire pour obtenir des HRTF (Head-Related Transfer Function, pour la simulation binaurale) individualisées, grâce au système de mesure automatisé qui y réside. Enfin d'importantes ressources de calcul (clusters de GPU et de CPU) sont disponibles pour les phases d'apprentissage et d'évaluation en Deep Learning, selon les besoins.

Références:

[1] Daniel, J. and Kitić, S. “Time Domain Velocity Vector for Retracing the Multipath Propagation”, IEEE ICASSP, 2020

[2] Dokmanić, I., Parhizkar, R., Walther, A., Lu, Y. M., & Vetterli, M. “Acoustic echoes reveal room shape”. Proceedings of the National Academy of Sciences, 2013

[3] Scheibler, R., Di Carlo, D., Deleforge, A., & Dokmanic, I. “Separake: Source separation with a little help from echoes”. ICASSP, 2018

[4] Kitić, S., Bertin N., and Gribonval R. "Hearing behind walls: localizing sources in the room next door with cosparsity"  ICASSP, 2014

[5] R. Talmon, I. Cohen and S. Gannot . "Relative Transfer Function Identification Using Convolutive Transfer Function Approximation”, IEEE TASLP, 2009

Entité
Au sein de la Division Orange Innovation dont l'ambition est de porter plus loin l'innovation d'Orange et de renforcer son leadership technologique, vous intégrerez l'équipe « Content Audio Video », au sein de la Direction IT& Services/ Homes Services. Celle-ci est constituée d'une vingtaine de personnes - majoritairement des chercheurs dont plusieurs doctorants - et qui  s'intéresse aux technologies de traitement du signal et de machine learning en audio et vidéo. Côté audio, elle travaille sur le traitement d'antenne, la compression et la restitution immersive, la VoIP. Par son expertise, elle contribue à l'établissement et au suivi des normes internationales du domaine (MPEG, 3GPP).

Contrat
CDD
Postuler

Plus d'offres