logoJEPTALNRECITAL2016

JEP-TALN-RECITAL 2016, Paris, France

23ème Conférence sur le Traitement Automatique des Langues Naturelles
31ème Journées d’Études sur la Parole
18ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues

Inalco, Paris, 4-8 Juillet 2016

Salon PAREIL (Partenariats Recherche et Industries de la Langue)

8 juillet 2016, de 11h à 16h.

Le salon Partenariats Recherche et Industries de la Langue (PAREIL) se déroule avec le soutien de l'Agence Nationale de la Recherche et de Cap Digital.

Le salon Partenariats Recherche et Industries de la Langue (PAREIL) se déroule avec le soutien financier du projet européen SENSEI (SENSEI FP7-ICT-610916) et de l'Université d'Aix-Marseille.

Table ronde (14h - 16h)

La table ronde sur le sujet des partenariats entre recherche et industries de la langue sera animée par Pierre Zweigenbaum (LIMSI). Les intervenants seront :

  • Martine Garnier-Rizet, ANR
  • Guillaume Gravier, AFCP
  • Ariane Nabeth-Halber, Bertin IT / Vecsys
  • Patrick Paroubek, ATALA
  • Philippe Roy, Cap Digital

Exposants

  • Analyse automatique de conversations écrites et orales
    Projet Europeen (FP7 SENSEI) + Projet ANR (DATCHA), Aix Marseille Université, Frédéric Béchet
    Abstract: La quantité de conversations disponibles, à la fois sur les réseaux sociaux, mais aussi dans les centres de contact clientèle des entreprises, est en constante augmentation et rend de plus en plus nécessaire le développement de méthodes performantes pour pouvoir en extraire de l'information. Extraire des connaissances dans ces contextes (conversations WEB sur les réseaux sociaux, conversations orales, conversations "chat") demeure un défi pour les méthodes de traitement automatique des langues. Les méthodes de fouille de texte classique sont clairement sous-optimales en ne prenant en compte, ni la dimension interactive, ni les propriétés de ces types de langage spontané. Les projets SENSEI et DATCHA s'attaquent à ces problèmes, pour les conversations orales pour SENSEI, et pour les conversations WEB et "chat" pour DATCHA, en proposant des analyses de conversation sur plusieurs dimensions (syntaxique, sémantique et discursif) permettant de définir des mesures de similarités sémantiques et discursives entre les conversations. Les démonstrations présentés lors du salon illustreront différents aspects de ces analyses.
  • Base de données OmanSaM
    Projet ANR OmanSaM, Clément Plancq, Lattice (UMR 8094)
    Abstract: Démonstration du contenu et des possibilités d'interrogation de la base de données du projet OmanSaM
  • CAMOMILE - contributions à l'annotation collaborative de documents multimédia
    projet de recherche financé par ANR, LIMSI - Université Paris-Sud, Claude Barras
    Abstract: Poster présentant les travaux sur l'annotation collaborative de documents multimédia, multimodaux, multilingues dans le cadre du projet CHIST-ERA CAMOMILE.
  • Compréhension Automatique de Textes Biomédicaux pour la Recherche Translationnelle
    poster ANR CABeRneT (LIMSI-CNRS, Aurélie Névéol)
    Abstract: Dans le domaine biomédical, les informations cliniques et institutionnelles sont contenues dans le texte de publications scientifiques ou de dossiers patients et ne sont pas directement accessibles à des fins de traitement automatique. Pour pallier cela, des méthodes de Traitement Automatique de Langue Naturelle (TALN) ont été développées avec succès afin d'extraire des informations pertinentes des textes libres et de les convertir en représentations formelles exploitables par l'homme et par la machine. Ce projet propose une analyse qui va au dela de la simple extraction de concepts isolés en permettant d'inclure le contexte d'occurrence ainsi que les relations entre concepts. Par ailleurs, nombre de travaux antérieurs sont limités à l'analyse de textes du domaine biomédical rédigés en anglais. Ce projet participera au nécessaire développement de méthodes permettant d'analyser les dossiers électroniques patient en français afin d'en extraire des représentations formelles compatibles avec celles disponibles pour l'anglais.
    Ce projet de recherche se donne pour objectif de:
    • Mettre à disposition de la communauté scientifique des ressources dans un domaine de spécialité (le domaine biomédical) en français
    • Étudier l'adaptation en domaine de spécialité d'outils développés pour la langue générale
    • Appliquer ces outils à l'analyse automatique de dossiers électroniques patient et à la detection de liens entre données cliniques et littérature
    Ce projet innovant permettra une analyse fine du contenu des textes du domaine biomedical, et en particuliers les textes cliniques. Il repose sur des principes issus de la linguistique et sera guide par des applications en medicine personnalisée. Une approche globale des problématiques de TAL sous l'angle de l'adaptation permettra d'assurer la portabilité des méthodes utilisées à d'autres applications dans le domaine biomédical.
  • Corpus d'étude pour le français contemporain (CEFC)
    projet ORFEO ANR-12-CORP-0005 (Laboratoire Lattice, CNRS ENS, U. Paris 3, Jeanne-Marie Debaisieux)
    Abstract: No abstract has been provided.
  • Projet ANR Democrat
    projet de recherche financé par ANR, Lattice, Yoann Dupont
    Abstract: Présentation des premières activités mises en œuvre dans le projet ANR Democrat, "Description et modélisation des chaînes de référence : outils pour l’annotation de corpus (en diachronie et en langues comparées) et le traitement automatique".
  • DIADEMS : Description, Indexation, Accès aux Documents EthnoMusicologiques et Sonores
    projet de recherche financé par ANR, IRIT, Thomas Pellegrini
    Abstract: Réunissant ethnomusicologues, ethnolinguistes, acousticiens spécialistes de la voix et documentalistes spécialisés, ce projet vise à développer des outils avancés et innovants pour une aide à l’indexation automatique ou semi-automatique de fonds sonores.
  • Extraction et structuration automatique de données médicales
    projet ANR SYNODOS, Marie-Hélène Metzger, Université Paris 13
    Abstract: présentation (orale) de la méthode d'extraction, de normalisation et de structuration automatique de données médicales textuelles dans le cadre du projet SYNODOS (projet financé par l'ANR : www.synodos.fr ).
  • FABIOLE - Fiabilité en Biométrie Vocale
    projet ANR FABIOLE, Jean-François Bonastre
    Abstract: Ce projet s'inscrit dans le domaine de l'authentification biométrique vocale et s'attache plus particulièrement à explorer l'apport des « connaissances phonétiques » dans ce cadre applicatif. Depuis près de 15 années, des systèmes de Reconnaissance Automatique du Locuteur (RAL) sont évalués par le NIST à travers les campagnes SRE. Ces évaluations montrent une progression importante des performances, amenant à envisager de nombreuses applications notamment dans le domaine judiciaire. Les conséquences que peuvent avoir de telles applications nécessitent de s’interroger sur la fiabilité des mesures d'évaluation effectuées. En effet, les critères actuellement employés pour mesurer la performance d'un système sont estimés globalement sur l'ensemble des tests effectués. Il s'agit de mesures de Taux d'Egale Erreur (EER) ou de Decision Cost Function (DCF). Ces mesures moyennes calculées sur un grand nombre de tests provenant de locuteurs différents ne tiennent qu'imparfaitement compte du cadre applicatif pour lequel une réponse doit être retournée pour un cas précis lié à des données impliquant seulement un ou deux locuteurs donnés. En particulier, ce mode d’évaluation ne prend en considération ni la différence entre un enregistrement et un locuteur, ni les différences entre locuteurs. Des travaux récents montrent clairement les limites des mesures de performance utilisées. L'objet de ce projet est double. Dans un premier temps, il s’agit de caractériser et de mesurer l’influence des facteurs.
  • Le pouvoir des listes au Moyen Âge
    Projet Polima financé par l'ANR, Université de Versailles-Saint-Quentin-en-Yvelines, Pierre Chastang
    Abstract: La présentation sera proposée sous la forme d'un poster qui abordera trois thèmes:
    1. Corpus : présentation du wiki construit pour rassembler, de manière collaborative, un corpus vaste de textes médiévaux structurés par des listes
    2. Formes: présentation à partir d'une sélection de manuscrits, des problèmes formels et définitionnels auxquels l'équipe a été confrontée
    3. Efficiences: premier bilan sur les formes de pouvoir de la liste mises en évidence pour le Moyen Âge et sur la place qu'elles occupent dans une généalogie des modes et pratiques de la connaissance. Quatre thèmes seront présentés: a) Ordinal, cardinal, digital b) Textes et données c) Textes et réseaux d) Inventaires vs référentiels.
  • M2CR: Multilingual Multimodal Continuous Representation for Human Language Understanding
    Projet de recherche Chist-Era, financé par l'ANR, LIUM, Université du Maine, Loïc Barrault
    Abstract: L'objectif de ce projet est d'apprendre un espace vectoriel commun afin de résoudre différentes tâches de traitement automatique des langues et de la parole. L'approche est fondée sur les réseaux de neurones profonds dont les entrées et sorties multilingues et multimodales doivent permettre une telle représentation.
    Lors de ce salon, je présenterai les objectifs du projet ainsi que quelques résultats obtenus récemment.
  • Optimisation des méthodes de traduction automatique pour la post-édition
    projet ANR KEHATH / plateforme logicielle linguistique Libellex (Lingua et Machina SAS, François Brown de Colstoun)
    Abstract: Après l'engouement initial pour Google trad et la déception qui s'en est suivi, l'industrie de la traduction humaine a compris comment s'approprier progressivement la TA en vue de post-édition pour des projets ciblés, en vue de gains de productivité réels. Nous montrerons les apports du projet ANR KEHATH à cet objectif de gain de productivité de la traduction humaine en nous basant sur les développements de la plateforme industrielle Libellex.
  • Outils et méthodes pour une étude longitudinale et multiparamétrique de la performance écrite
    projet ANR ECRITURES; EA CLESTHIA, université Sorbonne nouvelle, Georgeta Cislaru
    Abstract: Cette démonstration propose quelques outils et méthodes pour aborder la performance langagière à l’écrit. Dans nos civilisations de l’écrit, il est important de comprendre les dispositifs textuels. Comment le langage s’agence-t-il pour produire un texte écrit ? Comment les scripteurs s’y prennent-ils pour rédiger un texte ? Quelles sont les stratégies d’écriture et de réécriture et quelles formes linguistiques sont le plus souvent affectées par les modifications des versions intermédiaires ? Comment articule-t-on les différentes contraintes de production ? Pour répondre à ces questions, et à d'autres encore, nous nous appuyons sur des méthodes d’analyse longitudinale de l’écrit capables de mettre à jour ses dynamiques et d’en interpréter le mouvement. Deux approches sont combinées, une analyse multiparamétrique des textes finalisés d’une part, la description des unités de langue produites dans le temps réel de l’écriture et enregistrées par un logiciel de suivi de rédaction d’autre part.
  • Projet ContNomina
    projet ANR ContNomina; LORIA, Dominique Fohr
    Abstract: Dans le cadre des données diachroniques (qui évoluent dans le temps) de nouveaux noms propres apparaissent continuellement ce qui nécessite de gérer dynamiquement les lexiques et modèles de langage utilisés par le système de reconnaissance de la parole. En conséquence, le projet ContNomina se concentre sur le problème des noms propres dans les systèmes de traitement automatique des contenus audio en exploitant au mieux le contexte des documents traités.
  • projet MexCulture
    projet de recherche financé par ANR, labélisé par CapDigital (LABRI, Jean-Luc Rouas, Jenny Benois-Pineau)
    Abstract: Étant donné le rôle des contenus multimédia liés à l'héritage culturel dans la promotion de la diversité culturelle, il est très important de pouvoir rendre ces contenus facilement accessibles à un large public. De grands volumes de tels contenus doivent être indexés et il faut donner aux utilisateurs la possibilité de naviguer dans les collections, de rechercher et de visualiser le contenu d'archives multimédia. Cela exige l'indexation automatique du contenu. Le projet MEX-CULTURE vise à :
    1. Concevoir de nouvelles méthodes automatiques pour le traitement et l'indexation à grande échelle de contenus multimédia.
    2. Promouvoir la préservation et la dissémination de la culture mexicaine, en appliquant les méthodes mises au point dans le projet à la grande base de FONOTECA NACIONAL (Archive Sonore Nationale du Mexique) et la collection vidéo TVUNAM (plus de 100,000 heures de vidéo) de l'UNAM (Université Nationale Autonome de Mexico).
    MEX-CULTURE est le premier projet d'indexation multimédia présentant ces caractéristiques. Ce projet sera mené par cinq institutions, trois françaises (CEDRIC-CNAM, LABRI, INA) et deux mexicaines (UNAM, IPN), et a comme point de départ une coopération de recherche existante (accord cadre) entre l'Université Bordeaux 1 et l'UNAM.
  • Technologies de la parole et des langues pour des applications de sécurité
    Vocapia Research - projet SALSA, Vieru Bianca
    Abstract: No abstract has been provided.
  • Variety of Initial Learners in Language Acquisition: controlled classroom input and elementary forms of linguistic organisation
    Projet ANR ORA, UMR 7023-SFL et Université de Paris 8 / Université Américaine de Paris, Marzena Watorek et Rebekah Rast
    Abstract: Le projet européen VILLA « Variety of Initial Learners in Language Acquisition: controlled classroom input and elementary forms of linguistic organisation » s’est donné les moyens d’étudier l’appropriation du polonais langue étrangère en tout début d’acquisition, dans des conditions expérimentales permettant de saisir les premières performances des apprenants de 5 langues sources (le français, l’italien, l’allemand, le néerlandais et l’anglais) en relation avec l’input complètement contrôlé d’un cours de langue. L’objectif de cette démonstration est de présenter de façon interactive les différents aspects du projet VILLA, tels que le déroulement du cours de polonais, les tests de compétence en polonais, les tests de variabilité individuelle, etc. Pour ce faire, on a envisagé un stand consacré à plusieurs aspects du projet. Les présentations au stand se dérouleront en continu pour que les participants de la journée puissent observer les différents aspects du projet, faire les expérimentations et poser des questions aux membres de l’équipe VILLA. Ils vivront ainsi l’expérience du projet en découvrant au fur et à mesure nos questions de recherche et nos hypothèses, les méthodes d’enseignement, la manière dont on a testé les hypothèses, etc.
  • Vers la synthèse de parole expressive adaptable au contexte
    projet de recherche financé par ANR, IRISA / Université de Rennes 1, Damien Lolive
    Abstract: L'évolution de la synthèse de parole permet d'envisager son utilisation dans des contextes variés. Cependant, des améliorations sont encore nécessaires pour des applications demandeuses de beaucoup d'expressivité. Nous illustrerons ceci à travers deux projets ANR : Phorevox qui porte sur l'usage de technologies vocales pour l'apprentissage de l'écrit et SynPaFlex qui vise à l'amélioration des moteurs de synthèse de parole en se focalisant sur leur flexibilité et leur adaptabilité au contexte.
  • 3D NeuroSecure
    Programme d’Investissements d’Avenir 2014 - Calcul intensif et simulation numérique (HPC) No. 1 (Neoxia, Didier Debons)
    Abstract: Le projet 3D NeuroSecure vise l’ouverture du monde biomédical au calcul haute performance en combinant l’exploitation d’approches de simulation numérique de niveau ``exascale'' d’une part et de modélisation 3D de modèles précliniques d’autre part pour une rupture dans le développement de nouveaux médicaments. La capacité de traiter de manière déportée de très grands volumes de données générées par des instruments de médecine et de biologie de plus en plus performants et ce de manière sécurisée est un enjeu majeur pour les années à venir. Le projet 3D NeuroSecure utilisera de manière innovante le potentiel du calcul haute performance (HPC) pour confronter les données massive issues d’images 3D de cerveau entier à partir d’images acquises à l’échelle microscopique dans des modèles expérimentaux (niveau infra-cellulaire) avec les données de simulations numériques à l’échelle atomique pour sélectionner et développer des molécules contre de nouvelles cibles thérapeutiques identifiées dans la maladie d'Alzheimer qui est prise comme preuve de concept.
  • ADR-PRISM
    FUI 16 (Expert System France (Temis), Adel Mebarki)
    Abstract: Le projet ADR-PRISM a pour objectif de mettre à disposition des équipes de pharmacovigilance une source de connaissances encore inexploitée en dehors de rares expérimentations par des équipes de recherche : les messages des patients dans les forums et autres lieux de discussions sur Internet. L'intégration de ces données permettra de générer de nouvelles hypothèses concernant les effets indésirables décrits par les patients qui seraient nouveaux ou mal documentés dans l'information officielle et/ou déjà existant sur les médicaments. Etant donné le volume d’information en provenance des patients collectée par millions de manière journalière depuis les différentes formes d’échange sur le web, ce cas d’usage est exemplaire pour une application Big data. Les méthodes mises en œuvre dans ADR-PRISM appartiennent à l'ingénierie des connaissances et à la fouille de texte. Les informations sont extraites à partir de données textuelles (messages des patients sur les plates-formes de discussion) au moyen de méthodes de traitement automatique du langage (TAL). Les données textuelles sont annotées et intégrées aux données structurées, comme par exemple la date, la source de donnée ou l’adresse, en considérant leur sémantique, pour en préserver le sens et permettre une intégration et interopérabilité améliorées entre le langage médical et le langage des patients.
  • InnovAgora / Fanvoice
    Programme Investissements d’Avenir 2012 – Cloud Computing et Big Data No. 3 (Alfstore, Enguerrand Spindler)
    Abstract: Solution logicielle de Social Open Innovation. Plateforme de crowdsourcing. Les entreprises cherchent des solutions pour améliorer leur compétitivité, ce qui passe notamment par le lancement de nouveaux produits ou services innovants. Les méthodes traditionnelles (panel consommateurs) sont limitées, mais les réseaux sociaux publics ouvrent de nouvelles perspectives. Il devient possible de consulter de très nombreux utilisateurs pour collecter leurs suggestions sur un futur produit. Cette démarche d’open innovation via les médias sociaux, est qualifiée de "social product innovation". Nous proposons donc d’industrialiser la démarche en développant un outil dédié, qui sera capable de traiter un grand volume de données non structurées, et de fournir à l’entreprise des indicateurs statistiques synthétiques, pour comprendre les tendances du marché.
  • Patient Genesys
    Projet FUI 16 (Interaction Healthcare, Jérôme Leleu, Nathalie Pierard)
    Abstract: L’objectif du projet collaboratif est de développer un outil innovant et intuitif de création de cas cliniques dans un environnement 3D (cabinet de consultation, patient, équipement médical…) par des professionnels de santé sans expérience informatique. L’utilisateur pourrait ainsi créer le cas avec les objectifs pédagogiques, le dossier médical du patient virtuel (biologie, radiologie…), les échanges médecin/patient (dialogue en langue naturelle et synthèse vocale), proposer les différentes options de prise de décision thérapeutique.
  • PRESIDIO
    Programme Investissements d’Avenir 2014 – Cloud Computing et Big Data No. (Kappa Santé, Adel Mebarki)
    Abstract: Le projet PRESIDIO vise à développer de nouveaux outils et de nouvelles méthodologies reposant sur le Cloud Computing et le Big Data pour explorer les maladies chroniques et pour proposer de nouvelles approches dans leur prise en charge ou la recherche sur ces pathologies. Source d’économies importantes attendues (le rapport McKinsey d’avril 2013 prédit une économie de plus de 300 milliards de dollar pour le système de santé américain) l’utilisation du Big Data dans les maladies chroniques permettraient de mieux les connaitre sous réserve de pouvoir articuler et rendre interopérables de nombreuses sources de données en santé, personnelles ou non, de pouvoir les traiter en temps réel et de les organiser dans un Cloud spécifique et sécurisé tout en respectant la vie privée des personnes et le caractère sensible des données recueillies. L’objectif général du projet est de fournir un modèle conceptuel d’exploration et de modélisation du risque des maladies chroniques par une approche de type Big Data. Plus spécifiquement, ce projet vise à créer un nouveau modèle numérique pour la constitution et le suivi de cohortes en santé publique en s’appuyant sur un exemple applicatif dans le champ de la santé mentale.
  • Acquisition et restitution d'une base de connaissances via le Web avec Cognit'ive
    application industrielle, Sabrina Campano, Fabien Stepho, Object'ive
    Abstract: Parcourir des pages Web pour en extraire de l’information s’avère utile pour plusieurs activités clés d’une entreprise, comme faire de la veille, ou recueillir des informations sur des opportunités commerciales. Dans cette démonstration, nous montrons comment notre plate-forme Cognit'ive permet d'acquérir des données du Web pour constituer une base de connaissances. Nous montrerons aussi comment cette base de connaissances peut-être consultée, grâce à une restitution ergonomique sous forme d'une interface Web.
  • Agent d'accueil en office de tourisme
    Application industrielle, Yannick Gérard, société DAVI - Les Humaniseurs
    Abstract: Présentation d'un Agent Conversationnel Animé capable de comprendre et de répondre à des énoncés courts en langage naturel dans son champ d'expertise (tourisme dans la zone de la Charité sur Loire (Nièvre)).
  • IntelligentFaq
    application industrielle, Patrick Séguéla, Synapse Développement
    Abstract: Génération de questions à partir de la lecture de textes par un ordinateur.
  • MediaSpeech Factory : solution cloud de transcription multilingue des radio, TV, web videos et conversations téléphoniques
    application industrielle, Bertin IT / Vecsys, Ariane Nabeth-Halber
    Abstract: MediaSpeech est le moteur de transcription multilingue de Bertin IT / Vecsys. MediaSpeech Factory est sa version cloud, aujourd'hui la première en Europe pour la transcription de news radio et TV, avec des milliers d'heure par mois. MediaSpeech est également la solution choisie par le centre de contact de Canal+ pour son application pionnière de Speech analytics déployée en 2016. Nous démontrerons la transcription audio et video pour la veille média et pour les centres de contact.
  • Outil de prototypage rapide d’agents conversationnels
    Application industrielle, Hicham Tahiri
    Abstract: La vision de Vocal Apps est de démocratiser l’interface vocale. Notre produit phare Smartly.ai a été conçu pour accélérer le développement la création d’assistants virtuels.
  • Retour d'expérience Challenge Big data Pôle Emploi : le TAL au service des candidats
    projet de recherche financé par Cap Digital, Thomas Cohu
    Abstract: Le challenge big data Cap Digital / Pôle emploi consiste à "Imaginer une présentation visuelle et dynamique des candidats, afin de mettre en avant leurs atouts au regard des tendances du marché du travail."