logoJEPTALNRECITAL2016

JEP-TALN-RECITAL 2016, Paris, France

23ème Conférence sur le Traitement Automatique des Langues Naturelles
31ème Journées d’Études sur la Parole
18ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues

Inalco, Paris, 4-8 Juillet 2016

Jeudi 7 juillet 2016


9h00-10h00 - Présentations orales

TALN/RECITAL

Prix de thèse TALN (amphi 4)

JEP

Adaptation - Jeudi 9h00-10h00 (Oral6) - amphi 6

Président de session : Jean-Luc Schwartz

  • Accommodation temporelle chez l'enfant dans une tâche de parole alternée
    Céline Hidalgo, Simone Falk and Daniele Schön
    Abstract: L'accommodation temporelle est un phénomène de subtile synchronisation qui se met en place lors d'une interaction entre deux interlocuteurs. Ce phénomène, permettant le développement de processus prédictifs, jouerait un rôle important dans la compréhension des messages échangés et faciliterait ainsi la fluidité des échanges. Cette étude se propose d'examiner ces capacités chez l'enfant âgé de 5 à 6 ans grâce au développement d'une nouvelle tâche de dénomination en alternance avec un partenaire virtuel. Les variables temporelles analysées sont le tempo de l'alternance (lent versus rapide) et la rythmicité des mots échangés (constante versus aléatoire). Les résultats montrent que les enfants sont plus précis dans la condition de tempo rapide que dans la condition lente et qu'ils sont plus réguliers dans la condition où les listes de mots ont une rythmicité constante plutôt qu'aléatoire. Ces résultats constituent une base pour mesurer les capacités linguistiques d'accommodation temporelle d'autres populations d'enfants (ex.cliniques).
  • Quelle(s) mesure(s) de similarité prosodique comme évaluation de l’imitation ?
    Olivier Nocaudie and Corine Astésano
    Abstract: La performance imitative des locuteurs varie de celle du professionnel, expert, à celle du naïf, plus ou moins talentueux. L’étude de l’imitation souligne la difficulté pour trouver des indices mesurables de la réussite d’une imitation. Dans cette étude exploratoire, des contours de f0 recueillis au fil de tâches d’imitation sont testés au moyen d’une double approche : mesure objective par le biais de deux mesures de la similarité prosodique reportées dans la littérature et évaluation perceptive par un panel de 15 d’auditeur naïfs. Nos premiers résultats indiquent une bonne corrélation entre les deux approches et soulèvent la question du choix de l’indice mesurable qui rendrait le mieux compte d’une imitation au niveau tonal. Ils soulignent également la variabilité interindividuelle des comportements imitatifs en parole tout en ouvrant des perspectives intéressantes dans le domaine de la formation à la phonétique corrective par la Méthode Verbo-tonale.

    Imitative proficiency across speakers is highly variable. Studies on imitation underlines how difficult it is to find measurable cues in order to assess a successful imitation. In this exploratory study, f0 contours stem from imitations tasks are tested in a double approach: objective measurements of prosodic similarity using two measures reported in the literature and perceptive evaluation by a panel of 15 naïve listeners. Our first results indicate a good correlation between the two approaches and they raise the question concerning the selection of the measurable factor assessing a successful imitation at a tonal level. Meantime, these results underline an imitative proficiency’s variability across speakers while opening perspectives in the domain of phonetic correction using the Verbo Tonal Method.
  • Entraînements à la prosodie des questions ouvertes et fermées de l’anglais chez des apprenants francophones
    Anne Guyot-Talbot, Karin Heidlmayr and Emmanuel Ferragne
    Abstract: Des étudiants en anglais étaient invités à lire trois types de phrases : assertions, questions fermées et ouvertes. Ils étaient ensuite soumis à 3 sessions d’entraînements où ils devaient répéter des phrases interrogatives prononcées par une anglophone. Après chaque phrase, leur contour de F0 sur la syllabe portant le noyau intonatif ainsi que celui de la locutrice anglaise étaient affichés à l’écran. Ces sessions devaient leur permettre d’inférer une règle du système intonatif de l’anglais qui induit, par défaut, un contour montant pour les questions fermées et un contour descendant pour les questions ouvertes. Puis, une nouvelle séance d’enregistrements permettait de collecter des phrases à comparer au pré-test pour juger l’efficacité de l’entraînement. Les résultats montrent une réduction significative de la distance entre les contours mélodiques des apprenants du groupe test et ceux de la locutrice modèle entre pré-test et post-test, ce qui suggère un effet bénéfique de nos entrainements.

10h00-10h30 - Pause Café (hall 2ème étage)


10h30-12h30 - Présentations Posters

TALN/RECITAL

Poster 1 - Jeudi 10h30-12h30 (P1) - salles 3.14 à 3.19

Présidentes de session : Camille Dutrey et Kata Gábor

  • Estimer la notoriété d’un nom propre via Wikipedia
    Mouna Elashter and Denis Maurel
    Abstract: Cet article propose de calculer, via Wikipedia, un indice de notoriété pour chaque nom propre d’une liste multilingue. Cette notoriété dépend de la langue. Elle permettra de réduire la taille des dictionnaires de noms propres utilisés en Tal et, donc, de réduire l’ambiguïté qu’ils génèrent.
  • Ibenta Semantic Cluster : un outil de classification non-supervisée hybride
    Manon Quintana and Laurie Planes
    Abstract: Our company develops a hybrid usupervised classification tool combining both statistics and the power of our Meaning-Text Theory-based lexicon. We present here the context which lead us to develop such a tool. After a quick state of the art of unsupervised classification (clustering) in NLP, we will describe how our semantic cluster works.
  • Analyse d'une tâche de substitution lexicale : quelles sont les sources de difficulté ?
    Ludovic Tanguy, Cécile Fabre and Camille Mercier
    Abstract: Nous proposons dans cet article une analyse des résultats de la campagne SemDis 2014 qui proposait une tâche de substitution lexicale en français. Pour les 300 phrases du jeu de test, des annotateurs ont proposé des substituts à un mot cible, permettant ainsi d'établir un gold standard sur lequel les systèmes participants ont été évalués. Nous cherchons à identifier les principales caractéristiques des items du jeu de test qui peuvent expliquer les variations de performance pour les humains comme pour les systèmes, en nous basant sur l'accord inter-annotateurs des premiers et les scores de rappel des seconds. Nous montrons que si plusieurs caractéristiques communes sont associées aux deux types de difficulté (rareté du sens dans lequel le mot-cible est employé, fréquence d'emploi du mot-cible), d'autres sont spécifiques aux systèmes (degré de polysémie du mot-cible, complexité syntaxique).
  • Extraction d'opinions ambigües dans des corpus d'avis clients
    Joseph Lark, Emmanuel Morin and Sebastián Peña Saldarriaga
    Abstract: Nous détectons dans des corpus d'avis clients en français des expressions d'opinion ne contenant pas de marqueur d'opinion explicitement positif ou négatif. Nous procédons pour cela en deux étapes en nous appuyant sur des méthodes existantes~: nous identifions ces expressions à l'aide de fenêtres de mots puis nous les classifions en polarité. Le processus global présente des résultats satisfaisants pour notre cadre applicatif demandant une haute précision.
  • Système hybride pour la reconnaissance des entités nommées arabes à base des CRF
    Emna Hkiri, Souheyl Mallat and Mounir Zrigui
    Abstract: La reconnaissance d'entités nommées (REN) pour les langues naturelles telles que l'arabe est une tâche essentielle et difficile. Dans cet article, nous décrivons notre système hybride afin d'améliorer la performance du système de REN et de combler le manque de ressources pour le TAL arabe. Notre système applique le modèle CRF, le lexique bilingue des ENs et les règles linguistiques spécifiques à la tâche de reconnaissance d'entités nommées dans les textes arabes. Les résultats empiriques indiquent que notre système surpasse l'état-de l’art de la REN arabe lorsqu'il est appliqué au corpus d’évaluation standard ANERcorp.
  • L'anti-correcteur : outil d'évaluation positive de l'orthographe et de la grammaire
    Lydia-Mai Ho-Dac, Sophie Negre and Valentine Delbar
    Abstract: L'objectif de cette étude est d'expérimenter l'intégration d'une nouvelle forme d'évaluation dans un correcteur orthographique et grammatical. L'"anti-correcteur" a pour objet de mesurer le taux de
    réussite orthographique et grammaticale d'un texte sur certains points jugés difficiles selon la littérature et selon une observation d'erreurs en corpus. L'évaluation du niveau d'écriture ne se base plus uniquement sur les erreurs commises, mais également sur les réussites orthographiques réalisées. Une version bêta de ce nouveau mode d'évaluation positive a été intégré sous la forme d’un module au correcteur XXX. Cet article a pour but de discuter de l'intérêt de ce nouveau rapport à l'orthographe et de présenter quelques premiers éléments d'analyse résultant de l'application de l'anti-correcteur sur un corpus de productions variées en terme de niveau d'écriture et genre discursif.
  • Mise au point d’une méthode d’annotation morphosyntaxique fine du serbe
    Aleksandra Miletic, Cécile Fabre and Dejan Stosic
    Abstract: Cet article présente une expérience d’annotation morphosyntaxique fine du volet serbe du corpus parallèle ParCoLab (corpus serbe-français-anglais). Elle a consisté à enrichir une annotation existante en parties du discours avec des traits morphosyntaxiques plus fins, afin de préparer une étape ultérieure de parsing du corpus. Nous avons comparé trois approches : 1) annotation manuelle ; 2) pré-annotation avec un étiqueteur entraîné sur le croate suivie d’une correction manuelle ; 3) ré-entraînement de l’outil sur un petit échantillon validé du corpus, suivi de l’annotation automatique et de la correction manuelle. Le modèle croate maintient une stabilité globale en passant au serbe, mais les différences entre les deux jeux d’étiquettes exigent encore des interventions manuelles importantes. Le modèle ré-entraîné sur un échantillon validé (20K tokens) atteint la même précision que le modèle croate, et le gain de temps observé montre que cette méthode optimise la phase de correction.
  • Recherche de « périsegments » dans un contexte d’analyse conceptuelle assistée par ordinateur : le concept d’« esprit » chez Peirce
    Davide Pulizzotto, José Alejandro Lopez Gonzalez and Jean-François Chartier
    Abstract: En sciences humaines et plus particulièrement en philosophie, l’analyse conceptuelle (AC) est une
    pratique fondamentale qui permet de décortiquer les propriétés d’un concept. Lors d’une analyse sur
    un corpus textuel, le principal défi est l’identification des segments de texte qui expriment le concept.
    Parfois, ces segments sont facilement reconnaissables grâce à une unité lexicale attendue, appelée
    forme canonique. Toutefois, ce n’est pas toujours le cas. Cet article propose une chaîne de traitement
    pour la découverte d’un certain nombre de segments périphériques, dits périsegments. Pour illustrer
    le processus, nous réalisons des expérimentations sur le concept d’« esprit » dans les Collected Papers
    de Ch. S. Peirce, en obtenant une précision moyenne supérieure à 80%.
  • Compilation de grammaire de propriétés pour l'analyse syntaxique par optimisation de contraintes
    Jean-Philippe Prost, Rémi Coletta and Christophe Lecoutre
    Abstract: Cet article présente un processus de compilation d’une grammaire de propriétés en une contrainte en extension. Le processus s’insère dans le cadre d’un analyseur syntaxique robuste par résolution d’un problème d’optimisation de contraintes. La grammaire compilée est une énumération de tous les constituants immédiats uniques de l’espace de recherche. L’intérêt de ce travail encore préliminaire tient principalement dans l’exploration d’une modélisation computationnelle de la langue à base de Syntaxe par Modèles (MTS, Model-Theoretic Syntax), qui intègre la représentation indifférenciée des énoncés canoniques et non-canoniques. L’objectif plus particulier du travail présenté ici est d’explorer la possibilité de construire l’ensemble des structures candidat-modèles à partir de l’ensemble des structures syntagmatiques observées sur corpus. Cet article discute notamment le potentiel en matière d’intégration de prédictions probabilistes dans un raisonnement exact pour contribuer à la discrimination entre analyses grammaticales et agrammaticales.
  • Segmentation automatique d'un texte en rhèses
    Victor Pineau, Constance Nin, Solen Quiniou and Béatrice Daille
    Abstract: La segmentation d’un texte en rhèses, unités-membres signifiantes de la phrase, permet de fournir des adaptations de celui-ci pour faciliter la lecture des personnes dyslexiques. Dans cet article, nous proposons une méthode d’identification automatique des rhèses basée sur un apprentissage supervisé à partir d’un corpus que nous avons annoté. Nous comparons celle-ci à une identification manuelle des rhèses ainsi qu’à l’utilisation d’outils et de concepts proches, tels que la segmentation d’un texte en chunks.
  • Combiner des modèles sémantiques distributionnels pour mieux détecter les termes évoquant le même cadre sémantique
    Gabriel Bernier-Colborne and Patrick Drouin
    Abstract: Nous utilisons des modèles sémantiques distributionnels pour détecter des termes qui évoquent le même cadre sémantique. Dans cet article, nous vérifions si une combinaison de différents modèles permet d’obtenir une précision plus élevée qu’un modèle unique. Nous mettons à l’épreuve plusieurs méthodes simples pour combiner les mesures de similarité calculées à partir de chaque modèle. Les résultats indiquent qu’on obtient systématiquement une augmentation de la précision par rapport au meilleur modèle unique en combinant des modèles différents.
  • Classification automatique de dictées selon leur niveau de difficulté de compréhension et orthographique
    Adeline Müller, Thomas Francois, Sophie Roekhaut and Cedrick Fairon
    Abstract: Cet article présente une approche visant à évaluer automatiquement la difficulté de dictées afin de les intégrer dans une plateforme d'apprentissage de l'orthographe. La particularité de l'exercice de la dictée est de devoir percevoir du code oral et de le retranscrire via le code écrit. Nous envisageons ce double niveau de difficulté à l'aide de 375 variables visant tant à mesurer la difficulté de compréhension d'un texte qu'à en évaluer les complexités orthographiques et grammaticales. Une sélection optimale de ces variables est combinée à l'aide d'un SVM qui classe correctement 56% des textes. Il apparait que ce sont les variables lexicales basées sur la liste orthographique de Catach (1984) qui se révèlent les plus informatives pour le modèle.
  • Médias traditionnels, médias sociaux : caractériser la réinformation
    Cédric Maigrot, Ewa Kijak and Vincent Claveau
    Abstract: Les médias traditionnels sont de plus en plus présents sur les réseaux sociaux, mais ces sources d’informations sont confrontées à d’autres sources dites de réinformation. Ces dernières ont tendance à déformer les informations relayées pour correspondre aux idéologies qu’elles souhaitent défendre, les rendant partiellement ou totalement fausses. Le but de cet article est, d’une part, de présenter un
    corpus que nous avons constitué à partir de groupes Facebook de ces deux types de médias. Nous présentons d’autre part quelques expériences de détection automatique des messages issus des médias de réinformation, en étudiant notamment l’influence d’attributs de surface et d’attributs portant plus spécifiquement sur le contenu de ces messages.
  • Impact de l’agglutination dans l’extraction de termes en arabe standard moderne
    Wafa Neifar, Thierry Hamon, Pierre Zweigenbaum, Mariem Ellouze and Lamia Hadrich Belguith
    Abstract: Nous présentons, dans cet article, une adaptation à l’arabe standard moderne d’un extracteur de termes pour le français et l’anglais. L’adaptation a d’abord consisté à décrire le processus d’extraction des termes de manière similaire à celui défini pour l’anglais et le français en prenant en compte certains particularités morpho-syntaxiques de la langue arabe. Puis, nous avons considéré le phénomène de l’agglutination de la langue arabe. L’évaluation a été réalisée sur un corpus de textes médicaux. Les résultats montrent que parmi 400 termes candidats maximaux analysés, 288 sont jugés corrects par rapport au domaine (72,1%). Les erreurs d’extraction sont dues à l’étiquetage morpho-syntaxique et à la non-voyellation des textes mais aussi à des phénomènes d’agglutination.
  • Découverte de nouvelles entités et relations spatiales à partir d'un corpus de SMS
    Sarah Zenasni, Maguelonne Teisseire, Mathieu Roche and Eric Kergosien
    Abstract: Dans le contexte des masses de données aujourd'hui disponibles, de nombreux travaux liés à l'analyse des informations spatiales s'appuient sur l'exploitation des données textuelles. La communication médiée (SMS, tweets, etc.) véhiculant des informations spatiales prend une place prépondérante. L'objectif du travail présenté dans cet article consiste à extraire ces informations spatiales à partir d'un corpus authentique de SMS en français. Nous proposons un processus dans lequel, dans un premier temps, nous extrayons de nouvelles entités spatiales (par exemple, "motpellier", "montpeul" à associer au toponyme "Montpellier"). Dans un second temps, nous identifions de nouvelles relations spatiales qui précèdent les entités spatiales (par exemple, "sur", "par", "pres", etc). La tâche est très difficile et complexe en raison de la spécificité du langage SMS qui repose sur une écriture peu standardisée (création lexicale, utilisation massive d'abréviations, présence de fautes, etc.). Les expérimentations qui ont été réalisées à partir du corpus 88milSMS mettent en relief la robustesse de notre système pour identifier de nouvelles entités et relations spatiales.
  • Apprentissage bayésien incrémental pour la détermination de l'âge et du genre d’utilisateurs de plateformes du web social (RECITAL)
    Jugurtha Aït Hamlat
    Abstract: Les méthodes de classification textuelles basées sur l'apprentissage automatique ont l'avantage, en plus d'être robustes, de fournir des résultats satisfaisants, sous réserve de disposer d'une base d'entraînement de qualité et en quantité suffisante. Les corpus d'apprentissage étant coûteux à construire, leur carence à grande échelle se révèle être l'une des principales causes d'erreurs. Dans un contexte industriel à forte volumétrie de données, nous présentons une approche de prédiction des deux plus importants indicateurs socio-démographiques (âge et genre) appliquée à des utilisateurs de forums, blogs et réseaux sociaux et ce, à partir de leur seules productions textuelles. Le modèle bayésien multinomial est construit à partir d'un processus d'apprentissage incrémental et itératif sur une vaste base d'entraînement semi-supervisée. Le caractère incrémental permet de s'affranchir des contraintes de volumétrie. L'aspect itératif a pour objectif d'affiner le modèle et ainsi augmenter le niveau de rappel et précision.
  • Quelles sont les caractéristiques des interactions problématiques entre des utilisateurs et un conseiller virtuel ? (RECITAL)
    Irina Maslowski
    Abstract: L’utilisation d’un conseiller virtuel pour la gestion de la relation client sur les sites des entreprises est une solution numérique de plus en plus adoptée. Le défi pour les entreprises est de mieux répondre aux attentes des clients en leur fournissant des interactions fluides entre le client et l'agent. Pour faire face à ce problème, cet article met l'accent sur la détection des problèmes d’interactions dans un corpus de tchat écrit entre un conseiller virtuel et ses utilisateurs. Il fournit une analyse de corpus en décrivant non seulement les spécificités linguistiques et les marqueurs d'opinion contenus dans le corpus du tchat humain-agent, mais aussi les indices linguistiques et dialogiques qui peuvent être pertinents pour caractériser une interaction problématique. Le modèle de règles proposé, utilisant les indices trouvés, est appliqué à un corpus avec des retours client négatifs et positifs pour révéler les tendances.

JEP

Poster 1 - Jeudi 10h30-12h30 (P1) - salles 3.14 à 3.19

Président de session : Sébastien Le Maguer

  • Réalisation phonétique et contraste phonologique marginal : une étude automatique des voyelles du roumain
    Vasilescu Ioana, Renwick Margaret, Dutrey Camille, Lamel Lori and Vieru Bianca
    Abstract: Cet article est dédié à l'analyse des traits acoustiques et prosodiques de l'inventaire vocalique roumain dans la parole continue, comparés à des prononciations canoniques, enregistrées en laboratoire. Les objectifs sont : (1) décrire les particularités acoustico-prosodiques des voyelles dans la parole continue par rapport à des réalisations "prototypiques" ; (2) estimer l'impact des traits observés sur les contrastes phonémiques de la langue ; (3) estimer dans quelle mesure l'étude de l'oral apporte des éclairages au sujet des attributs phonémiques des voyelles centrales [ʌ] et [ɨ], dont le statut de phonèmes vs allophones reste controversé. Nous montrons que les traits acoustiques sont comparables pour la parole journalistique vs contrôlée pour l'ensemble de l'inventaire sauf [ʌ] et [ɨ]. Les timbres [ʌ] et [ɨ] sont distincts dans la parole contrôlée mais confondus en faveur du timbre [ʌ] à l'oral. La confusion de timbres n'entraîne pas inintelligibilité car [ʌ] et [ɨ] se retrouvent en distribution quasi-complémentaire. Ce résultat apporte des éclairages sur la question du contraste phonémique graduel et en l'occurrence marginal (Goldsmith,1995; Scobbie & Stuart-Smith, 2008; Hall, 2013.
  • Préservation du pattern syllabique iambique dans la production des locuteurs dysarthriques
    Laurianne Georgeton and Meunier Christine
    Abstract: Ce travail vise à évaluer une éventuelle dégradation du pattern rythmique iambique dans la production de locuteurs atteints de différents types de dysarthrie. Ce pattern se traduit par une structure court-long dans les mots dissyllabiques. Cette structure est très robuste en français aussi bien en production qu’en perception. Par ailleurs, chez des locuteurs dysarthriques, des perturbations prosodiques et donc rythmiques sont souvent observées. Ainsi, ces patients peuvent-ils maintenir ce pattern iambique dans leurs productions? Les résultats montrent que le pattern rythmique iambique est bien conservé chez toutes les populations dysarthriques aussi bien en lecture qu’en parole spontanée. Ce pattern est en général plus marqué en spontané qu’en lecture et la population contrôle se démarque des populations dysarthriques par un pattern plus marqué en lecture, mais plus encore en spontané. Ce pattern rythmique semble donc robuste même s’il semble être affecté quand la sévérité de la maladie augmente.
  • Rôle des contextes lexical et post-lexical dans la réalisation du schwa : apports du traitement automatique de grands corpus
    Yaru Wu, Martine Adda-Decker and Cécile Fougeron
    Abstract: Le rôle du contexte est connu dans la réalisation ou non du schwa en français. Deux grands corpus oraux de parole journalistique (ETAPE) et de parole familière (NCCFr), dans lesquels la realisation de schwa est déterminée à partir d’un alignement automatique, ont été utilisés pour examiner la contribution du contexte au sein du mot contenant schwa (lexical) vs. au travers de la frontière avec le mot précédent (post-lexical). Nos résultats montrent l'importance du contexte pré-frontière dans l'explication de la chute du schwa dans la première syllabe d’un mot polysyllabique en parole spontanée. Si le mot précédant se termine par une consonne, nous pouvons faire appel à la loi des trois consonnes et au principe de sonorité pour expliquer des différences de comportement en fonction de la nature des consonnes en contact.
  • Étude transversale du rythme de l’anglais chez des apprenants francophones
    Quentin Michardière, Anne Guyot-Talbot, Emmanuel Ferragne and François Pellegrino
    Abstract: Dans cette étude, nous avons demandé à 3 groupes d’étudiants en anglais (niveaux L1, L2 et L3) de lire un dialogue en anglais afin d’évaluer la possibilité d’une amélioration de leur production sur le plan du rythme en fonction de leur niveau universitaire. Le dialogue a également été lu par des anglophones, et une traduction du dialogue en français a été enregistrée par des francophones dans le but d’établir un espace de référence pour l’anglais L1 et le français L1. Nous avons employé des mesures classiques du rythme s’appuyant sur la durée, et avons également exploré la pertinence de mesures basées sur l’enveloppe d’amplitude et le spectre de cette enveloppe. Nous constatons un manque de fiabilité des mesures classiques du rythme, et proposons quelques pistes.
  • Perception des consonnes géminées en japonais langue étrangère par des apprenants francophones
    Akiko Takemura and Takeki Kamiyama
    Abstract: Cette étude propose de tester l’effet de deux entraînements, en perception et en production, sur l’acquisition de voyelles de l’anglais britannique par des francophones. L’étude se focalise sur deux régions de l’espace acoustique pour lesquelles plusieurs catégories phonologiques existent en anglais alors qu’une seule existe en français. Trois groupes ont été constitués : l’un recevant un entraînement de type High Variability Perceptual Training, un second recevant un entraînement en production et le troisième constituait un groupe contrôle ne recevant pas d’entraînement. Les performances des participants ont été évaluées avant et après entraînement en perception et en production. Les résultats semblent montrer un effet de l’entraînement en perception sur les performances en perception et en production et un effet plus restreint de l’entraînement en production. Mais leur interprétation reste difficile du fait d’un effet test/re-test observé sur le groupe contrôle.
  • Caractérisation statique et dynamique des voyelles dans des transitions V-to-V
    Julien Millasseau and Olivier Crouzet
    Abstract: Nous étudions les indices acoustiques liés à la caractérisation statique et / ou dynamique des voyelles du français. Nous avons analysé les caractéristiques formantiques de six réalisations vocaliques ainsi que les transitions formantiques de seize combinaisons V1V2 impliquant ces 6 voyelles afin d’évaluer les contributions des indices dynamiques liés aux transitions entre voyelles et aux indices statiques de fréquence. Les mesures correspondantes sont issues d’un protocole dans lequel le débit de parole était influencé expérimentalement afin de provoquer d’éventuelles variations de vitesse de transition. Les résultats ne permettent pas de départager ces deux hypothèses mais montrent que les indices dynamiques pourraient être aussi fiables que les mesures statiques. Des pistes d’extension de ce travail sont proposées qui pourraient contribuer de manière plus informative à cette problématique.
  • Modélisation bayésienne de la planification motrice des gestes de parole: Évaluation du rôle des différentes modalités sensorielles
    Jean-François Patri, Julien Diard and Pascal Perrier
    Abstract: La prise en compte des informations auditives et proprioceptives dans le contrôle de la parole est mise en évidence par un nombre croissant de résultats expérimentaux.
    Cependant, les modèles de production imposent le plus souvent l'une ou l'autre des modalités, ou n'offrent pas de cadre formel pour évaluer leurs contributions respectives.
    Nous proposons d'explorer le rôle de ces modalités sensorielles dans la planification des gestes de parole à partir d'un modèle bayésien représentant la structure des connaissances mises en jeu dans cette tâche. Le modèle permet d'envisager trois mécanismes de planification, reposant sur la modalité auditive, proprioceptive ou sur les deux conjointement. Nous comparons des simulations obtenues par les deux premiers mécanismes de planification. Les résultats indiquent des réalisations articulatoires différentes mais donnant néanmoins des réalisations auditives qualitativement similaires dans leur variabilité.
  • Que disents nos silences? Apport des données acoustiques, articulatoires et physiologiques pour l'étude des pauses silencieuses
    Lalain Muriel, Legou Thierry, Fauth Camille, Hirsch Fabrice and Didirkova Ivana
    Abstract: Si la rhétorique s’est intéressée très tôt à la pause, il a fallu attendre le XXème siècle pour que d’autres disciplines – la psycholinguistique, le traitement automatique des langues, la phonétique – accordent à ces moments de silence l’intérêt qu’ils méritent. Il a ainsi été montré que ces ruptures dans le signal acoustique, loin de signer une absence d’activité, constituaient en réalité le lieu d’une activité physiologique (la respiration) et/ou cognitive (planification du discours) qui participent tout autant au message que la parole elle-même.
    Dans cette étude pilote, nous proposons des observations et des pistes de réflexions à partir de l’analyse des pauses silencieuses dans un corpus de parole lue et semi dirigée. Nous mettons notamment en évidence l’apport de l’analyse conjointe de données acoustiques, articulatoires (EMA) et physiologiques (Biopac) pour l’identification, parmi les pauses silencieuses, des pauses respiratoires, syntaxiques et d’hésitation.
  • Dynamique phonétique et contrôle moteur dans la maladie de Parkinson: analyse du contrôle de la production des glides
    Virginie Roland, Véronique Delvaux, Kathy Huet, Myriam Piccaluga, Marie-Claire Haelewyck and Bernard Harmegnies
    Abstract: Nous nous interrogeons quant à la possibilité d’identifier les difficultés de contrôle du mouvement chez les personnes atteintes de la maladie de Parkinson (MP) à partir de l’étude de leurs comportements dans la production de sons de parole nécessitant des mouvements continus des articulateurs supralaryngés (logatomes VCV, où C est un glide). Notre hypothèse est que les parkinsoniens présentent des modifications dans leur dynamique de mouvement par rapport à des personnes sans pathologie lors de la production. A cette fin, sont étudiés des sons de parole recueillis hors contexte communicationnel auprès de neuf personnes porteuses de la MP et de dix sujets sains. Les analyses révèlent des différences entre les deux groupes, notamment en ce qui concerne l’espace articulatoire, l’amplitude des mouvements et leur localisation dans le plan F1-F2. On note par ailleurs qu’un point-cible est préservé lors de l’émission de logatomes : le centre du glide
  • Disfluences normales vs. Disfluences sévères : une étude acoustique
    Ivana Didirkova, Camille Fauth, Fabrice Hirsch, Giancarlo Luxardo and Sascha Diwersy
    Abstract: L'objectif de cette recherche est d'étudier les caractéristiques acoustiques et perceptives des disfluences normales et sévères. Pour ce faire, un jury d’auditeurs experts a relevé les disfluences sévères et normales de 4 locuteurs qui bégaient ainsi que les accidents de parole de 4 sujets normo-fluents. Une analyse acoustique portant sur des paramètres tels que la durée de la disfluence, le nombre de disfluences ou encore sur la présence d’éléments prosodiques particuliers a été menée sur les seules disfluences ayant été relevés par l’ensemble du jury. Nos résultats montrent que si les prolongations et les répétitions sont bien évidemment catégorisées comme sévères respectivement en fonction de leur durée et du nombre d’éléments réitérés, d’autres paramètres sont également significatifs, tels que la présence ou non d’une tension audible, le type d’éléments répétés ou encore le fait que la syllabe soit ou non clivée.
  • Exploration de paramètres acoustiques dérivés de GMM pour l'adaptation non supervisée de modèles acoustiques à base de réseaux de neurones profonds
    Natalia Tomashenko, Yuri Khokhlov, Anthony Larcher and Yannick Estève
    Abstract: L'étude présentée dans cet article améliore une approche récemment proposée pour l'adaptation de modèles acoustiques markoviens couplés à un réseau de neurones profond (DNN-HMM). Cette technique d'adaptation utilise des paramètres acoustiques dérivés de Mixtures de Modèles Gaussiens (GMM-derived features, GMMD).

    L'amélioration provient de l'emploi de scores et de mesures de confiance calculés à partir de graphes construits dans le cadre classique de l'algorithme d'adaptation dit de maximum a posteriori (MAP).

    Une adaptation MAP modifiée est appliquée sur le modèle GMM auxiliaire utilisé dans une procédure de type apprentissage adaptatif au locuteur (speaker adaptative training, SAT) lors de l'apprentissage du DNN.

    Des expériences menées sur le corpus Wall Street Journal (WSJ0) montrent que la technique d'adaptation non supervisée proposée dans cet article permet une réduction relative de 8,4% du taux d'erreurs sur les mots (WER), par rapport aux résultats obtenus avec des modèles DNN-HMM indépendants du locuteur utilisant des paramètres acoustiques plus conventionnels.
  • Le VOT des éjectives : le cas du maya yucatèque
    Emre Bayraktar and Rachid Ridouane
    Abstract: Cet article présente une étude acoustique des occlusives éjectives du maya yucatèque. S’intéressant spécifiquement au voice onset time (VOT), l’étude examine d’une part si le VOT est un corrélat acoustique fiable de l’éjectivité dans cette langue et d’autre part si le VOT varie selon le lieu d’articulation et la hauteur vocalique. Les résultats, obtenus à partir des productions de deux locuteurs natifs, montrent que les éjectives ont un VOT plus long comparées à leurs contreparties pulmonaires. Parmi les éjectives, le VOT varie en fonction du lieu d’articulation, les vélaires présentant le VOT le plus long. De même une tendance pour un VOT plus court devant les voyelles hautes a été observée. Ces résultats soulèvent un ensemble de questions concernant les mécanismes qui sous-tendent les variations du VOT, notamment en lien avec les contraintes aérodynamiques en jeu lors de la production des occlusives éjectives.
  • Production des voyelles parlées et chantées dans le Cantu in Paghjella
    Claire Pillot-Loiseau, Patrick Chawah, Angélique Amelot, Grégoire Bachman, Catherine Herrgott, Martine Adda-Decker and Lise Crevier-Buchman
    Abstract: Quelles sont les caractéristiques acoustiques et articulatoires des voyelles parlées et chantées du Cantu in Paghjella (polyphonie corse à trois voix), en fonction du chanteur, de la voyelle et de la fréquence fondamentale ? L’analyse acoustique des quatre premiers formants de la parole au chant et celle des mouvements articulatoires lingual et labial, montrent généralement (i) une significative augmentation de F1 avec abaissement lingual mais fermeture labiale, en lien avec une corrélation entre F0 et F1 ; (ii) une baisse de F2 pour les voyelles antérieures, une postériorisation linguale et un recul de l’ombre hyoïdienne uniquement pour le bassu ; (iii) une nette augmentation de F3 et F4 surtout chez le bassu ; (iv) une augmentation du Singing Power Ratio surtout chez les bassu et secunda. Ses valeurs sont toutefois inférieures à celles de chanteurs lyriques, et ne correspondant pas comme ces derniers à un rapprochement de F3 et F4.
  • Extraction automatique de contour de lèvre à partir du modèle CLNF
    Li Liu, Gang Feng and Denis Beautemps
    Abstract: In this paper a new approach to extract the inner contour of the lips of a speaker without using artifices is proposed. The method is based on a recent face contour extraction algorithm developed in computer vision. This algorithm, which is called Constrained Local Neural Field (CLNF), provides 8 characteristic points (landmarks) defining the inner contour of the lips. Applied directly to our audio-visual data of the speaker, CLNF gives very satisfactory results in about 70% of cases. However, errors exist for the remaining cases. We offer solutions for estimating a reasonable inner lip contour from the landmarks provided by CLNF based on spline to correct its bad behaviors and to extract the suitable labial parameters A, B and S. The evaluations on a 179 image database confirm performance of our algorithm.
  • Effet de la fréquence d’usage sur l’élision du schwa des clitiques : étude d’un corpus d’interactions naturelles
    Loïc Liégeois
    Abstract: Cette étude propose d'étudier un facteur d'usage, à savoir la fréquence des formes, sur la (non) production des schwas des clitiques. Dans cet objectif, nous nous appuyons sur un corpus d'interactions entre adultes recueillis en situation naturelle : les enregistrements, réalisés au domicile de nos six sujets adultes, ont été récoltés au cours de scènes de vie quotidienne. Les données présentées au cours de nos analyses corroborent les résultats exposés dans de précédents travaux au sujet des schwas initiaux de polysyllabes. En effet, il s’avère que la fréquence d'emploi des collocations "clitique + X" a un effet significatif sur les taux d'élision relevés dans les productions de nos six sujets. Ces résultats sont discutés et mis en relation avec d’autres facteurs connus pour influencer la production de la variable, notamment des facteurs segmentaux et suprasegmentaux.
  • Peut-on caractériser globalement une « qualité d’acte expressif » : de « breathy voice » à « breathy turn taking » dans la glu socio-affective de l’interaction humain-robot ?
    Liliya Tsvetanova, Véronique Aubergé and Yuko Sasa
    Abstract: L’interaction face-à-face est considérée ici comme un système émergeant, englobant les sous-systèmes en synchronie des interactants inscrits, à travers leur personnalité, dans leur rôle social, leurs motivations, leurs intentions, leurs états socio-affectifs. L’interaction est instanciée par une « glu » socio-affective pour laquelle nous testons une dimension altruiste, orthogonale à la dimension de dominance, expérimentée dans le scénario écologique Emoz (Sasa et Aubergé, 2014) pour des personnes âgées donnant des commandes domotiques de forme imposée à un robot. Le dialogue est conduit par des feedbacks socio-affectifs primitifs du robot supposés « gluer » progressivement. Nous montrons que la variation faite par les sujets autour des commandes référentes, non seulement suit un décours dynamique de « glu » progressive, mais que le comportement communicatif des sujets est globalement inscrit dans des caractéristiques d’« intimité care» d’une production « breathy » de toutes les modalités (voix, prosodie, paraphrasage lexico-morpho-syntaxique, timing, posture, direction du regard, proxémie, déplacement).
  • La prosodie du focus dans les parlers algérois et oranais
    Ismaël Benali
    Abstract: Le but de cette étude est d’étudier les caractéristiques prosodiques de différents types de focus dans les parlers algérois et oranais.
    Il ressort de l’analyse acoustique des productions des locuteurs que les récurrences des schèmes prosodiques qui distinguent les deux parlers sont observées dans deux types de focus : le focus étroit d’insistance quand il est placé à la frontière d’un groupe intonatif et le focus interrogatif. Le premier est réalisé dans le parler algérois par un contour montant descendant. Dans le parler oranais, il est produit par un contour plat ou légèrement montant ou descendant. On retrouve, dans le focus interrogatif, le mêmes contour intonatif plus amplifié du focus d’insistance chez les Algérois alors que chez les Oranais la dernière syllabe est toujours montante précédée d'une descente. Le focus de contraste est produit différemment dans le même dialecte avec plus d’allongement en oranais. La réalisation du focus large n’est pas distinctive.
  • Etude par EMA des mouvements de la mâchoire inférieure durant les consonnes de l’arabe marocain
    Chakir Zeroual, Philip Hoole and Adamantios Gafos
    Abstract: Cette étude est basée sur des données obtenues à l’aide d’EMA (AG500) enregistrant les mouvements de la mâchoire inférieure (Minf) durant les consonnes labiales, coronales, vélaires, uvulaires, pharyngales et laryngales de l’arabe marocain dans les contextes aCa et iCi. Nous avons montré que l’implication de la Minf est cruciale durant /s S t T/ (S T : consonnes emphatiques). Le recul de la racine de la langue n’est pas nécessairement corrélé à la baisse de la Minf. Les consonnes apicales ne sont pas toujours associées à l’abaissement de la Minf. La Minf ne semble pas impliquée durant les laryngales et les pharyngales, ce qui est en accord avec les déductions de Goldstein (1995). Les mouvements verticaux et horizontaux de la Minf sont relativement indépendants.
  • Phonétisation statistique adaptable d'énoncés pour le français
    Gwénolé Lecorvé and Damien Lolive
    Abstract: Les méthodes classiques de phonétisation d'énoncés concatènent les prononciations hors-contexte des mots. Ce type d'approches est trop faible pour certaines langues, comme le français, où les transitions entre les mots impliquent des modifications de prononciation. De plus, cela rend difficile la modélisation de stratégies de prononciation globales, par exemple pour modéliser un locuteur ou un accent particulier.
    Pour palier ces problèmes, ce papier présente une approche originale pour la phonétisation du français afin de générer des variantes de prononciation dans le cas d'énoncés. Par l'emploi de champs aléatoires conditionnels et de transducteurs finis pondérés, cette approche propose un cadre statistique particulièrement souple et adaptable. Cette approche est évaluée sur un corpus de mots isolés et sur un corpus d'énoncés prononcés.
  • La perception des séquences consonantiques non-natives par les locuteurs monolingues de mandarin
    Qianwen Guan and Harim Kwon
    Abstract: Cette étude examine la perception des séquences consonantiques non-natives par des locuteurs monolingues de mandarin, une langue avec une structure phonotactique simple. Dans une première expérience d’identification, nous avons utilisé des séquences consonantiques intervocaliques dans des mots non-natifs (akta, aklu) qui varient selon la dimension phonétique et le profil de sonorité. Les participants mandarins monolingues ont tendance à percevoir une voyelle épenthétique dans ces séquences impossibles/non attestées. Mais la perception varie selon leur composition consonantique. Dans une deuxième expérience, les mêmes participants ont transcrit en pinyin des séquences intervocaliques et initiales (akta, ktapa). Nous avons repéré dans les transcriptions plusieurs erreurs de perception : l’épenthèse, la métathèse, l’omission de C1 et celle de C2. La perception varie selon la position des séquences, initiale (CCVCV) ou intervocalique (VCCV). Les résultats des deux expériences suggèrent que des facteurs phonétiques affectent principalement la perception des séquences non-natives.
  • Un Sous-espace Thématique Latent pour la Compréhension du Langage Parlé
    Mohamed Bouaziz, Mohamed Morchid, Pierre-Michel Bousquet, Richard Dufour, Killian Janod, Waad Ben Kheder and Georges Linarès
    Abstract: Les applications de compréhension du langage parlé sont moins performantes si les documents transcrits automatiquement contiennent un taux d'erreur-mot élevé. Des solutions récentes proposent de projeter ces transcriptions dans un espace de thèmes, comme par exemple l'allocation latente de Dirichlet (LDA), la LDA supervisée ainsi que le modèle author-topic (AT). Une représentation compacte originale, appelée c-vector, a été récemment introduite afin de surmonter la difficulté liée au choix de la taille de ces espaces thématiques. Cette représentation améliore la robustesse aux erreurs de transcription, en compactant les différentes représentations LDA d'un document parlé dans un espace réduit. Le défaut majeur de cette méthode est le nombre élevé de sous-tâches nécessaires à la construction de l'espace c-vector. Cet article propose de corriger ce défaut en utilisant un cadre original fondé sur un espace de caractéristiques robustes de faible dimension provenant d'un ensemble de modèles AT considérant à la fois le contenu du dialogue parlé (les mots) et la classe du document. Les expérimentations, conduites sur le corpus DECODA, montrent que la représentation proposée permet un gain de plus de 2.5 points en termes de conversations correctement classifiées.
  • Impact of Sinus Surgery on Voice Quality : Case Study
    Lise Crevier Buchman, Angelique Amelot, Benedicte Mas, Mathilde Giron and Pierre Bonfils
    Abstract: Les fosses nasales participent à la résonance vocale et toute modification de ces structures peut altérer la qualité vocale. Le rôle des sinus comme résonateurs dans la production vocale reste plus controversé. Le but de notre étude prospective était d’explorer d’éventuelles modifications acoustiques chez un chanteur professionnel en pré et post-opératoire après chirurgie naso-sinusienne unilatérale. A partir de la lecture d’un texte, nous avons extrait les voyelles /a,i,u/ pour mesurer les paramètres acoustiques de fréquence (F0), des formants F1 et F2, de leur largeur de bande, et de qualité vocale (LTAS et H1*-H2*). L’étude a été complétée par une auto-évaluation de la qualité de voix. Nos résultats n’ont pas permis de mettre en évidence de différence statistiquement significative des paramètres acoustiques bien que le patient ait signalé une impression d’amélioration vocale chantée. Ces résultats pour le français confirment ceux de la littérature et peuvent servir à informer les patients.
  • Constituance et phrasé prosodique en français : une étude perceptive.
    Laury Garnier, Corine Astésano, Lorraine Baqué and Anne Dagnac
    Abstract: L’objectif de cette étude est d’explorer l’organisation du phrasé prosodique en français. Il n’existe pas de consensus clair sur le nombre de niveaux nécessaires pour refléter la hiérarchie prosodique de la langue. Dans ce cadre, nous proposons une étude perceptive, via un corpus de parole contrôlée manipulant des structures syntaxiques ambiguës, où 27 participants ont effectué 3 tâches de perception : proéminence, frontière et groupement. Nos résultats montrent une utilisation privilégiée des indices de frontières dans le marquage des groupes prosodiques. Plus précisément, on observe que les auditeurs sont capables de percevoir des niveaux de granularité de frontières plus fins que ce que les descriptions traditionnelles du français prédisent. Par ailleurs, les résultats de la tâche de proéminence montrent que l’accent initial est toujours perçu plus fort que l’accent final, et ce dès les niveaux les plus bas de la hiérarchie.
  • Disfluences dans le vieillissement "normal" et la maladie d'Alzheimer : indices segmentaux, suprasegmentaux et gestuels
    Diane Caussade, Nathalie Vallée, Nathalie Henrich Bernardoni, Jean-Marc Colletta, Silvain Gerber, Frédérique Letué and Marie-José Martinez
    Abstract: L’objectif de cette étude est d’analyser et comparer les productions langagières dans leur multimodalité de 10 personnes atteintes de la maladie d’Alzheimer (MA) appariées à 10 contrôles. Différentes mesures aux niveaux segmental et suprasegmental – erreurs, pauses et allongements vocaliques – ont été réalisées dans une tâche de répétition avec ou sans gestes imposés pour caractériser une disfluence, typique de la MA, puis observées en lien avec les gestes manuels produits. Les résultats montrent la diminution significative de la fluence chez les personnes atteintes de la MA, avec davantage d’erreurs produites au niveau lexical par le groupe Patient et au niveau phonétique par les patients au stade modéré de la maladie, ainsi que de nombreuses pauses silencieuses précédant ou suivant souvent les erreurs produites au niveau segmental. De plus, dans la tâche avec gestes imposés, la répétition de ceux-ci a impacté la fluence des groupes Contrôle et Patient avec une augmentation significative des disfluences au niveau suprasegmental et des erreurs phonétiques au niveau segmental.
  • Etude acoustique du discours politique d’hispanophones : le cas de Hugo Chávez et de José Zapatero
    Carmen Patricia Pérez
    Abstract: Politicians’ speech styles can be distinguished thanks to their prosodic realizations. Generally, we can recognize a ‘revolutionary’ or a ‘traditional’ politician just listening to a few minutes’ discourse; I try to show which prosodic features enable us to do so, comparing Hugo Chávez and José-Luis Zapatero’s respective phono-styles in public speeches. Moreover, I will show the differences between Chávez’s productions in an interview and in a public speech. Philippe Martin’s ‘F0 slope contrast’ model is used to describe the prosodic structure. The acoustic analysis shows that the phono-styles of these political leaders differ in the same ‘phono-genre’, mainly in the realization of continuation contours, the range and the speech rate, while the construction of the intonation phrases is the same. In a series of perception tests, which is not related here, Chávez’s phono-style appears to be revolutionary/informal, whereas Z, appears to be rather conservative/formal.
  • Perception native des voyelles catalanes produites par des locutrices multilingues
    Magnen Cynthia, Carrera-Sabaté Josefina and Gaillard Pascal
    Abstract: Cette étude porte sur les voyelles catalanes produites par des adolescentes multilingues en Catalan-Castillan ayant pour langue maternelle soit le Catalan, soit le Roumain, soit l’Arabe du Maghreb. Nous proposons à vingt-et-un auditeurs catalanophones natifs un Test de Catégorisation Libre des voyelles produites dans ce contexte multilingue. Se faisant, nous testons le modèle Automatic Selective Perception (ASP - Strange, 2011) qui stipule qu’en fonction de la variabilité des stimuli et de la tâche proposée, les auditeurs réalisent un traitement des stimuli selon un mode phonétique ou phonologique. Les résultats indiquent que le traitement des stimuli est double : les voyelles moyennes sont traitées selon un mode phonétique, tandis que les voyelles extrêmes sont traitées selon un mode phonologique. L’assimilation de voyelles d’une catégorie vocalique à une autre informe sur la qualité des réalisations non natives et témoigne de l’influence de la L1.

12h30-14h00 - Déjeuner (CROUS Tolbiac)


14h00-16h00 - Présentations

TALN/RECITAL

Poster 2 - Jeudi 14h00-16h00 (P2) - salles 3.14 à 3.19

Présidents de session : Gabriel Bernier-Colborne et Chloe Braud

  • Amélioration de la traduction automatique d’un corpus annoté
    Hadj-Salah Marwa, Hervé Blanchon, Mounir Zrigui and Didier Schwab
    Abstract: Dans cet article, nous présentons une méthode pour améliorer la traduction automatique d’un corpus annoté et porter ses annotations de l’anglais vers une langue cible. Il s’agit d’améliorer la méthode de (Nasiruddin et al., 2015) qui donnait de nombreux segments non traduits, des duplications et des désordres. Nous proposons un processus de pré-traitement du SemCor anglais, pour qu’il soit adapté au système de traduction automatique statistique utilisé, ainsi qu’un processus de post-traitement pour la sortie. Nous montrons une augmentation de + 2,9% en terme de score F1, en comparant nos résultats de désambiguïsation automatique ce qui prouve l’efficacité de notre méthode.
  • Approximate unsupervised summary optimisation for selections of ROUGE
    Natalie Schluter and Héctor Martínez Alonso
    Abstract: It is standard to measure automatic summariser performance using the ROUGE metric. Unfortunately, ROUGE is not appropriate for unsupervised summarisation approaches. On the other hand, we show that it is possible to optimise approximately for ROUGE-n by using a document-weighted ROUGE objective. Doing so results in state-of-the-art summariser performance for single and multiple document summaries for both English and French. This is despite a non-correlation of the document-weighted ROUGE metric with human judgments, unlike the original ROUGE metric. These findings suggest a theoretical approximation link between the two metrics.
  • Description de la juxtaposition en Langue des Signes Française à partir d’une grammaire formelle.
    Mohamed Nassime Hadjadj and Michael Filhol
    Abstract: La présente communication s'inscrit dans le cadre du développement d'une grammaire formelle pour la langue des signes française (LSF). Générer automatiquement des énoncés en LSF implique la définition de certaines règles de production pour synchroniser les différents articulateurs du corps, signes, mouvements, etc. Cet article présente dans sa première partie notre méthodologie pour définir des règles de production à partir d'une étude de corpus. Dans la deuxième partie nous présenterons notre étude qui portera sur deux règles de production pour juxtaposer quelques types de structures en LSF. Nous finissons par une discussion sur la nature et l'apport de notre démarche par rapport aux approches existantes.
  • Vers un lexique ouvert des formes fléchies de l'alsacien : génération de flexions pour les verbes
    Steible Lucie and Delphine Bernhard
    Abstract: Cet article présente les méthodes mises en œuvre et les résultats obtenus pour la création d'un lexique de formes fléchies de l'alsacien. Les dialectes d’Alsace font partie des langues peu dotées : rares sont les outils et ressources informatisées les concernant. Plusieurs difficultés doivent être prises en compte afin de générer des ressources pour ces langues, généralement liées à la variabilité en l’absence de norme graphique, et au manque de formes fléchies dans les quelques ressources existantes. Nous avons pour ce faire utilisé plusieurs outils permettant la génération automatique de variantes graphiques et la création de formes fléchies (graphes morphologiques et de flexion d’Unitex). Les résultats en termes de couverture des formes rencontrées dans des textes ont permis l’évaluation de la méthode.
  • Extraction d'expressions-cibles de l'opinion : de l'anglais au français
    Grégoire Jadi, Laura Monceaux, Vincent Claveau and Béatrice Daille
    Abstract: Dans cet article, nous présentons le développement d'un système d'extraction d'expressions-cibles pour l'anglais et sa transposition au français. En complément, nous avons réalisé une étude de l'efficacité des traits en anglais et en français qui tend à montrer qu'il est possible de réaliser un système d'extraction d'expressions-cibles indépendant du domaine. Pour finir, nous proposons une analyse comparative des erreurs commises par nos systèmes en anglais et français et envisageons différentes solutions à ces problèmes.
  • Étiquetage multilingue en parties du discours avec MElt
    Benoît Sagot
    Abstract: Nous présentons des travaux récents réalisés autour de MElt, système discriminant d’étiquetage en parties du discours. MElt met l’accent sur l’exploitation optimale d’informations lexicales externes pour améliorer les performances des étiqueteurs par rapport aux modèles entraînés seulement sur des corpus annotés. Nous avons entraîné MElt sur plus d’une quarantaine de jeux de données couvrant plus d’une trentaine de langues. Comparé au système état-de-l’art MarMoT, MElt obtient en moyenne des résultats légèrement moins bons en l’absence de lexique externe, mais meilleurs lorsque de telles ressources sont disponibles, produisant ainsi des étiqueteurs état-de-l’art pour plusieurs langues.
  • Comparing Named-Entity Recognizers in a Targeted Domain: Handcrafted Rules vs. Machine Learning
    Ioannis Partalas, Cédric Lopez and Frédérique Segond
    Abstract: Named-Entity Recognition concerns the classification of textual objects in a predefined set of categories such as persons, organizations, and localizations.
    While Named-Entity Recognition is well studied since 20 years, the application to specialized domains still poses challenges for current systems. We developed a rule-based system and two machine learning approaches to tackle the same task: recognition of product names, brand names, etc., in the domain of Cosmetics, for French. Our systems can thus be compared under ideal conditions. In this paper, we introduce both systems and we compare them.
  • L’architecture d’un modèle hybride pour la normalisation de SMS
    Eleni Kogkitsidou and Georges Antoniadis
    Abstract: La communication par SMS, aussi bien que tout autre type de communication virtuelle sous forme de textes courts (mails, microblogs, tweets etc.), présente certaines particularités spécifiques (syntaxe irrégulière, fusionnement et phonétisation de mots, formes abrégées etc.). A cause de ces particularités l'application d'outils en TAL rend difficile l'exploitation d'informations utiles contenus dans des messages bruités. Nous proposons un modèle de normalisation en deux étapes fondé sur une approche symbolique et statistique. La première partie vise à produire une représentation intermédiaire du message SMS, tandis que la deuxième utilise un système de traduction automatique à base de règles pour convertir la représentation intermédiaire vers une forme standard.
  • Intégration de la similarité entre phrases comme critère pour le résumé multi-document
    Maâli Mnasri, Gaël de Chalendar and Olivier Ferret
    Abstract: À la suite des travaux de Gillick & Favre (2009), beaucoup de travaux portant sur le résumé par extraction se sont appuyés sur une modèlisation de cette tâche sous la forme de deux contraintes antagonistes : l’une vise à maximiser la couverture du résumé produit par rapport au contenu des textes d’origine tandis que l’autre représente la limite du résumé en termes de taille. Dans cette approche, la notion de redondance n’est prise en compte que de façon implicite. Dans cet article, nous reprenons dans le cadre défini par Gillick & Favre (2009) mais nous examinons comment et dans quelle mesure la prise en compte explicite de la similarité sémantique des phrases peut améliorer les performances d’un système de résumé multi-document. Nous démontrons cet impact par des évaluations menées sur les corpus DUC 2003 et 2004.
  • Vers une analyse des différences interlinguistiques entre les genres textuels : étude de cas basée sur les n-grammes et l’analyse factorielle des correspondances
    Marie-Aude Lefer, Yves Bestgen and Natalia Grabar
    Abstract: L'objectif de notre travail est d’évaluer l’intérêt d’employer les n-grammes et l’analyse factorielle des correspondances pour comparer les genres textuels dans les études contrastives interlinguistiques. Nous exploitons un corpus bilingue anglais-français constitué de textes originaux comparables. Le corpus réunit trois genres : les débats parlementaires européens, les éditoriaux de presse et les articles scientifiques dans trois disciplines (médecine, économie et linguistique). Dans un premier temps, les n-grammes d'une longueur de 2 à 4 mots sont extraits dans chaque langue. Ensuite, pour chaque longueur, les 1~000 n-grammes les plus fréquents dans chaque langue sont traités par l'analyse factorielle des correspondances pour déterminer quels n-grammes sont particulièrement saillants dans les genres étudiés. Enfin, les n-grammes sont catégorisés manuellement en distinguant par exemple les expressions d’opinion et de certitude (eg, je crois que/the truth is that), les marqueurs discursifs (eg, au bout du compte/when it comes to) et les expressions référentielles (composés, termes complexes, expressions temporelles/locatives/quantitatives, etc.). Les résultats obtenus montrent que les n-grammes permettent de mettre au jour des caractéristiques typiques des genres étudiés, de même que des contrastes intéressants entre l’anglais et le français.
  • Appariement d'articles en ligne et de vidéos : stratégies de sélection et méthodes d'évaluation
    Adèle Désoyer, Delphine Battistelli and Jean-Luc Minel
    Abstract: Dans cet article, nous proposons une méthode d'appariement de contenus d'actualité multimédias, considérant les exigences à la fois sémantiques et temporelles du besoin d'information. La pertinence d'une vidéo pour un article de presse est mesurée par deux indices, l'un saisissant la similarité de leurs contenus, l'autre la cohérence de leurs dates d'édition. Nous présentons également une méthodologie d'évaluation s'affranchissant des standards comparant les résultats du système à des résultats de référence, en soumettant les paires de documents proposées automatiquement à un panel d'utilisateurs chargé de juger de leur pertinence.
  • Extraction de relations temporelles dans des dossiers électroniques patient
    Julien Tourille, Olivier Ferret, Aurélie Névéol and Xavier Tannier
    Abstract: L'extraction de lexiques bilingues à partir de corpus comparables se réalise traditionnellement en s'appuyant sur deux langues. Des travaux précédents en extraction de lexiques bilingues à partir de corpus parallèles ont démontré que l'utilisation de plus de deux langues peut être utile pour améliorer la qualité des alignements extraits. Nos travaux montrent qu'il est possible d'utiliser la même stratégie pour des corpus comparables. Nous avons défini deux méthodes originales impliquant des langues pivots et nous les avons évaluées sur quatre langues et deux langues pivots en particulier. Nos expérimentations ont montré que lorsque l'alignement entre la langue source et la langue pivot est de bonne qualité, l'extraction du lexique en langue cible s'en trouve améliorée.
  • Détecter le besoin d’information dans des requêtes d’usagers d’agents virtuels : sélection de données pertinentes
    Octavia Efraim and Fabienne Moreau
    Abstract: Pour orienter efficacement les messages reçus par différents canaux de communication, dont l’agent virtuel (AV), un système de gestion de la relation client doit prendre en compte le besoin d’information de l’usager. En vue d’une tâche de classification par type de besoin d’information, il est utile de pouvoir en amont sélectionner dans les messages des utilisateurs, souvent de mauvaise qualité, les unités textuelles qui seront pertinentes pour représenter ce besoin d’information. Après avoir décrit les spécificités d’un corpus de requêtes d’AV nous expérimentons deux méthodes de sélection de segments informatifs : par extraction et par filtrage. Les résultats sont encourageants, mais des améliorations et une évaluation extrinsèque restent à faire.
  • Patrons sémantiques pour l'extraction de relations entre termes - Application aux comptes rendus radiologiques
    Lionel Ramadier and Mathieu Lafourcade
    Abstract: Dans cet article nous nous intéressons à la tâche d'extraction de relations sémantiques dans les textes médicaux et plus particulièrement dans les comptes rendus radiologiques. L'identification de relations sémantiques est une tâche importante pour plusieurs applications (recherche d'information, génération de résumé, etc). Nous proposons une approche fondée sur l'utilisation de patrons sémantiques vérifiant des contraintes dans une base de connaissances.
  • Investigating gender adaptation for speech translation
    Rachel Bawden, Guillaume Wisniewski and Hélène Maynard
    Abstract: In this paper we investigate the impact of the integration of context into dialogue translation. We present a new contextual parallel corpus of television subtitles and show how taking into account speaker gender can significantly improve machine translation quality in terms of BLEU and METEOR scores. We perform a manual analysis, which suggests that these improvements are not necessary related to the morphological consequences of speaker gender, but to more general linguistic divergences.
  • Une catégorisation de fins de lignes non-supervisée
    Pierre Zweigenbaum, Cyril Grouin and Thomas Lavergne
    Abstract: Dans certains textes bruts, les marques de fin de ligne peuvent marquer ou pas la frontière d'une unité textuelle (typiquement un paragraphe). Ce problème risque d'influencer les traitements subséquents, mais est rarement traité dans la littérature.
    Nous proposons une méthode entièrement non-supervisée pour déterminer si une fin de ligne doit être vue comme un simple espace ou comme une véritable frontière d'unité textuelle, et la testons sur un corpus de comptes rendus médicaux.
    Cette méthode obtient une F-mesure de 0,926 sur un échantillon de 24 textes contenant des lignes repliées. Appliquée sur un échantillon plus grand de textes contenant ou pas des lignes repliées, notre méthode la plus prudente obtient une F-mesure de 0,898, valeur élevée pour une méthode entièrement non-supervisée.
  • Acquisition terminologique en arabe: État de l’art (RECITAL)
    Ahmed Ben Ltaief and Wafa Neifar
    Abstract: L'acquisition terminologique est une tâche indispensable pour l'accès aux informations présentes dans les corpus de spécialité. Il s'agit d'une part, d'identifier et d'extraire des termes, et d'autre part, de structurer ces termes à l'aide de méthodes d'acquisition de relations sémantiques. Dans cet article, nous nous intéressons l'acquisition terminologique sur des textes arabe standard moderne (MSA). Nous réalisons tout d'abord, un état de l'art décrivant les méthodes d'extraction de termes sur cette langue ainsi que les approches proposées pour la reconnaissance de relations sémantiques entre termes issus. Après avoir présenter quelques corpus de spécialité et ressources terminologiques disponibles en MSA que nous avons identifiés, nous décrivons nos premières pistes de travail.
  • La polysémie lexicale et syntaxique de l’alternance modale indicatif/subjonctif – perspectives TAL (RECITAL)
    Divna Petkovic and Victor Rabiet
    Abstract: Certains verbes ont une double commande modale : ils admettent une construction permettant l’usage du subjonctif et de l’indicatif dans la complétive qui leur est adjointe ; cette situation créé une polysémie à tous les niveaux d’analyse (lexicale, syntaxique, grammaticale, même pragmatique) que l’on se propose de décrire dans l’optique d’aider à la caractérisation, et parfois à la résolution, de cette ambiguïté. Plus précisément, parfois le verbe régissant (dans la principale) est polysémique en lui-même, et selon son sens il commande soit l’indicatif, soit le subjonctif dans la subordonnée complétive : il s’agit de la polysémie lexicale, qui peut être forte ou faible. D’un autre point de vue, certains verbes à l’indicatif/subjonctif dans la subordonnée modifient plus ou moins légèrement le sens de la phrase entière : on considère ici cela comme un cas de polysémie syntaxique ou grammaticale, étant donné que ces verbes apparaissent dans diverses structures et modalités.

JEP

Machine Learning - Jeudi 14h00-16h00 (Oral7) - amphi 6

Président de session : Alexandre Allauzen

  • Autoapprentissage pour le regroupement en locuteurs : premières investigations
    Gaël Le Lan, Sylvain Meignier, Delphine Charlet and Anthony Larcher
    Abstract: This paper investigates self trained cross-show speaker diarization applied to collections of French TV archives, based on an \textit{i-vector/PLDA} framework. The parameters used for i-vectors extraction and PLDA scoring are trained in a unsupervised way, using the data of the collection itself. Performances are compared, using combinations of target data and external data for training. The experimental results on two distinct target corpora show that using data from the corpora themselves to perform unsupervised iterative training and domain adaptation of PLDA parameters can improve an existing system, trained on external annotated data. Such results indicate that performing speaker indexation on small collections of unlabeled audio archives should only rely on the availability of a sufficient external corpus, which can be specifically adapted to every target collection. We show that a minimum collection size is required to exclude the use of such an external bootstrap.
  • Influence de la quantité de données sur une tâche de segmentation de phones fondée sur les réseaux de neurones
    Céline Manenti, Thomas Pellegrini and Julien Pinquier
    Abstract: Dans cet article, nous décrivons une étude expérimentale de segmentation de parole en unités acoustiques sous-lexicales (phones) à l'aide de réseaux de neurones. Sur le corpus de parole spontanée d'anglais américain BUCKEYE, une F-mesure de 68% a été obtenue à l'aide d'un réseau convolutif, en considérant une marge d'erreur de 10 ms. Cette performance est supérieure à l'accord inter-annotateurs de 62%. Restreindre les données d'apprentissage à celles d'un unique locuteur, 30 minutes environ, a eu pour conséquence moins de 10% de perte et utiliser celles de 5 locuteurs a permis d'atteindre des résultats similaires à utiliser plus de données. Utiliser le modèle entraîné avec le corpus anglais sur un petit corpus d'une langue peu dotée a donné des résultats comparables à estimer un modèle avec des données de cette langue.
  • Des Réseaux de Neurones avec Mécanisme d’Attention pour la Compréhension de la Parole
    Edwin Simonnet, Paul Deléglise, Nathalie Camelin and Yannick Estève
    Abstract: L’étude porte sur l’apport d’un réseau de neurones récurrent (Recurrent Neural Network - RNN) bidirectionnel encodeur/décodeur avec mécanisme d’attention pour une tâche de compré- hension de la parole. Les premières expériences faites sur le corpus ATIS confirment la qualité du système RNN état de l’art utilisé pour cet article, en comparant les résultats obtenus à ceux récemment publiés dans la littérature. Des expériences supplémentaires montrent que les RNNs avec mécanisme d’attention obtiennent de meilleures performances que les RNNs récemment proposés pour la tâche de remplissage de champs. Sur le corpus MEDIA, un corpus français état de l’art pour la compréhension dédié à la réservation d’hôtel et aux informations touristiques, les expériences montrent qu’un RNN bidirectionnel atteint une f-mesure de 79,51 tandis que le même système intégrant le mécanisme d’attention permet d’atteindre une f-mesure de 80,27.
  • Optimiser l'adaptation en ligne d'un module de compréhension de la parole avec un algorithme de bandit contre un adversaire
    Emmanuel Ferreira, Alexandre Reiffers-Masson, Bassam Jabaian and Fabrice Lefèvre
    Abstract: De nombreux modules de compréhension de la parole ont en commun d'être probabilistes et basés sur des algorithmes d'apprentissage automatique. Deux difficultés majeures, rencontrées par toutes les méthodes existantes sont : le coût de la collecte des données et l'adaptation d'un module existant à un nouveau domaine. Dans cet article, nous proposons un processus d'adaptation en ligne avec une politique apprise en utilisant un algorithme de type bandit contre un adversaire. Nous montrons que cette proposition peut permettre d'optimiser un équilibre entre le coût de la collecte des retours demandés aux utilisateurs et la performance globale de la compréhension du langage parlé après sa mise à jour.
  • Fusion d’espaces de représentations multimodaux pour la reconnaissance du rôle du locuteur dans des documents télévisuels
    Sebastien Delecraz, Frederic Bechet, Benoit Favre and Mickael Rouvier
    Abstract: L'identification du rôle d'un locuteur dans des émissions de télévision est un problème de classification de personne selon une liste de rôles comme présentateur, journaliste, invité, etc. A cause de la non-synchronie entre les modalités, ainsi que par le manque de corpus de vidéos annotées dans toutes les modalités, seulement une des modalités est souvent utilisée. Nous présentons dans cet article une fusion multimodale des espaces de représentations de l'audio, du texte et de l'image pour la reconnaissance du rôle du locuteur pour des données asynchrones. Les espaces de représentations monomodaux sont entraînés sur des corpus de données exogènes puis ajustés en utilisant des réseaux de neurones profonds sur un corpus d'émissions françaises pour notre tâche de classification. Les expériences réalisées sur le corpus de donnée REPERE ont mis en évidence les gains d'une fusion au niveau des espaces de représentations par rapport aux méthodes de fusion tardive standard.

16h00-16h30 - Pause Café (hall 2ème étage)


16h30-17h30 - Conférence invitée (amphi 4)

Mark Liberman (LDC & University of Pennsylvania) - Jeudi 16h30-17h30 (CI2) - Président de session : Guillaume Gravier

From Human Language Technology to Human Language Science

Thirty years ago, in order to get past roadblocks in Machine Translation and Automatic Speech Recognition, DARPA invented a new way to organize and manage technological R&D: a ``common task'' is defined by a formal quantitative evaluation metric and a body of shared training data, and researchers join an open competition to compare approaches. Over the past three decades, this method has produced steadily improving technologies, with many practical applications now possible. And Moore's law has created a sort of digital shadow universe, which increasingly mirrors the real world in flows and stores of bits, while the same improvements in digital hardware and software make it increasingly easy to pull content out of the these rivers and oceans of information.
It's natural to be excited about these technologies, where we can see an open road to rapid improvements beyond the current state of the art, and an explosion of near-term commercial applications. But there are some important opportunities in a less obvious direction. Several areas of scientific and humanistic research are being revolutionized by the application of Human Language Technology. At a minimum, orders of magnitude more data can be addressed with orders of magnitude less effort -- but this change also transforms old theoretical questions, and poses new ones. And eventually, new modes of research organization and funding are likely to emerge.

17h30-18h30 - Session spéciale Joseph Mariani (amphi 4)


À partir de 19h00 - Soirée Centre Pompidou