logoJEPTALNRECITAL2016

JEP-TALN-RECITAL 2016, Paris, France

23ème Conférence sur le Traitement Automatique des Langues Naturelles
31ème Journées d’Études sur la Parole
18ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues

Inalco, Paris, 4-8 Juillet 2016

Mardi 5 juillet 2016


8h30-9h30 - Accueil / inscription (salle 4.15)

9h30-10h00 - Ouverture (amphi 4)


10h00-11h00 - Conférence invitée (amphi 4)

Christian Chiarcos (Johann Wolfgang Goethe Universität Frankfurt a. M.) - Mardi 10h00-11h00 (CI1) - Président de session : Emmanuel Morin

Corpora and Linguistic Linked Open Data: Motivations, Applications, Limitations

Linguistic Linked Open Data (LLOD) is a technology and a movement in several disciplines working with language resources, including Natural Language Processing, general linguistics, computational lexicography and the localization industry. This talk describes basic principles of Linguistic Linked Open Data and their application to linguistically annotated corpora, it summarizes the current status of the Linguistic Linked Open Data cloud and gives an overview over selected LLOD vocabularies and their uses. A resource constitutes Linguistic Linked Open Data if it is published in accordance with the following principles:
  1. The dataset is relevant for linguistic research or NLP algorithms.
  2. The elements in the dataset should be uniquely identified by means of a URI.
  3. The URI should resolve, so users can access more information using web browsers.
  4. Resolving an LLOD resource should return results using web standards such as Resource Description Framework (RDF).
  5. Links to other resources should be included to help users discover new resources and provide semantics.
  6. Data should be openly licensed using licenses such as the Creative Commons licenses.
Criterion (1) defines linguistic(ally relevant) data, criteria (2-5) define linked data, criterion (6) defines open data, their combination thus yields Linguistic Linked Open Data. The primary benefits of LLOD have been identified as:
  • Representation: Linked graphs are a more flexible representation format for linguistic data
  • Interoperability: Common RDF models can easily be integrated
  • Federation: Data from multiple sources can trivially be combined
  • Ecosystem: Tools for RDF and linked data are widely available under open source licenses
  • Expressivity: Existing vocabularies help express linguistic resources.
  • Semantics: Common links express what you mean.
  • Dynamicity: Web data can be continuously improved.
I specifically focus on linguistically annotated corpora and discuss the potential of Linked Data in relation to four standing problems in the field:
  1. representing highly interlinked corpora (e.g., multi-layer corpora, annotated parallel corpora),
  2. integrating corpora with lexical resources available from the web of data,
  3. facilitating annotation interoperability using terminology resources available from the web of data, and
  4. streamlining data manipulation processes in a modular and domain-independent fashion.
These aspects will be discussed in relation to two selected resources from both general linguistics and Natural Language Processing. Finally, the talk will discuss some of the challenges that LLOD is still facing in both areas.

11h00-11h30 - Pause Café (hall 2ème étage)


11h30-12h30 - Présentations orales

TALN/RECITAL

Lexiques bilingues - Mardi 11h30-12h30 (Oral1A) - amphi 4

Présidente de session : Delphine Bernhard

  • Etude de l’impact d’un lexique bilingue spécialisé sur la performance d’un moteur de traduction à base d’exemples
    Nasredine Semmar and Meriama Laib
    Abstract: La traduction automatique statistique bien que performante est aujourd'hui limitée parce qu’elle nécessite de gros volumes de corpus parallèles qui n'existent pas pour tous les couples de langues et toutes les spécialités et que leur production est lente et coûteuse. Nous présentons, dans cet article, un prototype d’un moteur de traduction à base d’exemples utilisant la recherche d’information interlingue et ne nécessitant qu’un corpus de textes en langue cible. Plus particulièrement, nous proposons d’étudier l’impact d’un lexique bilingue de spécialité sur la performance de ce prototype. Nous évaluons ce prototype de traduction et comparons ses résultats à ceux du système de traduction statistique Moses en utilisant les corpus parallèles anglais-français Europarl (European Parliament Proceedings) et Emea (European Medicines Agency Documents). Les résultats obtenus montrent que le score BLEU du prototype du moteur de traduction à base d’exemples est proche de celui du système Moses sur des documents issus du corpus Europarl et meilleur sur des documents extraits du corpus Emea.
  • Extraction de lexiques bilingues à partir de corpus comparables spécialisés à travers une langue pivot
    Alexis Linard, Emmanuel Morin and Béatrice Daille
    Abstract: L'extraction de lexiques bilingues à partir de corpus comparables se réalise traditionnellement en s'appuyant sur deux langues. Des travaux précédents en extraction de lexiques bilingues à partir de corpus parallèles ont démontré que l'utilisation de plus de deux langues peut être utile pour améliorer la qualité des alignements extraits. Nos travaux montrent qu'il est possible d'utiliser la même stratégie pour des corpus comparables. Nous avons défini deux méthodes originales impliquant des langues pivots et nous les avons évaluées sur quatre langues et deux langues pivots en particulier. Nos expérimentations ont montré que lorsque l'alignement entre la langue source et la langue pivot est de bonne qualité, l'extraction du lexique en langue cible s'en trouve améliorée.

Désambiguïsation lexicale - Mardi 11h30-12h30 (Oral1B) - amphi 7

Président de session : Thierry Poibeau

  • Extension lexicale de définitions grâce à des corpus annotés en sens
    Loïc Vial, Andon Tchechmedjiev and Didier Schwab
    Abstract: Pour un certain nombre de tâches ou d’applications du TALN, il est nécessaire de déterminer la proximité sémantique entre des sens, des mots ou des segments textuels. Dans cet article, nous nous intéressons à une mesure basée sur des savoirs, la mesure de Lesk. La proximité sémantique de deux définitions est évaluée en comptant le nombre de mots communs (pris simplement comme les chaînes de caractères entre les espaces) dans les définitions correspondante dans un dictionnaire. Dans cet article, nous étudions plus particulièrement l’extension de définitions grâce à des corpus annotés en sens. Il s’agit de prendre en compte les mots qui sont utilisés dans le voisinage d’un certain sens et d’étendre lexicalement la définition correspondante. Nous montrons une amélioration certaine des performances obtenues en désambiguïsation lexicale.
  • Identifier et catégoriser l'ambiguïté dans les spécifications techniques de conceptions de systèmes (RECITAL)
    Émilie Merdy
    Abstract: Ce travail de recherche s'inscrit dans le cadre d'une thèse Cifre avec une société qui propose à des clients d'analyser automatiquement leurs exigences, i.e. le contenu textuel des spécifications techniques. Il s'agit d'un travail de recherche dans la lignée des travaux en analyse de corpus menés par un laboratoire qui s'intéresse aux corpus spécialisés du point de vue du TAL. Dans le cadre de l'adaptation automatique à de nouveaux domaines de l'analyse linguistique de spécifications, nous étudions les possibilités de détecter automatiquement l'ambiguïté - qu'elle soit syntaxique, sémantique ou lexicale - dans les exigences à partir de ressources lexicales spécifiques mais incomplètes. En parallèle, l'exploration de ces données non-massives et redondantes doit permettre de mieux appréhender l'ambiguïté en contexte technique de spécialité pour enrichir semi-automatiquement les ressources lexicales.

JEP

Langues - Mardi 11h30-12h30 (Oral1) - amphi 6

Président de session : Rachid Ridouane

  • Allophonie et position dans la syllabe: Le cas des consonnes laterales
    Anisia Popescu and Ioana Chitoran
    Abstract: L’article traite de la manifestation acoustique de l’allophonie des consonnes latérales en fonction de la position syllabique et de la complexité phonotactique. Nous avons considéré à la fois des mesures classiques (valeurs formantiques et équations locus) ainsi que des nouveaux paramètres (ratio d’intensité et présence/absence de relâchements) pour, d’une part, classifier les allophones des deux langues considérées et d’autre part déterminer les indices acoustiques des gestes articulatoires des consonnes latérales. Les résultats indiquent des différences importantes inter-langues. On montre que la distribution des allophones n’est pas binaire, mais graduée et que le statut du geste dorsal peut être considéré comme un marqueur de « degré de clarté ». On montre aussi que l’allophonie dépend de la position syllabique mais pas forcément de la complexité syllabique.
  • Variabilité du geste palatal : effet du locuteur, de la structure syllabique et de l'accent sur différents types de consonnes en russe
    Ekaterina Biteeva Lecocq, Nathalie Vallée, Silvain Gerber and Christophe Savariaux
    Abstract: Les linguistes se sont régulièrement penchés sur la description du trait consonantique [+palatal] ; pourtant, le manque de données expérimentales constitue un obstacle au classement des consonnes concernées. Peu de travaux ont abordé la question du contrôle du geste lingual dans l’articulation palatale. Cependant, ils montrent que celui-ci semble bien plus complexe que dans d’autres consonnes. En russe, la plupart des consonnes possèdent une contrepartie palatalisée ce qui permet d’étudier les différences de réalisation du trait palatal au sein du même système. Nous proposons ici, à partir de données acquises avec un articulographe électromagnétique, de caractériser la variabilité du geste palatal impliqué dans la réalisation de différents types de consonnes palatalisées et pré-palatales du russe en fonction des facteurs locuteur, accent et structure syllabique.
  • Structure prosodique des langues romanes
    Philippe Martin
    Abstract: La description phonologique de la structure prosodique des langues romanes apparait similaire lorsque les interactions entre les accents mélodiques est prise en compte (ce qui n’est pas le cas dans la théorie autosegmentale-métrique). L’analyse acoustique de plus de 2600 énoncés lus et spontanés suggère que la réalisation des accents mélodiques, décrits en termes de contours mélodiques plutôt que de cibles tonales, indiquent avec les contours de frontière, des relations de dépendance « vers la droite » entre groupes accentuels. Ces relations permettent par incrémentation successive dans l’axe du temps la reconstitution par l’auditeur de la structure prosodique voulue par le locuteur. Dans ce cadre théorique, les langues romanes (italien, espagnol, catalan, portugais, roumain) utilisent les mêmes contours phonologiques pour indiquer les relations de dépendance menant au codage de la structure prosodique. Le français, dépourvu d’accent lexical, utilise un système de contours différent.

12h30-14h00 - Déjeuner (CROUS Tolbiac)


14h00-16h00 - Présentations orales

TALN/RECITAL

Plénière - Mardi 14h00-16h00 (Pl) - amphi 4

Président de session : Frédéric Béchet

  • Projection Interlingue d’Étiquettes pour l’Annotation Sémantique Non Supervisée
    Othman Zennaki, Nasredine Semmar and Laurent Besacier
    Abstract: Nos travaux portent sur la construction rapide d’outils d’analyse linguistique pour des langues peu dotées en ressources. Dans une précédente contribution, nous avons proposé une méthode pour la construction automatique d'un analyseur morpho-syntaxique via une projection interlingue d’annotations linguistiques à partir de corpus parallèles (méthode fondée sur les réseaux de neurones récurrents).
    Nous présentons, dans cet article, une amélioration de notre modèle neuronal, avec la prise en compte d'informations linguistiques externes pour un annotateur plus complexe. En particulier, nous proposons d'intégrer des annotations morpho-syntaxiques dans notre architecture neuronale pour l'apprentissage non supervisé d'annotateurs sémantiques multilingues à gros grain (annotation en SuperSenses).
    Nous montrons la validité de notre méthode et sa généricité sur l'italien et le français et étudions aussi l'impact de la qualité du corpus parallèle sur notre approche (généré par traduction manuelle ou automatique). Nos expériences portent sur la projection d'annotations de l'anglais vers le français et l'italien.
  • Utilisation des relations d’une base de connaissances pour la désambiguïsation d’entités nommées
    Romaric Besançon, Hani Daher, Olivier Ferret, Hervé Le Borgne
    Abstract: L'identification des entités nommées dans un texte est une tâche essentielle des outils d'extraction d'information dans de nombreuses applications. Cette identification passe par la reconnaissance d'une mention d'entité dans le texte, ce qui a été très largement étudié, et par l'association des entités reconnues à des entités connues, présentes dans une base de connaissances. Cette association repose souvent sur une mesure de similarité entre le contexte textuel de la mention de l'entité et un contexte textuel de description des entités de la base de connaissances. Or, ce contexte de description n'est en général pas présent pour toutes les entités. Nous proposons d'exploiter les relations de la base de connaissances pour ajouter un indice de désambiguïsation pour ces entités. Nous évaluons notre travail sur des corpus d'évaluation standard en anglais issus de la tâche de désambiguïsation d'entités de la campagne TAC-KBP.
  • Modèle non-supervisée pour la segmentation morphologique à l'aide du processus de Pitman-Yor
    Kevin Loser and Alexandre Allauzen
    Abstract: Cet article présente un modèle Bayésien non-paramétrique pour la segmentation morphologique non supervisée. Ce modèle semi-markovien s'appuie sur des classes latentes de morphèmes afin de modéliser les caractéristiques morphotactiques du lexique, et son caractère non-paramétrique lui permet de s'adapter au données sans avoir à spécifier à l'avance l'inventaire des morphèmes ainsi que leurs classes. Un processus de Pitman-Yor est utilisé comme a priori sur les paramètres afin d'éviter une convergence vers des solutions dégénérées et inadaptées au traitemement automatique des langues. Les résultats expérimentaux montrent la pertinence des segmentations obtenues pour les langues Turque et Anglaise. Une étude qualitative montre également que le modèle infère une morphotactique linguistiquement pertinente, sans le recours à des connaissances expertes quant à la structure morphologique des formes de mots.
  • Boosters Posters et Démonstrations (30 secondes par poster ou démonstration= 27 minutes)

JEP

Traitement de la diversité - Mardi 14h00-16h00 (Oral2) - amphi 6

Président de session : Thomas Pellegrini

  • Détection automatique d'anomalies sur deux styles de parole dysarthrique: parole lue vs spontanée
    Imed Laaridh, Corinne Fredouille and Meunier Christine
    Abstract: L'évaluation perceptive de la parole pathologique reste le standard dans la pratique clinique pour le diagnostic et le suivi des patients. De telles méthodes incluent plusieurs tâches telles que la lecture, la parole spontanée, le chant, les mots isolés, la voyelle tenue, etc.
    Dans ce contexte, les outils de traitement automatique de la parole ont montré leur pertinence dans l'évaluation de la qualité de parole ainsi que dans le cadre de la communication améliorée et alternative (CAA) pour les patients atteints de troubles de parole. Cependant, peu de travaux ont étudié l'utilisation de ces outils sur la parole spontanée. Ce papier examine le comportement d'un système de détection automatique d'anomalies au niveau phonème face à la parole dysarthrique lue et spontanée. Le comportement du système révèle une variabilité inter-pathologique à travers les styles de parole.
  • Cartopho : un site web de cartographie de variantes de prononciation en français
    Philippe Boula de Mareüil, Jean-Philippe Goldman, Albert Rilliard, Yves Scherrer and Frédéric Vernier
    Abstract: Le présent travail se propose de renouveler les traditionnels atlas dialectologiques pour cartographier les variantes de prononciation en français, à travers un site internet. La toile est utilisée non seulement pour collecter des données, mais encore pour disséminer les résultats auprès des chercheurs et du grand public. La méthodologie utilisée, à base de crowdsourcing (ou « production participative »), nous a permis de recueillir des informations auprès d’un millier de francophones d’Europe (France, Belgique, Suisse). Une plateforme dynamique à l’interface conviviale a ensuite été développée pour cartographier la prononciation de 70 mots dans les différentes régions des pays concernés (des mots notamment à voyelle moyenne ou dont la consonne finale peut être prononcée ou non). Les options de visualisation par département/canton/province ou par région, combinant plusieurs traits de prononciation et ensembles de mots, sous forme de pastilles colorées, de hachures, etc. sont présentées dans cet article. On peut ainsi observer immédiatement un /E/ plus fermé (ainsi qu’un /O/ plus ouvert) dans le Nord-Pas-de-Calais et le sud de la France, pour des mots comme parfait ou rose, un /Œ/ plus fermé en Suisse pour un mot comme gueule, par exemple.
  • Adaptation de la prononciation pour la synthèse de la parole spontanée en utilisant des informations linguistiques
    Raheel Qader, Gwénolé Lecorvé, Damien Lolive and Pascale Sébillot
    Abstract: Cet article présente une nouvelle méthode d'adaptation de la prononciation dont le but est de reproduire le style spontané. Il s'agit d'une tâche-clé en synthèse de la parole car elle permet d'apporter de l'expressivité aux signaux produits, ouvrant ainsi la voie à de nouvelles applications.
    La force de la méthode proposée est de ne s'appuyer que sur des informations linguistiques et de considérer un cadre probabiliste pour ce faire, précisément les champs aléatoires conditionnels.
    Dans cet article, nous étudions tout d'abord la pertinence d'un ensemble d'informations pour l'adaptation, puis nous combinons les informations les plus pertinentes lors d'expériences finales. Les évaluations de la méthode sur un corpus de parole conversationnelle en anglais montrent que les prononciations adaptées reflètent significativement mieux un style spontané que les prononciations canoniques.
  • Répartition des phonèmes réduits en parole conversationnelle. Approche quantitative par extraction automatique
    Meunier Christine and Brigitte Bigi
    Abstract: Cette étude vise à mieux comprendre la répartition des réductions phonétiques présentes dans la production de parole. Nous avons sélectionné l’ensemble des phonèmes les plus courts (30ms) à partir de l’alignement d’un corpus de parole conversationnelle. Cette version contenant uniquement les phonèmes courts (V1) est comparée à la version contenant l’alignement de tous les phonèmes du corpus (V0). Les deux versions sont mises en relation avec l’annotation des mots et de leur catégorie syntaxique. Les résultats montrent que les liquides, les glissantes et les voyelles fermées sont plus représentées dans V1 que dans V0. Par ailleurs, la nature et la catégorie syntaxique des mots modulent la distribution des phonèmes en V1. Ainsi, la nature instable du /l/, ainsi que sa présence dans de très nombreux pronoms et déterminants, en fait le phonème le plus marqué par la réduction. Enfin, la fréquence des mots semble montrer des effets contradictoires.
  • Que nous apprennent les gros corpus sur l’harmonie vocalique en français ?
    Giuseppina Turco, Cécile Fougeron and Nicolas Audibert
    Abstract: Afin de mieux identifier le poids relatif des différents facteurs décrits dans la littérature comme influençant le phénomène d’harmonie vocalique (HV) en français, 33k mots extraits de deux corpus de parole continue et présentant un contexte d’HV possible V1C(C)V2 (V1∈{e,ɛ,o,ɔ}) sont analysés. Le degré d’HV est mesuré en termes d’abaissement du F1 de V1 induit par la présence d’une V2 /+haut/ (fermée ou mi-fermée) par rapport à une V2 /-haut/ (ouverte ou mi-ouverte). Les résultats montrent une HV plus importante pour les voyelles moyennes postérieures que pour les antérieures, et plus faible lorsque l’orthographe favorise une prononciation mi-fermée de V1. Comme attendu, l’HV est plus forte quand V1 est séparé de V2 par une consonne labiale vs. linguale ou par un cluster consonantique sous-jacent vs. un cluster résultant de la chute d’un schwa. En revanche, le style de parole (conversationnelle vs. journalistique) a un effet plus nuancé que celui attendu.
  • Un Corpus de Flux TV Annotés pour la Prédiction de Genres
    Mohamed Bouaziz, Mohamed Morchid, Richard Dufour, Georges Linarès and Prosper Correa
    Abstract: Cet article présente une méthode de prédiction de genres d'émissions télévisées couvrant 2 jours de diffusion de 4 chaînes TV françaises structurés en émissions annotées en genres.
    Ce travail traite des médias de masse de flux de chaînes télévisées et rejoint l'effort global d'extraction de connaissance à partir de cette grande quantité de données produites continuellement.
    Le corpus employé est fourni par l'entreprise EDD, anciennement appelée "L’Européenne de Données", une entreprise spécialisée dans la gestion des flux multimédias.
    Les expériences détaillées dans ce papier montrent qu'une approche simple fondée sur un modèle de n-grammes permet de prédire le genre d'une émission selon un historique avec une précision avoisinant les 50%.

16h00-16h30 - Pause Café (hall 2ème étage)


16h30-17h30 - Session Langue écrite-parlée-signée (amphi 4)

  • Langues des signes : une question de modalité ? Regards croisés en linguistique
    Marion Blondel
  • Modélisation et Traitement Automatique des Langues des Signes - Tour d'horizon
    Annelies Brafford

17h30-18h30 - Table ronde Langue écrite-parlée-signée (amphi 4)


À partir de 19h30 - Soirée péniche Louisiane Belle