ERTIM - Equipe de Recherche Textes Informatique Multilinguisme de l'INALCO

ERTIM - Equipe de Recherche Textes Informatique Multilinguisme de l'INALCO

Partager

Informations de contact, plan et itinéraire, formulaire de contact, heures d'ouverture, services, évaluations, photos, vidéos et annonces de ERTIM - Equipe de Recherche Textes Informatique Multilinguisme de l'INALCO, Établissement public d’enseignement supérieur, 2 Rue de Lille, Paris.

L’ERTIM réalise des ressources lexicales et terminologiques à partir de corpus multilingues, des méthodes pour l’enseignement à distance, des méthodologies de catégorisation de documents, de fouille de textes, de veille, etc.).

15/11/2021

Kévin Deturck a l’honneur de vous convier à sa soutenance de thèse en doctorat intitulée « Détection des influenceurs dans des médias sociaux ».
Celle-ci aura lieu le jeudi 18 novembre à 9h, au 2, rue de Lille, 75007, Paris, dans la salle Antoine Isaac Silvestre de Sacy (L2.05).

Elle sera présentée en français, devant un jury composé de :
M. Pascal Amsili, Professeur des universités, Université Paris 3, Examinateur,
Mme Claudine Moïse, Professeure des universités, UGA, Rapporteuse,
M. Damien Nouvel, Inalco, Co-encadrant,
M. Patrick Paroubek, Ingénieur de recherche, CNRS, Rapporteur,
Mme Namrata Patel, Docteure, Université Montpellier 3, Co-encadrante, Invitée,
Mme Frédérique Segond, Directrice de recherche, Inria, Inalco, Directrice,
M. Mathieu Valette Professeur des universités, Inalco, Examinateur.

La soutenance sera suivie d'un pot auquel vous êtes chaleureusement conviés.

La jauge de la salle étant limitée à 21 personnes, merci de lui signaler votre intention de venir à l’adresse « [email protected] ». Vous pouvez également assister à cette soutenance à distance, via le lien de connexion distanciel https://zoom.us/j/91211281713.

29/06/2021

Madame Liyun YAN a le plaisir de vous inviter à la soutenance de sa thèse de doctorat intitulée "Le rôle des inférences pour la fouille d’opinion : applications aux réseaux sociaux en langue chinoise".

Celle-ci aura lieu le lundi 5 juillet à 10h.
Un lien de connexion Zoom vous sera communiqué sous peu.
Si vous souhaitez y participer en présentiel, merci de contacter madame Yan : [email protected].

la thèse sera présentée en français devant un jury composé de :
M. Mathieu Valette Professeur des universités, INALCO, ERTIM
M. Cyril Grouin Ingénieur de recherche, Université Paris-Saclay, CNRS, LISN
Mme Farah Benamara Maître de conférences, Université Paul Sabatier, CNRS, IRIT
M. Dominique Legallois Professeur des universités, Université Paris 3 Sorbonne Nouvelle, CNRS, LaTTICe
Mme Yue Ma Maître de Conférence, Université Paris-Saclay, CNRS, LISN
Mme Christine Lamarre Professeur des universités, INALCO, EHESS, CNRS, CRLAO

Résumé:

Cette thèse s'intéresse à l'inférence linguistique dans la fouille d'opinion dans un corpus des commentaires touristiques en chinois. Les techniques existantes qui sont bien développées sur des opinions courtes et explicites donnent des résultats limités dans l'interprétation des contextes implicites. De plus, l'expression de l'opinion met en œuvre des stratégies énonciatives différentes suivant les langues et les cultures. Notre hypothèse de travail consiste à étudier les inférences pour améliorer la fouille d'opinion. Dans cette perspective, notre première contribution propose une typologie des inférences pour le chinois en 5 types: logique, pragmatique, lexicale, énonciative et discursive (Rossi et Campion, 1999; Marin, 2004; Duchêne, 2008; Doucy et Massoussi, 2012). Nous avons appliqué cette typologie pour annoter un corpus, dans l'objectif de mener des expériences de fouille d'opinion avec et sans le traitement des inférences. Notre deuxième contribution se focalise sur la classification automatique des inférences en nous basant sur les caractéristiques linguistiques, les métadonnées du domaine et les vecteurs du plongement de mots. L'objectif d'une part est de prouver que le traitement des inférences améliore la performance de la fouille d'opinion et d'autre part de trouver une solution équilibrée entre la classification manuelle couteuse et la classification automatique. Dans ce travail de thèse, nous avons démontré l'intérêt d'étudier les inférences pour réaliser une fouille d'opinion en chinois. Toutefois, l'identification automatique des inférences reste complexe et nécessite une poursuite des travaux de recherche.

Lingua Libre 27/05/2021

ContribuLing 2021

Contribuling | Conférences et ateliers pour l’élaboration et le partage de ressources linguistiques en langues minoritaires à travers les outils numériques
3 et 4 juin 2021 en ligne | 13h-18h (UTC+2)
Vous êtes locuteur·ices d’une langue minoritaire ou peu présente dans les outils numériques ?
Venez découvrir comment vous pouvez participer à l’enrichissement du web en votre langue, à travers une série de conférences et d’ateliers !
Programme (UTC+2) :
- Jeudi 3 Juin
* 13h00 Session d'ouverture
* 13h30 Lingua Libre (https://lingualibre.org)
* 14h00 Wikidata Lexemes (779 languages)
* 15h00 Wikimedia Incubator (ISO 639 languages)
* 15h30 Kumoontun (Español, Inglés, Ayöök, Maya Popti’, Tének)
* 16h30 Nierika Red Social (Español / Inglés)
* 16h30 Idemi Africa (https://idemi.africa / French, Fon, Minan, Yoruba, Pular, Swahili, Lingala)
- Vendredi 4 Juin
* 13h00 Endangered languages in the Wiktionnaire (6200, Gaulois, Lorrain)
* 13h30 Tacawit (Tacawit)
* 14h00 Occitan (Occitan)
* 15h00 WikiPron (https://pypi.org/project/wikipron / 215 languages)
* 15h30 Living Dictionaries (https://livingdictionaries.app / 200+ languages)
* 16h30 Wikisource (72+ languages)
* 16h30 Multilingual Wikidata properties (Wikidata languages)
* 18h00 Session de fermeture
Aucun prérequis en informatique n’est nécessaire.
Conférences en accès libre.
Ateliers sur inscription : https://framaforms.org/contribuling-2021-inscription-registration-inscripcion-1621001258
Plus d'informations : https://meta.wikimedia.org/wiki/ContribuLing

Lingua Libre

09/10/2020

Offre d'emploi : Poste d'ingénieur-e de recherche TAL, équipe ERTIM (INALCO)

L’Équipe de Recherche Textes, Informatique, Multilinguisme est une constituante de l’Institut National des langues et Civilisations Orientales, grand établissement à caractère scientifique, culturel et professionnel, où une centaine de langues sont étudiées et enseignées. L’ERTIM est une équipe interdisciplinaire composée de linguistes et d'informaticiens, elle mène des projets de recherche sur un grande variété de problématiques théoriques et appliquées en TAL, dans un contexte multilingue.

Dans le cadre de ses activités, la capacité de l'équipe à intégrer des travaux d'ingénierie en informatique est déterminante, autant du point de vue des traitements de données que de la mise au point de systèmes (prototypes ou applications). Les projets de l'équipe relèvent autant de la recherche académique que de collaborations avec des entreprises ayant des besoins R&D. Les activités de l'équipe peuvent être consultées sur le site https://er-tim.fr .

Comme pour la plupart des acteurs en TAL, la problématique de la gestion et du traitement des données est devenu un enjeu majeur. Les langues concernées varient beaucoup, entre l'une des 100 langues enseignées à l'INALCO ou les langues occidentales (français, anglais, etc.). Les traitements TAL sont également divers, depuis l'acquisition (OCR, ASR), le stockage (encodages, formats, BDD), les traitements de surface (segmentation / lemmatisation) ou encore sémantiques (moteurs de recherche, sémantique textuelle, extraction d'entités, fouille d'opinion, analyse du discours, agents de dialogue).

Les enseignants-chercheurs d'ERTIM étant responsables du département TIM (licence TAL, master TAL au sein de PLuriTAL), il sera bienvenu que l’ingénieur-e apprécie le contexte académique et soit intéressé à dispenser des cours (licence, master) et/ou encadrer des travaux étudiants (stages, mémoire).

Missions

Appui à la recherche et à la formation en TAL :
- déploiement de systèmes de TAL opérationnels,
- mise en œuvre de méthodologies orientées données (par ex. annotation),
- interaction avec des linguistes et chercheurs en SHS,
- support aide technique aux doctorants (ERTIM) et étudiants (licence / master TAL),
- participation aux activités de recherche (expériences, challenges, publications),
- aide au montage de projets,
- missions d'enseignement (cours de licence / master, encadrement de mémoires).

Infrastructures logicielles et matérielles :
- gestion de serveurs distants mutualisés pour le stockage, le calcul et le web,
- déploiement d'applications (essentiellement sur le web),
- sélection et configuration de machines en coordination avec les services informatiques.

Compétences attendues :
- outils et méthodes en TAL (collecte, analyse, structuration de données textuelles),
- solides compétences en programmation (Python, Perl, Java, Web, XML, SQL, json, etc.),
- connaissance de formats de données en TAL / textométrie (TEI, CoNLL, UD, TXM)
- compréhension des modèles de langue (statistiques, neuronaux),
- notions en multilinguisme numérique (écritures, encodages).
- la connaissance d'une langue orientale n'est pas indispensable, mais c'est un plus.

Savoir-faire comportementaux :
- dialoguer avec des chercheurs SHS et comprendre leurs problématiques,
- interagir les services informatiques de l'INALCO.

Références

https://er-tim.fr
http://www.inalco.fr
http://www.inalco.fr/recherche/ertim
http://www.inalco.fr/departement/textes-informatique-multilinguisme
http://www.tal.univ-paris3.fr/plurital

Conditions et contrat de travail

- doctorat en TAL ou domaine connexe,
- une année d'expérience professionnelle en ingénierie / recherche TAL,
- poste à temps plein, rémunéré selon expérience (2000€ à 2500€ net par mois),
- contrat d'un an renouvelable,
- localisation : maison de la recherche de l’INALCO (2 rue de Lille 75007 Paris).

Candidature

Merci d'envoyer votre CV et de faire part de vos motivations à Damien Nouvel ([email protected]), Mathieu Valette ([email protected]) et ([email protected]).

Faire sens, faire science - ISTE Group 31/01/2020

Table-ronde et débat : Faire Sens, Faire Science

Mercredi 5 février 17h30-19h
Salons de l’Inalco, 2, rue de Lille, 75007 Paris.
Manifestation organisée avec le soutien de l'Équipe de recherche Texte Informatique Multilinguisme (INaLCO).

Avec Astrid Guillaume (Université Paris-Sorbonne), Lia Kurts-Wöste (Université Michel de Montaigne, Bordeaux), Pierluigi Basso-Fossali (Université Lyon II), Jean Lassègue (CNRS), François Rastier (CNRS), Arild Utaker (Université de Bergen.

Faire sens, faire science, Astrid GUILLAUME et Lia KURTS-WÖSTE (dir.), Iste Editions,London, 2020, 240 pages. (Collection Interdisciplinarité, sciences et humanités).
ISBN 9781784056629
Lien éditeur : https://www.istegroup.com/fr/produit/faire-sens-faire-science/

Les sciences de la culture se réaffirment aujourd’hui comme un paradigme important pour permettre une interdisciplinarité exigeante et penser la responsabilité des chercheurs dans leurs activités.
Faire sens, faire science démontre la pertinence fédérative de la méthodologie des sciences de la culture et de la sémiotique des cultures, en exploitant les principes critiques, historicistes ou comparatistes pour aborder aussi bien les objets culturels que les disciplines qui en rendent compte. L’activité scientifique repensée éthiquement dans sa dimension d’acte interprétatif responsable à l’égard de l’humain et du naturel s’inscrit ici aussi bien dans le temps qu’à un moment donné (diachronie et synchronie).
Cet ouvrage invite au renouvellement de la pensée et des disciplines académiques, et reconnecte de manière innovante les sciences du langage aux sphères scientifiques, artistiques et éthico-politiques.

SOMMAIRE. Avant-propos - Astrid Guillaume et Lia Kurts-Wöste /Introduction - François Rastier / Partie 1. Fondements sémiotiques des sciences de la culture - Jean Lassègue, Arild Utaker, Vincent Bontems / Partie 2. Herméneutique des sciences, sciences herméneutiques - Franck Neveu, Régis Missire, Astrid Guillaume /Partie 3. Sciences des lettres et des arts - Lia Kurts-Wöste, Pieluigi Basso-Fossali / Conclusion - Bernard Reber

Faire sens, faire science - ISTE Group Faire sens, faire science démontre la pertinence fédérative de la méthodologie des sciences de la culture et de la sémiotique des cultures, en exploitant les principes critiques, historicistes ou comparatistes pour aborder aussi bien les objets culturels que les disciplines qui en rendent compt...

08/01/2020

Vendredi 24 janvier : Séminaire de Nicolas Dugué, LIUM-LST
"Plongements lexicaux : modèles, temporalité, biais, interprétabilité"

Résumé

Après avoir décrit l'intuition des modèles de plongements lexicaux et leur formalisme, nous nous emploierons à discuter des questions de recherche qui émergent pour leur exploitation. Ainsi nous évoquerons le cadre de l'évolution de la langue et de la détection de néologismes via les modèles temporels. Nous aborderons également les biais des représentations apprises en utilisant ces modèles : les corpus exploités pour l'apprentissage sont des productions humaines, les plongements en sont le reflet et ils encapsulent donc les stéréotypes existants dans ces corpus. En particulier, nous considérerons le biais de genre, bien étudié dans la littérature. Enfin, nous concluerons cet exposé en discutant des approches existantes pour favoriser l'interprétabilité de ces représentations denses, approches basées paradoxalement sur la sparsification de ces représentations.

Bio

Nicolas Dugué est Maître de conférences au LIUM au sein de l'équipe LST (Language Speech Technology) spécialisée en reconnaissance de la parole, traduction et compréhension de la parole et du texte. Après une thèse au LIFO centrée sur l'apprentissage automatique et la fouille dans le cadre de données structurées sous forme de graphe, son post-doc lui permet de se confronter aux données textuelles dans le cadre du clustering de documents scientifiques. Ses recherches au LIUM le conduisent maintenant à explorer l'apprentissage de plongements, notamment avec des approches originales basées graphes.

Informations pratiques

Le séminaire aura lieu vendredi 24 janvier 2020, de 14h30 à 16h à la maison de la recherche de l'INALCO, 2 rue de Lille, Paris. Accès : Musée d'Orsay (RER C), Saint Germain des Prés (ligne 4), Rue du Bac (ligne 12), Palais Royal (ligne 1), Saint-Michel (RER B et C).

04/12/2019

Les soutenances du Master TAL (Inalco) pour la promotion 2018-2019 auront lieu le vendredi 6 décembre, entre 9h30 et 18h, en salle 3.15, au PLC.

Adresse : 65 rue des Grands Moulins 75013 (M°Bibliothèque François-Mitterand).

Soutenance de thèse 28/11/2019

Soutenance de thèse de Bénédicte DIOT PARVAZ AHMAD le samedi 30 novembre à 9h30 au PLC (65 rue des Grands Moulins 75013 Paris - salle 4.15).

Sujet de thèse : Production de ressources multilingues pour l’aide à la traduction du droit pénal en hindi, ourdou et français

Avis de soutenance et résumé :

Soutenance de thèse Mme Bénédicte DIOT PARVAZ AHMAD présentera ses travaux en soutenance en vue de l'obtention d'un doctorat Sujet de thèse : Production de ressources multilingues pour l’aide à la traduction du droit pénal en hindi, ourdou et français Avis de soutenance - Résumé

ER-TIM Equipe de Recherche Textes, Informatique, Multilinguisme | Textes, Informatique, Multilinguisme 13/09/2019

Offre d'emploi - CDD d'ingénieur de 6 mois au laboratoire ERTIM (Inalco)

Extraction de structures causales dans des brevets du domaine spatial

Contexte

Les opérations de lancement de fusées donnent lieu à de nombreuses production textuelles générées par les acteurs du secteur, dont le CNES. Parmi ces textes, le CNES a travaillé en 2017 et 2018 avec l'équipe ERTIM (Inalco), en particulier sur les rapports techniques, dont des retours d'expérience (REX), afin d'y détecter des signaux faibles.

Cette collaboration s'oriente aujourd'hui vers l'exploitation de bases de brevets du domaine spatial, dans l'objectif de mettre en place des outils qui aideront à identifier des risques ou opportunités technologiques.

Pour ce faire, le présent projet, en partenariat avec le CLLE et Safety Data, se focalise sur l'extraction de structures rhétoriques marquant la causalité dans un corpus de brevets préalablement filtrés par le CNES. Il s'agit de modéliser l'expression linguistique générique de la causalité dans les textes, puis de l'appliquer à ce corpus, en réalisant à la fois une annotation manuelle, puis automatique (symbolique ou apprentissage). En fin de projet, nous explorerons la recherche de signaux faibles s'appuyant sur les structures causales détectées.

Missions

L'ingénieur recruté, sera en charge des missions suivantes :
- état de l'art sur la causalité et les signaux faibles,
- récupération, structuration, échantillonnage du corpus,
- annotation manuelle en causalité,
- support pour la mise en place de méthodes automatiques par le CLLE et Safety Data,
- exploitation des structures identifiées pour la recherche de signaux faibles,
- exploration de méthodes probabilistes en causalité.

Profils recherchés

- Diplôme en TAL / informatique / linguistique
- Bonnes compétences en programmation Python
- Intérêt pour le domaine spatial
- Avoir déjà travaillé en rhétorique ou causalité est un avantage

Cadre

- Contrat : CDD d'ingénieur de 6 mois à temps plein
- Date de début : dès que possible
- Rémunération : de 1800€ à 2200€ net selon l'expérience
- Lieu : INALCO, 2 rue de Lille, 75007 Paris

Candidature

Merci d'envoyer votre CV et de faire part de vos motivations à Damien Nouvel et Agata Jackiewicz .

Références et liens

- ERTIM http://www.er-tim.fr
- CNES https://cnes.fr
- Elvis MBoning, Nadège Lechevrel, Michal Kurela, Damien Nouvel. Numériser des fiches de retour d’expériences sur le développement de lanceurs spatiaux. SIFED, 2018.
- Loïc Galand. Apport du calcul de similarité et du topic modelling pour l'exploration de retours d'expérience dans le domaine de la sûreté de fonctionnement des lanceurs spatiaux. Mémoire M2, ERTIM, 2017.
- Nikola Tulechki. Natural language processing of incident and accident reports: application to risk management in civil aviation. Thèse de doctorat, Toulouse II, 2015.

ER-TIM Equipe de Recherche Textes, Informatique, Multilinguisme | Textes, Informatique, Multilinguisme Les étudiants désirant des informations peuvent nous joindre par téléphone au 0181701036 - toutes informations concernant les inscriptions sont disponibles sur le site de l'INaLCO.

30/03/2019

Mardi 16 avril à 17h30 :
Présentation du Master TAL et des métiers du Traitement Automatique des Langues à l'Inalco (rue des Grands Moulins) !

ANR TALAD 23/01/2019

Le laboratoire ERTIM (INALCO) propose un nouveau stage :
Reconnaissance et désambiguïsation des entités

Contexte

Les entités nommées sont des éléments linguistiques utilisés par de nombreuses applications en TAL, telles quelles (indexation de documents, recherche et extraction d'information, etc.) ou comme éléments exploités pour de nombreuses autres tâches. Leur détection et leur catégorisation sont aujourd'hui assez bien maîtrisées.

Ces dernières années, de nombreux travaux de recherche ont porté sur la désambiguïsation (ou liaison, résolution) d'entités. Il s'agit alors de déterminer à quel référent d'une base de connaissances une expression linguistique fait mention (ou NIL si le référent n'existe pas). Cela concerne une plus large gamme d'expressions linguistiques que les "entités nommées".

Dans le cadre du projet TALAD (https://web.u-cergy.fr/anr-talad/) nous exploitons les entités pour l'étude des "nominations" (diversité d'expressions linguistiques qui réfèrent à une même entité). La détection, reconnaissance et désambiguïsation des entités est une brique importante dans ce projet, en interaction avec la coréférence. L'objectif du projet est de déterminer quelles entités sont mentionnées dans un texte, par quelles expressions linguistiques, et dans quels contextes.

Par ailleurs, le traitement des entités nécessite de s'appuyer sur un corpus à large couverture, contenant de nombreuses mentions. À cet effet, les travaux initialisés récemment par l'entreprise Emvista exploitent les liens contenus dans les résumés d'articles Wikipedia afin de constituer un corpus volumineux, en français, contenant des annotations collectées automatiquement, qui peuvent être utilisées pour la détection, la reconnaissance et la désambiguisation des entités.

Sujet de stage

En premier lieu, il s'agira d'exploiter le corpus fourni dans le cadre du projet TALAD (transcription d'interviews matinales), en interaction avec des collègues linguistes de l'équipe PraxiLing, afin d'y caractériser les entités d'intérêt (entités nommées, entités collectives, nominations et dénominations) et de déterminer les méthodes adéquates pour les repérer automatiquement.

Pour ce qui concerne les ressources extraites depuis Wikipedia, on cherchera à évaluer la qualité des ressources, à prototyper un système de désambiguïsation des entités pour le français en utilisant les méthodes état de l'art de machine learning et à l'évaluer comparativement à d'autres systèmes existants, avec une attention particulière portée au cas difficile des organisations.

Objectifs principaux

- Caractérisation des entités d'intérêt pour le projet TALAD
- Expérimentation de la détection automatiques d'entités pour la nomination
- Participation à l'extraction et l'évaluation du corpus de référence depuis Wikipedia
- Prototypage d'un système de désambiguïsation à base de machine learning
- Implémentation et évaluation comparative des systèmes de désambiguisation

Profil recherché

- M2 TAL, ou informatique avec for intérêt pour le TAL
- Programmation en python
- Méthodes de machine learning (CRF, LSTM, SVM, etc.)
- Intérêt pour la reconnaissance et la désambiguïsation des entités

Précisions sur l'offre

- Durée du stage : 5 ou 6 mois à temps plein
- Date de début : mars ou avril 2019
- Rémunération : tarif en vigueur (~550€/mois, rbst de 50% navigo)
- Lieu : Inalco, 3bis rue Taylor, 75010 Paris

Candidature

Envoyez votre CV et faites part de vos motivations à Damien Nouvel

Références

- Named Entities for Computational Linguistics. Damien Nouvel, Maud Ehrmann, Sophie Rosset. John Wiley & Sons, 2016.
- Dénomination référentielle, désignation, nomination. Pierre Frath. Langue française 4, 2015.
- Data Adaptation for Named Entity Recognition in Twitter with Features-Rich CRF. Ngoc Tan Le, Fatiha Sadat, Damien Nouvel. WiNLP 2018.
- Learning Multilingual Named Entity Recognition from Wikipedia. Joel Nothman et. al. Artificial Intelligence 194 2013.
- Evaluating Entity Linking: An Analysis of Current Benchmark Datasets and a Roadmap for Doing a Better Job. Marieke Van Erp et. al. LREC 2016.

ANR TALAD Projet ANR TALAD Le projet ANR TALAD a pour ambition de montrer comment le TAL permet à l’AD d’aller plus loin dans ses explorations, d’éprouver son appareil théorique et de renforcer son outillage méthodologique. Son objectif est d’adapter des techniques issues du TAL pour fournir à l....

Vous voulez que votre école soit école la plus cotée à Paris ?

Cliquez ici pour réclamer votre Listage Commercial.

Emplacement

Adresse


2 Rue De Lille
Paris
75007