Le 11 mars 2025, l’Assemblée Nationale a adopté une résolution relative à la publicisation des 20 000 « cahiers de doléances » ou « cahiers citoyens » collectés dans le cadre du Grand Débat National de 2019, à la suite du mouvement des Gilets jaunes. Ces cahiers, produits dans 17 000 mairies, regroupent plus de 225 000 contributions ; il s’agit d’un des plus vastes corpus d’expression citoyenne de notre époque. Sa mise en ligne répond à une exigence démocratique mais vise aussi à permettre aux chercheurs – politistes, sociologues, linguistes, d’exploiter cet ensemble de données unique en son genre. Les conditions de la mise en ligne ont été étudiées par une mission Flash pilotée par le Campus Condorcet. À la suite de cette étude, le Campus s’est vu confier par un comité de pilotage parlementaire la responsabilité de réaliser une preuve de concept (POC) d’une chaîne de traitement automatisée de ces cahiers. La mission consiste, sous la direction du responsable de l’Huma-Num Lab, à sélectionner, intégrer et mettre en œuvre les outils logiciels constitutifs de cette chaîne afin de :
  • transcrire automatiquement par technologie de HTR, le contenu des cahiers citoyens, à partir des numérisations déjà existantes 
  • anonymiser automatiquement les cahiers (images et texte) 
  • mettre en œuvre dans un système d’information les transcriptions à des fin de relecture et de validation des contenus 
  • participer avec les équipes de l’Humathèque Condorcet à leur mise en ligne
Le POC sera réalisé sur une sous-partie du corpus (environ 5% des cahiers), afin de tester la capacité d’industrialiser le processus.

Missions

  • Concevoir, développer et maintenir des pipelines de données dans une logique de qualité et de fiabilité
  • Organiser le traitement des données et participer à l'analyse des résultats
  • Adapter et concevoir les outils numériques de traitement, d'analyse, d’annotation et anonymisation de ces données, en garantissant traçabilité et conformité aux normes éthiques et réglementaires
  • Concevoir une démarche méthodologique et un protocole adaptés (charte de publication, règles d’usage, processus de validation, comité éthique léger, tests et choix des outils de traitement)
  • Éventuellement, valoriser les activités menées par des communications dans des journées scientifiques et professionnelles ou des billets de blog.

Compétences

Compétences clés
  • Environnement Linux
  • Programmation Python
  • Très bonne connaissance des outils de chainage et pipeline de traitement des données (Apache Nifi ou Camel, ou équivalent par exemple)
  • Très bonne connaissance des techniques de HTR sous Python (ou autre)
  • Très bonne connaissance des technique d’anonymisation algorithmique (Faker, SpaCy:NER, Stanza, AnonyPy, AnonyPyx, méthodes mixes par LLM, etc.)
  • Très bonne connaissance des techniques de traitement par IA
  • Une connaissance des corpus SHS serait un plus
  • Discrétion, sensibilité aux enjeux politiques et éthiques du projet

Qualités professionnelles
  • Discrétion, sensibilité aux enjeux politiques et éthiques du projet

Profil

Formation & expérience
  • Formation supérieure (Master, ingénieur ou équivalent) en traitement des données mixtes, HTR, humanités numériques, TAL.
  • Expérience significative en traitement et analyse de données textuelles.
  • Expérience en réalisation de projet ou réalisation de POC (une expérience minimum de 3 ans, idéalement dans des projets interdisciplinaires serait un atout).
Nom de l'organisme :
Etablissement public Campus Condorcet
Adresse :
8 cours des Humanités
93322 - AUBERVILLIERS
Mél :
recrutement@campus-condorcet.fr
Début :
Dès que possible
Date limite de candidature :
15 mars 2026

Informations complémentaires

Catégorie A – Ingénieur.e de recherche ou CDD de 12 mois renouvelable détachement sur contrat possible
Rémunération selon profil et expérience
Télétravail possible
Localisation : Campus Condorcet – Aubervilliers, à proximité immédiate de Paris (ligne 12 station Front Populaire ou RER B station La Plaine - Stade de France)

Adressez-nous votre CV et lettre de motivation à adresser à : recrutement@campus-condorcet.fr
Personnes à contacter pour toute question complémentaire :
Clément Oury, directeur du projet clement.oury@campus-condorcet.fr
Stéphane Pouyllau, directeur technique stephane.pouyllau@huma-num.fr
Cynthia Pedroja cynthia.pedroja@campus-condorcet.fr