SYNTH : pré-entraîner des petits modèles de raisonnement à l'état de l'art sur des données synthétiques ouvertes

Les données web utilisées pour entraîner les modèles de langue sont majoritairement mal documentées, pauvres en raisonnement et ayant un statut légal opaque. À partir de Common Corpus — le plus grand jeu de données ouvert pour le pré-entraînement (2,24 mille milliards de tokens) — Pleias a conçu SYNTH, un pipeline de données synthétiques qui amplifie 50 000 articles de Wikipédia en plus de 75 milliards de tokens couvrant mémorisation, RAG, arithmétique, édition et écriture créative.
Date
  • 29 mai 2026
Heure

12h00 à 13h00

Localisation

En ligne sur Zoom

Coûts

Participer à distance

L’événement sera présenté par le biais de la plateforme Zoom.

À propos de la conférence

Les données web utilisées pour entraîner les modèles de langue sont majoritairement mal documentées, pauvres en raisonnement et ayant un statut légal opaque. À partir de Common Corpus — le plus grand jeu de données ouvert pour le pré-entraînement (2,24 mille milliards de tokens) — Pleias a conçu SYNTH, un pipeline de données synthétiques qui amplifie 50 000 articles de Wikipédia en plus de 75 milliards de tokens couvrant mémorisation, RAG, arithmétique, édition et écriture créative. Entraîné exclusivement sur SYNTH avec seulement 200 milliards de tokens, Baguettotron (321M paramètres) atteint l’état de l’art dans sa catégorie sur MMLU, GSM8k et HotPotQA — avec une efficacité de données 10 à 50 fois supérieure aux modèles comparables. Cette présentation détaille l’architecture du pipeline, les résultats expérimentaux et les implications pour un développement de l’IA ouvert, traçable et accessible.

À propos des conférenciers

Anastasia Stasenko est cofondatrice et CEO de Pleias, un laboratoire franco-allemand d’IA qui construit une infrastructure de données ouvertes pour les IA performantes et éthiques. Maître de conférence associée en analyse de données et communication numérique à l’Université Sorbonne-Nouvelle, Anastasia milite pour un développement de l’IA éthique, transparent et décentralisé. Elle est Station F Female Fellow et intervient régulièrement dans des conférences internationales sur l’IA ouverte.

Pierre-Carl Langlais est cofondateur et CTO de Pleias. Chercheur en humanités numériques et Wikipédien de longue date, il dirige les travaux de recherche du laboratoire, notamment la coordination de Common Corpus. Pierre-Carl est également enseignant à Sciences Po Paris. Ses recherches se situent à l’intersection des humanités numériques, de la physique des modèles de langue et de la science ouverte.

Restons en contact!

Vous souhaitez être informé des nouvelles et activités de l'IID? Abonnez-vous dès maintenant à notre infolettre mensuelle.