LLMs en production : ce que les tutos ne vous diront jamais

Les démos de LLMs sont belles. La production, beaucoup moins.

Après un an à intégrer des APIs LLM (OpenAI, Gemini…) dans une application métier à 500 000 utilisateurs par an, on a appris (souvent à nos dépens) que les vrais problèmes ne sont pas là où on les attendait.

Dans ce retour d'expérience, on verra concrètement comment on a structuré un hub IA centralisé pour ne pas disperser la logique LLM aux quatre coins du codebase, pourquoi la traçabilité des appels (logs, coûts, latences) est non négociable dès le premier jour, et comment on a mis en place du LLM-as-a-judge pour évaluer automatiquement la qualité des réponses.

On parlera aussi des pièges concrets : non-déterminisme, régressions silencieuses, prompt drift, et gestion des échecs en cascade.

Présenté par :

Photo de Jean-François Lépine Jean-François Lépine

Suite à la conférence, vous pouvez faire un retour aux conférenciers et conférencières sur OpenFeedback