Certifications SAP

Un **Large Language Model (LLM)** est un réseau de neurones profond entraîné sur d'énormes corpus de texte pour prédire le prochain token étant donné un contexte. C'est la fondation de toute l'IA générative moderne (GPT, Claude, Gemini, Llama, Mistral). **Architecture Transformer** : tous les LLMs production utilisent l'architecture Transformer (introduite par Google en 2017). Composants clés : - **Tokens** : unités de texte (≈ ¾ de mot en moyenne). "Tokenization" = découpage du texte en tokens. - **Embeddings** : chaque token est converti en vecteur de dimension fixe (768, 1536, 3072…). C'est l'espace où la similarité sémantique devient mesurable. - **Attention** : mécanisme qui pondère l'influence de chaque token précédent sur la prédiction du suivant. - **Layers** : empilement de blocs Transformer (12, 32, 96+ couches selon la taille du modèle). **Modes d'inférence** : - **Completion / chat** : générer une réponse à partir d'un prompt - **Embedding** : extraire la représentation vectorielle d'un texte (RAG, recherche, classification) - **Function/tool calling** : générer un appel structuré vers une API externe **Limites fondamentales** : - **Hallucinations** : le LLM invente des faits convaincants. C'est inhérent au modèle statistique — il prédit ce qui est plausible, pas ce qui est vrai. - **Context window** : limité (32K, 128K, 1M tokens selon le modèle). Au-delà, le modèle "oublie" le début. - **Cutoff date** : connaissance figée à la date d'entraînement. D'où l'intérêt de RAG.

SAP Generative AI Developer

Fondamentaux IA Générative & LLMs

Anatomie d'un LLM