Sam Altman sur l'utilisation des jetons par OpenAI et les coûts de l'IA

Lisa Ernst · 04.06.2026 · Intelligence Artificielle · 8 minutes de lecture

Sam Altman a fait de l'utilisation des jetons l'un des sujets les plus importants du monde des affaires de l'IA en 2026. Selon des rapports récents, le principal utilisateur interne de jetons d'OpenAI traite désormais environ 100 milliards de jetons par mois, tandis qu'au moins un utilisateur externe serait encore plus élevé.

Cela est important car les jetons ne sont pas seulement un détail technique. Ils sont l'unité derrière la charge de travail de l'IA, la latence, la pression sur l'infrastructure et de nombreuses factures d'API. Pour les entreprises qui développent des produits d'IA, comprendre l'utilisation des jetons est désormais aussi important que de comprendre l'hébergement cloud, les requêtes de base de données ou le trafic serveur.

Ce que Sam Altman a réellement dit sur l'utilisation des jetons par OpenAI

Le chiffre principal est simple : le principal utilisateur interne de jetons d'OpenAI consomme, selon les rapports, environ 100 milliards de jetons par mois. Altman a également comparé ce chiffre à l'époque d'OpenAI, où environ 100 000 jetons par mois étaient considérés comme un niveau d'utilisation très élevé.

Cela montre comment l'utilisation de l'IA est passée de simples invites de chat occasionnelles à des flux de travail de développeurs continus, des agents de codage, des analyses automatisées, de longues fenêtres de contexte et des systèmes d'entreprise qui fonctionnent en arrière-plan.

Sam Altman rencontrant le Premier ministre japonais Shigeru Ishiba et le PDG de SoftBank Masayoshi Son en 2025

Source: Gouvernement du Japon / Bureau du Premier ministre, CC BY 4.0

Cette image réelle de 2025 de Sam Altman relie l'histoire de l'utilisation des jetons aux discussions actuelles d'OpenAI sur l'entreprise, l'infrastructure et les investissements internationaux dans l'IA.

Qu'est-ce qu'un jeton dans l'utilisation d'OpenAI ?

Un jeton est une petite unité de texte ou de données traitée par un modèle d'IA. En anglais, un jeton correspond souvent à environ quatre caractères ou environ trois quarts d'un mot, mais le nombre exact dépend du modèle, de la langue et du format de l'entrée.

OpenAI sépare l'utilisation en catégories telles que les jetons d'entrée, les jetons de sortie et les jetons mis en cache. Les jetons d'entrée proviennent de la requête, les jetons de sortie sont générés par le modèle, et les jetons mis en cache peuvent être réutilisés à partir de préfixes d'invite ou de contexte de conversation répétés.

Source: Wikimedia Commons / Logo OpenAI 2025, texte de logo dans le domaine public ; des restrictions de marque peuvent s'appliquer

Le logo d'OpenAI donne à l'article un lien visuel direct avec l'entreprise derrière la discussion sur l'utilisation des jetons, au lieu de s'appuyer uniquement sur des images technologiques abstraites.

Type de jeton	Signification	Pourquoi c'est important
Jetons d'entrée	Invite, instructions système, fichiers, outils et contexte de conversation envoyés au modèle.	De longues invites, un long historique de discussion et des documents répétés peuvent rapidement augmenter les coûts.
Jetons de sortie	La réponse générée par le modèle.	Les longues réponses, les étapes de raisonnement et les sorties agentiques peuvent devenir coûteuses à grande échelle.
Jetons mis en cache	Sections d'invite répétées qui peuvent être réutilisées par l'infrastructure du modèle.	Une bonne structure d'invite peut réduire la latence et les coûts d'entrée pour les charges de travail répétées.

Pourquoi l'utilisation des jetons peut croître si rapidement

Le passage de milliers de jetons à des milliards n'est généralement pas causé par une seule invite. Cela se produit lorsque l'IA s'intègre dans les flux de travail. Un assistant de codage peut lire des fichiers, inspecter des erreurs, générer des correctifs, examiner des modifications, appeler des outils et répéter ce cycle plusieurs fois.

Capture d'écran de l'interface ChatGPT montrant le contexte du produit d'IA visible par l'utilisateur

Source: Wikimedia Commons / Capture d'écran ChatGPT, OpenAI

L'utilisation des jetons commence par les interactions quotidiennes des utilisateurs, mais à grande échelle, ces conversations, fichiers, outils et actions en arrière-plan peuvent représenter de très grands volumes mensuels de jetons.

Les cas d'utilisation en entreprise sont particulièrement gourmands en jetons car ils incluent souvent de longs documents, des enregistrements clients, des appels d'outils, des résultats de récupération, du JSON structuré, des journaux et des flux de travail d'agents en plusieurs étapes. Une seule action utilisateur peut déclencher discrètement de nombreux appels de modèle.

Raisons courantes de l'explosion de l'utilisation des jetons

Historique de conversation long renvoyé à chaque requête.
Longues invites système et instructions répétées.
Agents de codage IA qui inspectent automatiquement de nombreux fichiers.
Systèmes de récupération qui attachent trop de documents à chaque réponse.
Sorties verbeuses plus longues que ce dont l'utilisateur a réellement besoin.
Agents d'arrière-plan qui continuent de fonctionner sans budgets stricts.

Les modèles de raisonnement peuvent changer le profil de coût

Les systèmes d'IA modernes décident de plus en plus quand répondre rapidement et quand consacrer plus de calcul à une tâche plus difficile. Cela peut améliorer la qualité, mais rend également le suivi de l'utilisation plus important, car les tâches complexes peuvent consommer plus de traitement invisible et plus de budget de sortie.

Capture d'écran de GPT-5 avec une réflexion plus longue montrant le mode raisonnement dans ChatGPT

Source: Wikimedia Commons / Capture d'écran de GPT-5 avec une réflexion plus longue, 2025

Les interfaces axées sur le raisonnement rendent la question du coût plus visible : de meilleures réponses peuvent nécessiter plus de calcul, et les équipes doivent décider où ce budget de jetons supplémentaire est justifié.

Pourquoi cela est important pour les entreprises d'IA et les clients

Pour les fournisseurs de modèles, une utilisation élevée des jetons peut signifier des revenus plus élevés, mais aussi une pression accrue sur l'infrastructure. Pour les clients, une utilisation élevée des jetons peut signifier une meilleure automatisation, mais aussi des factures imprévisibles. Les jetons deviennent une métrique commerciale pratique car ils reflètent la quantité de travail réellement effectué par les systèmes d'IA.

L'important n'est pas de maximiser l'utilisation des jetons en soi. Plus de jetons ne signifient pas automatiquement plus de valeur commerciale. La meilleure question est de savoir si chaque jeton contribue à la précision, à la vitesse, à l'automatisation, aux revenus, à la qualité du support ou à la productivité des développeurs.

Schéma de la structure d'entreprise d'OpenAI révisé en 2026

Source: Wikimedia Commons / Structure d'entreprise d'OpenAI révisée

La discussion sur les coûts et les jetons s'inscrit également dans un contexte plus large d'entreprise et d'investissement. La structure, les partenaires et la stratégie d'infrastructure d'OpenAI influencent la manière dont l'IA d'entreprise est tarifée, mise à l'échelle et régie.

Comment les équipes devraient mesurer l'utilisation des jetons OpenAI

Les utilisateurs d'OpenAI ne devraient pas seulement regarder les totaux mensuels. Ils devraient décomposer l'utilisation par domaine de produit, par utilisateur, par modèle, par flux de travail et par type de tâche. Cela permet de voir plus facilement quelle automatisation est précieuse et quel flux de travail ne fait que consommer des jetons.

Métrique	Question à répondre
Jetons par requête	Quelles invites sont inutilement grandes ?
Jetons par utilisateur	Quels clients ou utilisateurs internes génèrent la majeure partie des coûts ?
Jetons par tâche réussie	Combien coûte réellement un résultat utile ?
Ratio de jetons mis en cache	Les invites répétées sont-elles suffisamment bien structurées pour bénéficier de la mise en cache ?
Longueur de sortie	Les réponses sont-elles plus longues que ce dont les utilisateurs ont besoin ?

La mise en cache des invites est maintenant un levier de coûts sérieux

La mise en cache des invites peut réduire la latence et les coûts des jetons d'entrée lorsque les invites contiennent du contenu statique répété. La règle pratique est simple : placez les instructions stables, les exemples et les définitions d'outils au début de l'invite, et placez le contenu variable spécifique à l'utilisateur plus tard.

Moyens pratiques de réduire le gaspillage de jetons

Gardez les invites système courtes, stables et réutilisables.
Résumez l'historique des conversations anciennes au lieu d'envoyer tout indéfiniment.
Utilisez des filtres de récupération afin que seuls les documents pertinents soient joints.
Définissez des longueurs de sortie maximales pour les tâches de routine.
Choisissez des modèles plus petits pour la classification, l'extraction ou le formatage simples.
Mesurez le coût par tâche, pas seulement les dépenses mensuelles totales.
Arrêtez les agents d'arrière-plan une fois la tâche terminée.

Des racks de serveurs physiques représentant le calcul derrière le traitement de grands volumes de jetons d'IA

Source: Wikimedia Commons / Image d'infrastructure serveur

Une seule image d'infrastructure est utilisée car elle explique directement le lien entre le coût des jetons et le coût : chaque jeton doit être traité quelque part, ce qui nécessite une capacité de calcul réelle.

Ce que cela signifie pour les développeurs créant des outils d'IA

Les développeurs doivent concevoir des systèmes d'IA comme une infrastructure mesurée. Chaque invite doit avoir une raison. Chaque résultat de récupération doit être nécessaire. Chaque boucle d'agent doit avoir une limite. Ceci est particulièrement important pour les produits SaaS, les copilotes internes et les outils de codage automatisés.

Pour les équipes qui créent des flux de travail d'IA basés sur le web, l'économie des jetons devrait faire partie de la conception du produit dès le début. Zerlo propose également des outils pratiques d'IA et web à Zerlo tools, où l'efficacité de l'utilisation est une partie importante de la création de logiciels utiles.

FAQ : Sam Altman, OpenAI et l'utilisation des jetons

Qu'a dit Sam Altman sur l'utilisation des jetons par OpenAI ?

Il aurait dit que le principal utilisateur interne de jetons d'OpenAI utilise environ 100 milliards de jetons par mois, tandis qu'un autre utilisateur extérieur à OpenAI en utilise encore plus.

Les jetons sont-ils identiques aux jetons de cryptomonnaie ?

Non. Dans ce contexte, les jetons sont des morceaux de texte ou de données traités par un modèle d'IA. Ils sont utilisés pour mesurer la taille du contexte, la charge de travail du modèle et la facturation des API.

Pourquoi les jetons d'IA coûtent-ils de l'argent ?

Chaque jeton doit être traité par l'infrastructure du modèle. Plus de jetons signifient généralement plus de calcul, plus d'utilisation de mémoire, plus de latence et des coûts d'exploitation plus élevés.

Utiliser plus de jetons signifie-t-il toujours de meilleurs résultats d'IA ?

Non. Plus de contexte peut aider lorsqu'il est pertinent, mais un contexte inutile peut rendre les systèmes plus lents, plus chers et parfois moins ciblés.

Comment puis-je réduire l'utilisation des jetons OpenAI ?

Raccourcissez les invites, résumez l'historique, limitez la longueur de sortie, filtrez les résultats de récupération, utilisez des modèles plus petits si possible et structurez les invites répétées pour la mise en cache.

Conclusion

Les commentaires de Sam Altman sur l'utilisation des jetons montrent que l'adoption de l'IA est entrée dans une nouvelle phase. La question n'est plus seulement de savoir qui a le plus d'utilisateurs ou le modèle le plus intelligent. La question est de savoir qui peut transformer une utilisation massive de jetons en valeur fiable sans perdre le contrôle des coûts, de l'infrastructure et de la complexité des flux de travail.