Qu’est-ce qu’un token ?

🧠💬 C’est quoi un token en intelligence artificielle ? (Et pourquoi les IA en raffolent)
Ah, les tokens. Non, ce ne sont pas des pièces de Monopoly ni des jetons de caddie pour aller faire les courses chez Leclerc. En intelligence artificielle, un token est une brique de base du langage. Et si ça vous paraît encore flou… accrochez-vous à votre clavier, on va tout vous expliquer.
🧩 Un token, c’est un petit morceau de phrase
Imaginez que vous voulez apprendre à une IA à parler français. Pour ça, vous allez lui montrer plein, plein, PLEIN de textes. Mais elle ne va pas lire ces textes comme nous, pauvres humains émotionnels. Non, elle les découpe en petits bouts : des tokens.
Ces tokens peuvent être :
des mots (comme « chat »),
des parties de mots (comme « im-« , « -battable »),
ou même juste des lettres ou symboles (comme « ! », ou « 🧠 »).
Par exemple, la phrase :
« Les chats sont imbattables. »
pourrait être transformée en ces tokens : [« Les », » chats », » sont », » im », « batt », « ables », « . »]
(Note : l’espace au début de certains tokens est aussi compté. Oui, les IA sont pointilleuses.)
🧠 Pourquoi les IA ne comprennent pas directement les mots entiers ?
Parce que, contrairement à nous, les IA ne « comprennent » pas. Elles manipulent des nombres. Chaque token est transformé en un chiffre (on appelle ça un embedding, mais restons zen pour l’instant). Ces chiffres servent ensuite à entraîner les modèles comme ChatGPT à prédire le mot suivant dans une phrase. (Un peu comme un jeu de devinettes, mais version supercalculateur.)
📏 Et combien de tokens peut comprendre une IA ?
Eh bien… non. Il ne comprend pas vraiment. Il ne pense pas, il ne ressent rien, il ne connaît pas votre tante Josette (du moins on l’espère). Il simule l’intelligence. Mais sa force, c’est de le faire très bien, au point qu’on peut discuter avec lui comme avec un humain — un humain un peu trop poli et parfois à côté de la plaque.
À quoi ça sert, ces LLM ?
Très bonne question, jeune padawan.
Chaque IA a une limite de tokens qu’elle peut gérer en une fois. Par exemple :
GPT-3.5 peut gérer environ 4 096 tokens (soit environ 3 000 mots).
GPT-4 peut aller jusqu’à 128 000 tokens (l’équivalent d’un roman !)
Si vous dépassez cette limite, l’IA oublie le début de votre texte. Oui, elle a une mémoire de poisson rouge à durée limitée.
💸 Pourquoi les tokens, c’est aussi une histoire de budget
Petite info croustillante : les IA ne travaillent pas gratuitement (même si elles ne demandent ni café ni pause pipi). Les entreprises comme OpenAI facturent à la quantité de tokens utilisés.
Donc si vous aimez les longs discours fleuris et les métaphores à rallonge, sachez que ça coûte un peu plus cher. Chaque « euh », chaque adjectif inutile… c’est un token de plus. Un conseil ? Parlez token-efficient.
🤖 En résumé (sans gaspiller de tokens) :
Un token, c’est un morceau de texte que l’IA utilise pour comprendre et générer du langage.
Il peut être un mot, un morceau de mot, ou même un simple caractère.
Les IA lisent les textes en tokens, pas en phrases.
Plus il y a de tokens, plus ça coûte… en calcul et en argent.
Et maintenant, la prochaine fois qu’un pote vous dira « Mais comment l’IA elle comprend ce qu’on dit ? », vous pourrez répondre avec fierté :
« Facile, c’est une histoire de tokens, mon pote. »
💡 Des questions, des remarques, ou juste envie de papoter IA ? On ne mord pas (sauf les robots affamés). Rejoins-nous ici