Et autre précision, mais non liée à Micronaut, c'est un mea culpa, car j'ai dit des bêtises au sujet des Large Language Models (LLM)
Je répondais à une question d'Emmanuel sur le nombre des paramètres, le nombre de tokens d'entraînement, etc, et j'ai dit n'importe quoi.
Le nombre de paramètres, c'est le nombre de poids appris par le LLM.
Un peu comme les neurones du cerveau.
Le nombre de tokens par contre, c'est la taille du corpus sur lequel le modèle a été entraîné.
Combien de livres, d'articles, a-t-il lu.
Et en parlant de tokens, c'est aussi le nombre de tokens qu'on peut donner en entrée à un LLM, et le nombre de tokens de réponse qu'il peut générer.
Par exemple PaLM prends jusqu'à 8k caractères en entrée et peut générer jusqu'à 1k. Mais par exemple le record actuel, c'est Claude 2 en entrée avec 100k tokens.
Parfois certains modèles comptent en tokens et d'autres en caractères. Mais les tokens peuvent varier suivant les modèles.
Quand je parlais de vecteurs, de text embeddings, là je ne crois pas m'être trompé en tout cas, mais on parle de la dimension de ces vecteurs (qui représentent des mots, des concepts...) car différents LLMs peuvent travailler sur des vecteurs de taille différente (768, 1024, etc.)
N'hésitez pas à me corriger si je dis encore des bêtises, merci :-)
Guillaume