DeepSeek: une nouvelle baleine dans la course à l’IA?

Thibaud Pollet-Thiollier, ITERAM Capital

2 minutes de lecture

Ce qui a bouleversé le monde, c’est l’efficacité et le coût de développement du modèle.

©Keystone

 

Depuis 2022, la course aux modèles d’IA de pointe a été dominée par le monde occidental. Cependant, l’entreprise chinoise DeepSeek a récemment fait la une des journaux en lançant une série de modèles rivalisant avec les plus puissants du marché, développés soi-disant à une fraction du coût de ses concurrents. Fondée en mai 2023 par Liang Wenfeng, DeepSeek est exclusivement financée par High-Flyer, un hedge fund également fondé par Wenfeng. Selon DeepSeek, son dernier modèle de raisonnement, R1, rivalise avec ChatGPT-o1 sur plusieurs benchmarks (voir Graphique 1). DeepSeek propose également DeepSeek V3, un chat bot conçu pour concurrencer directement ChatGPT-4o.

Graphique 1: Performance de Benchmark de DeepSeek R1


Source: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

À l’ouverture des marchés américains le 27 janvier, l’impact de DeepSeek a effacé $1’000 milliards de capitalisation boursière, avec Nvidia plongeant de 17% et perdant près de $600 milliards - la plus grande perte en une seule journée de l’histoire des US. Cependant, avec le recul, analysons l’impact réel du modèle chinois sur l’écosystème de l’IA. Ce qui a bouleversé le monde, c’est l’efficacité et le coût de développement du modèle. Bien qu’il n’y ait aucun doute sur les performances impressionnantes des modèles chinois, nous n’avons pas d’informations précises sur leurs coûts d’entraînement. Certains titres de presse mentionnent un coût de $6 millions pour le développement de V3, ce qui est manifestement faux, car ce chiffre ne concerne que les coûts de pré-entraînement, qui ne représentent qu’une petite fraction des dépenses totales. À l’origine, DeepSeek a été créé il y a deux ans par High-Flyer dans le but d’intégrer l’IA à ses algorithmes de trading. L’entreprise a dû acheter des GPU pour construire son propre data center. En 2021, elle a acquis 10k Nvidia A100 (prédécesseur du H100) avant toute restriction d’exportation imposée par l’administration Biden. Selon SemiAnalysis (une société indépendante spécialisée dans l’analyse des industries des semi-conducteurs et de l’IA), DeepSeek aurait également eu accès à 10k H800 (puces spécialement conçues pour le marché chinois avec des performances réduites par rapport aux H100) et environ 10k H100 (qu’elle n’aurait normalement pas dû obtenir), ainsi qu’à d’autres puces totalisant 60k GPU. L’ensemble représenterait un coût estimé à $1,6 milliard, avec $944 millions consacrés aux coûts d’exploitation1. L’administration Biden avait ensuite renforcé les restrictions sur l’exportation des puces Nvidia (interdisant les H800), et l’administration Trump envisage de durcir encore ces restrictions, ce qui pourrait contraindre davantage l’accès à ces GPU. On peut donc se demander si DeepSeek pourra continuer à progresser dans la course à l’IA, sachant qu’elle n’aura plus accès aux dernières technologies GPU - un marché dominé par Nvidia.

Ensuite, le modèle DeepSeek V3 a été comparé à ChatGPT-4o, sorti 9 mois plus tôt - une éternité dans le monde de l’IA. De même, le modèle R1 a été comparé à o1, tandis qu’OpenAI est sur le point de lancer ses derniers modèles o3 et Deep research. Cependant, le modèle o1 avait été publié en septembre 2024, soulevant la question de la rapidité avec laquelle les Chinois ont rattrapé OpenAI. Nous savons désormais que DeepSeek a entraîné son modèle R1 en s’appuyant sur les résultats produits par ChatGPT-o1 (une technique appelée distillation), ce qui lui a permis de réduire ses coûts d’entraînement. Ce qui est indéniable, c’est que l’approche innovante de DeepSeek dans le développement des modèles d’IA a renforcé plusieurs technologies susceptibles de pousser l’ensemble de l’industrie à repenser ses processus de développement, notamment en matière d’optimisation de l’entraînement et d’innovation. L’entreprise a atteint des performances élevées en utilisant un matériel moins puissant que ses concurrents. De plus, son modèle est entièrement open-source. En rendant le modèle accessible à tous, n’importe quelle entreprise ou individu peut le télécharger, l’affiner et l’exécuter sur ses propres serveurs (en fonction de la puissance de calcul disponible), éliminant ainsi sa dépendance a OpenAI. 

Cependant, DeepSeek présente aussi des inconvénients. Étant un modèle développé en Chine, il est soumis aux réglementations gouvernementales garantissant que ses réponses sont conformes aux valeurs fondamentales du Parti communiste chinois. De plus, des préoccupations ont été soulevées concernant la confidentialité des données des utilisateurs, car DeepSeek stocke les informations collectées sur des serveurs situés en Chine, ce qui soulève des questions sur la sécurité des données et un éventuel accès gouvernemental.

 

1 SemiAnalysis - DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts H100 Pricing Soaring, Subsidized Inference Pricing, Export Controls, MLA

A lire aussi...