Исследовательская фирма SemiAnalysis провела детальное исследование, разоблачив миф о том, что компания DeepSeek создала модель R1 с минимальными затратами на обучение. В частности, утверждения о том, что R1 достигла революционной эффективности, не требующей вычислительных ресурсов от NVIDIA и других поставщиков, оказались некорректными.
По первоначальным данным, заявлялось, что DeepSeek инвестировала всего лишь “5 миллионов долларов” в свою модель R1, что якобы сопоставимо с затратами на запуск o1 от OpenAI GPT. Этот слух вызвал бурю на фондовом рынке США, однако факты говорят об обратном.
Для начала, важно отметить, что DeepSeek стартовала как побочный проект китайского хедж-фонда High-Flyer. В отчете SemiAnalysis говорится, что компания приобрела 10 000 единиц графических процессоров NVIDIA A100 еще в 2021 году, когда экспортные ограничения были менее жесткими. Вскоре после этого DeepSeek выделилась в отдельную организацию, что дало ей возможность расширить свои вычислительные мощности.
Сегодня DeepSeek обладает около 10 000 графических процессоров NVIDIA H800 AI, рассчитанных на “китайский рынок”, а также 10 000 более дорогостоящих чипов H100 AI. В дополнение к этому, компания также сделала инвестиции в ускорители NVIDIA H20 AI и имеет общий пул ресурсов вместе с High-Flyer, предназначенный для “торговли, вывода, обучения и исследований”. Общая сумма капитальных вложений в DeepSeek составляет около 1,6 миллиарда долларов США, а эксплуатационные расходы оцениваются примерно в 944 миллиона долларов. Эти цифры в разы превышают первоначальные предположения аналитиков.
Стоит уточнить, что первая озвученная сумма, вероятно, представляет собой лишь “определённую часть” расходов на обучение, связанные с запуском финальной модели. Тем не менее, DeepSeek действительно успешно использует местные таланты, предлагая зарплаты выше 1,3 миллиона долларов для ключевых сотрудников. Умственные ресурсы за моделью R1 смогли предложить конкурентоспособные решения, сопоставимые с технологиями OpenAI, но некорректная презентация финансовых показателей стала катализатором недавних колебаний на рынке.
Кроме того, SemiAnalysis провела обширное тестирование ИИ-модели DeepSeek, в рамках которого упоминаются интересные детали о её работе.