Трішки контексту: китайська компанія DeepSeek безкоштовно представила кілька моделей AI, які можуть конкурувати за якістю з моделями американської компанії OpenAI, на створення яких були витрачені мільярди. Основна особливість у тому, що, за заявами китайської компанії, тренування цих моделей обійшлося в межах 6 мільйонів доларів. Звісно, на ринках почалася паніка, і акції провідних технологічних компаній, що зробили ставку на AI, почали знижуватися в ціні: якщо подібного результату можна досягти порівняно невеликими бюджетами, то всі ці мільярдні інвестиції і пов’язані з ними компанії можуть незабаром втратити в ціні.
Де «собака зарита»?
Однак найцікавіше — глянути на весь контекст і мотивацію учасників процесу. Беручи до уваги, що засновник компанії DeepSeek має математичну освіту і професійно спеціалізується на торгівлі акціями (саме для цього він і зайнявся машинним навчанням) і той факт, що вся інформація про AI-моделі та напрацювання DeepSeek були «злиті» у відкритий доступ якраз перед оголошенням результатів роботи західних компаній, зовсім не дивує можливість, що одне з ключових завдань створення моделей DeepSeek — це маніпуляція акціями американських технологічних компаній. Ці компанії відчутно втратили у вартості через страх інвесторів, що всі їхні величезні інвестиції в AI дата-центри можуть знецінитися. Лише компанія Nvidia втратила у ціні близько 600 мільярдів доларів.
У результаті такої ситуації всі, хто робили ставку на падіння акцій технологічних компаній, тобто шортили акції, заробили мільярди. Не сумніваюся, що люди, пов’язані з DeepSeek, значно поповнили свої банківські рахунки, зробивши правильні ставки ще до релізу моделей DeepSeek і всієї інформації про геніальні рішення та про дешевизну створення моделей.
Найцікавіше, що вся ця паніка інвесторів ґрунтується виключно на словах китайської компанії про її геніальність і мінімальні витрати на тренування моделей, еквівалентних тим, на чиє створення пішли мільярди. Жодних реальних підтверджень цьому немає. Ба більше, після першої хвилі паніки аналітики почали придивлятися до ситуації і виявилося, що ще до того часу китайська компанія могла витратити близько 500 мільйонів доларів на придбання десятків тисяч AI-серверів Nvidia, а саме «тренування» моделей було не так тренуванням, як дистиляцією уже існуючих реально натренованих моделей компанії OpenAI. Тобто, схоже, що компанія DeepSeek не стільки збирала дані з усього інтернету й тренувала свої моделі з нуля, скільки робила вичавку з наявних моделей OpenAI. І всю основну дороговартісну роботу виконала саме компанія OpenAI.
У сухому підсумку
Звісно, китайці виконали дуже складну та геніальну роботу, знайшовши нові цікаві технічні рішення щодо оптимізації роботи AI-обладнання. Це має добре вплинути в майбутньому на вартість AI-моделей.
Проте, хоча реальний стан речей і витрати нікому невідомі і все це може виявитися дуже гарною грою з пресою, очевидно, що вся ця ситуація принесла величезні прибутки тим, хто заздалегідь підготувався, розраховуючи на сформовану ситуацію та те, що акції компаній, які роблять ставку на AI, дещо переоцінені.
Якщо чесно, найцікавіше в усьому цьому — факт можливості недорогої дистиляції дорогих моделей. Адже тоді великим компаніям буде дуже складно захистити свої AI-моделі й інвестиції в них. Як тільки компанія відкриває доступ до своєї нової передової моделі (щоб заробляти на ній), на тренування якої витрачено колосальні ресурси, інші компанії за набагато помірніші гроші можуть дистилювати її, отримавши з неї вичавку у вигляді власної версії моделі — і таким чином коммодитизувати (перетворити продукт на порівняно дешевий товар масового споживання) й знецінити оригінальну модель.