Кілька слів про історію з AI-моделями DeepSeek — раз усі вже почали про це писати

Трішки контексту: китайська компанія DeepSeek безкоштовно представила кілька моделей AI, які можуть конкурувати за якістю з моделями американської компанії OpenAI, на створення яких були витрачені мільярди. Основна особливість у тому, що, за заявами китайської компанії, тренування цих моделей обійшлося в межах 6 мільйонів доларів. Звісно, на ринках почалася паніка, і акції провідних технологічних компаній, що зробили ставку на AI, почали знижуватися в ціні: якщо подібного результату можна досягти порівняно невеликими бюджетами, то всі ці мільярдні інвестиції і пов’язані з ними компанії можуть незабаром втратити в ціні.

Де «собака зарита»?

Однак найцікавіше — глянути на весь контекст і мотивацію учасників процесу. Беручи до уваги, що засновник компанії DeepSeek має математичну освіту і професійно спеціалізується на торгівлі акціями (саме для цього він і зайнявся машинним навчанням) і той факт, що вся інформація про AI-моделі та напрацювання DeepSeek були «злиті» у відкритий доступ якраз перед оголошенням результатів роботи західних компаній, зовсім не дивує можливість, що одне з ключових завдань створення моделей DeepSeek — це маніпуляція акціями американських технологічних компаній. Ці компанії відчутно втратили у вартості через страх інвесторів, що всі їхні величезні інвестиції в AI дата-центри можуть знецінитися. Лише компанія Nvidia втратила у ціні близько 600 мільярдів доларів.

У результаті такої ситуації всі, хто робили ставку на падіння акцій технологічних компаній, тобто шортили акції, заробили мільярди. Не сумніваюся, що люди, пов’язані з DeepSeek, значно поповнили свої банківські рахунки, зробивши правильні ставки ще до релізу моделей DeepSeek і всієї інформації про геніальні рішення та про дешевизну створення моделей.

Найцікавіше, що вся ця паніка інвесторів ґрунтується виключно на словах китайської компанії про її геніальність і мінімальні витрати на тренування моделей, еквівалентних тим, на чиє створення пішли мільярди. Жодних реальних підтверджень цьому немає. Ба більше, після першої хвилі паніки аналітики почали придивлятися до ситуації і виявилося, що ще до того часу китайська компанія могла витратити близько 500 мільйонів доларів на придбання десятків тисяч AI-серверів Nvidia, а саме «тренування» моделей було не так тренуванням, як дистиляцією уже існуючих реально натренованих моделей компанії OpenAI. Тобто, схоже, що компанія DeepSeek не стільки збирала дані з усього інтернету й тренувала свої моделі з нуля, скільки робила вичавку з наявних моделей OpenAI. І всю основну дороговартісну роботу виконала саме компанія OpenAI.

У сухому підсумку

Звісно, китайці виконали дуже складну та геніальну роботу, знайшовши нові цікаві технічні рішення щодо оптимізації роботи AI-обладнання. Це має добре вплинути в майбутньому на вартість AI-моделей.

Проте, хоча реальний стан речей і витрати нікому невідомі і все це може виявитися дуже гарною грою з пресою, очевидно, що вся ця ситуація принесла величезні прибутки тим, хто заздалегідь підготувався, розраховуючи на сформовану ситуацію та те, що акції компаній, які роблять ставку на AI, дещо переоцінені.

Якщо чесно, найцікавіше в усьому цьому — факт можливості недорогої дистиляції дорогих моделей. Адже тоді великим компаніям буде дуже складно захистити свої AI-моделі й інвестиції в них. Як тільки компанія відкриває доступ до своєї нової передової моделі (щоб заробляти на ній), на тренування якої витрачено колосальні ресурси, інші компанії за набагато помірніші гроші можуть дистилювати її, отримавши з неї вичавку у вигляді власної версії моделі — і таким чином коммодитизувати (перетворити продукт на порівняно дешевий товар масового споживання) й знецінити оригінальну модель.

Всі відгуки (1)

Залишити відгук

Денис

04.02.2025 20:55

Відгук:

крута стаття! хммм, цікаво, що якраз після цього openai викатила нову модель та додали її навіть до фрішної версії

Залиште Ваш відгук

Ім'я

Ваш відгук

Оцінка

Залишити відгук

Спасибі, ваш відгук відправлений