Дифузійна LLM генерує код у 10 разів швидше за традиційні

3 червня на нашому FutureTech Meetup Володимир Кулешов, співзасновник і CEO Inception Labs та дослідник у Stanford AI Lab, представив революційну розробку — першу комерційну мовну модель на основі дифузії (dLLM).

Модель Mercury, розроблена командою під керівництвом українця, робить прорив у світі мовних моделей.

Володимир Кулешов, CEO Inception Labs

Від шуму до коду: як працює дифузія

Традиційні мовні моделі працюють за авторегресивним принципом: вони генерують текст послідовно, слово за словом, зліва направо. Це нагадує процес написання від руки — спочатку одна літера, потім наступна.

Команда Inception Labs запропонувала кардинально інший підхід: їхня модель використовує дифузію — той самий принцип, що лежить в основі генераторів зображень як от Midjourney, DALL-E чи Sora.

Як це працює?

Модель починає з випадкових токенів — своєрідного «шуму».
Оновлює всі слова паралельно, а не послідовно.
Кожна ітерація покращує результат, «зменшуючи шум».
Модель може виправляти помилки в процесі генерації

Володимир продемонстрував це на конкретному прикладі: на запитання «Яку відкриту задачу математики вирішив Ендрю Вайлс у 1994 році?» модель спочатку згенерувала наближену відповідь «Фінальна теорема Ферма», а потім за один крок виправила її на точну — «Остання теорема Ферма».

Швидкість як конкурентна перевага

Ключова перевага Mercury — неймовірна швидкість. Модель генерує до 1000 токенів на секунду, що в 10 разів швидше за традиційні LLM.

За результатами незалежного тестування EleutherAI, Mercury досягає такої швидкості, яку раніше можна було отримати лише на спеціалізованих чіпах Cerebras.

Змінивши підхід до мовної моделі, ми можемо використовувати кращий алгоритм і досягати результатів, які раніше були доступні тільки зі спеціалізованими чіпами, — пояснює Володимир.

Проте в Inception Labs домоглися цих результатів на стандартних NVIDIA GPU.

Революція в програмуванні

Особливо вражаючі результати Mercury показує саме у сфері програмування. Володимир виділив кілька ключових сценаріїв використання, де їхня модель може бути найбільш корисною:

Автозаповнення коду: У розробці критично важлива швидкість відгуку. Якщо IDE затримується більше ніж на 400 мілісекунд, програміст втрачає концентрацію. Mercury забезпечує миттєвий відгук, кардинально покращуючи досвід розробки.

Агентські системи: ШІ-агенти, які генерують та модифікують код, тепер можуть відпрацьовувати за секунди замість хвилин. Це відкриває нові можливості для автоматизації складних задач розробки.

IDE-інтеграції: Функції типу NextEdit та ApplyEdit, що передбачають наступні дії користувача, стають набагато ефективнішими завдяки високій швидкості обробки.

Визнання на ринку

Mercury пройшла серйозне тестування в Copilot Arena — незалежному бенчмарку, де користувачі в «сліпому» режимі обирають кращу модель. Результати вражають: Mercury здобула найвищий бал, навіть порівняно з GPT-4o, і стала №1 за швидкістю.

Ми отримали дуже багато позитивних відгуків у соцмережах і технічній пресі, — каже Володимир.

Масштабованість та ефективність

Висока швидкість Mercury дає кілька важливих переваг для масштабування:

Можливість обслуговувати більше користувачів одночасно.
Швидший відгук для систем підтримки прийняття рішень.
Можливість генерувати довші та якісніші фрагменти коду за той самий час.

Що далі?

Mercury вже доступна для тестування на сайті Inception Labs — як через веб-інтерфейс, так і через API. Команда активно збирає фідбек від користувачів та планує випуск нових моделей найближчими місяцями.

Володимир закликає українську tech-спільноту випробувати Mercury: