Як навчити штучний інтелект читати українською: найцікавіше з FutureTech MeetUp

Більшість розмов про штучний інтелект на FutureTech MeetUp. AI First крутилися навколо того, що моделі вже вміють. Кейноут Дмитра Войтеха, AI/ML Lead у «Мрії» та радника заступника міністра економіки з питань ШІ, був про протилежне: про масив української інформації, якого машини досі не бачать.

Мільйони рукописних документів в архівах та держорганах лишаються для алгоритмів сліпою плямою. Саме її і прагне позбавитись RUKOPYS — перший в Україні відкритий розмічений датасет рукописного тексту для навчання штучного інтелекту та розвитку технологій оптичного розпізнавання символів.

Пропущений шар цифровізації

Мінцифри анонсувало публікацію близько 10 терабайтів даних із Державного архіву для розширення бази, на якій навчають українську мовну модель. Але значну частину цих текстів просто неможливо прочитати — ані машиною, ані людиною.

У держархівах, за оцінкою Дмитра, до 80% даних або написані або давнім почерком, який не завжди розбере й людина, або на вицвілих аркушах, де вже нічого не видно.

І задача не зовсім у розпізнаванні тексту в класичному сенсі. Машина має зрозуміти структуру документа й типи обʼєктів на сторінці: де рукопис, де друк, де таблиця, а потім — врахувати контекст: верх сторінки часто підказує, що написано внизу.

«Те, що ви можете отримати через звичайні інструменти на ринку, не адаптоване під весь перелік проблем», — зазначив Войтех.

Тут потрібна складна агентна система, якої сьогодні в готовому вигляді не існує.

Як навчити модель казати «ні»

Готову відкриту модель завжди можна змусити «прочитати» вицвілий аркуш — ось тільки результат не матиме нічого спільного з реальністю.

Для архівів, судів та реєстрів впевнена вигадка штучного інтелекту небезпечніша за чесне «не можу прочитати». Тож якість датасету тут вимірюється не лише тим, скільки модель розпізнала, а й тим, де вона коректно відмовилася.

Дмитро Войтех, AI/ML Lead у «Мрії» та радник заступника міністра економіки з питань ШІ

Чому це питання суверенітету

Далі Войтех показав, чому власні дані й моделі — не патріотична примха, а інженерна необхідність.

Замаскувати персональні дані в набраному цифровому тексті нескладно. А у скані?

Для цього вже потрібна окрема модель детекції. Якщо її немає, дані доводиться переправляти за кордон, використовуючи іноземні рішення, що багатьом організаціям забороняє робити їхня внутрішня політика.

Виникає ризик залежності. Для звичайних текстових задач можна безболісно перемкнутися з однієї моделі на іншу. Але якщо йдеться про рукописи, ще ц українські, — ніхто не знає, як їх читатиме, скажімо, наступний реліз Gemini.

Цих даних у навчальних корпусах глобальних моделей мізерно мало, і промпт, який працює сьогодні, завтра може вже не впоратись.

Хакатон «Handwritten to Data»

RUKOPYS обʼєднує тексти із дуже різних джерел — шкільні домашні роботи, екзаменаційні роботи двох університетів, дані Держархіву та диктанти Національної єдності. На основі цього унікального датасету триває відкритий хакатон Handwritten to Data, долучитися до якого може кожен.

За перший місяць рішення учасників на базі локальних моделей вже на 7% випередили те, яке команда використовувала для автоанотації на сторонньому сервісі. Тобто, українські напрацювання обходять одне з топових рішень на ринку.

Метрика змагання оцінює не лише розпізнаний текст, а й точність визначення та класифікації регіонів сторінки. Головним технологічним партнером хакатону стала компанія-учасниця Спілки De Novo.

Перші бенефіціари проєкту вже відомі: держсервіс «єДозвіл» від Мінекономіки; освітня платформа «Мрія», що має розвантажити вчителів від перевірки домашніх робіт, Нацполіція та Держархів. Фінал змагань відбудеться у Київській школі економіки.

Дмитро Войтех сформулював мету ініціативи як «дати можливість нашому штучному інтелекту бачити більше», а ще — дати перший поштовх для розвитку екосистеми, після якого зʼявляються домени, похідні моделі й синтетичні датасети.

Дмитро Войтех, AI/ML Lead у «Мрії» та радник заступника міністра економіки з питань ШІ

Читайте найцікавіше з панельної дискусії «AI в Defence Tech» на FutureTech MeetUp: AI First — про автономність бойових технологій, етичні межі ШІ та пропозиції щодо розвитку українського defence tech, а також лідери технологічної екосистеми обговорили вплив штучного інтелекту на бізнес, освіту й оборону, а провідні експерти галузі під час панельної дискусія «AI future vision: тренди та прогнози».

Дякуємо

Наш FutureTech MeetUp: АІ-First відбувся завдяки підтримці надійних партнерів Diia.City United: AI HOUSE, IT SmartFlex та HPE by Sophela.

Щиро вдячні й усім друзям Спілки, які допомогли зробити цей вечір по-справжньому особливим: Дія.City, Ukrainian Startup Fund, American Chamber of Commerce in Ukraine, Ukrainian Corporate Governance Academy, Vuzoll, Challenger Accelerator, Radar Tech, De Novo, DOU, Defender Media, Marketer, dev.ua, AIN.UA, Tala Water, Underwood Brewery, Kyiv Kraut, Kombucha Wild, BOX Catering, Холдинг Шериф.