Коли Абдулай Діак, менеджер програм у Google Research, підрозділі Google, присвяченому розвитку передових досягнень у комп'ютерних науках та застосуванню цих проривів до реальних проблем, розповідає про походження WAXAL, набору мовних даних з відкритим кодом від Google Research Africa, він починає з одного слова.
«WAXAL означає "розмова"», — сказав він TechCabal, зазначивши його коріння у волоф, мові, якою широко розмовляють у регіоні Сенегамбія.
Назва, обрана у 2020 році сенегальським науковим керівником Google Мустафою Сіссе, відображає більшу правду про траєкторію розвитку ШІ в Африці: на континенті з понад 2000 мовами, більшість яких розмовні, а не письмові, голос — це не опція; це точка входу.
Роками цифрові технології зосереджувалися на грамотності, клавіатурах і тексті. Але в Африці мова живе в розмові — на ринках, фермах, клініках та вдома. ШІ, який не може аналізувати акценти, інтонацію або перемикання між мовами, не може належним чином обслуговувати більшість африканців. WAXAL прагне це змінити. Замість того, щоб зосереджуватися виключно на перекладі тексту, проєкт створює фундаментальну інфраструктуру для мовного ШІ в африканських мовах з обмеженими ресурсами, зосереджуючись на побудові величезного високоякісного центру лінгвістичної "сировини".
«Мати ШІ, який може розмовляти з нами нашою мовою та розуміти нас, будь то наш акцент чи інтонація, насправді дуже важливо», — сказав Діак.
Виклик починається з різкого дисбалансу. Понад 50% усіх веб-сайтів англійською мовою та кількома західними мовами. Понад 2000 африканських мов ледве реєструються в глобальних цифрових наборах даних. Більшість недостатньо представлені в інтернеті. Багато не мають значного письмового вираження. Деякі взагалі не стандартизовані.
Якщо моделі ШІ навчаються на цифровому тексті, а цифровий текст майже не існує для африканських мов, тоді континент починає гонку ШІ зі структурним недоліком.
«Це не нова проблема», — сказав Діак. «Люди в дослідженнях усвідомлюють цей величезний розрив у відсутності даних».
Без даних моделі неможливо навчити. Без навчених моделей системи ШІ неправильно чують, неправильно перекладають або ігнорують цілі популяції. Діак розповідає про поширене розчарування: розмова з франкомовним африканським акцентом, поки система запису заміток ШІ намагається зрозуміти його. Технологія існує, але вона не налаштована на локальний контекст.
Цей розрив WAXAL хоче усунути.
Офіційно запущений у лютому 2026 року після трьох років розробки, WAXAL створив один з найбільших наборів мовних даних для африканських мов на сьогоднішній день: понад 11 000 годин записаного мовлення з майже 2 мільйонів окремих записів, що охоплюють 21 мову Субсахарської Африки, включаючи хауса, йоруба, луганда та ачолі.
Окрім загального збору мовлення, Google заявив, що інвестував понад 20 годин високоякісних студійних записів для розробки природно звучних синтетичних голосів для голосових помічників. Ці студійні преміум-записи призначені для того, щоб відповіді ШІ звучали менш роботизовано та більш культурно автентично.
Google структурував ініціативу як партнерську модель. Університети, такі як Університет Макерере в Уганді та Університет Гани, очолили велику частину збору даних. Локальні партнери зберігають право власності на набори даних, які були випущені з відкритим кодом за ліцензіями, що дозволяють комерційне використання.
«Ми переважно надавали керівництво та фінансування», — пояснив Діак. «Усі ці набори даних нам не належать. Вони належать партнерам, з якими ми працюємо».
Амбіція полягає не лише в тому, щоб живити власні продукти Google, але й посіяти екосистему.
Протягом кількох днів після випуску набір даних зареєстрував понад 4000 завантажень, що є раннім знаком залучення дослідників та розробників, за словами Діака
Google вже пропонує інструменти перекладу багатьма мовами. Тож чому починати з нуля?
Тому що переклад — це не мовлення.
Традиційний машинний переклад покладається на «паралельний текст», речення, написані однією мовою, які узгоджуються з їх еквівалентами іншою мовою. Для мов з обмеженими ресурсами такі паралельні корпуси майже не існують. І навіть коли переклад працює, він не вирішує глибшу проблему: багато африканців взаємодіють з технологіями переважно через мовлення.
«Багато людей на континенті фактично не вміють читати і писати», — сказав Діак. «Голос — це в основному шлюз до технологій».
Уявіть фермера в Кадуні, який запитує про прогноз погоди мовою хауса. Або матір у сільському ганському селі, яка шукає поради щодо харчування місцевою мовою. Текстові системи передбачають грамотність та стандартизований правопис. Голосові системи повинні орієнтуватися в діалектах, сленгу, перемиканні між мовами та атипових мовних моделях.
У Гані проєкт розпізнавання мовлення, ініціатива UGSpeechData, створив понад 5000 годин аудіоданих. Ця ініціатива пізніше дозволила розробити чат-бота для материнського здоров'я, який працює місцевими мовами. Він також поширився на роботу з атиповим мовленням, допомагаючи спільнотам глухих людей та людей, які пережили інсульт, чиї мовні моделі часто збивають з пантелику основні системи ШІ.
«Системи ШІ не адаптовані до цього», — сказав Діак. «Якщо у вас різні типи мовлення, система, ймовірно, не зрозуміє вас».
Google не єдиний у цій гонці.
Masakhane, низова дослідницька колективна організація з відкритим кодом, створила системи перекладу понад 45 африканськими мовами та розробила Lulu, еталон для оцінки моделей африканських мов. Його філософія — це спільнота насамперед і повна відкритість.
Lelapa AI з Південної Африки, заснована колишніми дослідниками DeepMind, зосереджується на комерційних продуктах обробки природної мови (NLP) для африканського бізнесу. Її флагманська модель Vulavula фіксує діалекти та міські моделі перемикання між мовами в ісізулу, сесото та африкаанс. Lelapa підкреслює набори даних «достовірності» та значний аналіз людських помилок — дорогий, але високоточний підхід.
Lesan AI в Ефіопії створив одні з найточніших систем перекладу для амхарської, тигринья та оромо, використовуючи модель з участю людини для забезпечення культурних нюансів.
Проєкт Meta No Language Left Behind (NLLB-200) використовує масштабний підхід, перекладаючи 200 мовами, включаючи 55 африканських, використовуючи навчання з нульовою вибіркою. Microsoft, тим часом, інтегрує африканські мови в Microsoft Translator та інвестує в багатомодальні сільськогосподарські набори даних через проєкти, такі як Gecko.
Ініціатива African Next Voices, фінансована Фондом Гейтса, запущена наприкінці 2025 року, створивши 9000 годин мовних даних 18 мовами.
Екосистема різноманітна: колективи з відкритим кодом, комерційні стартапи, гіганти Big Tech, філантропічні фінансисти. Кожен підходить до проблеми по-різному: масштаб проти глибини, текст проти голосу, відкритий проти власницького.
Відмінність Google полягає в його мовно-орієнтованому, екосистемно-орієнтованому підході.
Проте залучення глобальних технологічних гігантів неминуче викликає питання щодо суверенітету та залежності від даних.
Якщо Google координує випуск багатомовних мовних наборів даних, чи створює це структурну залежність від продуктів Google? Чи можуть локальні розробники стати залежними від інструментів, вбудованих у Gemini, Search або Android?
Діак визнає напругу, але застерігає від того, щоб стати настільки конфліктним, що нічого не робиться з приводу представленої можливості.
«Найважливіше — це те, що ми не залишаємося позаду», — сказав він. «Я точно не хочу, щоб мої дані використовувалися неправильно. Але це про те, щоб дати змогу підприємцям, стартапам та дослідникам працювати над даними, які дійсно важливі».
Він проводить паралелі з партнерствами між університетами та технологічними компаніями в Сполучених Штатах та Європі. Співпраця, стверджує він, прискорює розбудову спроможностей. Дослідники, залучені до ранніх проєктів, вже опублікували статті та просунулися на глобальні дослідницькі ролі.
Модель відкритого ліцензування є центральною для цього аргументу. Розробники можуть створювати комерційні продукти на основі наборів даних WAXAL, не залежачи від власницьких API Google. Google також випустив моделі перекладу з відкритою вагою, такі як Translate Gemma, які можна завантажити та налаштувати незалежно.
Чи задовольнить цей баланс критиків, залишається побачити. Але масштаб мовного розриву свідчить про те, що бездіяльність може нести більші ризики.
Голосовий ШІ не існує ізольовано. Він вимагає підключення, пропускної здатності та обчислювальної інфраструктури.
«Ви не можете навчати моделі ШІ без правильної інфраструктури», — сказав Діак.
Google інвестував у підводні кабелі, включаючи посадку кабелю Equiano в Нігерії та інших африканських ринках, щоб зміцнити стійкість широкосмугового зв'язку. Розрізи волокна останніми роками виявили крихкість регіональних мереж. Надлишкова, високопотужна інфраструктура є необхідною не лише для хмарних сервісів, але й для локальних дата-центрів, ключового стовпа цифрового суверенітету.
Розвиток ШІ залежить від трьох основ: люди, дані та інфраструктура. Молоде населення Африки, яке, за прогнозами, становитиме велику частку глобальних користувачів ШІ в найближчі десятиліття, пропонує демографічну перевагу. Але без інвестицій у дослідницький потенціал та цифрову інфраструктуру демографічний потенціал не перетвориться на технологічне лідерство.
Щоб уникнути фрагментації, Google перейшов від ізольованих університетських партнерств до більш скоординованих моделей співпраці. Одне з таких зусиль передбачає роботу з мовним центром Masakhane та іншими волонтерськими мережами, щоб дати змогу дослідникам та стартапам подавати заявки на фінансування та робити внесок у спільні набори даних.
«Якщо ми всі робимо свою власну справу по всьому континенту, це неефективно», — сказав Діак. «Нам потрібні спільні зусилля».
Наразі WAXAL охопив 27 мов, включаючи чотири нігерійські. Деякі з уже охоплених мов включають ачолі, акан, дагааре, дагбані, дхолуо, еве, фанте, фулані (фула), хауса, ігбо, ікпосо (кпосо), кікуйю, лінгала, луганда, малагасійська, масааба, нянколе, рукіга, шона, сога (лусога), суахілі та йоруба.
Амбіція охопити всі понад 2000 африканських мов є амбітною, можливо, міжпоколіннєвою.
«Це моя мрія», — сказав Діак.
Але пріоритизація має значення. Він вказує на освіту, сільське господарство та охорону здоров'я як критичні сфери, де голосовий ШІ може забезпечити вимірний вплив, узгоджений з цілями сталого розвитку.
Прогноз погоди, інтегрований у Google Search, покращений завдяки африканським дослідницьким ініціативам, вже демонструє глобальний ефект поширення. Проєкти виявлення хвороб касави, такі як PlantVillage Nuru, розроблені в рамках партнерства між Університетом Пенн Стейт, Міжнародним інститутом тропічного сільського господарства (IITA) та Консультативною групою з міжнародних сільськогосподарських досліджень (CGIAR), вплинули на сільськогосподарський ШІ за межами Африки. Ці прецеденти свідчать про те, що рішення, створені для Африки, можуть масштабуватися глобально.
Збір голосових даних у середовищах з обмеженими ресурсами є дорогим. Польові записи, транскрипція, лінгвістична валідація та синтез голосу студійної якості вимагають постійного фінансування.
Інвестиція Google є частиною ширшого галузевого зсуву від скрапінгу доступного тексту до інвестування в оригінальні мовні дані. Модель перевірки Lelapa AI з участю людини підкреслює вартість точності. Набір даних Meta FLORES-200 покладався на професійних перекладачів. Ініціативи Microsoft щодо сільськогосподарського голосу включають тисячі анотованих відео.
Якість має значення. Синтетичні голоси повинні звучати природно. Системи розпізнавання повинні обробляти перемикання між мовами. Міське мовлення часто змішує англійську, місцеві мови та сленг у одному реченні.
Африканський ШІ не може бути побудований виключно через автоматизацію; він вимагає культурної та лінгвістичної експертизи.
Для Діака успіх вимірюється не лише інтеграцією продуктів.
«Я хочу бачити стартапи, які використовують набір даних для надання послуг місцевими мовами», — сказав він. «Я хочу бачити дослідників, які пишуть статті на основі наших мов, а не лише англійською».
Однак, зрештою, двері, які будує Google, повинні вести кудись конкретно. Це включає продукти Google; Search, Gemini, голосові помічники, які вільно взаємодіють йоруба, волоф, хауса або луганда. Але це також включає незалежні стартапи, що створюють фінтех-інструменти, чат-боти для охорони здоров'я або системи сільськогосподарського консультування.
Якщо що, майбутнє ШІ в Африці залежить від того, чи стане голос вирівнюючою силою чи іншою втраченою можливістю. Якщо мовлення залишається невизнаним глобальними системами, мільярди слів, які щодня промовляються на континенті, залишаться цифрово невидимими.

