Чи може voice UI замінити графічний інтерфейс?

Навряд чи повністю. Voice UI відмінно підходить для певних завдань швидкий пошук, простих команд, hands-free використання. Але для складних візуальних завдань графічний інтерфейс кращий. Перегляд фото, редагування документів, дизайн. Майбутнє за multimodal інтерфейсами де голос та графіка доповнюють один одного.

Як voice UI впливає на доступність сайту?

Позитивно якщо реалізовано правильно. Voice UI робить сайт доступним для людей з вадами зору, моторними порушеннями, літніх людей. Але важливо не робити голос єдиним способом взаємодії. Має бути альтернатива для тих хто не може або не хоче використовувати голос. Keyboard navigation, screen readers підтримка залишаються важливими.

Блог про веб-розробку та UI/UX

Будьте з нами:

Розробка voice-інтерфейсів

Розробка інтерфейсів

Голосове керування більше не фантастика. Люди говорять зі своїми пристроями природно. Voice-інтерфейси роблять сайти та додатки зручнішими для всіх. Як додати голосове керування до вашого продукту? Досвід artARTERY.

Уявіть сайт де не треба нічого тикати. Просто кажете що потрібно і система виконує. "Покажи мені червоні кросівки 42 розміру". "Додай у кошик". "Оформи замовлення". Голосові інтерфейси роблять це реальністю. За 23 роки роботи ми в artARTERY бачили багато технологій які змінювали веб. Але голосове керування особливе. Воно робить digital-продукти доступними для всіх. Людей з вадами зору, літніх людей, тих хто за кермом або готує їжу. Розповідаємо як створити voice-інтерфейс який справді працює.

Що таке voice-інтерфейс

Voice UI це спосіб взаємодії з digital-продуктом через голос. Замість кліків, свайпів, введення тексту людина просто говорить. Система розпізнає мову, розуміє намір, виконує дію, дає голосову або візуальну відповідь. Це не просто голосові команди на кшталт "увімкни світло". Сучасні voice-інтерфейси це повноцінні діалогові системи. Вони ведуть розмову, уточнюють деталі, запам'ятовують контекст, адаптуються під користувача. Приклад простого voice UI. Інтернет-магазин додає голосовий пошук. Користувач натискає мікрофон, каже "жіночі кросівки Nike червоні". Система розпізнає запит, показує результати, може запитати "який розмір вас цікавить?". Приклад складного voice UI. Банківський додаток де всі операції можна виконати голосом. "Скільки грошей на картці?", "Переказ 500 гривень мамі", "Заблокуй картку", "Покажи витрати за місяць по категоріях". Система розуміє фінансові терміни, виконує транзакції, дає детальні відповіді.

Чому voice-інтерфейси стають популярними

Кілька причин чому бізнеси додають голосове керування до своїх продуктів.

Швидкість взаємодії

Говорити швидше ніж набирати текст. Середня людина набирає 40 слів за хвилину. Але говорить 150 слів за хвилину. Утричі швидше. Для завдань де треба ввести багато інформації голос економить час. Наприклад, пошук квартири. Набирати фільтри це довго. "2 кімнати, Київ, Печерськ, до 30 тисяч, з ремонтом, не перший поверх". А сказати це займає 5 секунд. Voice UI парсить запит та застосовує всі фільтри одразу.

Hands-free використання

Є ситуації коли руки зайняті. Водіння автомобіля, готування їжі, тренування, догляд за дитиною. В такі моменти голосове керування єдиний спосіб взаємодії з пристроєм. Рецепт-додаток з voice UI дозволяє слідувати інструкціям під час готування. "Наступний крок", "Повтори останнє", "Скільки солі". Не треба брати телефон забрудненими руками.

Доступність для всіх

Voice UI робить технології доступними для людей з обмеженими можливостями. Люди з вадами зору можуть повноцінно користуватись сайтами та додатками. Літні люди яким складно орудувати дрібними кнопками на екрані.

За даними WHO понад 1 мільярд людей у світі мають якусь форму інвалідності. Це величезна аудиторія. Додаючи voice UI ви робите продукт доступним для них.

Природність взаємодії

Говорити природніше ніж тикати кнопки. Люди спілкуються голосом тисячі років. А з комп'ютерами через графічні інтерфейси всього кілька десятиліть. Голосова взаємодія інтуїтивна. Не треба вчитись де що натискати.

Особливо це важливо для складних систем з багатьма функціями. Замість вивчати меню з сотнею пунктів просто скажіть що потрібно. Voice UI сам знайде потрібну функцію.

Типи voice-інтерфейсів

Голосові інтерфейси бувають різні за складністю та функціоналом.

Голосовий пошук

Найпростіший тип. Додаєте до звичайного пошуку можливість вводу голосом. Користувач натискає мікрофон, каже запит, система розпізнає та виконує пошук. Технічно це найлегше реалізувати. Браузери мають вбудовані API для розпізнавання мови. Кілька рядків коду і базовий голосовий пошук працює. Але навіть простий голосовий пошук має нюанси. Треба навчитись розуміти різні акценти, справлятись з фоновим шумом, коректно парсити довгі запити.

Голосові команди

Заздалегідь визначені дії які виконуються по ключових словах. "Додати у кошик", "Видалити", "Наступна сторінка", "Збільшити", "Зменшити". Цей підхід простіший у розробці ніж повноцінний діалог. Ви знаєте які команди підтримуються та можете точно їх розпізнавати. Менше ризику помилок. Добре працює для додатків де є чіткий набір дій. Плеєр музики, "Грати", "Пауза", "Наступна пісня", "Гучніше". Навігація, "Додому", "Назад", "Меню", "Налаштування".

Діалогові системи

Складніший рівень. Система веде повноцінну розмову. Розуміє контекст, запам'ятовує що говорилось раніше, може ставити уточнюючі питання. Приклад. Користувач каже "хочу купити ноутбук". Система "Для яких завдань плануєте використовувати?". Користувач "для дизайну та відеомонтажу". Система "Який бюджет?". Користувач "до 40 тисяч". Система "Покажу вам кілька варіантів" та виводить підібрані товари. Діалогові системи вимагають AI. Треба розуміти намір користувача, витягувати важливу інформацію, формувати релевантні відповіді. Але саме вони дають найкращий досвід.

Voice-first додатки

Продукти де голос основний спосіб взаємодії. Графічний інтерфейс мінімальний або відсутній. Skill для розумних колонок, голосові асистенти, аудіокниги з голосовим керуванням. Такі додатки найскладніші у розробці. Треба продумати всі можливі сценарії діалогу. Передбачити що скаже користувач. Як система відповість. Що робити якщо щось пішло не так.

Технології розпізнавання мови

Щоб створити voice UI треба розпізнавати мову. Перетворювати звук у текст. Є кілька підходів.

Браузерні API

Сучасні браузери мають Web Speech API. Це вбудована можливість розпізнавання мови. Працює безкоштовно, не потрібні сторонні сервіси. Плюси, простота інтеграції, безкоштовно, не треба сервера для обробки. Мінуси, обмежена підтримка мов, гірша точність ніж у професійних рішень, не працює в старих браузерах. Добре підходить для простих випадків. Голосовий пошук, базові команди. Для складних діалогових систем краще використовувати професійні сервіси.

Google Cloud Speech-to-Text

Професійний сервіс від Google. Висока точність розпізнавання, підтримка 125+ мов, фільтрація ненормативної лексики, розпізнавання різних акцентів. Працює через API. Відправляєте аудіо, отримуєте текст. Підтримує потокову обробку для розпізнавання в реальному часі. Платний але недорогий. Перші 60 хвилин на місяць безкоштовно. Далі ціна залежить від обсягу. Для більшості проектів витрати мінімальні.

Amazon Transcribe

Аналог від Amazon. Подібний функціонал, трохи інші ціни та особливості. Добре інтегрується з іншими сервісами AWS. Має додаткові функції. Розпізнавання кількох спікерів, автоматична пунктуація, словник для специфічних термінів.

OpenAI Whisper

Open-source модель від OpenAI. Дуже точна, особливо для складних умов. Шум, акценти, різні мови в одному аудіо. Можна запускати на власному сервері. Не треба платити за API. Але потрібні потужні сервери з GPU для швидкої обробки. Ми використовуємо різні технології залежно від проекту. Для простих завдань браузерні API. Для складних діалогових систем Google Speech-to-Text або Whisper.

Синтез мови, коли система говорить

Voice UI це не тільки розпізнавання. Система має вміти говорити. Давати голосові відповіді. Зачитувати текст. Підказувати що робити далі.

Text-to-Speech API

Браузери мають вбудований TTS. Web Speech API працює в обидві сторони. Розпізнавання та синтез мови. Голоси звучать роботично але зрозуміло. Для базових підказок підходить. "Товар додано у кошик", "Замовлення оформлено", "Помилка, спробуйте ще раз".

Google Cloud Text-to-Speech

Професійний синтез мови від Google. Природні голоси які важко відрізнити від живих людей. Підтримка 220+ голосів 40+ мовами. Можна налаштовувати інтонацію, швидкість, висоту голосу. Додавати паузи, наголоси. Створювати унікальний голос для вашого бренду.

Amazon Polly

TTS від Amazon. Схожі можливості. Цікава фішка Neural TTS. Голоси які звучать ще природніше завдяки нейронним мережам.

ElevenLabs

Новий гравець на ринку. Спеціалізується на надреалістичних голосах. Можна клонувати будь-який голос з кількох хвилин запису. Використовується для озвучування контенту, аудіокниг, подкастів. Дорожчий за Google та Amazon але якість вища. У наших проектах ми підбираємо голоси під бренд клієнта. Для банку це впевнений професійний голос. Для дитячого додатку веселий та дружній. Голос має відображати personality бренду.

Дизайн voice-інтерфейсів

Voice UI вимагає особливого підходу до дизайну. Це не просто додати кнопку мікрофона.

Conversation design

Треба спроектувати діалог. Що скаже система спочатку. Як користувач може відповісти. Що система скаже потім. Всі можливі гілки розмови. Гарна практика створювати діалогові схеми. Блок-схеми де кожен блок це репліка системи або користувача. Стрілки показують можливі шляхи розмови. Важливо передбачити помилки. Що якщо система не розпізнала. Що якщо користувач сказав щось незрозуміле. Треба м'яко попросити повторити, дати підказку.

Feedback та підтвердження

У графічному інтерфейсі ви бачите що відбувається. Натиснули кнопку, вона змінила колір. У voice UI немає візуального feedback. Треба давати голосовий. "Слухаю", "Зрозумів", "Виконую", "Готово". Короткі підтвердження що система почула та обробляє запит. Без цього користувач не впевнений чи працює система. Для критичних дій потрібне підтвердження. "Ви хочете переказати 5000 гривень Івану Петренку? Скажіть так або ні". Убезпечує від випадкових операцій.

Помилки та recovery

Система не завжди розпізнає правильно. Може бути шум, нечітка вимова, незнайоме слово. Треба вміти відновлюватись від помилок. "Вибачте, я не зрозумів. Повторіть будь ласка". "Ви сказали червоні кросівки? Так чи ні". Давати користувачу шанс виправити. Після кількох невдалих спроб запропонувати альтернативу. "Схоже у мене проблеми з розпізнаванням. Спробуйте написати текстом або зателефонуйте нам".

Multimodal design

Більшість voice UI поєднують голос та візуал. Людина говорить але також бачить екран. Використовуйте це. Показуйте результати на екрані. Користувач сказав "червоні кросівки", система зачитує "Знайшла 15 варіантів" і одночасно показує їх. Давайте можливість перемикатись між голосом та дотиками. Почали голосом, продовжили тиканням. Або навпаки.

Виклики розробки voice UI

Voice-інтерфейси це не тільки технології. Є специфічні виклики.

Різноманітність мови

Люди говорять по-різному. Акценти, діалекти, швидкість мови, чіткість вимови. Система має розуміти всіх. Треба тестувати на різних людях. Не тільки розробниках з ідеальною дикцією. Реальні користувачі говорять як говорять.

Важливо підтримувати кілька мов якщо ваша аудиторія мультимовна. В Україні це українська та російська мінімум. Для глобальних продуктів англійська обов'язкова.

Контекст та багатозначність

Одна фраза може означати різне залежно від контексту. "Червоний" може бути колір або політична прихильність. "Додай у список" додати що і в який список. Система має розуміти контекст попередніх реплік. Запам'ятовувати про що йдеться. Не питати знову інформацію яку користувач вже дав.

Приватність та безпека

Голосова взаємодія означає що система слухає. Це турбує людей. "А що якщо вона завжди слухає?" "Куди йдуть записи моїх розмов?". Будьте прозорі. Поясніть що система слухає тільки після активації. Як зберігаються та обробляються голосові дані. Дайте можливість видалити історію. Для фінансових та медичних додатків особливі вимоги безпеки. Голосова біометрія, шифрування даних, згода користувача на обробку.

Шум та якість звуку

Люди використовують voice UI в різних умовах. Вдома тихо, на вулиці шумно, в транспорті дуже шумно. Система має справлятись. Сучасні алгоритми непогано фільтрують фоновий шум. Але все одно є межа. У дуже шумних місцях голосове керування не працюватиме добре. Давайте альтернативу. Якщо система постійно не розпізнає, запропонуйте текстовий ввід.

Наш досвід розробки voice-інтерфейсів

Реальні проекти показують що працює на практиці.

Проект 1. Голосовий пошук для e-commerce. Завдання додати голосовий пошук до великого інтернет-магазину одягу та взуття. Система має розуміти складні запити типу "жіночі кросівки Nike червоні 38 розмір до 3000 гривень". Терміни 2 місяці. Результат 12% користувачів почали використовувати голосовий пошук, конверсія з голосових запитів на 18% вища ніж з текстових.

Проект 2. Voice UI для мобільного банкінгу. Додали голосове керування основними операціями. Перевірка балансу, перекази, блокування карток. Інтеграція з біометричною автентифікацією. Терміни 4 місяці. Результат 8% користувачів активно використовують голосові команди, задоволеність збільшилась на 25%.

Проект 3. Голосовий асистент для медичної клініки. Запис на прийом, інформація про лікарів, нагадування про візити. Все через голос. Терміни 3 місяці. Результат 40% записів на прийом відбувається через voice UI, навантаження на реєстратуру знизилось на 60%.

Більше прикладів нашої роботи у портфоліо. Там ви побачите різноманітність інноваційних проектів.

Інструменти та фреймворки

Для розробки voice UI є готові інструменти які прискорюють процес.

Dialogflow від Google. Платформа для створення діалогових систем. Візуальний редактор діалогів, вбудоване NLU для розуміння намірів, інтеграція з Google Assistant та іншими платформами.

Amazon Lex. Аналог від Amazon. Використовується в Alexa. Добре інтегрується з AWS сервісами.

Rasa. Open-source фреймворк для діалогових систем. Повний контроль, можна хостити на своїх серверах. Складніший у налаштуванні але гнучкіший.

Voiceflow. No-code платформа для дизайну voice UI. Дизайнери можуть створювати прототипи діалогів без програмування.

Alan AI. SDK для додавання голосового асистента у мобільні та веб додатки. Швидка інтеграція, готові шаблони діалогів.

Ми використовуємо різні інструменти залежно від проекту. Для простих завдань Dialogflow економить час. Для складних кастомних рішень Rasa дає більше контролю.

Майбутнє voice-інтерфейсів

Куди розвиваються голосові інтерфейси? Кілька трендів.

Емоційний інтелект. Системи навчаться розпізнавати емоції по голосу. Радість, смуток, роздратування. Адаптувати відповіді під емоційний стан.

Персоналізація. Voice UI запам'ятовуватиме преференції кожного користувача. Як він любить формулювати запити. Які команди використовує частіше. Налаштовуватиметься під кожного.

Мультимодальність. Поєднання голосу, дотиків, жестів, погляду. Природна взаємодія як зі співрозмовником. Почали говорити, показали пальцем, система зрозуміла.

Ambient computing. Voice UI скрізь. Будинок, автомобіль, вулиця, магазин. Безшовний досвід між різними пристроями та локаціями.

Реалістичні голоси. Синтез мови досягне рівня коли неможливо відрізнити від людини. Голосові асистенти звучатимуть як живі співрозмовники.

Компанії які впроваджують voice UI зараз готуються до майбутнього де голосова взаємодія буде нормою. Раннє впровадження дає конкурентну перевагу.

Висновок

Voice-інтерфейси змінюють як люди взаємодіють з технологіями. Говорити природніше ніж тикати. Швидше ніж набирати. Доступніше для всіх. Розробка voice UI вимагає специфічних знань. Conversation design, технології розпізнавання та синтезу мови, робота з AI. Але результат того вартий. Продукти з голосовим керуванням зручніші та сучасніші. Хочете додати voice-інтерфейс до вашого продукту? Зв'яжіться з artARTERY. 23 роки досвіду, експертиза у сучасних технологіях, успішні voice UI проекти. Ми знаємо як створити голосовий інтерфейс який полюблять користувачі.

Часті питання про voice-інтерфейси

Чи складно додати голосове керування до існуючого сайту?

Залежить від складності. Базовий голосовий пошук можна додати за кілька днів використовуючи браузерні API. Складна діалогова система з розумінням контексту потребує 2-4 місяці розробки. Найпростіше почати з простого функціоналу та поступово розширювати. MVP підхід працює добре для voice UI.

Скільки коштує розробка voice-інтерфейсу?

Простий голосовий пошук або базові команди можна реалізувати за 1-2 місяці роботи. Складна діалогова система з AI потребує 3-6 місяців. Також є постійні витрати на API розпізнавання та синтезу мови але вони зазвичай невеликі. Для більшості проектів це кілька доларів на тисячу запитів. Точний розрахунок можливий після аналізу ваших потреб.

Які браузери підтримують Web Speech API?

Chrome та Edge мають найкращу підтримку. Firefox підтримує частково. Safari на iOS працює добре, на Mac обмежено. Для максимальної сумісності краще використовувати серверні рішення типу Google Speech API які працюють скрізь. Або робити fallback на текстовий ввід для браузерів без підтримки.

Чи можна використовувати voice UI на мобільних?

Так, мобільні це навіть краще місце для voice UI ніж десктоп. Люди звикли говорити з телефонами завдяки Siri та Google Assistant. Мобільні браузери підтримують Web Speech API. Єдиний нюанс треба запитувати дозвіл на використання мікрофона. Користувач має дозволити доступ.

Як voice UI працює для людей з акцентом?

Сучасні системи розпізнавання мови добре справляються з різними акцентами завдяки навчанню на великих датасетах. Google Speech API підтримує регіональні варіанти мов. Наприклад українська мова з різних регіонів. Але дуже сильний акцент все одно може створювати проблеми. Важливо тестувати на реальних користувачах з вашої цільової аудиторії.

Чи зберігаються записи голосу користувачів

Вернуться