Киев, Украина
аrtARTERY | Digital-агентство
Разработка и создание сайтов - веб-студия в Киеве (Украина)
Телефон:
Email:
Техническая поддержка проектов:
support@artartery.net
Обратная связь
У вас есть интересный проект? У нас есть решение для вас!
Уявіть сайт де не треба нічого тикати. Просто кажете що потрібно і система виконує. "Покажи мені червоні кросівки 42 розміру". "Додай у кошик". "Оформи замовлення". Голосові інтерфейси роблять це реальністю. За 23 роки роботи ми в artARTERY бачили багато технологій які змінювали веб. Але голосове керування особливе. Воно робить digital-продукти доступними для всіх. Людей з вадами зору, літніх людей, тих хто за кермом або готує їжу. Розповідаємо як створити voice-інтерфейс який справді працює.
Voice UI це спосіб взаємодії з digital-продуктом через голос. Замість кліків, свайпів, введення тексту людина просто говорить. Система розпізнає мову, розуміє намір, виконує дію, дає голосову або візуальну відповідь.
Це не просто голосові команди на кшталт "увімкни світло". Сучасні voice-інтерфейси це повноцінні діалогові системи. Вони ведуть розмову, уточнюють деталі, запам'ятовують контекст, адаптуються під користувача.
Приклад простого voice UI. Інтернет-магазин додає голосовий пошук. Користувач натискає мікрофон, каже "жіночі кросівки Nike червоні". Система розпізнає запит, показує результати, може запитати "який розмір вас цікавить?".
Приклад складного voice UI. Банківський додаток де всі операції можна виконати голосом. "Скільки грошей на картці?", "Переказ 500 гривень мамі", "Заблокуй картку", "Покажи витрати за місяць по категоріях". Система розуміє фінансові терміни, виконує транзакції, дає детальні відповіді.
Кілька причин чому бізнеси додають голосове керування до своїх продуктів.
Говорити швидше ніж набирати текст. Середня людина набирає 40 слів за хвилину. Але говорить 150 слів за хвилину. Утричі швидше. Для завдань де треба ввести багато інформації голос економить час.
Наприклад, пошук квартири. Набирати фільтри це довго. "2 кімнати, Київ, Печерськ, до 30 тисяч, з ремонтом, не перший поверх". А сказати це займає 5 секунд. Voice UI парсить запит та застосовує всі фільтри одразу.
Є ситуації коли руки зайняті. Водіння автомобіля, готування їжі, тренування, догляд за дитиною. В такі моменти голосове керування єдиний спосіб взаємодії з пристроєм.
Рецепт-додаток з voice UI дозволяє слідувати інструкціям під час готування. "Наступний крок", "Повтори останнє", "Скільки солі". Не треба брати телефон забрудненими руками.
Voice UI робить технології доступними для людей з обмеженими можливостями. Люди з вадами зору можуть повноцінно користуватись сайтами та додатками. Літні люди яким складно орудувати дрібними кнопками на екрані.
За даними WHO понад 1 мільярд людей у світі мають якусь форму інвалідності. Це величезна аудиторія. Додаючи voice UI ви робите продукт доступним для них.
Говорити природніше ніж тикати кнопки. Люди спілкуються голосом тисячі років. А з комп'ютерами через графічні інтерфейси всього кілька десятиліть. Голосова взаємодія інтуїтивна. Не треба вчитись де що натискати.
Особливо це важливо для складних систем з багатьма функціями. Замість вивчати меню з сотнею пунктів просто скажіть що потрібно. Voice UI сам знайде потрібну функцію.
Голосові інтерфейси бувають різні за складністю та функціоналом.
Найпростіший тип. Додаєте до звичайного пошуку можливість вводу голосом. Користувач натискає мікрофон, каже запит, система розпізнає та виконує пошук.
Технічно це найлегше реалізувати. Браузери мають вбудовані API для розпізнавання мови. Кілька рядків коду і базовий голосовий пошук працює.
Але навіть простий голосовий пошук має нюанси. Треба навчитись розуміти різні акценти, справлятись з фоновим шумом, коректно парсити довгі запити.
Заздалегідь визначені дії які виконуються по ключових словах. "Додати у кошик", "Видалити", "Наступна сторінка", "Збільшити", "Зменшити".
Цей підхід простіший у розробці ніж повноцінний діалог. Ви знаєте які команди підтримуються та можете точно їх розпізнавати. Менше ризику помилок.
Добре працює для додатків де є чіткий набір дій. Плеєр музики, "Грати", "Пауза", "Наступна пісня", "Гучніше". Навігація, "Додому", "Назад", "Меню", "Налаштування".
Складніший рівень. Система веде повноцінну розмову. Розуміє контекст, запам'ятовує що говорилось раніше, може ставити уточнюючі питання.
Приклад. Користувач каже "хочу купити ноутбук". Система "Для яких завдань плануєте використовувати?". Користувач "для дизайну та відеомонтажу". Система "Який бюджет?". Користувач "до 40 тисяч". Система "Покажу вам кілька варіантів" та виводить підібрані товари.
Діалогові системи вимагають AI. Треба розуміти намір користувача, витягувати важливу інформацію, формувати релевантні відповіді. Але саме вони дають найкращий досвід.
Продукти де голос основний спосіб взаємодії. Графічний інтерфейс мінімальний або відсутній. Skill для розумних колонок, голосові асистенти, аудіокниги з голосовим керуванням.
Такі додатки найскладніші у розробці. Треба продумати всі можливі сценарії діалогу. Передбачити що скаже користувач. Як система відповість. Що робити якщо щось пішло не так.
Щоб створити voice UI треба розпізнавати мову. Перетворювати звук у текст. Є кілька підходів.
Сучасні браузери мають Web Speech API. Це вбудована можливість розпізнавання мови. Працює безкоштовно, не потрібні сторонні сервіси.
Плюси, простота інтеграції, безкоштовно, не треба сервера для обробки. Мінуси, обмежена підтримка мов, гірша точність ніж у професійних рішень, не працює в старих браузерах.
Добре підходить для простих випадків. Голосовий пошук, базові команди. Для складних діалогових систем краще використовувати професійні сервіси.
Професійний сервіс від Google. Висока точність розпізнавання, підтримка 125+ мов, фільтрація ненормативної лексики, розпізнавання різних акцентів.
Працює через API. Відправляєте аудіо, отримуєте текст. Підтримує потокову обробку для розпізнавання в реальному часі.
Платний але недорогий. Перші 60 хвилин на місяць безкоштовно. Далі ціна залежить від обсягу. Для більшості проектів витрати мінімальні.
Аналог від Amazon. Подібний функціонал, трохи інші ціни та особливості. Добре інтегрується з іншими сервісами AWS.
Має додаткові функції. Розпізнавання кількох спікерів, автоматична пунктуація, словник для специфічних термінів.
Open-source модель від OpenAI. Дуже точна, особливо для складних умов. Шум, акценти, різні мови в одному аудіо.
Можна запускати на власному сервері. Не треба платити за API. Але потрібні потужні сервери з GPU для швидкої обробки.
Ми використовуємо різні технології залежно від проекту. Для простих завдань браузерні API. Для складних діалогових систем Google Speech-to-Text або Whisper.
Voice UI це не тільки розпізнавання. Система має вміти говорити. Давати голосові відповіді. Зачитувати текст. Підказувати що робити далі.
Браузери мають вбудований TTS. Web Speech API працює в обидві сторони. Розпізнавання та синтез мови.
Голоси звучать роботично але зрозуміло. Для базових підказок підходить. "Товар додано у кошик", "Замовлення оформлено", "Помилка, спробуйте ще раз".
Професійний синтез мови від Google. Природні голоси які важко відрізнити від живих людей. Підтримка 220+ голосів 40+ мовами.
Можна налаштовувати інтонацію, швидкість, висоту голосу. Додавати паузи, наголоси. Створювати унікальний голос для вашого бренду.
TTS від Amazon. Схожі можливості. Цікава фішка Neural TTS. Голоси які звучать ще природніше завдяки нейронним мережам.
Новий гравець на ринку. Спеціалізується на надреалістичних голосах. Можна клонувати будь-який голос з кількох хвилин запису.
Використовується для озвучування контенту, аудіокниг, подкастів. Дорожчий за Google та Amazon але якість вища.
У наших проектах ми підбираємо голоси під бренд клієнта. Для банку це впевнений професійний голос. Для дитячого додатку веселий та дружній. Голос має відображати personality бренду.
Voice UI вимагає особливого підходу до дизайну. Це не просто додати кнопку мікрофона.
Треба спроектувати діалог. Що скаже система спочатку. Як користувач може відповісти. Що система скаже потім. Всі можливі гілки розмови.
Гарна практика створювати діалогові схеми. Блок-схеми де кожен блок це репліка системи або користувача. Стрілки показують можливі шляхи розмови.
Важливо передбачити помилки. Що якщо система не розпізнала. Що якщо користувач сказав щось незрозуміле. Треба м'яко попросити повторити, дати підказку.
У графічному інтерфейсі ви бачите що відбувається. Натиснули кнопку, вона змінила колір. У voice UI немає візуального feedback. Треба давати голосовий.
"Слухаю", "Зрозумів", "Виконую", "Готово". Короткі підтвердження що система почула та обробляє запит. Без цього користувач не впевнений чи працює система.
Для критичних дій потрібне підтвердження. "Ви хочете переказати 5000 гривень Івану Петренку? Скажіть так або ні". Убезпечує від випадкових операцій.
Система не завжди розпізнає правильно. Може бути шум, нечітка вимова, незнайоме слово. Треба вміти відновлюватись від помилок.
"Вибачте, я не зрозумів. Повторіть будь ласка". "Ви сказали червоні кросівки? Так чи ні". Давати користувачу шанс виправити.
Після кількох невдалих спроб запропонувати альтернативу. "Схоже у мене проблеми з розпізнаванням. Спробуйте написати текстом або зателефонуйте нам".
Більшість voice UI поєднують голос та візуал. Людина говорить але також бачить екран. Використовуйте це.
Показуйте результати на екрані. Користувач сказав "червоні кросівки", система зачитує "Знайшла 15 варіантів" і одночасно показує їх.
Давайте можливість перемикатись між голосом та дотиками. Почали голосом, продовжили тиканням. Або навпаки.
Voice-інтерфейси це не тільки технології. Є специфічні виклики.
Люди говорять по-різному. Акценти, діалекти, швидкість мови, чіткість вимови. Система має розуміти всіх.
Треба тестувати на різних людях. Не тільки розробниках з ідеальною дикцією. Реальні користувачі говорять як говорять.
Важливо підтримувати кілька мов якщо ваша аудиторія мультимовна. В Україні це українська та російська мінімум. Для глобальних продуктів англійська обов'язкова.
Одна фраза може означати різне залежно від контексту. "Червоний" може бути колір або політична прихильність. "Додай у список" додати що і в який список.
Система має розуміти контекст попередніх реплік. Запам'ятовувати про що йдеться. Не питати знову інформацію яку користувач вже дав.
Голосова взаємодія означає що система слухає. Це турбує людей. "А що якщо вона завжди слухає?" "Куди йдуть записи моїх розмов?".
Будьте прозорі. Поясніть що система слухає тільки після активації. Як зберігаються та обробляються голосові дані. Дайте можливість видалити історію.
Для фінансових та медичних додатків особливі вимоги безпеки. Голосова біометрія, шифрування даних, згода користувача на обробку.
Люди використовують voice UI в різних умовах. Вдома тихо, на вулиці шумно, в транспорті дуже шумно. Система має справлятись.
Сучасні алгоритми непогано фільтрують фоновий шум. Але все одно є межа. У дуже шумних місцях голосове керування не працюватиме добре.
Давайте альтернативу. Якщо система постійно не розпізнає, запропонуйте текстовий ввід.
Реальні проекти показують що працює на практиці.
Проект 1. Голосовий пошук для e-commerce. Завдання додати голосовий пошук до великого інтернет-магазину одягу та взуття. Система має розуміти складні запити типу "жіночі кросівки Nike червоні 38 розмір до 3000 гривень". Терміни 2 місяці. Результат 12% користувачів почали використовувати голосовий пошук, конверсія з голосових запитів на 18% вища ніж з текстових.
Проект 2. Voice UI для мобільного банкінгу. Додали голосове керування основними операціями. Перевірка балансу, перекази, блокування карток. Інтеграція з біометричною автентифікацією. Терміни 4 місяці. Результат 8% користувачів активно використовують голосові команди, задоволеність збільшилась на 25%.
Проект 3. Голосовий асистент для медичної клініки. Запис на прийом, інформація про лікарів, нагадування про візити. Все через голос. Терміни 3 місяці. Результат 40% записів на прийом відбувається через voice UI, навантаження на реєстратуру знизилось на 60%.
Більше прикладів нашої роботи у портфоліо. Там ви побачите різноманітність інноваційних проектів.
Для розробки voice UI є готові інструменти які прискорюють процес.
Dialogflow від Google. Платформа для створення діалогових систем. Візуальний редактор діалогів, вбудоване NLU для розуміння намірів, інтеграція з Google Assistant та іншими платформами.
Amazon Lex. Аналог від Amazon. Використовується в Alexa. Добре інтегрується з AWS сервісами.
Rasa. Open-source фреймворк для діалогових систем. Повний контроль, можна хостити на своїх серверах. Складніший у налаштуванні але гнучкіший.
Voiceflow. No-code платформа для дизайну voice UI. Дизайнери можуть створювати прототипи діалогів без програмування.
Alan AI. SDK для додавання голосового асистента у мобільні та веб додатки. Швидка інтеграція, готові шаблони діалогів.
Ми використовуємо різні інструменти залежно від проекту. Для простих завдань Dialogflow економить час. Для складних кастомних рішень Rasa дає більше контролю.
Куди розвиваються голосові інтерфейси? Кілька трендів.
Емоційний інтелект. Системи навчаться розпізнавати емоції по голосу. Радість, смуток, роздратування. Адаптувати відповіді під емоційний стан.
Персоналізація. Voice UI запам'ятовуватиме преференції кожного користувача. Як він любить формулювати запити. Які команди використовує частіше. Налаштовуватиметься під кожного.
Мультимодальність. Поєднання голосу, дотиків, жестів, погляду. Природна взаємодія як зі співрозмовником. Почали говорити, показали пальцем, система зрозуміла.
Ambient computing. Voice UI скрізь. Будинок, автомобіль, вулиця, магазин. Безшовний досвід між різними пристроями та локаціями.
Реалістичні голоси. Синтез мови досягне рівня коли неможливо відрізнити від людини. Голосові асистенти звучатимуть як живі співрозмовники.
Компанії які впроваджують voice UI зараз готуються до майбутнього де голосова взаємодія буде нормою. Раннє впровадження дає конкурентну перевагу.
Voice-інтерфейси змінюють як люди взаємодіють з технологіями. Говорити природніше ніж тикати. Швидше ніж набирати. Доступніше для всіх.
Розробка voice UI вимагає специфічних знань. Conversation design, технології розпізнавання та синтезу мови, робота з AI. Але результат того вартий. Продукти з голосовим керуванням зручніші та сучасніші.
Хочете додати voice-інтерфейс до вашого продукту? Зв'яжіться з artARTERY. 23 роки досвіду, експертиза у сучасних технологіях, успішні voice UI проекти. Ми знаємо як створити голосовий інтерфейс який полюблять користувачі.
Чи складно додати голосове керування до існуючого сайту?
Залежить від складності. Базовий голосовий пошук можна додати за кілька днів використовуючи браузерні API. Складна діалогова система з розумінням контексту потребує 2-4 місяці розробки. Найпростіше почати з простого функціоналу та поступово розширювати. MVP підхід працює добре для voice UI.
Скільки коштує розробка voice-інтерфейсу?
Простий голосовий пошук або базові команди можна реалізувати за 1-2 місяці роботи. Складна діалогова система з AI потребує 3-6 місяців. Також є постійні витрати на API розпізнавання та синтезу мови але вони зазвичай невеликі. Для більшості проектів це кілька доларів на тисячу запитів. Точний розрахунок можливий після аналізу ваших потреб.
Які браузери підтримують Web Speech API?
Chrome та Edge мають найкращу підтримку. Firefox підтримує частково. Safari на iOS працює добре, на Mac обмежено. Для максимальної сумісності краще використовувати серверні рішення типу Google Speech API які працюють скрізь. Або робити fallback на текстовий ввід для браузерів без підтримки.
Чи можна використовувати voice UI на мобільних?
Так, мобільні це навіть краще місце для voice UI ніж десктоп. Люди звикли говорити з телефонами завдяки Siri та Google Assistant. Мобільні браузери підтримують Web Speech API. Єдиний нюанс треба запитувати дозвіл на використання мікрофона. Користувач має дозволити доступ.
Як voice UI працює для людей з акцентом?
Сучасні системи розпізнавання мови добре справляються з різними акцентами завдяки навчанню на великих датасетах. Google Speech API підтримує регіональні варіанти мов. Наприклад українська мова з різних регіонів. Але дуже сильний акцент все одно може створювати проблеми. Важливо тестувати на реальних користувачах з вашої цільової аудиторії.
Чи зберігаються записи голосу користувачів