
Сьогодні великі технологічні компанії, такі як Google, Apple, Microsoft та Amazon, активно працюють над створенням новітніх голосових сервісів. В оновленій версії iOS 7 ми бачимо знайому Siri, але з додатковими функціями та новими голосами. Процес створення таких технологій — це справжнє мистецтво.
Як комп’ютери навчаються говорити?
Процес навчання мови для комп’ютерів надзвичайно складний і раніше був неможливим, навіть десять років тому. Сучасні технології дозволяють створювати голоси, які звучать природно, але за цим стоїть серйозна наукова робота та інновації.
Задля досягнення максимального результату кожен голос для Siri записує окремий актор. Проте, робота на цьому не завершується. Голос, записаний актором, проходить довгий шлях, поки не стане частиною голосового помічника, який здатний спілкуватися з користувачем. Це технологічний процес, що займає кілька місяців.
Роль синтезу мови та його інновації

Синтез мови — це індустрія, що постійно розвивається, і працівники цієї галузі часто уникають прямих відповідей. Наприклад, хоча Nuance є лідером у створенні голосів для Siri, експерти компанії не підтверджують цю інформацію офіційно. Тим не менш, вони погоджуються поділитися базовими аспектами процесу синтезу голосу.
Підготовка голосових даних для систем синтезу
Голосова система повинна бути здатною вимовити будь-яке слово з величезного словника. Для цього вибираються спеціальні фрази, що містять різноманітні фонетичні комбінації. Чим більше даних, тим більш реалістичним буде результат, що дозволяє створити голос, що звучить природно.
Збір даних та їх обробка
Після того як актор озвучує слова, вони аналізуються лінгвістами та програмним забезпеченням, щоб створити великі бази даних, що включають всі можливі варіації звуків. Цей процес займає кілька місяців і потребує висококваліфікованих лінгвістів та технологічних фахівців.
Кожне слово, що звучить в системі синтезу, створюється із застосуванням спеціальних технологій. Це дозволяє відтворювати мову акторів, навіть якщо вони не вимовляли певні фрази, але звуки виходять схожими на природну мову.
Психологія синтезу мови
Робота голосових технологій вимагає врахування безлічі факторів, таких як положення мови і взаємодія фонем, що дозволяє створити максимально природне звучання. Це завдання є «титанічним» за словами одного з лінгвістів.
Майбутнє голосових помічників
Перспективи розвитку технології голосових помічників виглядають вражаюче. Сьогодні Siri вже взаємодіє з користувачами, як живе істота, і багато хто сподівається, що в майбутньому голосові системи зможуть розпізнавати емоційний стан користувача та адаптувати голос відповідно до ситуації, наприклад, надаючи заспокійливі репліки у стресових ситуаціях.
