Google оновлює технологію голосового пошуку, щоб зробити її швидшою та точнішою

Google розробив нову технологію для голосового пошуку, яка, за словами компанії, зробить це ще швидшим та точнішим. Нова технологія використовує коннекціоністську тимчасову класифікацію (CTC) та методи дискримінаційного навчання послідовності. У 2012 році Google перейшов від моделі Гауссової суміші (GMM) до глибоких нейронних мереж (DNN), що дозволило компанії краще оцінити, який звук видає користувач у той час, і забезпечила підвищену точність розпізнавання мовлення.

Наші вдосконалені акустичні моделі покладаються на періодичні нейронні мережі (RNN). RNN мають петлі зворотного зв'язку у своїй топології, що дозволяє моделювати тимчасові залежності: коли користувач говорить / u / у попередньому прикладі, їх артикуляційний апарат надходить від / j / звуку та від / m / звуку раніше. Спробуйте сказати це вголос - «музей» - він дуже природно тече на одному диханні, і RNN можуть це захопити. Використовуваний тут тип RNN - це довготривала короткострокова пам'ять (LSTM) RNN, яка через комірки пам’яті та складний механізм решітки запам'ятовує інформацію краще, ніж інші RNN. Прийняття таких моделей вже значно покращило якість нашого впізнавача.

Зміни в технології зробив Google, і зараз він використовується для підключення голосових пошуків у додатку Google на iOS та Android, а також диктантів на пристроях Android.

Джерело: Google Research Blog