Google розробив нову технологію для голосового пошуку, яка, за словами компанії, зробить це ще швидшим та точнішим. Нова технологія використовує коннекціоністську тимчасову класифікацію (CTC) та методи дискримінаційного навчання послідовності. У 2012 році Google перейшов від моделі Гауссової суміші (GMM) до глибоких нейронних мереж (DNN), що дозволило компанії краще оцінити, який звук видає користувач у той час, і забезпечила підвищену точність розпізнавання мовлення.
Наші вдосконалені акустичні моделі покладаються на періодичні нейронні мережі (RNN). RNN мають петлі зворотного зв'язку у своїй топології, що дозволяє моделювати тимчасові залежності: коли користувач говорить / u / у попередньому прикладі, їх артикуляційний апарат надходить від / j / звуку та від / m / звуку раніше. Спробуйте сказати це вголос - «музей» - він дуже природно тече на одному диханні, і RNN можуть це захопити. Використовуваний тут тип RNN - це довготривала короткострокова пам'ять (LSTM) RNN, яка через комірки пам’яті та складний механізм решітки запам'ятовує інформацію краще, ніж інші RNN. Прийняття таких моделей вже значно покращило якість нашого впізнавача.
Зміни в технології зробив Google, і зараз він використовується для підключення голосових пошуків у додатку Google на iOS та Android, а також диктантів на пристроях Android.
Джерело: Google Research Blog