- Adalah pembelajaran mendalam yang digunakan untuk pengenalan ucapan?
- Dapatkah jaringan saraf digunakan untuk pengenalan ucapan?
- Apa saja teknik peningkatan bicara?
- Bisakah kita menggunakan RNN untuk pengenalan ucapan?
Adalah pembelajaran mendalam yang digunakan untuk pengenalan ucapan?
Di era pembelajaran yang mendalam, jaringan saraf telah menunjukkan peningkatan yang signifikan dalam tugas pengenalan suara. Berbagai metode telah diterapkan seperti jaringan saraf konvolusional (CNNs), jaringan saraf berulang (RNNs), sedangkan jaringan transformator baru -baru ini telah mencapai kinerja yang hebat.
Dapatkah jaringan saraf digunakan untuk pengenalan ucapan?
Jaringan saraf sangat kuat untuk pengakuan berbicara. Ada berbagai jaringan untuk proses ini. RNN, LSTM, jaringan saraf dalam dan hibrida HMM-LSTM digunakan untuk pengenalan suara.
Apa saja teknik peningkatan bicara?
Sejumlah teknik peningkatan bicara telah dilaporkan dalam literatur [32]. Mereka termasuk pengurangan spektral [33, 34, 41], penyaringan Wiener dan Kalman [35], estimasi MMSE [36], penyaringan sisir [32], metode subruang [37, 38], dan kompensasi spektrum fase [39, 40].
Bisakah kita menggunakan RNN untuk pengenalan ucapan?
RNN tampaknya lebih alami untuk pengenalan ucapan daripada MLP karena memungkinkan variabilitas dalam panjang input [17]. Motivasi untuk menerapkan jaringan saraf berulang ke domain ini adalah untuk mengambil keuntungan dari kemampuan mereka untuk memproses fitur spektral jangka pendek tetapi belum merespons peristiwa temporal jangka panjang.