Strona 1 z 1
SynthEdit - rozpoznanie poleceń głosowych
: środa 23 kwie 2008, 09:25
autor: ascetic
Chciałbym w programie SynthEdit złożyć schemat reagujący na polecenie głosowe, porównywane na bieżąco z nagranymi wcześniej próbkami.
Czy podział sygnału filtrami BP i zapisanie w tablicy ich wyjściowych amplitud w czasie to dobre rozwiązanie?
Ustawić częstotliwości odcięcia odpowiadające formantom?
Wiecie więcej ode mnie, może znacie inne metody. Tymczasem zbieram lekturę o fonetyce. Pomogłoby mi to również w innych pomysłach.
Re: SynthEdit - rozpoznanie poleceń głosowych
: środa 23 kwie 2008, 10:25
autor: MB
Częstotliwości formantów zmieniają się w szerokim zakresie, w zależności od płci, wieku i stanu emocjonalnego. Ten zakres jest tak szeroki, że poszczególne przedziały głęboko na siebie zachodzą. Jeśli chcesz uzyskać jakąkolwiek niezawodność rozwiązania opartego na analizie formantów to po pierwsze musisz zrezygnować z filtrów nastrojonych na stałe częstotliwości a po drugie musisz wykrywać kombinacje formantów (conajmniej 3), bo dopiero wystąpienie określonej kombinacji jest przesłanką do wnioskowania o obecności określonego fonemu w mowie (wiele zupełnie różnych fonemów ma podobne pojedyncze formanty). Chcąc rozpoznawać określone słowa musisz śledzić zmiany tych formantów w czasie i rozpoznawać określone trajektorie. To dość skomplikowane i wątpię czy da się zrealizować w SynthEdit.
Porównywanie z nagranymi wcześniej pojedynczymi próbkami to kompletne nieporozumienie. Mechanizmy rozpoznawania często opierają się na wzorcach, ale parametry dla algorytmu uzyskuje się na podstawie treningu na co najmniej kilku tysiącach różnych próbek.
Re: SynthEdit - rozpoznanie poleceń głosowych
: środa 23 kwie 2008, 13:26
autor: ascetic
Gdyby ograniczyć możliwości do jednego użytkownika i wąskiego zakresu poleceń? Zastanawiam się, jak realizowane jest rozpoznanie komend w telefonach sprzed kilku lat, kiedy trzeba było najpierw nagrać się (np. wybieranie określonego numeru).
Tak czy siak, będę próbował chociażby coś prymitywnego zrobić, z myślą o rozpoznaniu kilku dźwięków, wyzwalających sample. Zamiast perkusji mam tylko mikrofon. Jednak filtrowanie sygnału i rozdzielanie go wiązało się z przesłuchami. A było się uczyć matematyki :|
Dzięki i pozdrawiam.