SynthEdit - rozpoznanie poleceń głosowych

ascetic · Post autor: **ascetic** » środa 23 kwie 2008, 09:25

Chciałbym w programie SynthEdit złożyć schemat reagujący na polecenie głosowe, porównywane na bieżąco z nagranymi wcześniej próbkami.
Czy podział sygnału filtrami BP i zapisanie w tablicy ich wyjściowych amplitud w czasie to dobre rozwiązanie?
Ustawić częstotliwości odcięcia odpowiadające formantom?

Wiecie więcej ode mnie, może znacie inne metody. Tymczasem zbieram lekturę o fonetyce. Pomogłoby mi to również w innych pomysłach.

MB · Post autor: MB » środa 23 kwie 2008, 10:25

Częstotliwości formantów zmieniają się w szerokim zakresie, w zależności od płci, wieku i stanu emocjonalnego. Ten zakres jest tak szeroki, że poszczególne przedziały głęboko na siebie zachodzą. Jeśli chcesz uzyskać jakąkolwiek niezawodność rozwiązania opartego na analizie formantów to po pierwsze musisz zrezygnować z filtrów nastrojonych na stałe częstotliwości a po drugie musisz wykrywać kombinacje formantów (conajmniej 3), bo dopiero wystąpienie określonej kombinacji jest przesłanką do wnioskowania o obecności określonego fonemu w mowie (wiele zupełnie różnych fonemów ma podobne pojedyncze formanty). Chcąc rozpoznawać określone słowa musisz śledzić zmiany tych formantów w czasie i rozpoznawać określone trajektorie. To dość skomplikowane i wątpię czy da się zrealizować w SynthEdit.

Porównywanie z nagranymi wcześniej pojedynczymi próbkami to kompletne nieporozumienie. Mechanizmy rozpoznawania często opierają się na wzorcach, ale parametry dla algorytmu uzyskuje się na podstawie treningu na co najmniej kilku tysiącach różnych próbek.

ascetic · Post autor: **ascetic** » środa 23 kwie 2008, 13:26

Gdyby ograniczyć możliwości do jednego użytkownika i wąskiego zakresu poleceń? Zastanawiam się, jak realizowane jest rozpoznanie komend w telefonach sprzed kilku lat, kiedy trzeba było najpierw nagrać się (np. wybieranie określonego numeru).

Tak czy siak, będę próbował chociażby coś prymitywnego zrobić, z myślą o rozpoznaniu kilku dźwięków, wyzwalających sample. Zamiast perkusji mam tylko mikrofon. Jednak filtrowanie sygnału i rozdzielanie go wiązało się z przesłuchami. A było się uczyć matematyki :|

Dzięki i pozdrawiam.

SynthEdit - rozpoznanie poleceń głosowych

Re: SynthEdit - rozpoznanie poleceń głosowych

Re: SynthEdit - rozpoznanie poleceń głosowych