SynthEdit - rozpoznanie poleceń głosowych

Jeśli chcesz zasięgnąć rady, podzielić się doświadczeniem w trudnej sztuce samodzielnego programowania - to tu jest miejsce, aby tego dokonać.
ascetic
Posty:89
Rejestracja:środa 02 lut 2005, 00:00
SynthEdit - rozpoznanie poleceń głosowych

Post autor: ascetic » środa 23 kwie 2008, 09:25

Chciałbym w programie SynthEdit złożyć schemat reagujący na polecenie głosowe, porównywane na bieżąco z nagranymi wcześniej próbkami.
Czy podział sygnału filtrami BP i zapisanie w tablicy ich wyjściowych amplitud w czasie to dobre rozwiązanie?
Ustawić częstotliwości odcięcia odpowiadające formantom?

Wiecie więcej ode mnie, może znacie inne metody. Tymczasem zbieram lekturę o fonetyce. Pomogłoby mi to również w innych pomysłach.

Awatar użytkownika
MB
Posty:3318
Rejestracja:wtorek 09 kwie 2002, 00:00

Re: SynthEdit - rozpoznanie poleceń głosowych

Post autor: MB » środa 23 kwie 2008, 10:25

Częstotliwości formantów zmieniają się w szerokim zakresie, w zależności od płci, wieku i stanu emocjonalnego. Ten zakres jest tak szeroki, że poszczególne przedziały głęboko na siebie zachodzą. Jeśli chcesz uzyskać jakąkolwiek niezawodność rozwiązania opartego na analizie formantów to po pierwsze musisz zrezygnować z filtrów nastrojonych na stałe częstotliwości a po drugie musisz wykrywać kombinacje formantów (conajmniej 3), bo dopiero wystąpienie określonej kombinacji jest przesłanką do wnioskowania o obecności określonego fonemu w mowie (wiele zupełnie różnych fonemów ma podobne pojedyncze formanty). Chcąc rozpoznawać określone słowa musisz śledzić zmiany tych formantów w czasie i rozpoznawać określone trajektorie. To dość skomplikowane i wątpię czy da się zrealizować w SynthEdit.

Porównywanie z nagranymi wcześniej pojedynczymi próbkami to kompletne nieporozumienie. Mechanizmy rozpoznawania często opierają się na wzorcach, ale parametry dla algorytmu uzyskuje się na podstawie treningu na co najmniej kilku tysiącach różnych próbek.

ascetic
Posty:89
Rejestracja:środa 02 lut 2005, 00:00

Re: SynthEdit - rozpoznanie poleceń głosowych

Post autor: ascetic » środa 23 kwie 2008, 13:26

Gdyby ograniczyć możliwości do jednego użytkownika i wąskiego zakresu poleceń? Zastanawiam się, jak realizowane jest rozpoznanie komend w telefonach sprzed kilku lat, kiedy trzeba było najpierw nagrać się (np. wybieranie określonego numeru).

Tak czy siak, będę próbował chociażby coś prymitywnego zrobić, z myślą o rozpoznaniu kilku dźwięków, wyzwalających sample. Zamiast perkusji mam tylko mikrofon. Jednak filtrowanie sygnału i rozdzielanie go wiązało się z przesłuchami. A było się uczyć matematyki :|

Dzięki i pozdrawiam.

ODPOWIEDZ