Hvilke variable anvendes til stemmegenkendelse?

Musikbranche og ophavsrettigheder, musikteori, artister, sange og videoer, butikker.
Nyt svar
Medlemsavatar
Mike-air
Forum Donator
Indlæg: 10301
Sted: Oslo

Hvilke variable anvendes til stemmegenkendelse?

Indlæg af Mike-air »

Efter at have set et(vildt interessant) seminar omkring deep learning, som meget kort er nogle algoritmer der kan anvendes til at genkende ubekendte variable. Man giver computeren noget data, og lader den køre en masse iteration igennem, hvorefter den finder et match, i noget andet data.

Man taler om forskellige felter hvor deep learning kan anvendes, og talegenkendelse er én af dem. Her bliver jeg nysgerrig, for der bliver også nævnt muligheden for at genkende stemmer, altså at kunne skille dem fra hinanden, i et støjfuldt rum.

Forsøger lidt at forstå hvilke variable det er man vil gå ind og måle på her, men må indrømme min indsigt i fysik, og lydteknik er for beskeden til at jeg kan fatte det.

- Vi har nogle svingninger i luften, som bliver til noget lyd, som bliver opfanget af en microfon, hvorefter det via en computer bliver plottet på en kurve, som så er det vi kender som en waveform? Så er der noget pitch, og et frekvensspektrum... Men her går jeg så også død...

Hvilke variable kan man måle på, for at kunne skille én stemme fra en anden?
Det kan vel ikke udelukkende være pitch, for så må det vel være virkelig virkelig marginale størrelser, der skiller en stemme fra en anden?

Medlemsavatar
j79
Medlem
Indlæg: 781
Sted: Göteborg

Indlæg af j79 »

Formants ligger lige til højrebenet synes jeg, men er vel indeholdt i frekvensspektrummet du nævner...og ift at skelne kilder, lydstyrke målt med flere mics placeret forskellige steder, men det er nok noget lidt andet end det du taler om?

Taler vi real-time analyse?

Medlemsavatar
Brinkand
Forum Donator
Indlæg: 174
Sted: Nordjylland

Indlæg af Brinkand »

Hvis der er flere mikrofoner ville afstand=forsinkelse og forskellige filtreringer være et bud. Det bliver ikke nemmere hvis folk bevæger sig. Jeg hørte en gang om joint estimation, hvor ideen er at man prøver finde alle signaler (her stemmer ) samtidig. Når man så kender de kraftigste, kan de fjernes fra sammenhængen og gøre det resterende mere tydeligt.

Medlemsavatar
Mike-air
Forum Donator
Indlæg: 10301
Sted: Oslo

Indlæg af Mike-air »

j79 skrev:Formants ligger lige til højrebenet synes jeg, men er vel indeholdt i frekvensspektrummet du nævner...og ift at skelne kilder, lydstyrke målt med flere mics placeret forskellige steder, men det er nok noget lidt andet end det du taler om?

Taler vi real-time analyse?
De taler om at ens smartphone skal kunne det.. Er det realistisk, når den kun har 1 mic?

Ret sikker på det er realtime vi taler om, ja. Eksempler på eksisterende deep learning er ansigtsgenkendelse på iPhone..

Medlemsavatar
Brinkand
Forum Donator
Indlæg: 174
Sted: Nordjylland

Indlæg af Brinkand »

Smartphones kan sagtens have flere mics. Læg mærke til hvor lidt støj der er på mobilopkald fra biler ift. For ti år siden.

Medlemsavatar
scofield
Medlem
Indlæg: 223

Indlæg af scofield »

Da jeg arbejdede med talegenkendelse i mit bachelorprojekt brugte vi cepstral analyse, i særdeleshed mel-frequency cepstral coefficients (MFCC). Selve algoritmen var bygget op omkring hidden markov models (HMM).

Medlemsavatar
Mike-air
Forum Donator
Indlæg: 10301
Sted: Oslo

Indlæg af Mike-air »

scofield skrev:Da jeg arbejdede med talegenkendelse i mit bachelorprojekt brugte vi cepstral analyse, i særdeleshed mel-frequency cepstral coefficients (MFCC). Selve algoritmen var bygget op omkring hidden markov models (HMM).
That makes sense...
http://en.wikipedia.org/wiki/Mel-frequency_cepstrum

Nyt svar