Hvilke variable anvendes til stemmegenkendelse?

Musikbranche og ophavsrettigheder, musikteori, artister, sange og videoer, butikker.
Brugeravatar
Mike-air
Forum Donator
Forum Donator
Indlæg: 8697

Hvilke variable anvendes til stemmegenkendelse?

Indlæg Skrevet: 4. feb 2015, 18:12

Efter at have set et(vildt interessant) seminar omkring deep learning, som meget kort er nogle algoritmer der kan anvendes til at genkende ubekendte variable. Man giver computeren noget data, og lader den køre en masse iteration igennem, hvorefter den finder et match, i noget andet data.

Man taler om forskellige felter hvor deep learning kan anvendes, og talegenkendelse er én af dem. Her bliver jeg nysgerrig, for der bliver også nævnt muligheden for at genkende stemmer, altså at kunne skille dem fra hinanden, i et støjfuldt rum.

Forsøger lidt at forstå hvilke variable det er man vil gå ind og måle på her, men må indrømme min indsigt i fysik, og lydteknik er for beskeden til at jeg kan fatte det.

- Vi har nogle svingninger i luften, som bliver til noget lyd, som bliver opfanget af en microfon, hvorefter det via en computer bliver plottet på en kurve, som så er det vi kender som en waveform? Så er der noget pitch, og et frekvensspektrum... Men her går jeg så også død...

Hvilke variable kan man måle på, for at kunne skille én stemme fra en anden?
Det kan vel ikke udelukkende være pitch, for så må det vel være virkelig virkelig marginale størrelser, der skiller en stemme fra en anden?
Brugeravatar
j79
Executive Producer
Executive Producer
Indlæg: 780
Sted: Göteborg

Re: Hvilke variable anvendes til stemmegenkendelse?

Indlæg Skrevet: 4. feb 2015, 19:50

Formants ligger lige til højrebenet synes jeg, men er vel indeholdt i frekvensspektrummet du nævner...og ift at skelne kilder, lydstyrke målt med flere mics placeret forskellige steder, men det er nok noget lidt andet end det du taler om?

Taler vi real-time analyse?
Brugeravatar
Brinkand
Forum Donator
Forum Donator
Indlæg: 173
Sted: Nordjylland

Re: Hvilke variable anvendes til stemmegenkendelse?

Indlæg Skrevet: 4. feb 2015, 20:57

Hvis der er flere mikrofoner ville afstand=forsinkelse og forskellige filtreringer være et bud. Det bliver ikke nemmere hvis folk bevæger sig. Jeg hørte en gang om joint estimation, hvor ideen er at man prøver finde alle signaler (her stemmer ) samtidig. Når man så kender de kraftigste, kan de fjernes fra sammenhængen og gøre det resterende mere tydeligt.
Brugeravatar
Mike-air
Forum Donator
Forum Donator
Indlæg: 8697

Re: Hvilke variable anvendes til stemmegenkendelse?

Indlæg Skrevet: 4. feb 2015, 21:08

j79 skrev:Formants ligger lige til højrebenet synes jeg, men er vel indeholdt i frekvensspektrummet du nævner...og ift at skelne kilder, lydstyrke målt med flere mics placeret forskellige steder, men det er nok noget lidt andet end det du taler om?

Taler vi real-time analyse?


De taler om at ens smartphone skal kunne det.. Er det realistisk, når den kun har 1 mic?

Ret sikker på det er realtime vi taler om, ja. Eksempler på eksisterende deep learning er ansigtsgenkendelse på iPhone..
Brugeravatar
Brinkand
Forum Donator
Forum Donator
Indlæg: 173
Sted: Nordjylland

Re: Hvilke variable anvendes til stemmegenkendelse?

Indlæg Skrevet: 4. feb 2015, 21:20

Smartphones kan sagtens have flere mics. Læg mærke til hvor lidt støj der er på mobilopkald fra biler ift. For ti år siden.
Brugeravatar
scofield
Bag pulten
Bag pulten
Indlæg: 209

Re: Hvilke variable anvendes til stemmegenkendelse?

Indlæg Skrevet: 5. feb 2015, 13:04

Da jeg arbejdede med talegenkendelse i mit bachelorprojekt brugte vi cepstral analyse, i særdeleshed mel-frequency cepstral coefficients (MFCC). Selve algoritmen var bygget op omkring hidden markov models (HMM).
Brugeravatar
Mike-air
Forum Donator
Forum Donator
Indlæg: 8697

Re: Hvilke variable anvendes til stemmegenkendelse?

Indlæg Skrevet: 5. feb 2015, 14:00

scofield skrev:Da jeg arbejdede med talegenkendelse i mit bachelorprojekt brugte vi cepstral analyse, i særdeleshed mel-frequency cepstral coefficients (MFCC). Selve algoritmen var bygget op omkring hidden markov models (HMM).


That makes sense...
http://en.wikipedia.org/wiki/Mel-frequency_cepstrum

Tilbage til "Branche & Teori"

Hvem er online

Brugere der læser dette forum: Ingen og 1 gæst