Som jeg forstod det, er der for dem en stor præference for Wav2vec over whisper, fordi førstnævnte tager alle lyde med (jeg husker ikke fagtermet, for det er ikke mit ekspertise område), hvor whisper blot spytter ord (tokens) ud fra et vocabulary, men til gengæld er ganske robust overfor støj. Skal man som i mit område «bare» vide hvad kunden vil, så er whisper klart at foretrække. Modsat, så er politiet, sundhedssektor m.fl. Mere interesserede i wav2vec for at få mest muligt ud af optagelsen. Dictus og de andre kommercielle aktører (som sværger til wav2vec) processerer efterfølgende teksten hvis den eks. Skal være mere subtitle venlig m.m.
Konklusionen er nok at whisper arkitekturen vil give det mest almene resultat på tværs af optageforhold - men der er gang i begge arkitekturer indenfor dansk open source. Jeg følger lige op om et par dage med en integration af din kode og flere danske open source modeller! Go påsk!