Hva er Whisper?
Whisper er OpenAIs åpne kildekode-modell for tale-til-tekst (speech-to-text) som transkriberer tale med nær-menneskelig nøyaktighet på 100+ språk – inkludert norsk – og kan oversette fra ethvert språk til engelsk.
Kort forklart Du har et møteopptak, en podcast eller et intervju på norsk. Whisper transkriberer det til tekst – automatisk, nøyaktig, og gratis. Den forstår aksenter, bakgrunnsstøy og fagterminologi bedre enn noen tidligere talegjenkjenning. Whisper er åpen kildekode – du kan kjøre den lokalt (ingen data sendes til sky), via OpenAIs API, eller gjennom titalls apper som bygger på den. Den støtter 100+ språk inkludert norsk, svensk og dansk.
Hva betyr begrepet
Whisper ble lansert i september 2022 som åpen kildekode. Den er en transformer-basert encoder-decoder-modell trent på 680 000 timer med flerspråklig tale fra internett. Modellen håndterer transkribering (tale → tekst på samme språk), oversettelse (tale på ethvert språk → engelsk tekst), språkdeteksjon (identifiserer automatisk hvilket språk det snakkes), og tidsstempling (markerer når hvert ord/setning sies).
Whisper finnes i flere størrelser: tiny (39M parametere, raskest, lavest kvalitet), base (74M), small (244M), medium (769M), og large-v3 (1,5B parametere, best kvalitet, trenger GPU).
For norsk gir Whisper large-v3 utmerket kvalitet – den forstår bokmål og mange dialekter. Nynorsk og sterke dialekter kan gi noe lavere nøyaktighet.
Hvordan fungerer det
Whisper konverterer tale til tekst via en transformer-modell.
Lydfil (møte, podcast, intervju)
↓
Whisper prosesserer:
Konverterer lyd → mel-spektrogram (visuell representasjon av lyd)
Encoder: analyserer lyden
Decoder: genererer tekst token for token
↓
Output: Transkribret tekst med tidsstempler
Eksempel:
[00:00] "Velkommen til møtet. Vi skal diskutere budsjettet for neste kvartal."
[00:05] "Først vil jeg gå gjennom salgsresultatene..."
Du kan kjøre Whisper lokalt med pip install openai-whisper og whisper audio.mp3 --language Norwegian, via OpenAI API ($0,006 per minutt), eller gjennom apper som MacWhisper, Buzz eller otter.ai.
Hvorfor er det viktig
Whisper demokratiserte tale-til-tekst. Før Whisper var god transkribering dyr (profesjonelle tjenester) eller dårlig (Siri, Google). Whisper gir profesjonell kvalitet, gratis, i åpen kildekode, på 100+ språk.
Bruksområder er møtetranskribering (aldri skriv møtenotater manuelt igjen), podcastteksting (tilgjengelighet + SEO), intervjutranskribering (journalister, forskere), undertekster (video-tilgjengelighet), og tale-til-tekst i apper (bygge egne produkter).
Eksempler
Møtenotat: Du tar opp et 60-minutters møte. Whisper transkriberer det på 5 minutter. Du sender transkripsjonen til Claude: «oppsummer hovedpunktene og aksjonspunktene.»
Podcast SEO: Du transkriberer alle podcast-episodene med Whisper og publiserer teksten – søkemotorer kan nå indeksere innholdet.
Lokal privat: Du kjører Whisper lokalt på konfidensielle samtaler – ingen data forlater maskinen.
Vanlige spørsmål
Er Whisper gratis?
Åpen kildekode-versjonen: ja, helt gratis. OpenAI API: $0,006 per minutt (~3,60 kr per time). Apper som bygger på Whisper: varierer.
Hvor god er Whisper på norsk?
Large-v3 er utmerket på bokmål og de fleste dialekter. Sterk dialekt og nynorsk kan gi noe lavere nøyaktighet. Betydelig bedre enn Google/Apple talegjenkjenning.
Kan jeg kjøre Whisper lokalt?
Ja – tiny/base/small kjører på laptop uten GPU. Medium/large trenger GPU eller Apple Silicon M-chip for rimelig hastighet.
Hva er forskjellen på Whisper og Siri/Google?
Whisper er mye mer nøyaktig, støtter 100+ språk, er åpen kildekode, og kan kjøres lokalt. Siri/Google er sanntids (raskere for diktering) men mindre nøyaktige.
Relaterte begreper
- AI-stemme og tale – den bredere kategorien
- Kunstig intelligens – det overordnede feltet
- ChatGPT – bruker Whisper for taleinnput
- Transformer-arkitekturen – Whispers arkitektur
- Åpen kildekode AI – Whisper er åpen
Se også
Oppsummering
Whisper er OpenAIs åpne tale-til-tekst-modell – transkriberer 100+ språk (inkludert norsk) med nær-menneskelig nøyaktighet. Åpen kildekode, kan kjøres lokalt. Revolusjonerte transkribering for møter, podcaster og intervjuer. Gratis lokalt, $0,006/min via API. Large-v3 gir best kvalitet. Det er standarden for AI-drevet talegjenkjenning.