Hva er AI-videogenerering?

AI-videogenerering er teknologien som bruker kunstig intelligens for å lage videoklipp fra tekstbeskrivelser, bilder eller eksisterende video. Det som for bare få år siden virket som science fiction – å skrive en setning og få en realistisk video tilbake – er nå en realitet med verktøy som Sora, Runway og Kling.

Kort forklart AI-videogenerering lar deg lage videoklipp ved å beskrive hva du vil se. Teknologien er i rask utvikling og produserer stadig mer realistiske og sammenhengende videoer.

Hvordan AI-videogenerering fungerer

AI-videomodeller bygger på mange av de samme prinsippene som bildegenereringsmodeller, men med den ekstra utfordringen av tid – videoer er sekvenser av bilder som må være konsistente og flyte naturlig.

De fleste modeller bruker en variant av diffusjonsmodeller tilpasset video. Modellen lærer mønstre for bevegelse, fysikk og visuell konsistens fra millioner av videoklipp, og kan deretter generere nye videoer som følger disse mønstrene – styrt av en tekstbeskrivelse.

Noen modeller genererer video ramme for ramme med mekanismer for å sikre konsistens mellom rammene. Andre genererer hele videoen som en samlet enhet i et latent rom, noe som gir bedre flyt og sammenheng.

De viktigste verktøyene

Sora (OpenAI)

Sora er OpenAIs videomodell som vakte enorm oppmerksomhet ved annonsering i februar 2024. Den kan generere videoer opptil 60 sekunder med imponerende fotorealistisk kvalitet, konsistent fysikk og komplekse kamerabevegelser. Sora forstår 3D-rom, refleksjoner og komplekse scener med flere objekter.

Sora representerer et sprang i kvalitet, men har begrensninger med svært komplekse bevegelser, fysikk i kanttilfeller og lange, sammenhengende sekvenser.

Runway Gen-3

Runway er en av pionerene innen AI-video og tilbyr Gen-3 som deres nyeste modell. Runway er tilgjengelig som en webapplikasjon med et brukervennlig grensesnitt. I tillegg til tekst-til-video støtter Runway bilde-til-video der du animerer et stillbilde, video-til-video der du endrer stilen på en eksisterende video, og avansert redigering med AI-drevne redigeringsverktøy.

Runway er populært blant filmskapere og innholdsskapere på grunn av sin allsidighet og tilgjengelighet.

Kling (Kuaishou)

Kling fra kinesiske Kuaishou har imponert med svært realistiske videoer av mennesker og ansiktsuttrykk. Modellen er spesielt sterk på portrettvideoer og emosjonelle uttrykk, noe som gjør den relevant for reklame og sosiale medier.

Pika

Pika tilbyr en tilgjengelig plattform for AI-videogenerering med fokus på brukervennlighet. Den er spesielt populær for korte sosiale medier-klipp og kreative prosjekter.

Stable Video Diffusion

Stability AIs åpen kildekode-videomodell. Som med Stable Diffusion for bilder, gir dette mulighet for lokal kjøring, tilpasning og finjustering – men krever betydelig datakraft.

Bruksområder

Markedsføring og reklame

AI-video transformerer markedsføringsinnhold gjennom produktvideoer der produkter vises i ulike miljøer og bruksscenarier, sosiale medier-innhold med korte, engasjerende klipp for TikTok, Reels og Shorts, annonser med personaliserte videoannonser tilpasset ulike målgrupper, og konseptvideoer for rask visualisering av kampanjeidéer.

Film og underholdning

Filmbransjen bruker AI-video for konseptvisualisering og storyboarding, visuelle effekter og bakgrunner, animasjon av statiske konseptbilder, og prototyping av scener og sekvenser.

Utdanning og opplæring

AI-genererte videoer brukes i opplæringsvideoer med visualisering av komplekse prosesser, historisk gjenskapelse med visuell fremstilling av historiske hendelser, vitenskapelig visualisering av prosesser som er vanskelig å filme, og språkopplæring med scenariobaserte videøvelser.

E-handel

Nettbutikker bruker AI-video for produktdemoer der produkter vises i bruk uten dyr videoproduksjon, modellvideoer der klær og tilbehør vises på AI-genererte modeller, og 360-graders visning med produkter sett fra alle vinkler.

Kvalitet og begrensninger

AI-videogenerering har gjort enorme fremskritt, men har fortsatt tydelige begrensninger. Hender og fingre er fortsatt problematiske og kan ha feil antall fingre eller unaturlige bevegelser. Fysikk kan bryte sammen der objekter kan oppføre seg ufysisk – passere gjennom hverandre eller ignorere tyngdekraften. Konsistens over tid der lange videoer kan ha objekter som endrer utseende eller forsvinner. Tekst i video er vanskelig å generere lesbar, korrekt tekst inne i videoen. Komplekse interaksjoner mellom flere mennesker eller objekter i en scene er utfordrende.

Kvaliteten forbedres raskt, og mange av disse begrensningene vil sannsynligvis løses i nær fremtid.

Tekst-til-video prompting

Effektive videoprompts beskriver scene og setting, spesifiserer bevegelse og handling, angir kamerabevegelse som panorering, zoom eller dolly, beskriver belysning og atmosfære, og definerer stil som filmatisk, animasjon eller dokumentar.

En god videoprompt kan være: «Sakte drone-shot over en norsk fjord ved solnedgang, gyllent lys reflekterer i vannet, tåkeslører rundt fjellene, filmatisk kvalitet, 4K». Jo mer spesifikk du er om bevegelse, lys og stil, jo bedre kontroll har du.

Etiske hensyn

AI-video reiser alvorlige etiske spørsmål. Deepfakes kan brukes til å lage overbevisende falske videoer av virkelige personer som sier eller gjør ting de aldri har gjort. Desinformasjon ved at realistisk falsk video kan brukes til å spre falske nyheter. Opphavsrett der treningsdata inkluderer opphavsrettsbeskyttet video. Arbeidsmarkedet der tradisjonelle videoproduksjonsroller påvirkes.

Mange plattformer implementerer vannmerking og deteksjonsverktøy for å identifisere AI-generert video, og lovgivning om AI-generert innhold er under utvikling i mange land.

AI-video og norsk innhold

For norske innholdsskapere gir AI-video muligheter for produksjon av norskspråklig videoinnhold til en brøkdel av tradisjonelle kostnader. Norske landskap og arkitektur kan brukes som setting – de fleste modeller kan generere overbevisende fjord-, fjell- og bylandskap.

For norsk tale i video kan AI-stemmegenereringsverktøy som ElevenLabs kombineres med AI-video for å lage komplett norskspråklig videoinnhold.

Fremtiden for AI-video

Utviklingen akselererer raskt. Trender inkluderer lengre videoer der nåværende begrensning på sekunder til minutter vil utvides, bedre kontroll med mer presis styring av bevegelse, kamera og redigering, sanntidsgenerering der videoer genereres nær sanntid for interaktive opplevelser, og integrasjon med redigeringsverktøy der AI-video blir et naturlig verktøy i profesjonelle redigeirngsprogrammer.

Ofte stilte spørsmål

Hvor lange videoer kan AI generere?

De fleste verktøy genererer klipp på 4–30 sekunder. Sora kan generere opptil 60 sekunder. Lengre videoer krever vanligvis at flere klipp settes sammen.

Koster AI-videogenerering mye?

Prisene varierer. Runway starter på ca. 120 kr per måned. Pika har en generøs gratisplan. Sora er tilgjengelig via ChatGPT Plus. Lokale løsninger med Stable Video Diffusion er gratis men krever kraftig maskinvare.

Kan AI-video erstatte tradisjonell videoproduksjon?

For enkle markedsføringsklipp og konseptvisualisering ja. For profesjonell film, dokumentar og kvalitetsinnhold er AI-video foreløpig best som supplement til tradisjonell produksjon.

Er det lovlig å bruke AI-video kommersielt?

Generelt ja, men sjekk lisensvilkårene for verktøyet du bruker. Unngå å generere videoer av virkelige, identifiserbare personer uten samtykke. Lovgivningen er under utvikling.