Hva er DALL-E og Sora?

DALL-E er OpenAIs AI-modell for bildegenerering fra tekst, og Sora er deres videogenereringsmodell – sammen representerer de spissen av visuell generativ AI.

Kort forklart Du skriver «en astronaut som rir på en hest på månen, oljemaleringstil» – DALL-E lager bildet på sekunder. Du skriver «en drone som flyr over norsk fjordlandskap ved solnedgang» – Sora lager en fotorealistisk video. DALL-E 3 er integrert i ChatGPT og er den mest tilgjengelige AI-bildegeneratoren. Sora lager videoer opptil 1 minutt med imponerende fysikkforståelse. Sammen endrer de kreativt arbeid fundamentalt.

Hva betyr begrepet

DALL-E (navngitt etter kunstneren Salvador Dalí + Pixars WALL-E) ble lansert i tre versjoner. DALL-E 1 (januar 2021) var den første demonstrasjonen – imponerende men begrenset kvalitet. DALL-E 2 (april 2022) hadde dramatisk forbedret kvalitet med inpainting og outpainting. DALL-E 3 (oktober 2023) er integrert i ChatGPT, har nær-perfekt forståelse av tekstprompts, og er den mest brukte versjonen.

Sora ble annonsert i februar 2024 og lansert desember 2024. Den genererer videoer opptil 60 sekunder fra tekstbeskrivelser, har imponerende forståelse av fysikk og bevegelse, og er tilgjengelig via ChatGPT Plus og Pro.

Konkurrenter er Midjourney (mange mener den lager de vakreste bildene), Stable Diffusion (åpen kildekode – kan kjøres lokalt), Runway Gen-3 (video), og Kling/Hailuo (kinesiske videomodeller).

Hvordan fungerer det

Både DALL-E og Sora bruker diffusjonsmodeller – de starter med støy og fjerner den gradvis til et bilde/video fremkommer.

DALL-E 3:
Prompt: "En katt som leser avis i en kafé" → ChatGPT forbedrer prompten → Diffusjonsmodell starter med tilfeldig støy → Fjerner støy steg for steg → Bilde fremkommer → 1024×1024 resultat

Sora:
Prompt: "Drone over norsk fjord, solnedgang" → Modellen genererer video frame-for-frame → Forstår 3D-rom, lys, fysikk → 1080p video, opptil 60 sekunder

DALL-E 3 er unikt tett integrert med ChatGPT – du ber ChatGPT lage et bilde i samtalen, og den bruker DALL-E 3 bak kulissene. ChatGPT forbedrer prompten din automatisk for bedre resultater.

Hvorfor er det viktig

Visuell generativ AI demokratiserer kreativt arbeid. Tidligere krevde profesjonelle bilder en fotograf eller illustratør og timer med arbeid. Nå kan hvem som helst lage profesjonelle bilder på sekunder. Sora gjør det samme for video – noe som tidligere krevde filmteam og millionbudsjetter.

Konsekvensene er bedre tilgjengelighet (alle kan visualisere ideer), raskere iterasjon (100 varianter på minutter), lavere kostnader (markedsføring, design, konsept), men også jobbpåvirkning (illustratører, stockfoto-industrien), deepfake-risiko (realistisk falsk visuelt innhold), og opphavsrettsutfordringer (hva er originalt?).

Eksempler

Markedsføring: Et lite norsk selskap lager profesjonelle produktbilder med DALL-E 3 for nettbutikken – uten fotograf, studio eller budsjett.

Konseptdesign: En arkitekt beskriver en bygning i tekst – Sora genererer en «walkthrough»-video av konseptet. Klienten ser visjonen før én tegning er laget.

Utdanning: En lærer ber DALL-E lage illustrasjoner til en historietime – vikinger, pyramider, verdensrommet – tilpasset akkurat det hun trenger.

Vanlige spørsmål

Er DALL-E gratis?

DALL-E 3 er inkludert i ChatGPT Plus ($20/mnd) med daglige bildegenereringer. Gratis ChatGPT-brukere har begrenset tilgang.

Hvem eier bildene DALL-E lager?

Ifølge OpenAIs vilkår eier du bildene du genererer og kan bruke dem kommersielt. Men opphavsretten til AI-generert innhold er juridisk uavklart globalt.

Kan Sora lage lange videoer?

Opptil 60 sekunder per generering. For lengre innhold: kombiner flere klipp. Kvaliteten varierer – komplekse scener kan ha artefakter.

Hva er best – DALL-E, Midjourney eller Stable Diffusion?

DALL-E 3: best integrert (ChatGPT), sterkest på tekstforståelse. Midjourney: vakreste estetikk. Stable Diffusion: åpen kildekode, full kontroll.

Relaterte begreper

AI-bildegenerering – den bredere kategorien
AI-videogenerering – Soras kategori
Midjourney – den estetiske konkurrenten
Stable Diffusion – det åpne alternativet
Generativ AI – det overordnede konseptet

Se også

Oppsummering

DALL-E 3 genererer bilder fra tekst (integrert i ChatGPT) og Sora genererer video – OpenAIs visuelle AI-flaggskip. Begge bruker diffusjonsmodeller. De demokratiserer kreativt arbeid men reiser spørsmål om jobber, deepfakes og opphavsrett. DALL-E 3 er den mest tilgjengelige bildegeneratoren. Sora er den mest imponerende videogeneratoren.