Hva er AI-modeller?

En AI-modell er et matematisk system som er trent til å utføre spesifikke oppgaver ved å gjenkjenne mønstre i data. Den er «hjernen» i ethvert AI-system – det er modellen som forstår tekst, gjenkjenner bilder, genererer musikk eller kjører en bil. Når folk snakker om GPT-4, Claude eller Midjourney, snakker de egentlig om AI-modeller.

Kort forklart En AI-modell er et program som har lært fra enorme mengder data og kan bruke det den har lært til å utføre oppgaver – svare på spørsmål, lage bilder, oversette tekst eller predikere fremtidige hendelser.

Hvordan en AI-modell lages

Arkitektur

Først velges modellens arkitektur – den matematiske strukturen som definerer hvordan modellen prosesserer data. Transformer er den dominerende arkitekturen for språkmodeller. CNN (Convolutional Neural Networks) brukes for bildegjenkjenning. Diffusjonsmodeller brukes for bildegenerering. RNN/LSTM brukes for sekvensdata som tidsserier.

Arkitekturen bestemmer hva modellen kan lære og hvor effektivt den kan gjøre det.

Trening

Under trening eksponeres modellen for enorme mengder data og justerer sine interne parametere (vekter) for å bli bedre til oppgaven. For en språkmodell betyr dette å lese milliarder av tekster og lære å predikere neste ord. For en bildemodell betyr det å se millioner av bilder og lære å gjenkjenne mønstre.

Trening krever enorm datakraft – trening av GPT-4 kostet anslagsvis over 100 millioner dollar i beregningsressurser.

Evaluering

Etter trening evalueres modellen på data den aldri har sett for å måle hvor godt den generaliserer. Benchmarks som MMLU, HumanEval og HellaSwag tester ulike aspekter av modellens kapasitet.

Finjustering

Mange modeller gjennomgår en ekstra fase der de finjusteres for spesifikke oppgaver eller tilpasses til å være mer hjelpsomme og trygge via RLHF eller Constitutional AI.

Typer AI-modeller

Språkmodeller (LLM)

Store språkmodeller forstår og genererer tekst. De driver ChatGPT, Claude, Gemini og hundrevis av andre AI-tjenester. Eksempler er GPT-4, Claude Opus, Gemini Ultra, Llama 3 og Mistral. Bruksområder inkluderer tekstgenerering, oversettelse, koding, analyse og samtale.

Bildemodeller

Bildemodeller genererer eller analyserer bilder. Generative modeller som Stable Diffusion, DALL-E og Midjourney lager bilder fra tekst. Klassifiseringsmodeller som ResNet og EfficientNet gjenkjenner objekter i bilder. Deteksjonsmodeller som YOLO identifiserer og lokaliserer objekter.

Talemodeller

Talemodeller konverterer mellom tale og tekst. Whisper fra OpenAI konverterer tale til tekst. ElevenLabs og andre TTS-modeller konverterer tekst til naturlig tale. Talegjenkjenning identifiserer hvem som snakker.

Videomodeller

Videomodeller er det nyeste feltet. Sora fra OpenAI genererer video fra tekst. Runway Gen-3 tilbyr videogenerering og -redigering. Stable Video Diffusion genererer video fra bilder.

Multimodale modeller

Multimodale modeller prosesserer flere datatyper. GPT-4o forstår tekst, bilder og lyd. Gemini prosesserer tekst, bilder, lyd og video. Claude forstår tekst, bilder og dokumenter.

Embedding-modeller

Embedding-modeller konverterer data til vektorer for semantisk søk. OpenAI text-embedding-3, Cohere Embed og BGE er populære valg. De driver RAG-systemer og anbefalingsmotorer.

Spesialiserte modeller

AlphaFold predikerer proteinstrukturer for legemiddelutvikling. Codex og CodeLlama er spesialisert for kodegenerering. MedPaLM er optimalisert for medisinsk spørsmålssvar. FinGPT er tilpasset finansiell analyse.

Foundation models (grunnmodeller)

Foundation models er store, generelle modeller trent på enorme datamengder som kan tilpasses til mange ulike oppgaver. GPT-4, Claude og Llama er alle foundation models. De representerer en paradigmeendring – i stedet for å trene en spesifikk modell for hver oppgave, trener du én stor modell som kan tilpasses til tusenvis av oppgaver via prompting eller finjustering.

Foundation models krever enorme ressurser å trene – milliarder av dollar i datakraft – men verdien er at én investering skaper en plattform som kan brukes til utallige formål.

Modellstørrelser

AI-modeller varierer enormt i størrelse. Små modeller med 1–7 milliarder parametere kan kjøres på en laptop og er gode for spesifikke oppgaver. Mellomstore modeller med 13–70 milliarder parametere krever en kraftig GPU og gir god allround-ytelse. Store modeller med 100–400+ milliarder parametere krever datacenter-infrastruktur og er de mest kapable. MoE-modeller kan ha billioner av parametere men aktiverer bare en brøkdel per forespørsel.

Større er generelt bedre for ytelse, men også dyrere å kjøre. Valget avhenger av brukstilfellet – en liten, finjustert modell kan overgå en stor generell modell for sin spesifikke oppgave.

Proprietære vs. åpne modeller

Proprietære modeller som GPT-4, Claude og Gemini er kun tilgjengelig via API eller brukergrensesnitt, gir best ytelse for de mest krevende oppgavene, og krever betaling og sender data til leverandøren. Åpne modeller som Llama, Mistral og Stable Diffusion kan lastes ned og kjøres lokalt, gir full kontroll og personvern, er gratis å bruke, men kan ha noe lavere toppytelse.

For de fleste bedrifter er en kombinasjon ideell – proprietære modeller for kvalitetskritiske oppgaver og åpne modeller for kostnads- og personvernsensitive brukstilfeller.

Evaluering og benchmarks

AI-modeller evalueres med standardiserte tester. MMLU tester bred kunnskapsforståelse. HumanEval tester kodingsevne. HellaSwag tester sunn fornuft-resonnering. GPQA tester ekspertnivå spørsmålssvar. Arena Elo fra LMSYS rangerer modeller basert på menneskelig preferanse.

Benchmarks er nyttige men ufullstendige – de fanger ikke alle aspekter av modellkvalitet. Praktisk testing for ditt spesifikke brukstilfelle er alltid viktig.

AI-modeller og norsk

For norskspråklige brukstilfeller er modellvalg viktig. Claude og GPT-4 gir de beste norske resultatene blant kommersielle modeller. Llama 3 og Mistral håndterer norsk godt blant åpne modeller. Norske forskningsmiljøer utvikler norskspesifikke modeller som NorBERT. Embedding-modeller som Cohere Multilingual støtter norsk for semantisk søk.

Ofte stilte spørsmål

Hva er forskjellen mellom en AI-modell og en AI-app?

Modellen er «hjernen» – det matematiske systemet. Appen er produktet – brukergrensesnittet du interagerer med. ChatGPT er appen, GPT-4 er modellen.

Kan jeg lage min egen AI-modell?

Å trene fra bunnen av krever enorme ressurser. Men du kan finjustere eksisterende modeller med dine data – noe som er realistisk for de fleste. Eller du kan bruke ferdige modeller via API.

Hvilken AI-modell er best?

Det avhenger av oppgaven. For generelt bruk er Claude Opus og GPT-4o blant de beste. For koding er Claude og GPT-4 sterke. For bildegenering er Midjourney og DALL-E ledende. Det finnes ingen enkelt «beste» modell for alt.

Blir AI-modeller bedre over tid?

Ja. Nye modeller lanseres jevnlig med bedre ytelse. Skalering av data og datakraft gir konsekvent forbedring. Men fremgangen kan også møte begrensninger – det er et aktivt forskningsspørsmål.