Hva er CNN (Convolutional Neural Network)?
CNN (Convolutional Neural Network) er en nevralnettverk-arkitektur spesialdesignet for å analysere visuell data – bilder og video – gjennom filtre som gjenkjenner mønstre fra kanter og farger til komplekse objekter.
Kort forklart CNN-er «ser» bilder på samme måte som hjernen: først gjenkjenner de enkle kanter og farger, deretter kombinerer de disse til former, og til slutt gjenkjenner de objekter – «det er en katt.» Filtre (konvolusjoner) glir over bildet og fanger opp mønstre på hvert nivå. CNN-er driver all visuell AI: ansiktsgjenkjenning, selvkjørende biler, medisinsk bildeanalyse og innholdsmoderasjon. Det er grunnlaget for datasyn.
Hva betyr begrepet
CNN skiller seg fra vanlige nevrale nettverk ved å bruke konvolusjonslag – filtre som glir over input-bildet og fanger lokale mønstre. Et bilde på 224×224 piksler har over 150 000 datapunkter – et vanlig nevralt nettverk ville trenge milliarder av parametere. CNN deler parametere via filtre – dramatisk mer effektivt.
Arkitekturen har tre typer lag. Konvolusjonslag (filtre som oppdager mønstre – kanter, teksturer, former) er kjernen. Pooling-lag (reduserer bildestørrelse, beholder viktig info) forenkler. Fullt tilkoblede lag (klassifiserer basert på lærte features) avslutter.
Hierarkiet er elegant: lag 1 fanger kanter og farger, lag 2 kombinerer kanter til former (sirkler, rektangler), lag 3–5 gjenkjenner deler (øyne, hjul, blader), og topplagene gjenkjenner objekter (katt, bil, tre).
Kjente CNN-arkitekturer er AlexNet (2012 – startet deep learning-revolusjonen), ResNet (2015 – 152 lag med residual connections), EfficientNet (2019 – optimal balanse mellom størrelse og ytelse), og Vision Transformer/ViT (2020 – transformers som utfordrer CNN for datasyn).
Hvordan fungerer det
CNN-filtre glir over bildet og oppdager mønstre.
Input: Bilde av katt (224×224 piksler)
↓
Konvolusjon 1: 32 filtre → Oppdager kanter, farger
Pooling 1: Reduserer til 112×112
↓
Konvolusjon 2: 64 filtre → Oppdager former, teksturer
Pooling 2: Reduserer til 56×56
↓
Konvolusjon 3-5: 128-512 filtre → Oppdager øyne, ører, pels
↓
Fullt tilkoblet: → "Katt" (97 % sannsynlighet)
Hvorfor er det viktig
CNN er grunnlaget for all visuell AI – fra Facebooks ansiktsgjenkjenning til Teslas autopilot til kreftdeteksjon i røntgenbilder. Det var CNN-gjennombruddet (AlexNet, 2012) som startet den moderne AI-revolusjonen.
Vision Transformers (ViT) utfordrer nå CNN-er for noen oppgaver, men CNN-er er fortsatt dominerende for sanntids bildeanalyse, mobil-AI (effektiv på liten maskinvare), og medisinsk bildeanalyse.
Eksempler
Ansiktsgjenkjenning: Du låser opp iPhone med Face ID – et CNN analyserer ansiktet ditt og sammenligner med den lagrede modellen. Millisekunder.
Selvkjørende bil: Tesla Autopilot bruker CNN-er for å identifisere veiskilt, fotgjengere, biler og veimerking fra kameraene – i sanntid.
Kreftdeteksjon: CNN trent på mammografibilder oppdager brystkreft med nøyaktighet som matcher eller overgår radiologer.
Vanlige spørsmål
Brukes CNN bare for bilder?
Primært, men CNN brukes også for lydanalyse (spektrogrammer), tekst (1D-konvolusjoner), og tidsseriedata.
Hva er forskjellen på CNN og Vision Transformer?
CNN bruker lokale filtre (konvolusjoner). ViT deler bildet i patches og bruker attention. ViT er bedre med mye data, CNN er mer effektivt med lite data.
Trenger jeg å forstå CNN for å bruke AI?
Nei – men det hjelper å forstå prinsippet. CNN er «under panseret» i nesten all visuell AI du bruker.
Relaterte begreper
- Nevrale nettverk – CNN er en type nevralt nettverk
- Datasyn – feltet CNN er designet for
- Dyp læring – CNN er en dyp læringsarkitektur
- Transformer-arkitekturen – alternativ/etterfølger
- AI-ansiktsgjenkjenning – bygget på CNN
Se også
Oppsummering
CNN er nevralnettverk-arkitekturen for visuell AI – filtre som gjenkjenner mønstre fra kanter til objekter. Det driver ansiktsgjenkjenning, selvkjørende biler og medisinsk AI. AlexNet (2012) startet deep learning-revolusjonen. Vision Transformers utfordrer nå, men CNN er fortsatt dominant for sanntids og mobil bildeanalyse.