ai motstridende trusler blogg

Viktige ting fra NISTs nye veiledning om kontradiktoriske AI-trusler

Det er et konsept innen kunstig intelligens (AI) kalt "alignment", som sikrer at et AI-system alltid følger menneskelige intensjoner og verdier. Men hva skjer hvis noen kompromitterer et AI-system for å gjøre noe skaperne ikke ønsket?

Eksempler på denne trusselen, kjent som adversarial AI, spenner fra å bruke sminke som bevisst lurer ansiktsgjenkjenningssystemer, til å lure autonome biler til å svinge over veien. Det er et område med potensiell risiko for AI-systembyggere og deres brukere, men mye av forskningen rundt det er fortsatt akademisk.

I januar publiserte US National Institute of Standards and Technology (NIST) et dokument som forsøkte å destillere denne forskningen. Det har vært et langt prosjekt. Det første utkastet til Motstridende maskinlæring: en taksonomi og terminologi for angrep og begrensninger dukket opp i 2019. Denne siste versjonen er den siste, og den kan være et viktig grunnlagsdokument for AI-utviklere som er opptatt av å bygge avbøtende tiltak i produktene sine.

Fire typer angrep

Taksonomien deler motstridende AI-angrep inn i flere kategorier:

1) Overgrepsangrep

Disse skjer før modellopplæringen i det hele tatt begynner ved å tukle med data før de samles inn – mater modellen med falske eller manipulerende data designet for å påvirke resultatene. I motsetning til de andre, er denne formen for angrep unik for generative AI (GenAI)-systemer.

Vi har allerede sett noen innovative eksempler på dette i kampen om åndsverk i GenAI. søtvier, et prosjekt fra forskere ved Chicago University, er et verktøy som kunstnere og illustratører kan bruke til å subtilt endre arbeidet sitt på nettet uten å endre den visuelle opplevelsen for seerne.

Nightshades endringer får GenAI-treningsmodeller til å feiltolke objekter i den (den kan for eksempel se på en ku som en brødrister). Dette forvirrer GenAI-modeller som er avhengige av disse treningsdataene for å lage "nye" kunstverk. Nightshade adresserer det teamet ser som uautorisert tyveri av data for treningsformål ved å gjøre det økonomisk problematisk for GenAI-selskaper.

2) Forgiftningsangrep

Disse tar også for seg AI-treningsprosessen, men på en måte som bevisst korrumperer allerede innsamlede data for å forvrenge den endelige treningsmodellen. Vi kan tenke oss at noen hacker visuelle data som brukes til å trene autonome kjøretøy og endrer eller feilaktig merker bilder av stoppskilt, og gjør dem om til grønne lys.

3) Unndragelsesangrep

Selv om en AI-modell er nøyaktig trent på de riktige dataene, kan angripere fortsatt målrette AI-systemet etter at det er distribuert. Et unndragelsesangrep retter seg mot slutningsprosessen – handlingen med å analysere nye data ved å bruke den trente modellen – ved å manipulere nye data som AI-modellen er ment å tolke. I vårt eksempel på autonom kjøring kan noen legge til markeringer på stoppskilt på gaten som hindrer et kjøretøy i å gjenkjenne dem, og ber dem om å fortsette å kjøre.

4) Personvernangrep

Noen angrep handler om å høste data i stedet for å forvrenge modellens tolkning av dem. Et personvernangrep ville avhøre en AI-modell i slutningsfasen for å hente sensitiv informasjon fra treningsdataene. Forskere har allerede funnet ut måter å sweet-talk OpenAIs GPT-3.5 Turbo- og GPT4-modeller til å gi opp andre brukeres e-postadresser.

Hvordan redusere disse angrepene

NIST-dokumentet tilbyr tekniske avbøtende tiltak for å hjelpe til med å takle dette misbruket av AI. Disse inkluderer kontradiktorisk trening, der dataforskere setter inn dataelementer i treningssettet som hindrer unndragelsesangrep. Imidlertid har disse vanligvis avveininger på områder som treningsmodellens nøyaktighet, innrømmer dokumentet, og beskriver løsninger på disse avveiningene som "et åpent spørsmål."

De inkonklusive avbøtende tiltakene befester dette dokumentets posisjon som en undersøkelse av akademisk arbeid med kontradiktorisk kunstig intelligens og dens destillasjon til en detaljert taksonomi som folk kan bruke for å sikre at de beskriver de samme tingene når de snakker om disse problemene. Det er ikke en veiledning for utøvere å ta opp den motstridende AI-trusselen, advarer Nathan VanHoudnos, seniorforsker for maskinlæring og laboratorieleder ved CERT-avdelingen ved Software Engineering Institute ved Carnegie Mellon University.

Skaper bredere kontekst

"Jeg tror det ville være rom for å ha en mer utøverfokusert guide nå som de har gjort det harde arbeidet med å sette sammen en taksonomi," sier han til ISMS.online. "De tingene jeg ønsker å se i en slik guide ville ikke bare være å vurdere maskinlæringslaget, men hele stabelen av et AI-system."

Denne stabelen strekker seg utover datalaget, alt fra den underliggende GPU-maskinvaren til skymiljøene den opererer i og autentiseringsmekanismene som brukes i AI-systemer, forklarer han.

NIST har allerede tatt betydelige skritt for å hjelpe de som implementerer AI med mer praktiske råd. Instituttet, som opprettet sitt Trustworthy and Responsible AI Resource Center i mars 2023, ga ut en AI Risk Management Framework i januar 2023 sammen med en lekebok designet for å hjelpe til med å håndtere et komplett spekter av individuelle, organisatoriske og sosiale risikoer fra AI.

I begynnelsen av februar 2024 utstedte NIST en RFI da den søkte hjelp til hvordan de kan oppfylle sine forpliktelser i henhold til Det hvite hus's Executive Order fra oktober 2023 om sikker, sikker og pålitelig utvikling og bruk av kunstig intelligens. Dette inkluderer utvikling av AI-revisjonsevner og retningslinjer for AI red teaming.

Selv om informasjonen om kontradiktorisk AI fra NIST så langt er mer akademisk, peker VanHoudnos på andre komplementære ressurser. MITRE har sin Adversarial Threat Landscape for Artificial Intelligence Systems (Atlas) initiativ, som samler virkelige teknikker på forskjellige stadier av den kontradiktoriske AI-angrepskjeden, fra rekognosering til påvirkning.

De AI Risk and Vulnerability Alliance, som er en åpen kildekode-innsats blant AI-forskere, har også en taksonomi av AI-sårbarheter sammen med en database med spesifikke angrepstyper knyttet til den taksonomien (f.eks. AVID-2023-V005: Camera Hijack Attack on Facial Recognition System). En sentral forskjell mellom AVID-taksonomien og NISTs er at den formelt kartlegger tekniske sårbarheter for risikoer av høyere orden på områder som sikkerhet (f.eks. informasjonslekkasjer), etikk (f.eks. feilinformasjon) og ytelse (f.eks. dataproblemer eller personvernimplikasjoner).

Å knytte de motstridende utfordringene til disse risikoene av høyere orden er en sentral del av det nye arbeidet med å modne forskning på farene rundt AI, foreslår VanHoudnos. Tross alt er de samfunnsmessige implikasjonene av AI-svikt – både tilsiktet eller på annen måte – enorme.

"Den største risikoen [ved AI-systemer] er den utilsiktede skaden de vil gjøre," forklarer VanHoudnos. Det kan variere fra tilfeldigvis lyver til kunder gjennom til urettferdig anklage folk for skattesvindel og felle en regjering eller å overtale en person til å drepe seg selv.

I denne sammenheng nevner han også Center for Security and Emerging Technology, som har forsøkt å kategorisere og formalisere disse skadene i sin rapport om Legger til struktur til AI Harm.

Mer arbeid som gjenstår

NIST-dokumentet er en omfattende undersøkelse av termer og teknikker på feltet som vil tjene som et nyttig supplement til arbeidet med å dokumentere kontradiktoriske AI-risikoer og sårbarheter i området. VanHoudnos bekymrer seg imidlertid for at vi fortsatt har arbeid å gjøre med å omfavne disse risikoene fra en utøvers perspektiv.

"Det var ikke før i fjor sommer at folk virkelig begynte å ta tanken på alvor om at AI-sikkerhet var cybersikkerhet," konkluderer han. "Det tok en stund før de innså at AI bare er en applikasjon som kjører på datamaskiner koblet til nettverk, noe som betyr at det er CISOs problem."

Han mener at industrien fortsatt ikke har et robust prosedyremessig rammeverk for å implementere kontratiltak. Mellom dem står CMU og SEI opp AI Security Incident Response Team (ASIRT), et initiativ rettet mot nasjonale sikkerhetsorganisasjoner og forsvarsindustribasen, som vil fokusere på forskning og utvikling av formelle tilnærminger for å sikre AI-systemer mot motstandere.

Denne typen innsats kan ikke komme raskt nok, spesielt gitt NISTs påstand om at "ingen idiotsikker metode eksisterer ennå for å beskytte AI mot feilretning." Nok en gang vil vi sannsynligvis havne i en endeløs kamp med motstandere når vi beskytter AI-systemene våre mot undergraving. Jo før vi begynner for alvor, jo bedre.

ISMS.online støtter nå ISO 42001 – verdens første AI Management System. Klikk for å finne ut mer