Platon Data Intelligence.
Vertikal sökning & Ai.

Hjälpsamma assistenter, romantiska partners eller bedragare? Del ett » CCC-blogg

Datum:

CCC stödde tre vetenskapliga sessioner vid årets AAAS årliga konferens, och om du inte kunde närvara personligen kommer vi att sammanfatta varje session. Den här veckan kommer vi att sammanfatta höjdpunkterna från paneldeltagarnas presentationer av sessionen, "Stora språkmodeller: hjälpsamma assistenter, romantiska partners eller bedragare?” Den här panelen, modererad av Dr Maria Gini, CCC Council Member och Computer Science & Engineering professor vid University of Minnesota, medverkade Dr Ece Kamar, VD för AI Frontiers på Microsoft Research, Dr Hal Daumé III, professor i datavetenskap vid University of Maryland, och Dr Jonathan May, professor i datavetenskap vid University of Southern California Information Sciences Institute.

Stora språkmodeller ligger i framkant av samtalen i samhället idag, och juryn är ute efter om de lever upp till hajpen kring dem. Paneldeltagarna i denna AAAS-session tog upp möjligheterna, utmaningarna och potentialen hos LLM.

Den första paneldeltagaren var Dr. Ece Kamar (Microsoft Research). Hon beskrev den nuvarande statusen för AI som en "fasövergång". Hon gav ett unikt perspektiv som någon som har sett förändringarna inom AI inom industrin, och den exponentiella tillväxten av modeller för djupinlärning som väldigt få människor förväntade sig skulle fortsätta in i 2024.

Tillväxten orsakades av en ökning av mängden data som LLM:er tränas på, och den större arkitekturen som kallas transformatorer. En intressant insikt som Dr Kamar delade med sig av i grafen är att modellerna skalas så snabbt eftersom de från början bara tränades för en viss uppgift; en uppgift de på ett tillförlitligt sätt kunde utföra. ChatGPT visade att om du skalar tillräckligt stor, inklusive antalet parametrar som en modell tar hänsyn till, kan modeller börja utföra uppgifter med samma prestanda som en modell som tränats för att specifikt utföra samma uppgifter.

Detta är definitionen av LLM-fasövergången: modeller behöver inte längre vara specifikt utbildade för en specifik uppgift, utan kan allmänt tränas och sedan utföra många uppgifter. Och det finns inga tecken på att tillväxten av dessa förmågor saktar ner.

Dr. Kamar hade tidig tillgång till GPT-4, och under hennes långa tid att testa det, blev hon imponerad av dess betydande förbättringar som följde med skala och data, och det faktum att den synkront kunde utföra olika uppgifter.

Hur ser framtiden ut för dessa LLM? Dr Kamar förutser att LLM kommer att gå längre än mänskligt språk och lära sig maskinspråk och kunna översätta mellan de två språken. Detta skulle förbättra modaliteternas kapacitet i input och output, vilket skulle kunna leda till att modeller inte bara kan generera språk, utan även handlingar och förutsägelser i beteenden.

Därefter utvidgade Dr Kamar den betydande fasövergången som sker inom datoranvändning. System utvecklas mycket annorlunda idag, och denna utveckling kommer att kräva att man skapar ett nytt datorparadigm som vi bara har skrapat på ytan för närvarande. Sättet vi interagerar med datorer på kommer att se mycket annorlunda ut under de kommande åren, och detta kommer att kräva omtanke av Human-Computer Interaction (HCI).

En annan förändring är hur människor kommer att arbeta framåt. Microsoft har genomfört studier som visar att arbetarnas produktivitet kan fördubblas i termer av kodrader skrivna med hjälp av AI. Det här är en otrolig bedrift, men hur denna teknik fungerar och var dess intelligens kommer ifrån är i stort sett okänt, så det finns många forskningsfrågor inom detta område.

Det finns också många frågor om potentiellt missbruk av LLM som dessa. Det finns farhågor kring rättvisa, olika demografiska risker och andra ännu mer drastiska konsekvenser. Även om det finns en stor potential för vetenskapliga upptäckter, finns det också en stor potential för skada; till exempel att övertyga föräldrar att inte vaccinera sina barn, ett barn att göra något dåligt eller att övertyga någon om att världen är platt. En hel del säkerhetsinsatser har lagts ner på utvecklingen av LLM, och öppen källa kan vara till stor hjälp för att göra framsteg även på detta område.  

Dr Kamar ställde sedan frågor till det vetenskapliga samfundet:

  • Hur kommer vetenskapen att förändras med störningar av AI?
  • Tar vi steg för att förändra hur vi utbildar och utbildar nästa generation?
  • Bygger du teknisk infrastruktur för att dra nytta av denna fasövergång?
  • Förbereder vi framtida generationer för den nya världen?

Slutligen betonade Dr. Kamar att en av kärnaspekterna av fasövergången som är anmärkningsvärd är den hastighet med vilken LLMs utvecklas. Dessa modeller förbättras avsevärt på mycket kort tid, och dataforskare har mycket att komma ikapp.

Den andra paneldeltagaren, Dr. Hal Daumé III (University of Maryland), började sitt föredrag med att förklara att AI-modeller bör utvecklas för att hjälpa människor att göra de saker de vill göra; utöka mänskligt arbete, inte automatisera. Denna vision om automatisering har genomsyrat samhället sedan 60-talet. Istället för att hjälpa människor att spela schack bättre, designade forskare ett system som spelar schack på egen hand.

Den här filosofin går ingenstans; AI idag är fortfarande nyhetsvärde när den är intelligent nog att göra en uppgift på egen hand. Detta ligger djupt i AI:s blod. Innan vi lägger tid och pengar på att automatisera ett system bör vi först pausa och fråga är detta i vårt intresse?

Dr Daumé drev konceptet förstärkning: hur kan AI användas som ett verktyg? System som Github copilot ökar produktiviteten, men att öka produktiviteten räcker inte. En användare av systemet utbrast att det lät dem fokusera på delar av kodningen som var roliga, vilket är mycket mer i linje med hur AI ska byggas.

AI-forskare ska inte vilja ta bort de delar av en persons jobb som är roliga; de borde prioritera att ta bort slitet. Det borde förbättra människors liv snarare än att bara förbättra resultatet för ett företag.

Dr. Daumé var medförfattare till en artikel som tog upp dessa punkter, och motargumentet framkom att ur ett tekniskt perspektiv är det ofta mycket lättare att automatisera än att bygga system som använder maskininlärningsteknik i synnerhet. Detta beror på att de data som behövs för att träna ett system som ska träna ett system är lätta att få tag på. Vi tillhandahåller denna information genom att göra vårt jobb, och det är lätt att träna ML att efterlikna mänskligt beteende. Det är mycket svårare att lära ett system att hjälpa någon att slutföra en uppgift. Denna information är spridd bland litteraturrecensioner från NSF, skrivning på ett papper av en programmerare, etc. Data som behövs för att hjälpa en människa att utföra uppgifter registreras inte.

En annan viktig aspekt av att bygga användbara system är att fråga användaren vilka system som skulle vara till hjälp för deras liv. Till exempel är blinda människors behov väldigt olika från seende människors behov (som också skiljer sig från vad seende tror blinda människors behov). Ett exempel som Dr Daumé delade var att ett visuellt system kan avslöja att ett föremål är en burk läsk, men en blind person kan vanligtvis säga det på egen hand. Ingredienserna i läsken skulle vara mycket mer användbara för dem. Det finns ett enormt gap mellan kvaliteten på ett systems svar på att helt enkelt förstå frågor till att hantera tillgänglighetsfrågor, och denna klyfta ökar.

Ett ytterligare exempel på vikten av att först fastställa gemenskapens behov innan man skapar teknik för att "hjälpa" dem är innehållsmoderering. Många frivilliga innehållsmoderatorer engagerar sig i arbetet för att de vill göra världen till en bättre plats och hjälpa till att bygga en gemenskap som de tycker är viktig. På frågan om vilken typ av verktyg de vill hjälpa deras roll vill de ofta inte att deras jobb ska vara helt automatiserat, de vill bara att tråkiga delar som att leta upp chatthistoriken ska vara enklare.

Dr Daumé avslutar denna diskussion med ett sista exempel på sin bilälskande mamma som älskar bilar och vägrar att köra automatbilar. Hon väljer manuell växellåda, och det är verkligen viktigt för henne att ha det valet. Människor ska ha kontroll över om de vill att deras uppgifter ska automatiseras eller inte.

Dr Daumé fortsätter samtalet genom att erbjuda alternativ till nuvarande tillvägagångssätt för tillgänglighetsteknologi. Till exempel, när du bygger ett verktyg kring teckenspråksigenkänning, istället för att skrapa internet efter videor av personer som signerar (vilket har många samtycke och integritetsproblem, plus att de flesta av dessa videor är av proffs och utan bakgrundsljud/distraktioner, vilket är t realistiskt), nå ut till samhället och initiera ett projekt som ger dem möjlighet att skicka in videor för att träna verktygen. Gemenskapens första strategier som dessa är mer etiska och ansvarsfulla och ger användarna mer kontroll. 

LLM och andra verktyg bör utvecklas för att prioritera användbarhet, inte intelligens, avslutar Dr Daumé. Ju mer användbart det är, desto mer kan det hjälpa människor att göra något de inte kan eller vill göra, snarare än att automatisera något som människor redan gör bra och tycker om.

Dr. Jonathan May (University of Southern California Information Sciences Institute) var nästa talare, och han började sitt föredrag med att reflektera över konferensens tema: "Mot vetenskap utan murar." Han hävdar att även om den senaste utvecklingen av LLM tar ner murar för vissa människor, bygger det murar för många.

Han diskuterar först hur internet sänkte många barriärer för att bedriva forskning; när han var 17 undrade han varför Star Wars och Sagan om ringen hade väldigt liknande intriger, och han var tvungen att köra till biblioteket och hitta en bok med svaret. Han gjorde högre insatser men lika mödosam forskning för sin doktorsavhandling, men i slutet av sin studietid skapades en Wikipedia-sida om ämnet, och sedan internetsökning, och nu är billös forskning normen.

Dr. May fortsatte med att säga att han kände sig privilegierad att vara i den demografiska målgruppen för LLM. Han kodar inte ofta och lärde sig aldrig många kodningsfärdigheter, men när han behöver det för sitt arbete kan han fråga ChatGPT och det gör ett bra jobb. 

Det finns dock många väggar för att göra LLMs användbarhet utbredd:

  • Språkväggar: Modeller fungerar bättre ju mer data de tränas på. Medan dagens kommersiella LLM är flerspråkiga, är de tungt vägda mot engelska. Till exempel är ChatGPT utbildad på 92 % engelska. Vidare är instruktionsdata, som är den "hemliga såsen" för LLM:er, en övervägande majoritet av engelska (96% av ChatGPT:s till exempel). Det görs för närvarande mycket få ansträngningar för att förbättra dessa modellers tvärspråkiga prestanda trots systemiska prestandaluckor på befintliga tester, vilket är vettigt på grund av en allmän konsensus om att maskinöversättning (MT) är "löst" och ansträngningar bör fokuseras på andra uppgifter.
  • Identitetsväggar: Om du frågar ChatGPT vad du ska göra på julen, fokuserar det på olika aktiviteter och traditioner du kan ägna dig åt; det nämns inte att du skulle kunna gå till jobbet. LLM:er har visat sig bete sig annorlunda när de beskriver olika demografiska grupper, uttrycker mer negativa känslor och till och med direkt toxicitet i vissa fall. Det finns sannolikheter för stereotypa meningar som kan orsaka skada i samhällen som HBTQ+ eller judiska; över hela linjen finns det en hel del partiskhet och detta får konsekvenser i utplacerat beslutsfattande. Det finns vissa inbyggda skyddsåtgärder, och mer explicita undersökningsfrågor är mindre benägna att få giftiga svar, men modeller föredrar sannolikt stereotypa uttalanden och resultat, och det är där det finns skada, särskilt när man använder modeller i nedströmsfunktioner där du inte ser produktion (dvs. låneberättigande). Han gav ett exempel på LLM:er som visar partiskhet när de genererar ansikten på individer baserat på deras jobb; de lägre betalda jobben visas som kvinnor och minoriteter, medan de högre betalda jobben är vita män.
  • Miljöväggar (mjukvara): LLM kräver en betydande mängd energi för att producera och driva. Även de mest "blygsamma" LM:erna använder 3 gånger mer årlig energi än en enskild persons användning. Det finns också en betydande lucka i data för de största språkmodellerna som ChatGPT, men företagen som äger dem nekar uttryckligen tillgång till sin energiförbrukning.
  • Miljöväggar (hårdvara): För att producera chips, vilket alla LLM kräver, behöver du "konfliktmaterial" som tantal (bryts i Kongo) och hafnium (bryts i Senegal och Ryssland). I USA ska företag rapportera mängden konfliktmineraler de använder, men USA visar offentligt en minskning av användningen av dessa material, vilket inte kan vara sant. Utöver det finns det många sociopolitiska problem som att Kina begränsar germanium och gallium som vedergällning mot USA:s exportrestriktioner.

Dr. May uttrycker att dessa kategorier avslöjar några av de många nedströmsproblemen för skador orsakade av LLM, och fall där människor inte gynnas. Det finns anledning till oro, men det finns också möjligheter till forskning och/eller beteendeförändringar som skulle mildra några av dessa skador:

  • Språk: Ägna mer forskningsmedel åt flerspråkighet (inte bara hegemonisk översättning till och från engelska).
  • Identitet: Bottom-up och samhällsinkluderande forskning. Modellmodifiering och testning före driftsättning
  • Miljö: Algoritmutveckling som använder mindre data och ändrar färre parametrar (t.ex. LoRA, adaptrar, icke-RL PO). Var noggrann med beräkningar och insistera på öppenhet på regulatoriska nivåer 

Dr. May avslutade panelen med att upprepa Dr. Daumés poäng om att människor ska dra nytta av det sätt de vill ha nytta av när de interagerar med LLM:er, och detta måste vara i fokus i utvecklingsstadiet.

Tack så mycket för att du läser, och vänligen lyssna i morgon för att läsa sammanfattningen av frågestunden.

plats_img

Senaste intelligens

plats_img

Chatta med oss

Hallå där! Hur kan jag hjälpa dig?