Platoni andmete intelligentsus.
Vertikaalne otsing ja Ai.

Kas AI teab, mis on õun? Tema eesmärk on teada saada. | Ajakiri Quanta

kuupäev:

Sissejuhatus

Hakake rääkima Ellie Pavlick oma töö kohta – otsides tõendeid mõistmise kohta suurtes keelemudelites (LLM-id) – ja ta võib tunduda, et ta naljatab selle üle. Väljend "käega laineline" on lemmik ja kui ta mainib "tähendust" või "arutlust", on see sageli koos silmatorkavate õhutsitaatidega. See on lihtsalt Pavlicki viis end ausaks hoida. Arvutiteadlasena, kes uurib Browni ülikoolis ja Google DeepMindis keelemudeleid, teab ta, et loomulikule keelele omase segaduse omaksvõtmine on ainus viis seda tõsiselt võtta. "See on teaduslik distsipliin - ja see on veidi nigel," ütles ta.

Täpsus ja nüansid on Pavlicki maailmas eksisteerinud kõrvuti teismeeast saadik, mil ta nautis matemaatikat ja loodusteadusi, „kuid teda määratleti alati rohkem loomingulise tüübina”. Bakalaureuseõppes omandas ta kraadi majanduse ja saksofonimängu erialal, enne kui omandas doktorikraadi arvutiteaduses – valdkonnas, kus ta tunneb end endiselt autsaiderina. "Paljud inimesed [arvavad], et intelligentsed süsteemid näevad välja nagu arvutikood: kenad ja mugavalt nagu paljud süsteemid [meil on hea arusaamine," ütles ta. "Ma lihtsalt usun, et vastused on keerulised. Kui mul on lihtne lahendus, olen üsna kindel, et see on vale. Ja ma ei taha eksida."

Juhuslik kohtumine arvutiteadlasega, kes juhuslikult töötas loomuliku keele töötlemise alal, viis Pavlicki doktoritööle, et uurida, kuidas arvutid saaksid kodeerida semantikat või keele tähendust. "Ma arvan, et see kriimustas teatud sügelust," ütles ta. "See sukeldub filosoofiasse ja see sobib paljude asjadega, millega ma praegu töötan." Nüüd keskendub Pavlicki üks peamisi uurimisvaldkondi "maandamisele" - küsimusele, kas sõnade tähendus sõltub asjadest, mis eksisteerivad keelest endast sõltumatult, nagu sensoorsed tajud, sotsiaalsed interaktsioonid või isegi muud mõtted. Keelemudelid on täielikult väljaõpetatud teksti põhjal, nii et need pakuvad viljakat platvormi, et uurida, kuidas maandamine on tähenduse jaoks oluline. Kuid küsimus ise on keeleteadlasi ja teisi mõtlejaid vaevanud aastakümneid.

"Need pole ainult "tehnilised" probleemid, " ütles Pavlick. "Keel on nii tohutu, et mulle tundub, et see hõlmab kõike."

Quanta rääkis Pavlickiga teaduse tegemisest filosoofiast, mida tähendab "tähendus" ja ebaseksikate tulemuste tähtsusest. Intervjuu on koondatud ja selguse huvides toimetatud.

Sissejuhatus

Mida tähendab "mõistmine" või "tähendus" empiiriliselt? Mida täpsemalt otsite?

Kui alustasin oma uurimisprogrammi Brownis, otsustasime, et tähendus hõlmab mingil moel mõisteid. Ma mõistan, et see on teoreetiline kohustus, mida kõik ei võta, kuid see tundub intuitiivne. Kui kasutate sõna "õun" õuna tähenduses, vajate õuna mõistet. See peab olema asi, olenemata sellest, kas kasutate seda sõna sellele viitamiseks või mitte. Seda tähendabki "tähendus": peab olema kontseptsioon, midagi, mida te verbaliseerite.

Tahan leida mudelist kontseptsioone. Ma tahan midagi, mida saaksin haarata närvivõrgus, tõendeid selle kohta, et on olemas asi, mis esindab sisemiselt sõna "õun", mis võimaldab sellele järjekindlalt sama sõnaga viidata. Sest tundub, et see sisemine struktuur ei ole juhuslik ja meelevaldne. Leiate need väikesed täpselt määratletud funktsioonide tükid, mis teevad midagi usaldusväärselt.

Olen keskendunud selle sisemise struktuuri iseloomustamisele. Mis vorm sellel on? See võib olla mingi närvivõrgu kaalude alamhulk või mingi lineaarne algebraline tehing nende kaalude üle, mingi geomeetriline abstraktsioon. Kuid see peab mängima põhjuslikku rolli [mudeli käitumises]: see on ühendatud nende sisenditega, kuid mitte nendega, ja nende väljunditega, mitte nendega.

See tundub nagu midagi, mida võiks hakata nimetama "tähenduseks". See seisneb selles, et tuleb välja mõelda, kuidas see struktuur üles leida ja suhteid luua, nii et kui oleme selle kõik paika saanud, saaksime seda rakendada sellistele küsimustele nagu „Kas see teab, mida õun tähendab?”

Kas olete leidnud selle struktuuri näiteid?

Jah, üks kaasa hõlmab seda, kui keelemudel hangib teavet. Kui küsite mudelilt: "Mis on Prantsusmaa pealinn", peab see ütlema "Pariis" ja "Mis on Poola pealinn" peaks andma vastuseks "Varssavi". See suudab kõik need vastused lihtsalt meelde jätta ja need võivad olla [mudeli sees] laiali laiali – pole mingit tegelikku põhjust, miks neil on vaja nende asjade vahel seost luua.

Selle asemel leidsime mudelist väikese koha, kus see ühendab põhimõtteliselt selle ühenduse üheks väikeseks vektoriks. Kui lisate selle jaotisesse "Mis on Prantsusmaa pealinn", otsib see välja "Pariis"; ja sama vektor, kui küsite "Mis on Poola pealinn", toob välja "Varssavi". See on nagu see süstemaatiline "pealinna otsimise" vektor.

See on tõesti põnev leid, sest tundub, et [mudel] keedab need väikesed mõisted kokku ja rakendab neile seejärel üldisi algoritme. Ja kuigi me vaatame neid tõeliselt [lihtsaid] küsimusi, on see mudelis kasutatavate toorainete kohta tõendite leidmine. Sel juhul oleks päheõppimisest lihtsam pääseda — paljuski on need võrgud selleks loodud. Selle asemel jagab see [teabe] tükkideks ja selle kohta "põhjusteks". Ja loodame, et paremate eksperimentaalsete kavandite väljatöötamisel võime leida midagi sarnast keerukamate kontseptsioonide jaoks.

Sissejuhatus

Kuidas on maandus nende esitustega seotud?

See, kuidas inimesed keelt õpivad, põhineb hulgal mittekeelelisel sisendil: teie kehalised aistingud, emotsioonid, kas olete näljane ja mis iganes. Seda peetakse tähenduse seisukohalt väga oluliseks.

Kuid on ka teisi maandamise mõisteid, mis on rohkem seotud sisemiste esitustega. On sõnu, mis ei ole ilmselgelt seotud füüsilise maailmaga, kuid neil on siiski tähendus. Lemmiknäide on selline sõna nagu "demokraatia". Asi on teie peas: ma võin mõelda demokraatiast ilma sellest rääkimata. Nii et maandus võiks olla keelest selle asjani, selle sisemise esituse juurde.

Kuid te väidate, et isegi asjad, mis on rohkem välised, nagu värv, võivad siiski olla ankurdatud sisemiste "kontseptuaalsete" esitusviisidega, ilma tajudele tuginemata. Kuidas see toimiks?

Noh, keelemudelil pole silmi, eks? Ta ei "tea" värvidest midagi. Nii et võib-olla [see tabab] midagi üldisemat, näiteks nendevaheliste suhete mõistmist. Ma tean, et kui ühendan sinise ja punase, saan lilla; seda tüüpi suhted võiksid määratleda selle sisemise [maandus]struktuuri.

RGB-koode [värve esindavaid numbrijadasid] kasutades saame tuua näiteid värvide kohta LLM-ile. Kui ütlete "OK, siin on punane" ja annate sellele punase jaoks RGB-koodi ja sinise jaoks RGB-koodi "Siin on sinine" ja seejärel ütlete "Räägi mulle, mis on lilla", peaks see genereerima RGB-koodi lilla. See kaardistamine peaks olema hea märk sellest, et mudeli sisemine struktuur on hea – sellel puuduvad [värvi] tajud, kuid kontseptuaalne struktuur on olemas.

Keeruline on see, et [mudel] suudab lihtsalt meelde jätta RGB-koodid, mis on kogu selle treeningandmetes. Nii et me "pöörasime" kõik värvid [nende tegelikest RGB väärtustest eemale]: me ütleksime LLM-ile, et sõna "kollane" on seotud rohelise RGB-koodiga jne. Mudel toimis hästi: kui küsisite rohelist, annab see teile RGB-koodi pööratud versiooni. See viitab sellele, et selle sisemised värviesitused on mingis mõttes ühtsed. See on nende suhete kohta teadmiste rakendamine, mitte ainult meeldejätmine.

See on kogu maandamise mõte. Nime vastendamine värvile on meelevaldne. See puudutab rohkem nendevahelisi suhteid. Nii et see oli põnev.

Sissejuhatus

Kuidas saavad need filosoofiliselt kõlavad küsimused olla teaduslikud?

Sain hiljuti teada mõtteeksperimendist: mis siis, kui ookean pühiks üles liivale ja [kui see] tagasi tõmbuks, genereeriksid mustrid luuletuse? Kas luuletusel on tähendus? See tundub üliabstraktne ja teil võib olla see pikk filosoofiline arutelu.

Keelemudelite juures on hea asi see, et me ei vaja mõtteeksperimenti. See pole nii: "Kas selline ja selline asi oleks teoreetiliselt intelligentne?" See on lihtsalt: kas see asi on intelligentne? See muutub teaduslikuks ja empiiriliseks.

Mõnikord on inimesed tõrjuvad; seal on "stohhastilised papagoid” lähenemine. Ma arvan, et see [tuleneb] hirmust, et inimesed hakkavad nende asjadega võrreldes luureandmeid üle tellima – mida me näeme. Ja selle parandamiseks ütlevad inimesed: "Ei, see kõik on teesklus. See on suits ja peeglid."

See on natuke karuteene. Oleme tabanud midagi üsna põnevat ja üsna uut ning seda tasub sügavalt mõista. See on tohutu võimalus, mida ei tohiks kasutamata jätta, sest oleme mures modellide liigse tõlgendamise pärast.

Muidugi sina"olen ka tootnud teadustöö just sellise liigse tõlgendamise ümberlükkamine.

See töö, kus inimesed leidsid kõik “madalad heuristikad”, mida mudelid [mõistmise jäljendamiseks] ära kasutasid – need olid minu teadlaseks saamisel väga olulised. Aga see on keeruline. See on nagu, ära kuuluta võitu liiga vara välja. [Minu sees on natuke skeptitsismi või paranoiat, et hindamine tehti õigesti, isegi selline, mille kavandasin väga hoolikalt!

Nii et see on osa asjast: mitte üle nõuda. Teine osa on see, et kui te tegelete nende [keelemudeli] süsteemidega, teate, et need ei ole inimtasandil – viis, kuidas nad asju lahendavad, ei ole nii intelligentne, kui tundub.

Sissejuhatus

Kui selles valdkonnas arutatakse nii palju põhilisi meetodeid ja termineid, kuidas siis edu mõõta?

Minu arvates otsime teadlastena täpset ja inimlikult arusaadavat kirjeldust selle kohta, millest me hoolime – antud juhul intelligentsusest. Ja siis lisame sõnad, mis aitavad meil sinna jõuda. Meil on vaja mingit töötavat sõnavara.

Aga see on raske, sest siis pääsed sellesse semantikalahingusse. Kui inimesed ütlevad: "Kas sellel on tähendus: jah või ei?" ma ei tea. Me suuname vestluse valele asjale.

See, mida ma püüan pakkuda, on täpne ülevaade käitumisest, mille selgitamisest me hoolisime. Ja sel hetkel on omamoodi vaieldav, kas soovite seda nimetada "tähenduseks" või "esituseks" või mõneks neist koormatud sõnadest. Asi on selles, et laual on teooria või pakutud mudel – hindame seda.

Sissejuhatus

Niisiis, kuidas saab keelemudelite uurimine liikuda selle otsesema lähenemisviisi poole?

Sellised sügavad küsimused, millele ma tõesti tahaksin vastata – millised on intelligentsuse ehituskivid? Kuidas inimese intelligentsus välja näeb? Kuidas mudeli intelligentsus välja näeb? - on tõesti olulised. Kuid ma arvan, et asjad, mis järgmise 10 aasta jooksul juhtuma peavad, ei ole väga seksikad.

Kui tahame nende [sisemiste] esitustega tegeleda, vajame nende leidmiseks meetodeid – meetodeid, mis on teaduslikult põhjendatud. Kui seda tehakse õigesti, ei too see madalatasemeline, ülimalt umbrohuga metoodiline värk pealkirju. Kuid see on tõesti oluline asi, mis võimaldab meil neile sügavatele küsimustele õigesti vastata.

Samal ajal muutuvad mudelid pidevalt. Nii et seal on palju asju, mida inimesed avaldavad, nagu oleks see "läbimurre", kuid see pole tõenäoliselt nii. Minu meelest tundub, et suurte läbimurdeteni on liiga vara.

Inimesed uurivad neid väga lihtsaid ülesandeid, näiteks küsivad [keelemudel täita]: "John andis _______-le juua" ja proovivad näha, kas see ütleb "John" või "Maarja". See ei anna tulemuse tunnet, mis seletaks intelligentsust. Kuid ma usun, et tööriistad, mida me selle igava probleemi kirjeldamiseks kasutame, on intelligentsust puudutavatele sügavatele küsimustele vastamiseks hädavajalikud.

spot_img

Uusim intelligentsus

spot_img

Jututuba koos meiega

Tere! Kuidas ma teid aidata saan?