Platoni andmete intelligentsus.
Vertikaalne otsing ja Ai.

Kuidas mõtteahel aitab närvivõrkudel arvutada | Ajakiri Quanta

kuupäev:

Sissejuhatus

Teie klassiõpetaja ilmselt ei näidanud teile, kuidas 20-kohalisi numbreid lisada. Kuid kui teate, kuidas väiksemaid numbreid lisada, on vaja ainult paberit ja pliiatsit ning natuke kannatlikkust. Alustage ühest kohast ja liikuge samm-sammult vasakule ning varsti kogute hõlpsalt kvintiljoneid.

Sellised probleemid on inimestele lihtsad, kuid ainult siis, kui läheneme neile õigel viisil. "See, kuidas meie, inimesed, neid probleeme lahendame, ei ole "vaata seda ja siis vastus üles kirjutama"," ütles Eran Malach, masinõppe teadur Harvardi ülikoolist. "Me tegelikult kõnnime astmetest läbi."

See arusaam on inspireerinud teadlasi, kes uurivad suuri keelemudeleid, mis kasutavad vestlusroboteid nagu ChatGPT. Kuigi need süsteemid võivad leida küsimusi, mis hõlmavad mõne sammu aritmeetikat, lahendavad nad sageli probleeme, mis hõlmavad paljusid samme, näiteks kahe suure arvu summa arvutamine. Kuid 2022. aastal Google'i teadlaste meeskond näitas et keelemudelitel samm-sammult lahenduste genereerimiseks palumine võimaldas mudelitel lahendada probleeme, mis varem tundusid neile kättesaamatud. Nende tehnika, mida nimetatakse mõtteahela õhutamiseks, sai peagi laialt levinud, isegi kui teadlastel oli raske mõista, mis selle toimima paneb.

Nüüd on mitmed meeskonnad uurinud mõtteahela arutlusvõimet, kasutades tehnikaid teoreetilise arvutiteaduse keerukast harust, mida nimetatakse arvutusliku keerukuse teooriaks. See on uusim peatükk uurimistöös, mis kasutab keerukuse teooriat keelemudelite sisemiste võimaluste ja piirangute uurimiseks. Need jõupingutused selgitavad, kus peaksime eeldama, et mudelid ebaõnnestuvad, ja võivad osutada uutele lähenemisviisidele nende ehitamisel.

"Nad eemaldavad osa maagiast," ütles Dimitris Papailiopoulos, masinõppe teadur Wisconsini ülikoolis Madisonis. "See on hea asi."

Trafode väljaõpe

Suured keelemudelid on üles ehitatud matemaatiliste struktuuride ümber, mida nimetatakse tehisnärvivõrkudeks. Nendes võrkudes olevad paljud "neuronid" teevad lihtsaid matemaatilisi toiminguid pikkade numbrijadadega, mis esindavad üksikuid sõnu, muutes iga võrku läbiva sõna teiseks. Selle matemaatilise alkeemia üksikasjad sõltuvad teisest numbrikomplektist, mida nimetatakse võrgu parameetriteks ja mis kvantifitseerivad neuronite vaheliste ühenduste tugevust.

Keelemudeli väljaõpetamiseks sidusate väljundite saamiseks alustavad teadlased tavaliselt närvivõrguga, mille kõigil parameetritel on juhuslikud väärtused, ja seejärel toidavad nad seda kogu Internetist pärit andmetega. Iga kord, kui mudel näeb uut tekstiplokki, proovib ta ennustada iga sõna kordamööda: Ta arvab ära teise sõna esimese, kolmanda kahe esimese ja nii edasi. See võrdleb iga ennustust tegeliku tekstiga, seejärel kohandab selle parameetreid erinevuse vähendamiseks. Iga näpunäide muudab mudeli ennustusi vaid pisut, kuid millegipärast võimaldab nende kollektiivne mõju mudelil reageerida sidusalt sisenditele, mida ta pole kunagi näinud.

Teadlased on koolitanud närvivõrke keele töötlemiseks 20 aastat. Kuid töö sai tõeliselt hoogu 2017. aastal, kui Google'i teadlased tutvustasid a uut tüüpi võrk nimetatakse trafoks.

"See pakuti välja seitse aastat tagasi, mis tundub eelajalugu," ütles Pablo Barceló, masinõppeteadlane Tšiili paavstliku katoliku ülikoolis.

Trafod muutis nii muutlikuks see, et neid on lihtne suurendada – parameetrite arvu ja treeningandmete hulga suurendamiseks – ilma, et koolitus oleks ülemäära kulukas. Enne trafosid oli närvivõrkudel kõige rohkem paarsada miljonit parameetrit; tänapäeval on suurimatel trafopõhistel mudelitel rohkem kui triljon. Suurem osa keelemudeli jõudluse paranemisest viimase viie aasta jooksul tuleneb lihtsalt suurendamisest.

Transformaatorid tegid selle võimalikuks, kasutades spetsiaalseid matemaatilisi struktuure, mida nimetatakse tähelepanupeadeks, mis annavad neile loetavast tekstist omamoodi linnulennu. Kui trafo loeb uut tekstiplokki, skannivad selle tähelepanupead kiiresti kogu asja ja tuvastavad asjakohased seosed sõnade vahel – võib-olla märkides, et neljas ja kaheksas sõna on tõenäoliselt kõige kasulikumad 10. sõna ennustamiseks. Seejärel suunavad tähelepanupead sõnu edasi tohutule neuronite võrku, mida nimetatakse edasisuunamisvõrguks, mis teeb õppimist aitavate ennustuste genereerimiseks vajaliku arvu tugevalt kokku.

Tõelistel trafodel on mitu kihti tähelepanupead, mis on eraldatud edastusvõrkudega ja ennustused sülitavad välja alles pärast viimast kihti. Kuid igal kihil on tähelepanupead juba tuvastanud iga sõna jaoks kõige asjakohasema konteksti, nii et arvutuslikult intensiivne edasisuunamise samm võib toimuda teksti iga sõna puhul samaaegselt. See kiirendab koolitusprotsessi, võimaldades treenida trafosid üha suuremate andmehulkade jaoks. Veelgi olulisem on see, et see võimaldab teadlastel hajutada tohutut arvutuskoormust, mis kaasneb tohutu närvivõrgu väljaõppega paljude paralleelselt töötavate protsessorite vahel.

Massiivsetest andmekogumitest maksimaalse kasu saamiseks peate mudelid tegema tõeliselt suureks, ” ütles David Chiang, masinõppeteadlane Notre Dame'i ülikoolis. "Neid pole otstarbekas koolitada, kui see pole paralleelne."

Paralleelstruktuur, mis muudab trafode treenimise nii lihtsaks, aga pärast treenimist ei aita — sel hetkel pole vaja ennustada juba olemasolevaid sõnu. Tavalise töö ajal väljastavad trafod ühe sõna korraga, ühendades iga väljundi enne järgmise sõna genereerimist sisendisse, kuid nad on endiselt paralleelseks töötlemiseks optimeeritud arhitektuuriga kinni.

Kuna trafopõhised mudelid kasvasid ja teatud ülesanded tekitasid neile jätkuvalt probleeme, hakkasid mõned teadlased mõtlema, kas paralleelsemate mudelite poole tõukamine on maksma läinud. Kas oli võimalik trafode käitumist teoreetiliselt mõista?

Transformerite keerukus

Närvivõrkude teoreetilised uuringud seisavad silmitsi paljude raskustega, eriti kui nad püüavad arvestada koolitusega. Närvivõrgud kasutavad oma parameetrite kohandamiseks koolitusprotsessi igal etapil tuntud protseduuri. Kuid võib olla raske mõista, miks see lihtne protseduur ühtlustub hea parameetrite komplektiga.

Selle asemel, et mõelda, mis koolituse ajal juhtub, uurivad mõned teadlased trafode sisemisi võimeid, kujutades ette, et nende parameetreid on võimalik kohandada mis tahes suvaliste väärtustega. See tähendab trafo käsitlemist spetsiaalset tüüpi programmeeritava arvutina.

"Teil on arvutiseade ja soovite teada:" Mida see teha saab? Milliseid funktsioone see arvutada suudab?” ütles Chiang.

Need on arvutamise formaalse uurimise kesksed küsimused. Valdkond pärineb aastast 1936, mil Alan Turing kujutas esimest korda ette a väljamõeldud seade, mida nüüd nimetatakse Turingi masinaks, mis suudab teha mis tahes arvutusi, lugedes ja kirjutades sümboleid lõpmatule lindile. Arvutusliku keerukuse teoreetikud tuginevad hiljem Turingi tööle, tõestades, et arvutusprobleemid jagunevad loomulikult erinevatesse keerukusklassid määratletud nende lahendamiseks vajalike ressurssidega.

2019. aastal Barceló ja veel kaks teadlast tõestatud et trafo idealiseeritud versioon kindla arvu parameetritega võiks olla sama võimas kui Turingi masin. Kui seadistate trafo oma väljundit korduvalt sisendina tagasi söötma ja määrate parameetrid konkreetse probleemi jaoks sobivatele väärtustele, mida soovite lahendada, sülitab see lõpuks välja õige vastuse.

See tulemus oli lähtepunkt, kuid see tugines mõnele ebarealistlikule eeldusele, mis tõenäoliselt hindaks trafode võimsust üle. Pärast seda on teadlased töötanud realistlikumate teoreetiliste raamistike väljatöötamise nimel.

Üks selline ettevõtmine sai alguse 2021. aastal, mil William Merrill, kes on nüüd New Yorgi ülikooli magistrant, lahkus kaheaastasest stipendiumist Seattle'i Alleni tehisintellekti instituudis. Seal viibides analüüsis ta teist tüüpi närvivõrke, kasutades tehnikaid, mis tundusid trafode paralleelse arhitektuuri jaoks halvasti sobivad. Vahetult enne lahkumist alustas ta vestlust Alleni AI-uurijaga Ashish Sabharwal, kes oli enne tehisintellektiga tegelema asumist uurinud keerukuse teooriat. Nad hakkasid kahtlustama, et keerukuse teooria võib aidata neil mõista trafode piire.

“Lihtsalt tundus, et see on lihtne mudel; peavad olema mõned piirangud, mille saab lihtsalt maha lüüa, ”ütles Sabharwal.

Paar analüüsis trafosid, kasutades arvutusliku keerukuse teooria haru, mida nimetatakse ahela keerukuseks, mida sageli kasutatakse paralleelarvutuse uurimiseks ja hiljuti rakendatud trafode lihtsustatud versioonidele. Järgmise aasta jooksul täpsustasid nad mitmeid eelmise töö ebarealistlikke eeldusi. Uurimaks, kuidas trafode paralleelne struktuur võib piirata nende võimeid, kaalus paar juhtumit, kus trafod ei toida oma väljundit oma sisendisse tagasi – selle asemel pidi nende esimene väljund olema lõplik vastus. Nad tõestatud et selle teoreetilise raamistiku transformaatorid ei suuda lahendada ühtegi arvutusprobleemi, mis on väljaspool konkreetset keerukusklassi. Arvatakse, et paljud matemaatikaülesanded, sealhulgas suhteliselt lihtsad, nagu lineaarvõrrandite lahendamine, jäävad sellest klassist väljapoole.

Põhimõtteliselt näitasid nad, et paralleelsus läks maksma – vähemalt siis, kui trafod pidid vastuse kohe välja sülitama. "Transformaatorid on üsna nõrgad, kui neid kasutate nii, et annate sisendi ja ootate lihtsalt kohest vastust," ütles Merrill.

Mõttekatsed

Merrilli ja Sabharwali tulemused tõstatasid loomuliku küsimuse – kui palju võimsamaks muutuvad trafod, kui neil lubatakse oma väljundid taaskasutada? Barceló ja tema kaasautorid olid seda juhtumit uurinud 2019. aasta idealiseeritud trafode analüüsis, kuid realistlikumate eelduste korral jäi küsimus lahtiseks. Ja vahepealsetel aastatel olid teadlased avastanud mõtteahela õhutuse, mis andis küsimusele uue tähtsuse.

Merrill ja Sabharwal teadsid, et nende puhtmatemaatiline lähenemine ei suuda haarata kõiki mõtteahela arutluskäike reaalsetes keelemudelites, mille sõnastus võib olla väga oluline. Kuid olenemata sellest, kuidas viip on sõnastatud, nii kaua, kuni see põhjustab keelemudeli samm-sammult lahendusi, saab mudel põhimõtteliselt taaskasutada vaheetappide tulemusi järgmistel trafo läbimistel. See võib anda võimaluse paralleelarvutuse piiridest kõrvale hiilida.

Samal ajal oli Pekingi ülikooli meeskond mõelnud sarnaselt ja nende esialgsed tulemused olid positiivsed. 2023. aasta mai artiklis tuvastasid nad mõned matemaatikaprobleemid, mis peaksid Merrilli ja Sabharwali raamistikus olevate tavaliste trafode jaoks võimatud olema, ja näitas et vaheetapid võimaldasid trafodel need probleemid lahendada.

Oktoobris jätkasid Merrill ja Sabharwal oma varasemat tööd a üksikasjalik teoreetiline uuring mõtteahela arvutusvõimsusest. Nad kvantifitseerisid, kuidas see täiendav arvutusvõimsus sõltub vaheastmete arvust, mida trafol on lubatud kasutada, enne kui ta peab lõpliku vastuse välja sülitama. Üldiselt eeldavad teadlased, et mis tahes probleemi lahendamiseks vajalike vaheetappide arv sõltub probleemi sisendi suurusest. Näiteks kahe 20-kohalise arvu lisamise lihtsaim strateegia nõuab kaks korda rohkem vahepealseid liitmise etappe kui sama lähenemisviis kahe 10-kohalise arvu lisamiseks.

Sellised näited viitavad sellele, et trafod ei võidaks vaid mõne vaheastme kasutamisest palju. Tõepoolest, Merrill ja Sabharwal tõestasid, et mõtteahel hakkab tõeliselt aitama alles siis, kui vaheetappide arv kasvab võrdeliselt sisendi suurusega ja paljude probleemide jaoks on vaheetappide arv veelgi suurem.

Tulemuse põhjalikkus avaldas teadlastele muljet. "Nad panid selle tõesti kinni," ütles Daniel Hsu, masinõppe teadur Columbia ülikoolist.

Merrilli ja Sabharwali hiljutised tööd näitavad, et mõtteahel ei ole imerohi - põhimõtteliselt võib see aidata trafodel lahendada raskemaid probleeme, kuid ainult suure arvutustöö hinnaga.

"Oleme huvitatud erinevatest viisidest, kuidas trafode piirangutest ühe sammuga mööda pääseda, " ütles Merrill. "Mõtteahel on üks viis, kuid see artikkel näitab, et see ei pruugi olla kõige ökonoomsem viis."

Tagasi tegelikkusse

Siiski hoiatavad teadlased, et selline teoreetiline analüüs võib paljastada reaalsete keelemudelite kohta ainult nii mõndagi. Positiivsed tulemused – tõendid selle kohta, et trafod suudavad põhimõtteliselt teatud probleeme lahendada – ei tähenda, et keelemudel õpib neid lahendusi koolituse käigus tegelikult selgeks.

Ja isegi tulemused, mis käsitlevad trafode piiranguid, sisaldavad hoiatusi: need näitavad, et ükski trafo ei suuda teatud probleeme igal juhul täiuslikult lahendada. See on muidugi päris kõrge latt. "Probleemi puhul võib esineda erijuhtumeid, millega see saab suurepäraselt hakkama," ütles Hsu.

Hoolimata nendest hoiatustest pakub uus töö malli erinevat tüüpi närvivõrgu arhitektuuride analüüsimiseks, mis võivad lõpuks trafosid asendada. Kui keerukuse teooria analüüs viitab sellele, et teatud tüüpi võrgud on võimsamad kui teised, oleks see tõend selle kohta, et need võrgud võivad ka reaalses maailmas paremini hakkama saada.

Chiang rõhutas ka, et trafode piiranguid käsitlevad uuringud on seda väärtuslikumad, et keelemudeleid kasutatakse üha enam paljudes reaalsetes rakendustes, mistõttu on lihtne nende võimeid üle hinnata.

"Tegelikult on palju asju, mida nad nii hästi ei tee, ja me peame olema väga-väga teadlikud piirangutest," ütles Chiang. "Seetõttu on selline töö väga oluline."

spot_img

Uusim intelligentsus

spot_img

Jututuba koos meiega

Tere! Kuidas ma teid aidata saan?