Platon Data Intelligence.
Pystyhaku ja Ai.

Tietääkö tekoäly mikä omena on? Hän pyrkii selvittämään. | Quanta-lehti

Treffi:

esittely

Aloita puhuminen Ellie Pavlick työstään – etsii todisteita ymmärryksestä suurissa kielimalleissa (LLM) – ja hän saattaa kuulostaa siltä, ​​että hän pilailee sitä. Ilmaus "käsin aaltoileva" on suosikki, ja jos hän mainitsee "merkityksen" tai "päättelyn", se sisältää usein silmiinpistäviä ilmaisia ​​lainauksia. Tämä on vain Pavlickin tapa pitää itsensä rehellisenä. Tietojenkäsittelytieteilijänä, joka tutkii kielimalleja Brownin yliopistossa ja Google DeepMindissä, hän tietää, että luonnollisen kielen luontaisen somaisuuden omaksuminen on ainoa tapa ottaa se vakavasti. "Tämä on tieteellinen tieteenala - ja se on hieman nihkeä", hän sanoi.

Tarkkuus ja vivahteet ovat esiintyneet Pavlickin maailmassa teini-iästä lähtien, jolloin hän piti matematiikasta ja tieteestä, "mutta hänet tunnistettiin aina luovammaksi tyypiksi". Hän suoritti perustutkinto-opiskelijana taloustieteen ja saksofonin esityksen tutkinnot ennen tietojenkäsittelytieteen tohtorin tutkintoa, alalla, jolla hän tuntee edelleen olevansa ulkopuolinen. "On monia ihmisiä, jotka [ajattelevat] älykkäät järjestelmät näyttävän paljon tietokonekoodilta: siistejä ja kätevästi kuin monet järjestelmät, jotka [olemme] hyviä ymmärtämään", hän sanoi. "Uskon vain, että vastaukset ovat monimutkaisia. Jos minulla on yksinkertainen ratkaisu, olen melko varma, että se on väärä. Ja en halua olla väärässä."

Satunnainen kohtaaminen luonnollisen kielen prosessoinnissa työskentelevän tietojenkäsittelytieteilijän kanssa sai Pavlickin aloittamaan tohtorityönsä tutkien, kuinka tietokoneet voisivat koodata semantiikan tai kielen merkityksen. "Luulen, että se raaputtaa tiettyä kutinaa", hän sanoi. "Se uppoutuu filosofiaan, ja se sopii moniin asioihin, joiden parissa työskentelen tällä hetkellä." Nyt yksi Pavlickin tärkeimmistä tutkimusalueista keskittyy "maadoittumiseen" - kysymykseen siitä, riippuuko sanojen merkitys asioista, jotka ovat olemassa kielestä itsestään, kuten aistihavainnoista, sosiaalisista vuorovaikutuksista tai jopa muista ajatuksista. Kielimallit on koulutettu kokonaan tekstiin, joten ne tarjoavat hedelmällisen alustan tutkiaksesi, miten maadoitus on merkityksellistä. Mutta itse kysymys on askarruttanut kielitieteilijöitä ja muita ajattelijoita vuosikymmeniä.

"Nämä eivät ole vain "teknisiä" ongelmia", Pavlick sanoi. "Kieli on niin valtava, että minusta tuntuu, että se kattaa kaiken."

Quanta puhui Pavlickin kanssa tieteen tekemisestä filosofiasta, mitä "merkitys" tarkoittaa ja epäseksikkäiden tulosten tärkeydestä. Haastattelu on tiivistetty ja muokattu selvyyden vuoksi.

esittely

Mitä "ymmärtäminen" tai "merkitys" tarkoittaa empiirisesti? Mitä sinä erityisesti etsit?

Kun aloitin tutkimusohjelmaani Brownissa, päätimme, että merkitys sisältää käsitteet jollain tavalla. Ymmärrän, että tämä on teoreettinen sitoumus, jota kaikki eivät tee, mutta se vaikuttaa intuitiiviselta. Jos käytät sanaa "omena" tarkoittamaan omenaa, tarvitset käsitteen omena. Sen on oltava asia, riippumatta siitä, käytätkö sanaa viitataksesi siihen. Sitä se tarkoittaa, että "on merkitys": täytyy olla käsite, jotain, mitä puhut.

Haluan löytää mallista käsitteitä. Haluan jotain, johon voin tarttua hermoverkossa, todisteita siitä, että on olemassa asia, joka edustaa "omenaa" sisäisesti ja jonka ansiosta siihen voidaan johdonmukaisesti viitata samalla sanalla. Koska näyttää olevan tämä sisäinen rakenne, joka ei ole satunnainen ja mielivaltainen. Löydät nämä pienet hyvin määritellyt toiminnot, jotka tekevät jotain luotettavasti.

Olen keskittynyt luonnehtimaan tätä sisäistä rakennetta. Mikä muoto sillä on? Se voi olla jokin hermoverkon painojen osajoukko tai jonkinlainen lineaarinen algebrallinen operaatio näiden painojen yli, jonkinlainen geometrinen abstraktio. Mutta sillä on oltava kausaalinen rooli [mallin käyttäytymisessä]: Se on kytketty näihin tuloihin, mutta ei niihin, ja näihin lähtöihin, ei niihin.

Se tuntuu joltain, jota voisi alkaa kutsua "merkitykseksi". Kyse on siitä, miten löytää tämä rakenne ja luoda suhteita, jotta kun kaikki on saatu kohdalleen, voimme soveltaa sitä kysymyksiin, kuten "Tietääkö se mitä "omena" tarkoittaa?

Oletko löytänyt esimerkkejä tästä rakenteesta?

Kyllä, yksi johtua tarkoittaa sitä, kun kielimalli hakee tiedon. Jos mallilta kysytään "Mikä on Ranskan pääkaupunki", sen on sanottava "Pariisi" ja "Mikä on Puolan pääkaupunki" pitäisi palauttaa "Varsova". Se voisi hyvin helposti vain muistaa kaikki nämä vastaukset, ja ne voisivat olla hajallaan ympäri [mallin sisällä] – ei ole mitään todellista syytä, miksi sillä pitäisi olla yhteys noiden asioiden välillä.

Sen sijaan löysimme mallista pienen paikan, jossa se periaatteessa keittää tämän yhteyden yhdeksi pieneksi vektoriksi. Jos lisäät sen kohtaan "Mikä on Ranskan pääkaupunki", se hakee "Pariisi"; ja sama vektori, jos kysyt "Mikä on Puolan pääkaupunki", hakee "Varsovan". Se on kuin tämä systemaattinen "hae-pääkaupunki-kaupunki" -vektori.

Se on todella jännittävä havainto, koska näyttää siltä, ​​että [malli] keittää nämä pienet käsitteet ja sitten soveltaa niihin yleisiä algoritmeja. Ja vaikka tarkastelemme näitä todella [yksinkertaisia] kysymyksiä, kyse on todisteiden löytämisestä näistä mallin käyttämistä raaka-aineista. Tässä tapauksessa olisi helpompi päästä eroon muistamisesta - monella tapaa nämä verkot on suunniteltu siihen. Sen sijaan se hajottaa [tiedot] osiin ja "syihin" siitä. Ja toivomme, että kun kehitämme parempia kokeellisia suunnitelmia, voisimme löytää jotain vastaavaa monimutkaisempiin konsepteihin.

esittely

Miten maadoitus liittyy näihin esityksiin?

Tapa, jolla ihmiset oppivat kieltä, perustuu suureen määrään ei-kielellistä panosta: kehosi tuntemuksiasi, tunteitasi, oletko nälkäinen, mitä tahansa. Sitä pidetään merkityksen kannalta todella tärkeänä.

Mutta on myös muita maadoituskäsitteitä, jotka liittyvät enemmän sisäisiin esityksiin. On sanoja, jotka eivät ilmeisesti liity fyysiseen maailmaan, mutta silti niillä on merkitys. Sana kuten "demokratia" on suosikkiesimerkki. Se on päässäsi: voin ajatella demokratiaa puhumattakaan siitä. Joten maadoitus voisi olla kielestä tuohon asiaan, tuohon sisäiseen esitykseen.

Mutta väität, että jopa ulkopuolisemmat asiat, kuten värit, voivat silti olla ankkuroituja sisäisiin "käsitteellisiin" esityksiin ilman, että ne luottaisivat havaintoihin. Miten se toimisi?

No, kielimallilla ei ole silmiä, eihän? Se ei "tietä" väreistä mitään. Joten ehkä [se vangitsee] jotain yleisempää, kuten niiden välisten suhteiden ymmärtämisen. Tiedän, että kun yhdistän sinisen ja punaisen, saan violetin; sellaiset suhteet voisivat määritellä tämän sisäisen [maadoitus]rakenteen.

Voimme antaa esimerkkejä väreistä LLM:lle käyttämällä RGB-koodeja [värejä edustavia numerojonoja]. Jos sanot "OK, tässä on punainen" ja annat sille RGB-koodin punaiselle ja "Tässä on sininen" RGB-koodilla siniselle ja sanot sitten "Kerro minulle, mitä violetti on", sen pitäisi luoda RGB-koodi violetti. Tämän kartoituksen pitäisi olla hyvä osoitus siitä, että mallin sisäinen rakenne on hyvä – siitä puuttuu havainnot [värille], mutta käsitteellinen rakenne on olemassa.

Hankalaa on, että [malli] pystyi vain muistamaan RGB-koodit, jotka ovat kaikkialla sen harjoitustiedoissa. Joten "kääntimme" kaikki värit [pois niiden todellisista RGB-arvoista]: Kerroimme LLM:lle, että sana "keltainen" yhdistettiin vihreän RGB-koodiin ja niin edelleen. Malli toimi hyvin: Kun pyysit vihreää, se antaisi sinulle RGB-koodin käännetyn version. Tämä viittaa siihen, että sen sisäiset väriesitykset ovat jonkinlainen johdonmukaisuus. Se on tiedon soveltamista heidän suhteistaan, ei vain muistamista.

Se on koko maadoituksen pointti. Nimen yhdistäminen väriin on mielivaltaista. Kyse on enemmän heidän välisistä suhteistaan. Joten se oli jännittävää.

esittely

Kuinka nämä filosofiselta kuulostavat kysymykset voivat olla tieteellisiä?

Sain äskettäin kuulla ajatuskokeesta: Mitä jos valtameri pyyhkäisi ylös hiekkaan ja [kun se] vetäytyi, kuviot loivat runon? Onko runolla merkitystä? Se näyttää erittäin abstraktilta, ja voit käydä tämän pitkän filosofisen keskustelun.

Kielimallien hieno puoli on se, että emme tarvitse ajatuskokeilua. Se ei ole kuin "Olisiko teoriassa tällainen ja sellainen älykäs?" Se on vain: Onko tämä älykäs asia? Siitä tulee tieteellistä ja empiiristä.

Joskus ihmiset ovat halveksivia; siellä on "stokastiset papukaijat”lähestymistapaa. Luulen, että se [tulee] pelosta, että ihmiset ylimerkitsivät älykkyyttä näille asioille - minkä näemme. Ja sen korjaamiseksi ihmiset sanovat: "Ei, kaikki on huijausta. Tämä on savua ja peilejä."

Se on vähän karhunpalvelus. Olemme törmänneet johonkin varsin jännittävään ja aivan uuteen, ja se kannattaa ymmärtää syvällisesti. Se on valtava tilaisuus, jota ei pidä sivuuttaa, koska olemme huolissamme mallien liiallisesta tulkinnasta.

Totta kai sinä"olen myös tuottanut tutkimus kumoaa juuri tuollaisen liiallisen tulkinnan.

Se työ, jossa ihmiset löysivät kaiken "matalan heuristiikan", jota mallit käyttivät [ymmärryksen jäljittelemiseksi] – ne olivat hyvin perustavanlaatuisia ikääntymiselleni tiedemiehenä. Mutta se on monimutkaista. Se on kuin, älä julista voittoa liian aikaisin. [Minussa] on hieman skeptisyyttä tai vainoharhaisuutta siitä, että arviointi oli tehty oikein, jopa sellaisen, jonka tiedän suunnittelevani erittäin huolellisesti!

Joten se on osa sitä: ei liiallista väittää. Toinen osa on, että jos käsittelet näitä [kielimallin] järjestelmiä, tiedät, että ne eivät ole ihmistason - tapa, jolla he ratkaisevat asioita, ei ole niin älykästä kuin miltä näyttää.

esittely

Kun niin monet perusmenetelmät ja -termit ovat keskustelun kohteena tällä alalla, miten voit edes mitata menestystä?

Luulen, että etsimme tiedemiehinä tarkkaa, ihmisen ymmärrettävää kuvausta siitä, mistä me välitämme - tässä tapauksessa älykkyydestä. Ja sitten liitämme sanoja, jotka auttavat meitä pääsemään perille. Tarvitsemme jonkinlaista toimivaa sanastoa.

Mutta se on vaikeaa, koska silloin pääset tähän semantiikan taisteluun. Kun ihmiset sanovat "Onko sillä merkitystä: kyllä ​​vai ei?" Minä en tiedä. Ohjaamme keskustelun väärään asiaan.

Yritän tarjota tarkan selostuksen käyttäytymismalleista, joita halusimme selittää. Ja siinä vaiheessa on kiistanalaista, haluatko kutsua sitä "merkitykseksi" tai "esitukseksi" vai joksikin näistä ladatuista sanoista. Asia on siinä, että pöydällä on teoria tai ehdotettu malli - arvioikaamme sitä.

esittely

Joten miten kielimallien tutkimus voi siirtyä kohti tätä suorempaa lähestymistapaa?

Millaisia ​​syvällisiä kysymyksiä haluaisin todella pystyä vastaamaan – Mitkä ovat älykkyyden rakennuspalikoita? Miltä ihmisen älykkyys näyttää? Miltä mallin älykkyys näyttää? – ovat todella tärkeitä. Mutta mielestäni asiat, joiden on tapahduttava seuraavan 10 vuoden aikana, eivät ole kovin seksikkäitä.

Jos haluamme käsitellä näitä [sisäisiä] esityksiä, tarvitsemme menetelmiä niiden löytämiseen – menetelmiä, jotka ovat tieteellisesti järkeviä. Jos se tehdään oikein, tämä matalatasoinen, rikkaruohojen sisällä oleva metodologinen juttu ei toimita otsikoita. Mutta se on todella tärkeä asia, jonka avulla voimme vastata näihin syviin kysymyksiin oikein.

Samaan aikaan mallit muuttuvat jatkuvasti. Joten tulee olemaan paljon tavaraa, jonka ihmiset jatkavat julkaisemista ikään kuin se olisi "läpimurto", mutta se ei todennäköisesti ole. Minusta tuntuu, että on liian aikaista saada suuria läpimurtoja.

Ihmiset tutkivat näitä todella yksinkertaisia ​​tehtäviä, kuten pyytävät [kielimalli täytettäväksi] ”John antoi juoman _______:lle” ja yrittävät nähdä, lukeeko siinä ”John” vai ”Maria”. Siinä ei ole sellaisen tuloksen tunnetta, joka selittää älykkyyttä. Mutta itse asiassa uskon, että työkalut, joita käytämme kuvaamaan tätä tylsää ongelmaa, ovat välttämättömiä älykkyyttä koskeviin syviin kysymyksiin vastaamisessa.

spot_img

Uusin älykkyys

spot_img

Keskustele kanssamme

Hei siellä! Kuinka voin olla avuksi?