Amazonin kallioperä tarjoaa laajan valikoiman tehokkaita pohjamalleja Amazonilta ja muilta johtavilta tekoälyyrityksiltä, mukaan lukien Antropinen, AI21, Meta, Yhtenäinenja Vakaus AI, ja se kattaa laajan valikoiman käyttötapauksia, mukaan lukien tekstin ja kuvien luominen, haut, chat, päättely- ja toimivat agentit ja paljon muuta. Uusi Amazon Titan Image Generator Mallin avulla sisällöntuottajat voivat luoda nopeasti korkealaatuisia, realistisia kuvia käyttämällä yksinkertaisia englanninkielisiä tekstikehotteita. Kehittynyt tekoälymalli ymmärtää monimutkaiset ohjeet useille objekteille ja palauttaa studiolaatuisia kuvia, jotka sopivat niihin mainonta, verkkokauppa ja viihde. Keskeisiä ominaisuuksia ovat kyky tarkentaa kuvia toistamalla kehotteita, automaattinen taustan muokkaus ja luoda useita muunnelmia samasta kohtauksesta. Tekijät voivat myös muokata mallia omilla tiedoillaan tuottaakseen tuotemerkkikuvia tietyllä tyylillä. Tärkeää on, että Titan Image Generatorissa on sisäänrakennetut suojalaitteet, kuten näkymättömät vesileimat kaikissa tekoälyn luomissa kuvissa. vastuulliseen käyttöön ja hillitä disinformaation leviämistä. Tämä innovatiivinen tekniikka mahdollistaa räätälöityjen kuvien tuottamisen suurissa määrissä mikä tahansa toimiala helpommin saatavilla ja tehokkaammin.
Uusi Amazon Titan -multimodaaliset upotukset malli auttaa luomaan tarkempia hakuja ja suosituksia ymmärtämällä tekstiä, kuvia tai molempia. Se muuntaa kuvat ja englanninkielisen tekstin semanttisiksi vektoreiksi ja tallentaa tietosi merkitykset ja suhteet. Voit tunnistaa tuotteet tehokkaammin yhdistämällä tekstiä ja kuvia, kuten tuotekuvauksia ja valokuvia. Vektorit mahdollistavat nopeat ja tarkat hakukokemukset. Titan Multimodal Embeddings on joustava vektorimitoissa, mikä mahdollistaa optimoinnin suorituskykytarpeisiin. Asynkroninen API ja Amazon OpenSearch-palvelu liittimen avulla mallin integroiminen hermohakusovellukseesi on helppoa.
Tässä viestissä käymme läpi, kuinka voit käyttää Titan Image Generator- ja Titan Multimodal Embeddings -malleja AWS Python SDK:n kautta.
Kuvien luominen ja muokkaus
Tässä osiossa esittelemme peruskoodausmallit, joiden avulla AWS SDK:ta käytetään uusien kuvien luomiseen ja tekoälyn muokkauksiin olemassa oleville kuville. Koodiesimerkkejä tarjotaan Pythonissa, ja JavaScript (Node.js) on myös saatavilla tässä GitHub-arkisto.
Ennen kuin voit kirjoittaa skriptejä, jotka käyttävät Amazon Bedrock API:ta, sinun on asennettava AWS SDK:n asianmukainen versio ympäristöösi. Python-skripteille voit käyttää AWS SDK Pythonille (Boto3). Python-käyttäjät saattavat myös haluta asentaa Tyynymoduuli, joka helpottaa kuvatoimintoja, kuten kuvien lataamista ja tallentamista. Katso asennusohjeet kohdasta GitHub-arkisto.
Lisäksi salli pääsy Amazon Titan Image Generator- ja Titan Multimodal Embeddings -malleihin. Lisätietoja on kohdassa Mallin käyttöoikeus.
Aputoiminnot
Seuraava toiminto määrittää Amazon Bedrock Boto3 -ajonaikaisen asiakkaan ja luo kuvia ottamalla hyötykuormia eri kokoonpanoista (jota käsittelemme myöhemmin tässä viestissä):
Luo kuvia tekstistä
Skriptit, jotka luovat uuden kuvan tekstikehotteesta, noudattavat tätä toteutusmallia:
- Määritä tekstikehote ja valinnainen negatiivinen tekstikehote.
- Käytä
BedrockRuntime
asiakas käynnistää Titan Image Generator -mallin. - Jäsennä ja dekoodaa vastaus.
- Tallenna tuloksena olevat kuvat levylle.
Tekstistä kuvaksi
Seuraava on tyypillinen kuvien luomisskripti Titan Image Generator -mallille:
Tämä tuottaa seuraavanlaisia kuvia.
Vastauskuva 1 | Vastauskuva 2 |
Kuvan muunnelmia
Kuvamuunnelma tarjoaa tavan luoda hienovaraisia muunnelmia olemassa olevasta kuvasta. Seuraava koodinpätkä käyttää yhtä edellisessä esimerkissä luoduista kuvista muunnelmakuvien luomiseen:
Tämä tuottaa seuraavanlaisia kuvia.
Alkuperäinen kuva | Vastauskuva 1 | Vastauskuva 2 |
Muokkaa olemassa olevaa kuvaa
Titan Image Generator -mallin avulla voit lisätä, poistaa tai korvata elementtejä tai alueita olemassa olevassa kuvassa. Voit määrittää, mihin alueeseen haluat vaikuttaa antamalla jonkin seuraavista:
- Maskin kuva – Maskikuva on binäärikuva, jossa 0-arvoiset pikselit edustavat aluetta, johon haluat vaikuttaa, ja 255-arvoiset pikselit edustavat aluetta, jonka pitäisi pysyä muuttumattomana.
- Maskin kehote – Maskikehote on luonnollisen kielen tekstikuvaus elementeistä, joihin haluat vaikuttaa, ja joka käyttää talon sisäistä tekstistä segmentointimallia.
Lisätietoja on Nopeat suunnitteluohjeet.
Skriptit, jotka muokkaavat kuvaa, noudattavat tätä toteutusmallia:
- Lataa muokattava kuva levyltä.
- Muunna kuva base64-koodatuksi merkkijonoksi.
- Määritä maski jollakin seuraavista tavoista:
- Lataa maskikuva levyltä, koodaa se nimellä base64 ja aseta se muotoon
maskImage
parametri. - - asettaa
maskText
parametrin tekstikuvaukseen elementeistä, joihin vaikuttaa.
- Lataa maskikuva levyltä, koodaa se nimellä base64 ja aseta se muotoon
- Määritä luotava uusi sisältö jollakin seuraavista vaihtoehdoista:
- Jos haluat lisätä tai korvata elementin, aseta
text
parametri uuden sisällön kuvaukseen. - Jos haluat poistaa elementin, jätä pois
text
parametri kokonaan.
- Jos haluat lisätä tai korvata elementin, aseta
- Käytä
BedrockRuntime
asiakas käynnistää Titan Image Generator -mallin. - Jäsennä ja dekoodaa vastaus.
- Tallenna tuloksena olevat kuvat levylle.
Objektin muokkaus: maalaus maskikuvalla
Seuraava on tyypillinen kuvankäsittelyohjelma Titan Image Generator -mallille maskImage
. Otamme yhden aiemmin luoduista kuvista ja tarjoamme maskikuvan, jossa 0-arvoiset pikselit esitetään mustina ja 255-arvoiset pikselit valkoisina. Korvaamme myös yhden kuvan koirista kissalla tekstikehotteen avulla.
Tämä tuottaa seuraavanlaisia kuvia.
Alkuperäinen kuva | Maskikuva | Muokattu kuva |
Objektin poisto: Maalaus maskin avulla
Toisessa esimerkissä käytämme maskPrompt
määrittääksesi objektin kuvassa, joka on otettu aikaisemmista vaiheista, muokataksesi. Jos tekstikehote jätetään pois, objekti poistetaan:
Tämä tuottaa seuraavanlaisia kuvia.
Alkuperäinen kuva | Vastauskuva |
Taustan editointi: Outpainting
Ulkomaalauksesta on hyötyä, kun haluat korvata kuvan taustan. Voit myös laajentaa kuvan rajoja loitontaaksesi. Seuraavassa esimerkkiskriptissä käytämme maskPrompt
määrittää, mikä objekti säilytetään; voit myös käyttää maskImage
. Parametri outPaintingMode
määrittää, sallitaanko maskin sisällä olevien pikselien muokkaaminen. Jos asetettu DEFAULT
, maskin sisällä olevia pikseleitä voidaan muokata niin, että rekonstruoitu kuva on kokonaisuudessaan yhtenäinen. Tätä vaihtoehtoa suositellaan, jos maskImage
annettu ei edusta objektia pikselitason tarkkuudella. Jos asetettu PRECISE
, maskin sisällä olevien pikselien muuttaminen on estetty. Tätä vaihtoehtoa suositellaan, jos käytät a maskPrompt
tai maskImage
joka edustaa objektia pikselitason tarkkuudella.
Tämä tuottaa seuraavanlaisia kuvia.
Alkuperäinen kuva | teksti | Vastauskuva |
"ranta" | ||
"metsä" |
Lisäksi eri arvojen vaikutukset outPaintingMode
, Jossa maskImage
jotka eivät hahmota objektia pikselitason tarkkuudella, ovat seuraavat.
Tämä osa on antanut sinulle yleiskatsauksen toiminnoista, joita voit suorittaa Titan Image Generator -mallilla. Erityisesti nämä skriptit osoittavat tekstistä kuvaksi, kuvien muuntelu-, maalaus- ja ulkomaalaustehtäviä. Sinun pitäisi pystyä mukauttamaan malleja omiin sovelluksiisi viittaamalla näiden tehtävätyyppien parametritietoihin, jotka on kuvattu kohdassa Amazon Titan Image Generatorin dokumentaatio.
Multimodaalinen upottaminen ja haku
Voit käyttää Amazon Titan Multimodal Embeddings -mallia yritystehtäviin, kuten kuvahakuun ja samankaltaisuuteen perustuviin suosituksiin, ja siinä on sisäänrakennettu lievennys, joka auttaa vähentämään harhaa hakutuloksissa. Saatavilla on useita upotusulottuvuuksia parhaan viiveen/tarkkuuden kompromissien saamiseksi eri tarpeisiin, ja kaikki voidaan mukauttaa yksinkertaisella API:lla mukautumaan omiin tietoihisi säilyttäen samalla tietoturvan ja yksityisyyden. Amazon Titan Multimodal Embeddings toimitetaan yksinkertaisina API-liittyminä reaaliaikaisiin tai asynkronisiin erämuunnoshaku- ja suositussovelluksiin, ja ne voidaan yhdistää erilaisiin vektoritietokantoihin, kuten Amazon OpenSearch-palvelu.
Aputoiminnot
Seuraava toiminto muuntaa kuvan ja valinnaisesti tekstin multimodaalisiksi upotuksiksi:
Seuraava funktio palauttaa suosituimmat samankaltaiset multimodaaliset upotukset kyselyllä multimodaaliset upotukset. Huomaa, että käytännössä voit käyttää hallittua vektoritietokantaa, kuten OpenSearch-palvelua. Seuraava esimerkki on havainnollistava:
Synteettinen tietojoukko
Havainnollistamistarkoituksessa käytämme Anthropicin Claude 2.1 -malli Amazon Bedrockissa luoda satunnaisesti seitsemän erilaista tuotetta, joista jokaisessa on kolme versiota, käyttämällä seuraavaa kehotetta:
Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.
Seuraava on luettelo palautetuista tulosteista:
Määritä yllä oleva vastaus muuttujalle response_cat
. Sitten käytämme Titan Image Generator -mallia tuotekuvien luomiseen jokaiselle tuotteelle:
Kaikki luodut kuvat löytyvät tämän postauksen lopussa olevasta liitteestä.
Multimodaalinen tietojoukon indeksointi
Käytä seuraavaa koodia multimodaalisen tietojoukon indeksointiin:
Multimodaalinen haku
Käytä seuraavaa koodia multimodaaliseen hakuun:
Seuraavassa on joitain hakutuloksia.
Yhteenveto
Viesti esittelee Amazon Titan Image Generator- ja Amazon Titan Multimodal Embeddings -mallit. Titan Image Generatorin avulla voit luoda mukautettuja, korkealaatuisia kuvia tekstikehotteista. Keskeisiä ominaisuuksia ovat kehotteiden iterointi, automaattinen taustamuokkaus ja tietojen mukauttaminen. Siinä on suojat, kuten näkymätön vesileima, jotka kannustavat vastuulliseen käyttöön. Titan Multimodal Embeddings muuntaa tekstin, kuvat tai molemmat semanttisiksi vektoreiksi tarkan haun ja suositusten tehostamiseksi. Sitten toimitimme Python-koodinäytteitä näiden palvelujen käyttöä varten ja esitimme kuvien luomisen tekstikehotteista ja kuvien iterointia; olemassa olevien kuvien muokkaaminen lisäämällä, poistamalla tai korvaamalla maskikuvien tai maskitekstin määrittämiä elementtejä; luoda multimodaalisia upotuksia tekstistä, kuvista tai molemmista; ja samankaltaisten multimodaalisten upotusten etsiminen kyselyyn. Esitimme myös synteettisen verkkokaupan tietojoukon, joka oli indeksoitu ja haettu Titan Multimodal Embeddingsin avulla. Tämän postauksen tavoitteena on antaa kehittäjille mahdollisuus alkaa käyttää näitä uusia tekoälypalveluja sovelluksissaan. Koodimallit voivat toimia malleina mukautetuille toteutuksille.
Kaikki koodit ovat saatavilla osoitteessa GitHub-arkisto. Lisätietoja on osoitteessa Amazon Bedrockin käyttöopas.
Tietoja Tekijät
Rohit Mittal on päätuotepäällikkö Amazon AI:ssa rakentaen multimodaalisia perustusmalleja. Hän johti hiljattain Amazon Titan Image Generator -mallin lanseerausta osana Amazon Bedrock -palvelua. Hän on kokenut AI/ML:stä, NLP:stä ja Searchista, ja hän on kiinnostunut rakentamaan tuotteita, jotka ratkaisevat asiakkaiden kipupisteet innovatiivisella tekniikalla.
Tohtori Ashwin Swaminathan on tietokonenäön ja koneoppimisen tutkija, insinööri ja johtaja, jolla on yli 12 vuoden kokemus alalta ja yli 5 vuoden akateeminen tutkimuskokemus. Vahvat perusteet ja todistettu kyky hankkia nopeasti tietoa ja osallistua uusiin ja nouseviin alueisiin.
Tohtori Yusheng Xie on johtava sovellettu tutkija Amazon AGI:ssa. Hänen työnsä keskittyy multimodaalisten perustusmallien rakentamiseen. Ennen liittymistään AGI:hen hän johti AWS:ssä erilaisia multimodaalisia tekoälykehitystä, kuten Amazon Titan Image Generator ja Amazon Textract Queries.
Tohtori Hao Yang on johtava sovellettu tutkija Amazonissa. Hänen tärkeimmät tutkimusaiheensa ovat esineiden havaitseminen ja oppiminen rajoitetuilla huomautuksilla. Työn ulkopuolella Hao nauttii elokuvien katselusta, valokuvaamisesta ja ulkoilusta.
Tri Davide Modolo on Amazon AGI:n Applied Science Manager, joka työskentelee suurten multimodaalisten perusmallien rakentamisessa. Ennen Amazon AGI:hen liittymistään hän toimi johtajana/johtajana 7 vuoden ajan AWS AI Labsissa (Amazon Bedrock ja Amazon Rekognition). Työn ulkopuolella hän nauttii matkustamisesta ja kaikenlaisesta urheilusta, erityisesti jalkapallosta.
tohtori Baichuan Sun, työskentelee tällä hetkellä Sr. AI/ML Solutions Architectina AWS:ssä, keskittyen generatiiviseen tekoälyyn ja soveltaa tietojaan datatieteessä ja koneoppimisessa tarjotakseen käytännöllisiä, pilvipohjaisia liiketoimintaratkaisuja. Hänellä on kokemusta liikkeenjohdon konsultoinnista ja tekoälyratkaisujen arkkitehtuurista, ja hän vastaa moniin monimutkaisiin haasteisiin, kuten robotiikan tietokonenäön, aikasarjojen ennustamiseen ja ennakoivaan ylläpitoon. Hänen työnsä pohjautuu vankkaan projektinhallinnan, ohjelmistotuotannon ja -kehityksen sekä akateemisen taustaan. Työn ulkopuolella tohtori Sun nauttii tasapainosta matkustaessaan ja viettäen aikaa perheen ja ystävien kanssa.
Tohtori Kai Zhu työskentelee tällä hetkellä AWS:n pilvituki-insinöörinä ja auttaa asiakkaita AI/ML-ongelmiin liittyvissä ongelmissa, kuten SageMaker, Bedrock jne. Hän on SageMaker-aiheasiantuntija. Hän on kokenut datatieteessä ja tietotekniikassa, ja hän on kiinnostunut generatiivisten AI-pohjaisten projektien rakentamisesta.
Kris Schultz on viettänyt yli 25 vuotta herättääkseen kiinnostavia käyttökokemuksia henkiin yhdistämällä uusia teknologioita maailmanluokan suunnitteluun. Senior Product Managerin roolissaan Kris auttaa suunnittelemaan ja rakentamaan AWS-palveluita median ja viihteen, pelaamisen ja spatial Computingin tehostamiseksi.
Liite
Seuraavissa osioissa esittelemme haastavia esimerkkikäyttötapauksia, kuten tekstin lisäystä, käsiä ja heijastuksia korostaaksemme Titan Image Generator -mallin ominaisuuksia. Sisällytämme myös aikaisemmissa esimerkeissä tuotetut näytetulostuskuvat.
teksti
Titan Image Generator -malli on erinomainen monimutkaisissa työnkuluissa, kuten luettavan tekstin lisäämisessä kuviin. Tämä esimerkki osoittaa Titanin kyvyn hahmontaa selkeästi isot ja pienet kirjaimet yhtenäisellä tyylillä kuvassa.
corgi, jolla on lippalakki ja teksti "genai" | iloinen poika, joka pitää peukkua, yllään t-paita, jossa on teksti "generative AI" |
käsissä
Titan Image Generator -mallilla on myös kyky luoda yksityiskohtaisia tekoälykuvia. Kuvassa näkyvät realistiset kädet ja sormet, joissa on näkyviä yksityiskohtia, mikä ylittää perustavanlaatuisemman tekoälykuvan luomisen, josta saattaa puuttua tällainen spesifisyys. Huomaa seuraavissa esimerkeissä asennon ja anatomian tarkka kuvaus.
henkilön käsi ylhäältä katsottuna | tarkka katsaus ihmisen käsiin, jotka pitelevät kahvikuppia |
Peili
Titan Image Generator -mallin luomat kuvat järjestävät esineitä tilallisesti ja heijastavat tarkasti peiliefektejä, kuten seuraavissa esimerkeissä on osoitettu.
Söpö pörröinen valkoinen kissa seisoo takajaloillaan ja tuijottaa uteliaana koristeelliseen kultaiseen peiliin. Heijastuksessa kissa näkee itsensä | kaunis taivasjärvi, jossa on heijastuksia vedessä |
Synteettiset tuotekuvat
Seuraavat ovat tuotekuvat, jotka on luotu aiemmin tässä viestissä Titan Multimodal Embeddings -mallille.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/use-amazon-titan-models-for-image-generation-editing-and-searching/