Platon Data Intelligence.
Pystyhaku ja Ai.

Käytä Amazon Titan -malleja kuvien luomiseen, muokkaamiseen ja etsimiseen | Amazon Web Services

Treffi:

Amazonin kallioperä tarjoaa laajan valikoiman tehokkaita pohjamalleja Amazonilta ja muilta johtavilta tekoälyyrityksiltä, ​​mukaan lukien Antropinen, AI21, Meta, Yhtenäinenja Vakaus AI, ja se kattaa laajan valikoiman käyttötapauksia, mukaan lukien tekstin ja kuvien luominen, haut, chat, päättely- ja toimivat agentit ja paljon muuta. Uusi Amazon Titan Image Generator Mallin avulla sisällöntuottajat voivat luoda nopeasti korkealaatuisia, realistisia kuvia käyttämällä yksinkertaisia ​​englanninkielisiä tekstikehotteita. Kehittynyt tekoälymalli ymmärtää monimutkaiset ohjeet useille objekteille ja palauttaa studiolaatuisia kuvia, jotka sopivat niihin mainonta, verkkokauppa ja viihde. Keskeisiä ominaisuuksia ovat kyky tarkentaa kuvia toistamalla kehotteita, automaattinen taustan muokkaus ja luoda useita muunnelmia samasta kohtauksesta. Tekijät voivat myös muokata mallia omilla tiedoillaan tuottaakseen tuotemerkkikuvia tietyllä tyylillä. Tärkeää on, että Titan Image Generatorissa on sisäänrakennetut suojalaitteet, kuten näkymättömät vesileimat kaikissa tekoälyn luomissa kuvissa. vastuulliseen käyttöön ja hillitä disinformaation leviämistä. Tämä innovatiivinen tekniikka mahdollistaa räätälöityjen kuvien tuottamisen suurissa määrissä mikä tahansa toimiala helpommin saatavilla ja tehokkaammin.

Uusi Amazon Titan -multimodaaliset upotukset malli auttaa luomaan tarkempia hakuja ja suosituksia ymmärtämällä tekstiä, kuvia tai molempia. Se muuntaa kuvat ja englanninkielisen tekstin semanttisiksi vektoreiksi ja tallentaa tietosi merkitykset ja suhteet. Voit tunnistaa tuotteet tehokkaammin yhdistämällä tekstiä ja kuvia, kuten tuotekuvauksia ja valokuvia. Vektorit mahdollistavat nopeat ja tarkat hakukokemukset. Titan Multimodal Embeddings on joustava vektorimitoissa, mikä mahdollistaa optimoinnin suorituskykytarpeisiin. Asynkroninen API ja Amazon OpenSearch-palvelu liittimen avulla mallin integroiminen hermohakusovellukseesi on helppoa.

Tässä viestissä käymme läpi, kuinka voit käyttää Titan Image Generator- ja Titan Multimodal Embeddings -malleja AWS Python SDK:n kautta.

Kuvien luominen ja muokkaus

Tässä osiossa esittelemme peruskoodausmallit, joiden avulla AWS SDK:ta käytetään uusien kuvien luomiseen ja tekoälyn muokkauksiin olemassa oleville kuville. Koodiesimerkkejä tarjotaan Pythonissa, ja JavaScript (Node.js) on myös saatavilla tässä GitHub-arkisto.

Ennen kuin voit kirjoittaa skriptejä, jotka käyttävät Amazon Bedrock API:ta, sinun on asennettava AWS SDK:n asianmukainen versio ympäristöösi. Python-skripteille voit käyttää AWS SDK Pythonille (Boto3). Python-käyttäjät saattavat myös haluta asentaa Tyynymoduuli, joka helpottaa kuvatoimintoja, kuten kuvien lataamista ja tallentamista. Katso asennusohjeet kohdasta GitHub-arkisto.

Lisäksi salli pääsy Amazon Titan Image Generator- ja Titan Multimodal Embeddings -malleihin. Lisätietoja on kohdassa Mallin käyttöoikeus.

Aputoiminnot

Seuraava toiminto määrittää Amazon Bedrock Boto3 -ajonaikaisen asiakkaan ja luo kuvia ottamalla hyötykuormia eri kokoonpanoista (jota käsittelemme myöhemmin tässä viestissä):

import boto3
import json, base64, io
from random import randint
from PIL import Image

bedrock_runtime_client = boto3.client("bedrock-runtime")


def titan_image(
    payload: dict,
    num_image: int = 2,
    cfg: float = 10.0,
    seed: int = None,
    modelId: str = "amazon.titan-image-generator-v1",
) -> list:
    #   ImageGenerationConfig Options:
    #   - numberOfImages: Number of images to be generated
    #   - quality: Quality of generated images, can be standard or premium
    #   - height: Height of output image(s)
    #   - width: Width of output image(s)
    #   - cfgScale: Scale for classifier-free guidance
    #   - seed: The seed to use for reproducibility
    seed = seed if seed is not None else randint(0, 214783647)
    body = json.dumps(
        {
            **payload,
            "imageGenerationConfig": {
                "numberOfImages": num_image,  # Range: 1 to 5
                "quality": "premium",  # Options: standard/premium
                "height": 1024,  # Supported height list above
                "width": 1024,  # Supported width list above
                "cfgScale": cfg,  # Range: 1.0 (exclusive) to 10.0
                "seed": seed,  # Range: 0 to 214783647
            },
        }
    )

    response = bedrock_runtime_client.invoke_model(
        body=body,
        modelId=modelId,
        accept="application/json",
        contentType="application/json",
    )

    response_body = json.loads(response.get("body").read())
    images = [
        Image.open(io.BytesIO(base64.b64decode(base64_image)))
        for base64_image in response_body.get("images")
    ]
    return images
        

Luo kuvia tekstistä

Skriptit, jotka luovat uuden kuvan tekstikehotteesta, noudattavat tätä toteutusmallia:

  1. Määritä tekstikehote ja valinnainen negatiivinen tekstikehote.
  2. Käytä BedrockRuntime asiakas käynnistää Titan Image Generator -mallin.
  3. Jäsennä ja dekoodaa vastaus.
  4. Tallenna tuloksena olevat kuvat levylle.

Tekstistä kuvaksi

Seuraava on tyypillinen kuvien luomisskripti Titan Image Generator -mallille:

# Text Variation
# textToImageParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
images = titan_image(
    {
        "taskType": "TEXT_IMAGE",
        "textToImageParams": {
            "text": "two dogs walking down an urban street, facing the camera",  # Required
            "negativeText": "cars",  # Optional
        },
    }
)

Tämä tuottaa seuraavanlaisia ​​kuvia.

Vastauskuva 1 Vastauskuva 2
2 koiraa kävelee kadulla 2 koiraa kävelee kadulla

Kuvan muunnelmia

Kuvamuunnelma tarjoaa tavan luoda hienovaraisia ​​muunnelmia olemassa olevasta kuvasta. Seuraava koodinpätkä käyttää yhtä edellisessä esimerkissä luoduista kuvista muunnelmakuvien luomiseen:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file:
    input_image = base64.b64encode(image_file.read()).decode("utf8")

# Image Variation
# ImageVariationParams Options:
#   text: prompt to guide the model on how to generate variations
#   negativeText: prompts to guide the model on what you don't want in image
#   images: base64 string representation of the input image, only 1 is supported
images = titan_image(
    {
        "taskType": "IMAGE_VARIATION",
        "imageVariationParams": {
            "text": "two dogs walking down an urban street, facing the camera",  # Required
            "images": [input_image],  # One image is required
            "negativeText": "cars",  # Optional
        },
    },
)

Tämä tuottaa seuraavanlaisia ​​kuvia.

Alkuperäinen kuva Vastauskuva 1 Vastauskuva 2
2 koiraa kävelee kadulla

Muokkaa olemassa olevaa kuvaa

Titan Image Generator -mallin avulla voit lisätä, poistaa tai korvata elementtejä tai alueita olemassa olevassa kuvassa. Voit määrittää, mihin alueeseen haluat vaikuttaa antamalla jonkin seuraavista:

  • Maskin kuva – Maskikuva on binäärikuva, jossa 0-arvoiset pikselit edustavat aluetta, johon haluat vaikuttaa, ja 255-arvoiset pikselit edustavat aluetta, jonka pitäisi pysyä muuttumattomana.
  • Maskin kehote – Maskikehote on luonnollisen kielen tekstikuvaus elementeistä, joihin haluat vaikuttaa, ja joka käyttää talon sisäistä tekstistä segmentointimallia.

Lisätietoja on Nopeat suunnitteluohjeet.

Skriptit, jotka muokkaavat kuvaa, noudattavat tätä toteutusmallia:

  1. Lataa muokattava kuva levyltä.
  2. Muunna kuva base64-koodatuksi merkkijonoksi.
  3. Määritä maski jollakin seuraavista tavoista:
    1. Lataa maskikuva levyltä, koodaa se nimellä base64 ja aseta se muotoon maskImage parametri.
    2. - asettaa maskText parametrin tekstikuvaukseen elementeistä, joihin vaikuttaa.
  4. Määritä luotava uusi sisältö jollakin seuraavista vaihtoehdoista:
    1. Jos haluat lisätä tai korvata elementin, aseta text parametri uuden sisällön kuvaukseen.
    2. Jos haluat poistaa elementin, jätä pois text parametri kokonaan.
  5. Käytä BedrockRuntime asiakas käynnistää Titan Image Generator -mallin.
  6. Jäsennä ja dekoodaa vastaus.
  7. Tallenna tuloksena olevat kuvat levylle.

Objektin muokkaus: maalaus maskikuvalla

Seuraava on tyypillinen kuvankäsittelyohjelma Titan Image Generator -mallille maskImage. Otamme yhden aiemmin luoduista kuvista ja tarjoamme maskikuvan, jossa 0-arvoiset pikselit esitetään mustina ja 255-arvoiset pikselit valkoisina. Korvaamme myös yhden kuvan koirista kissalla tekstikehotteen avulla.

with open("<YOUR_MASK_IMAGE_FILE_PATH>", "rb") as image_file:
    mask_image = base64.b64encode(image_file.read()).decode("utf8")

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_ORIGINAL_IMAGE_FILE_PATH>", "rb") as image_file:
    input_image = base64.b64encode(image_file.read()).decode("utf8")

# Inpainting
# inPaintingParams Options:
#   text: prompt to guide inpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask

images = titan_image(
    {
        "taskType": "INPAINTING",
        "inPaintingParams": {
            "text": "a cat",  # Optional
            "negativeText": "bad quality, low res",  # Optional
            "image": input_image,  # Required
            "maskImage": mask_image,
        },
    },
    num_image=3,
)

Tämä tuottaa seuraavanlaisia ​​kuvia.

Alkuperäinen kuva Maskikuva Muokattu kuva
2 koiraa kävelee kadulla kissa ja koira kävelemässä kadulla

Objektin poisto: Maalaus maskin avulla

Toisessa esimerkissä käytämme maskPrompt määrittääksesi objektin kuvassa, joka on otettu aikaisemmista vaiheista, muokataksesi. Jos tekstikehote jätetään pois, objekti poistetaan:

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file:
    input_image = base64.b64encode(image_file.read()).decode("utf8")

images = titan_image(
    {
        "taskType": "INPAINTING",
        "inPaintingParams": {
            "negativeText": "bad quality, low res",  # Optional
            "image": input_image,  # Required
            "maskPrompt": "white dog",  # One of "maskImage" or "maskPrompt" is required
        },
    },
)

Tämä tuottaa seuraavanlaisia ​​kuvia.

Alkuperäinen kuva Vastauskuva
2 koiraa kävelee kadulla yksi koira kävelee kadulla

Taustan editointi: Outpainting

Ulkomaalauksesta on hyötyä, kun haluat korvata kuvan taustan. Voit myös laajentaa kuvan rajoja loitontaaksesi. Seuraavassa esimerkkiskriptissä käytämme maskPrompt määrittää, mikä objekti säilytetään; voit myös käyttää maskImage. Parametri outPaintingMode määrittää, sallitaanko maskin sisällä olevien pikselien muokkaaminen. Jos asetettu DEFAULT, maskin sisällä olevia pikseleitä voidaan muokata niin, että rekonstruoitu kuva on kokonaisuudessaan yhtenäinen. Tätä vaihtoehtoa suositellaan, jos maskImage annettu ei edusta objektia pikselitason tarkkuudella. Jos asetettu PRECISE, maskin sisällä olevien pikselien muuttaminen on estetty. Tätä vaihtoehtoa suositellaan, jos käytät a maskPrompt tai maskImage joka edustaa objektia pikselitason tarkkuudella.

# Import an input image like this (only PNG/JPEG supported):
with open("<YOUR_IMAGE_FILE_PATH>", "rb") as image_file:
    input_image = base64.b64encode(image_file.read()).decode("utf8")

# OutPaintingParams Options:
#   text: prompt to guide outpainting
#   negativeText: prompts to guide the model on what you don't want in image
#   image: base64 string representation of the input image
#   maskImage: base64 string representation of the input mask image
#   maskPrompt: prompt used for auto editing to generate mask
#   outPaintingMode: DEFAULT | PRECISE
images = titan_image(
    {
        "taskType": "OUTPAINTING",
        "outPaintingParams": {
            "text": "forest",  # Required
            "image": input_image,  # Required
            "maskPrompt": "dogs",  # One of "maskImage" or "maskPrompt" is required
            "outPaintingMode": "PRECISE",  # One of "PRECISE" or "DEFAULT"
        },
    },
    num_image=3,
)

Tämä tuottaa seuraavanlaisia ​​kuvia.

Alkuperäinen kuva teksti Vastauskuva
2 koiraa kävelee kadulla "ranta" yksi koira kävelyllä rannalla
2 koiraa kävelee kadulla "metsä"

Lisäksi eri arvojen vaikutukset outPaintingMode, Jossa maskImage jotka eivät hahmota objektia pikselitason tarkkuudella, ovat seuraavat.

Tämä osa on antanut sinulle yleiskatsauksen toiminnoista, joita voit suorittaa Titan Image Generator -mallilla. Erityisesti nämä skriptit osoittavat tekstistä kuvaksi, kuvien muuntelu-, maalaus- ja ulkomaalaustehtäviä. Sinun pitäisi pystyä mukauttamaan malleja omiin sovelluksiisi viittaamalla näiden tehtävätyyppien parametritietoihin, jotka on kuvattu kohdassa Amazon Titan Image Generatorin dokumentaatio.

Multimodaalinen upottaminen ja haku

Voit käyttää Amazon Titan Multimodal Embeddings -mallia yritystehtäviin, kuten kuvahakuun ja samankaltaisuuteen perustuviin suosituksiin, ja siinä on sisäänrakennettu lievennys, joka auttaa vähentämään harhaa hakutuloksissa. Saatavilla on useita upotusulottuvuuksia parhaan viiveen/tarkkuuden kompromissien saamiseksi eri tarpeisiin, ja kaikki voidaan mukauttaa yksinkertaisella API:lla mukautumaan omiin tietoihisi säilyttäen samalla tietoturvan ja yksityisyyden. Amazon Titan Multimodal Embeddings toimitetaan yksinkertaisina API-liittyminä reaaliaikaisiin tai asynkronisiin erämuunnoshaku- ja suositussovelluksiin, ja ne voidaan yhdistää erilaisiin vektoritietokantoihin, kuten Amazon OpenSearch-palvelu.

Aputoiminnot

Seuraava toiminto muuntaa kuvan ja valinnaisesti tekstin multimodaalisiksi upotuksiksi:

def titan_multimodal_embedding(
    image_path: str = None,  # maximum 2048 x 2048 pixels
    description: str = None,  # English only and max input tokens 128
    dimension: int = 1024,  # 1,024 (default), 384, 256
    model_id: str = "amazon.titan-embed-image-v1",
):
    payload_body = {}
    embedding_config: dict = {"embeddingConfig": {"outputEmbeddingLength": dimension}}

    # You can specify either text or image or both
    if image_path:
        # Maximum image size supported is 2048 x 2048 pixels
        with open(image_path, "rb") as image_file:
            payload_body["inputImage"] = base64.b64encode(image_file.read()).decode(
                "utf8"
            )
    if description:
        payload_body["inputText"] = description

    assert payload_body, "please provide either an image and/or a text description"
    print("n".join(payload_body.keys()))

    response = bedrock_runtime_client.invoke_model(
        body=json.dumps({**payload_body, **embedding_config}),
        modelId=model_id,
        accept="application/json",
        contentType="application/json",
    )

    return json.loads(response.get("body").read())

Seuraava funktio palauttaa suosituimmat samankaltaiset multimodaaliset upotukset kyselyllä multimodaaliset upotukset. Huomaa, että käytännössä voit käyttää hallittua vektoritietokantaa, kuten OpenSearch-palvelua. Seuraava esimerkki on havainnollistava:

from scipy.spatial.distance import cdist
import numpy as np

def search(query_emb: np.array, indexes: np.array, top_k: int = 1):
    dist = cdist(query_emb, indexes, metric="cosine")
    return dist.argsort(axis=-1)[0, :top_k], np.sort(dist, axis=-1)[:top_k]

Synteettinen tietojoukko

Havainnollistamistarkoituksessa käytämme Anthropicin Claude 2.1 -malli Amazon Bedrockissa luoda satunnaisesti seitsemän erilaista tuotetta, joista jokaisessa on kolme versiota, käyttämällä seuraavaa kehotetta:

Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.

Seuraava on luettelo palautetuista tulosteista:

1. T-shirt
- A red cotton t-shirt with a crew neck and short sleeves.
- A blue cotton t-shirt with a v-neck and short sleeves.
- A black polyester t-shirt with a scoop neck and cap sleeves.

2. Jeans
- Classic blue relaxed fit denim jeans with a mid-rise waist.
- Black skinny fit denim jeans with a high-rise waist and ripped details at the knees.
- Stonewash straight leg denim jeans with a standard waist and front pockets.

3. Sneakers
- White leather low-top sneakers with an almond toe cap and thick rubber outsole.
- Gray mesh high-top sneakers with neon green laces and a padded ankle collar.
- Tan suede mid-top sneakers with a round toe and ivory rubber cupsole.

4. Backpack
- A purple nylon backpack with padded shoulder straps, front zipper pocket and laptop sleeve.
- A gray canvas backpack with brown leather trims, side water bottle pockets and drawstring top closure.
- A black leather backpack with multiple interior pockets, top carry handle and adjustable padded straps.

5. Smartwatch
- A silver stainless steel smartwatch with heart rate monitor, GPS tracker and sleep analysis.
- A space gray aluminum smartwatch with step counter, phone notifications and calendar syncing.
- A rose gold smartwatch with activity tracking, music controls and customizable watch faces.

6. Coffee maker
- A 12-cup programmable coffee maker in brushed steel with removable water tank and keep warm plate.
- A compact 5-cup single serve coffee maker in matt black with travel mug auto-dispensing feature.
- A retro style stovetop percolator coffee pot in speckled enamel with stay-cool handle and glass knob lid.

7. Yoga mat
- A teal 4mm thick yoga mat made of natural tree rubber with moisture-wicking microfiber top.
- A purple 6mm thick yoga mat made of eco-friendly TPE material with integrated carrying strap.
- A patterned 5mm thick yoga mat made of PVC-free material with towel cover included.

Määritä yllä oleva vastaus muuttujalle response_cat. Sitten käytämme Titan Image Generator -mallia tuotekuvien luomiseen jokaiselle tuotteelle:

import re

def extract_text(input_string):
    pattern = r"- (.*?)($|n)"
    matches = re.findall(pattern, input_string)
    extracted_texts = [match[0] for match in matches]
    return extracted_texts

product_description = extract_text(response_cat)

titles = []
for prompt in product_description:
    images = titan_image(
        {
            "taskType": "TEXT_IMAGE",
            "textToImageParams": {
                "text": prompt,  # Required
            },
        },
        num_image=1,
    )
    title = "_".join(prompt.split()[:4]).lower()
    titles.append(title)
    images[0].save(f"{title}.png", format="png")

Kaikki luodut kuvat löytyvät tämän postauksen lopussa olevasta liitteestä.

Multimodaalinen tietojoukon indeksointi

Käytä seuraavaa koodia multimodaalisen tietojoukon indeksointiin:

multimodal_embeddings = []
for image_filename, description in zip(titles, product_description):
    embedding = titan_multimodal_embedding(f"{image_filename}.png", dimension=1024)["embedding"]
    multimodal_embeddings.append(embedding)

Multimodaalinen haku

Käytä seuraavaa koodia multimodaaliseen hakuun:

query_prompt = "<YOUR_QUERY_TEXT>"
query_embedding = titan_multimodal_embedding(description=query_prompt, dimension=1024)["embedding"]
# If searching via Image
# query_image_filename = "<YOUR_QUERY_IMAGE>"
# query_emb = titan_multimodal_embedding(image_path=query_image_filename, dimension=1024)["embedding"]
idx_returned, dist = search(np.array(query_embedding)[None], np.array(multimodal_embeddings))

Seuraavassa on joitain hakutuloksia.

Yhteenveto

Viesti esittelee Amazon Titan Image Generator- ja Amazon Titan Multimodal Embeddings -mallit. Titan Image Generatorin avulla voit luoda mukautettuja, korkealaatuisia kuvia tekstikehotteista. Keskeisiä ominaisuuksia ovat kehotteiden iterointi, automaattinen taustamuokkaus ja tietojen mukauttaminen. Siinä on suojat, kuten näkymätön vesileima, jotka kannustavat vastuulliseen käyttöön. Titan Multimodal Embeddings muuntaa tekstin, kuvat tai molemmat semanttisiksi vektoreiksi tarkan haun ja suositusten tehostamiseksi. Sitten toimitimme Python-koodinäytteitä näiden palvelujen käyttöä varten ja esitimme kuvien luomisen tekstikehotteista ja kuvien iterointia; olemassa olevien kuvien muokkaaminen lisäämällä, poistamalla tai korvaamalla maskikuvien tai maskitekstin määrittämiä elementtejä; luoda multimodaalisia upotuksia tekstistä, kuvista tai molemmista; ja samankaltaisten multimodaalisten upotusten etsiminen kyselyyn. Esitimme myös synteettisen verkkokaupan tietojoukon, joka oli indeksoitu ja haettu Titan Multimodal Embeddingsin avulla. Tämän postauksen tavoitteena on antaa kehittäjille mahdollisuus alkaa käyttää näitä uusia tekoälypalveluja sovelluksissaan. Koodimallit voivat toimia malleina mukautetuille toteutuksille.

Kaikki koodit ovat saatavilla osoitteessa GitHub-arkisto. Lisätietoja on osoitteessa Amazon Bedrockin käyttöopas.


Tietoja Tekijät

Rohit Mittal on päätuotepäällikkö Amazon AI:ssa rakentaen multimodaalisia perustusmalleja. Hän johti hiljattain Amazon Titan Image Generator -mallin lanseerausta osana Amazon Bedrock -palvelua. Hän on kokenut AI/ML:stä, NLP:stä ja Searchista, ja hän on kiinnostunut rakentamaan tuotteita, jotka ratkaisevat asiakkaiden kipupisteet innovatiivisella tekniikalla.

Tohtori Ashwin Swaminathan on tietokonenäön ja koneoppimisen tutkija, insinööri ja johtaja, jolla on yli 12 vuoden kokemus alalta ja yli 5 vuoden akateeminen tutkimuskokemus. Vahvat perusteet ja todistettu kyky hankkia nopeasti tietoa ja osallistua uusiin ja nouseviin alueisiin.

Tohtori Yusheng Xie on johtava sovellettu tutkija Amazon AGI:ssa. Hänen työnsä keskittyy multimodaalisten perustusmallien rakentamiseen. Ennen liittymistään AGI:hen hän johti AWS:ssä erilaisia ​​multimodaalisia tekoälykehitystä, kuten Amazon Titan Image Generator ja Amazon Textract Queries.

Tohtori Hao Yang on johtava sovellettu tutkija Amazonissa. Hänen tärkeimmät tutkimusaiheensa ovat esineiden havaitseminen ja oppiminen rajoitetuilla huomautuksilla. Työn ulkopuolella Hao nauttii elokuvien katselusta, valokuvaamisesta ja ulkoilusta.

Tri Davide Modolo on Amazon AGI:n Applied Science Manager, joka työskentelee suurten multimodaalisten perusmallien rakentamisessa. Ennen Amazon AGI:hen liittymistään hän toimi johtajana/johtajana 7 vuoden ajan AWS AI Labsissa (Amazon Bedrock ja Amazon Rekognition). Työn ulkopuolella hän nauttii matkustamisesta ja kaikenlaisesta urheilusta, erityisesti jalkapallosta.

tohtori Baichuan Sun, työskentelee tällä hetkellä Sr. AI/ML Solutions Architectina AWS:ssä, keskittyen generatiiviseen tekoälyyn ja soveltaa tietojaan datatieteessä ja koneoppimisessa tarjotakseen käytännöllisiä, pilvipohjaisia ​​liiketoimintaratkaisuja. Hänellä on kokemusta liikkeenjohdon konsultoinnista ja tekoälyratkaisujen arkkitehtuurista, ja hän vastaa moniin monimutkaisiin haasteisiin, kuten robotiikan tietokonenäön, aikasarjojen ennustamiseen ja ennakoivaan ylläpitoon. Hänen työnsä pohjautuu vankkaan projektinhallinnan, ohjelmistotuotannon ja -kehityksen sekä akateemisen taustaan. Työn ulkopuolella tohtori Sun nauttii tasapainosta matkustaessaan ja viettäen aikaa perheen ja ystävien kanssa.

Tohtori Kai Zhu työskentelee tällä hetkellä AWS:n pilvituki-insinöörinä ja auttaa asiakkaita AI/ML-ongelmiin liittyvissä ongelmissa, kuten SageMaker, Bedrock jne. Hän on SageMaker-aiheasiantuntija. Hän on kokenut datatieteessä ja tietotekniikassa, ja hän on kiinnostunut generatiivisten AI-pohjaisten projektien rakentamisesta.

Kris Schultz on viettänyt yli 25 vuotta herättääkseen kiinnostavia käyttökokemuksia henkiin yhdistämällä uusia teknologioita maailmanluokan suunnitteluun. Senior Product Managerin roolissaan Kris auttaa suunnittelemaan ja rakentamaan AWS-palveluita median ja viihteen, pelaamisen ja spatial Computingin tehostamiseksi.


Liite

Seuraavissa osioissa esittelemme haastavia esimerkkikäyttötapauksia, kuten tekstin lisäystä, käsiä ja heijastuksia korostaaksemme Titan Image Generator -mallin ominaisuuksia. Sisällytämme myös aikaisemmissa esimerkeissä tuotetut näytetulostuskuvat.

teksti

Titan Image Generator -malli on erinomainen monimutkaisissa työnkuluissa, kuten luettavan tekstin lisäämisessä kuviin. Tämä esimerkki osoittaa Titanin kyvyn hahmontaa selkeästi isot ja pienet kirjaimet yhtenäisellä tyylillä kuvassa.

corgi, jolla on lippalakki ja teksti "genai" iloinen poika, joka pitää peukkua, yllään t-paita, jossa on teksti "generative AI"

käsissä

Titan Image Generator -mallilla on myös kyky luoda yksityiskohtaisia ​​tekoälykuvia. Kuvassa näkyvät realistiset kädet ja sormet, joissa on näkyviä yksityiskohtia, mikä ylittää perustavanlaatuisemman tekoälykuvan luomisen, josta saattaa puuttua tällainen spesifisyys. Huomaa seuraavissa esimerkeissä asennon ja anatomian tarkka kuvaus.

henkilön käsi ylhäältä katsottuna tarkka katsaus ihmisen käsiin, jotka pitelevät kahvikuppia

Peili

Titan Image Generator -mallin luomat kuvat järjestävät esineitä tilallisesti ja heijastavat tarkasti peiliefektejä, kuten seuraavissa esimerkeissä on osoitettu.

Söpö pörröinen valkoinen kissa seisoo takajaloillaan ja tuijottaa uteliaana koristeelliseen kultaiseen peiliin. Heijastuksessa kissa näkee itsensä kaunis taivasjärvi, jossa on heijastuksia vedessä

Synteettiset tuotekuvat

Seuraavat ovat tuotekuvat, jotka on luotu aiemmin tässä viestissä Titan Multimodal Embeddings -mallille.

spot_img

Uusin älykkyys

spot_img

Keskustele kanssamme

Hei siellä! Kuinka voin olla avuksi?