Platon Data Intelligence.
Pystyhaku ja Ai.

Knowledge Bases for Amazon Bedrock tukee nyt hybridihakua | Amazon Web Services

Treffi:

At AWS uudelleen: keksintö 2023, julkistimme yleisen saatavuuden Amazon Bedrockin tietokannat. Tietokannan avulla voit liittää perusmallit (FM) turvallisesti sisään Amazonin kallioperä yrityksesi tietoihin täysin hallittua Retrieval Augmented Generationia (RAG) varten.

Jonkin sisällä Edellinen viesti, kuvailimme, kuinka Knowledge Bases for Amazon Bedrock hallitsee päästä päähän RAG-työnkulkua puolestasi, ja jaoimme tietoja joistakin viimeaikaisista ominaisuuksien julkaisuista.

RAG-pohjaisissa sovelluksissa suurten kielimallien (LLM) luodun vastauksen tarkkuus riippuu mallille tarjotusta kontekstista. Konteksti haetaan vektoritietokannasta käyttäjän kyselyn perusteella. Semanttista hakua käytetään laajalti, koska se pystyy ymmärtämään enemmän ihmisen kaltaisia ​​kysymyksiä – käyttäjän kysely ei aina liity suoraan siihen vastaavan sisällön täsmällisiin avainsanoihin. Semanttinen haku auttaa löytämään vastauksia tekstin merkityksen perusteella. Sillä on kuitenkin rajoituksia kaikkien asiaankuuluvien avainsanojen sieppaamisessa. Sen suorituskyky riippuu tekstin merkitystä edustavien sanojen upotusten laadusta. Sellaisten rajoitusten voittamiseksi yhdistämällä semanttinen haku avainsanahakuun (hybridi) antaa parempia tuloksia.

Tässä viestissä keskustelemme hybridihaun uudesta ominaisuudesta, jonka voit valita kyselyvaihtoehdoksi semanttisen haun rinnalla.

Hybridihaun yleiskatsaus

Hybridihaku hyödyntää useiden hakualgoritmien vahvuuksia integroimalla niiden ainutlaatuiset ominaisuudet palautettujen hakutulosten osuvuuden parantamiseksi. RAG-pohjaisissa sovelluksissa semanttiset hakuominaisuudet yhdistetään tavallisesti perinteiseen avainsanapohjaiseen hakuun hakutulosten osuvuuden parantamiseksi. Se mahdollistaa haun sekä asiakirjojen sisällöstä että niiden taustalla olevasta merkityksestä. Harkitse esimerkiksi seuraavaa kyselyä:

What is the cost of the book "<book_name>" on <website_name>?

Tässä kirjan ja verkkosivuston nimen kyselyssä avainsanahaku antaa parempia tuloksia, koska haluamme tietyn kirjan hinnan. Termillä "kustannus" voi kuitenkin olla synonyymejä, kuten "hinta", joten on parempi käyttää semanttista hakua, joka ymmärtää tekstin merkityksen. Hybridihaku tarjoaa parhaat puolet molemmista lähestymistavoista: semanttisen haun tarkkuuden ja avainsanojen kattavuuden. Se toimii erinomaisesti RAG-pohjaisissa sovelluksissa, joissa noutajan on käsiteltävä monenlaisia ​​luonnollisen kielen kyselyjä. Avainsanat auttavat kattamaan tietyt kyselyn kokonaisuudet, kuten tuotteen nimen, värin ja hinnan, kun taas semantiikka ymmärtää paremmin kyselyn merkityksen ja tarkoituksen. Jos esimerkiksi haluat rakentaa verkkokauppasivustolle chatbotin käsittelemään asiakkaiden kyselyitä, kuten palautuskäytäntöä tai tuotteen tietoja, hybridihaun käyttö on sopivin vaihtoehto.

Käytä tapauksia hybridihakuun

Seuraavassa on joitain yleisiä hybridihaun käyttötapauksia:

  • Avoimen verkkotunnuksen kysymykseen vastaaminen – Tämä edellyttää vastausta monenlaisiin kysymyksiin. Tämä edellyttää hakua suurista dokumenttikokoelmista, joissa on monipuolista sisältöä, kuten verkkosivuston dataa, joka voi sisältää erilaisia ​​​​aiheita, kuten kestävyyttä, johtajuutta, taloudellisia tuloksia ja paljon muuta. Pelkästään semanttinen haku ei voi yleistää hyvin tätä tehtävää varten, koska siitä puuttuu kyky nähdä näkemättömien entiteettien sanasovitus, mikä on tärkeää toimialueen ulkopuolisten esimerkkien käsittelyssä. Siksi avainsanapohjaisen haun yhdistäminen semanttiseen hakuun voi kaventaa laajuutta ja tarjota parempia tuloksia avoimen verkkotunnuksen kysymyksiin vastaamiseen.
  • Asiayhteyteen perustuvat chatbotit – Keskustelut voivat nopeasti muuttaa suuntaa ja käsitellä arvaamattomia aiheita. Hybridihaku pystyy paremmin käsittelemään tällaisia ​​avoimia dialogeja.
  • Henkilökohtainen haku – Heterogeenisen sisällön verkkohaku hyötyy hybridilähestymistavasta. Semanttinen haku käsittelee suosittuja pääkyselyitä, kun taas avainsanat kattavat harvinaiset pitkät kyselyt.

Vaikka hybridihaku tarjoaa laajemman kattavuuden yhdistämällä kaksi lähestymistapaa, semanttisella haulla on tarkkuutta koskevia etuja, kun toimialue on kapea ja semantiikka on hyvin määritelty tai kun väärintulkinnalle on vain vähän tilaa, kuten faktoidisten kysymysten vastausjärjestelmät.

Hybridihaun edut

Sekä avainsana- että semanttinen haku palauttavat erilliset tulokset sekä niiden osuvuuspisteet, jotka sitten yhdistetään osuvimpien tulosten palauttamiseksi. Knowledge Bases for Amazon Bedrock tukee tällä hetkellä neljää vektorikauppaa: Amazon OpenSearch palvelimeton, Amazon Aurora PostgreSQL-yhteensopiva versio, Käpyja Redis Enterprise Cloud. Tätä kirjoitettaessa hybridihakuominaisuus on saatavilla OpenSearch Serverlessille, ja tuki muille vektorikaupoille on tulossa pian.

Seuraavassa on joitain hybridihaun käytön etuja:

  • Parempi tarkkuus – FM:stä luodun vastauksen tarkkuus riippuu suoraan haettujen tulosten relevanssista. Tietojesi perusteella voi olla haastavaa parantaa sovelluksesi tarkkuutta vain semanttisella haulla. Hybridihaun käytön tärkein etu on haettujen tulosten parempi laatu, mikä puolestaan ​​auttaa FM:ää luomaan tarkempia vastauksia.
  • Laajennetut hakuominaisuudet – Avainsanahaku luo laajemman verkon ja löytää asiakirjoja, jotka voivat olla merkityksellisiä, mutta jotka eivät välttämättä sisällä semanttista rakennetta koko asiakirjassa. Sen avulla voit etsiä avainsanoilla sekä tekstin semanttisella merkityksellä, mikä laajentaa hakumahdollisuuksia.

Seuraavissa osioissa esittelemme hybridihaun käyttämistä Knowledge Bases for Amazon Bedrockin kanssa.

Käytä hybridihakua ja semanttisia hakuvaihtoehtoja SDK:n kautta

Kun soitat Retrieve API:lle, Knowledge Bases for Amazon Bedrock valitsee sinulle oikean hakustrategian antaakseen sinulle osuvimmat tulokset. Voit ohittaa sen käyttääksesi joko hybridi- tai semanttista hakua API:ssa.

Hae API

Retrieve API on suunniteltu hakemaan osuvia hakutuloksia antamalla käyttäjäkyselyn, tietokannan tunnuksen ja tulosten lukumäärän, jotka haluat sovellusliittymän palauttavan. Tämä sovellusliittymä muuntaa käyttäjien kyselyt upotuksiksi, hakee tietokannasta joko hybridihaun tai semanttisen (vektori)haun avulla ja palauttaa asiaankuuluvat tulokset, mikä antaa sinulle paremman hallinnan luoda mukautettuja työnkulkuja hakutulosten päälle. Voit esimerkiksi lisätä haettuihin tuloksiin jälkikäsittelylogiikkaa tai lisätä oman kehotteen ja muodostaa yhteyden mihin tahansa Amazon Bedrockin tarjoamaan FM:ään vastausten luomiseksi.

Näytämme sinulle esimerkin hybridi- ja semanttisten (vektori)hakuvaihtoehtojen vaihtamisesta, olemme luoneet tietokannan käyttämällä Amazon 10K-dokumentti vuodelle 2023. Lisätietoja tietokannan luomisesta on kohdassa Rakenna kontekstuaalinen chatbot-sovellus käyttämällä Knowledge Bases for Amazon Bedrockia.

Hybridihaun arvon osoittamiseksi käytämme seuraavaa kyselyä:

As of December 31st 2023, what is the leased square footage for physical stores in North America?

Edellisen kyselyn vastaus sisältää muutamia avainsanoja, kuten date, physical storesja North America. Oikea vastaus on 22,871 thousand square feet. Tarkastellaan eroa sekä hybridi- että semanttisen haun hakutuloksissa.

Seuraava koodi näyttää, kuinka käyttää hybridi- tai semanttista (vektorihakua) Retrieve API:n avulla Boto3:n kanssa:

import boto3

bedrock_agent_runtime = boto3.client(
    service_name = "bedrock-agent-runtime"
)

def retrieve(query, kbId, numberOfResults=5):
    return bedrock_agent_runtime.retrieve(
        retrievalQuery= {
            'text': query
        },
        knowledgeBaseId=kbId,
        retrievalConfiguration= {
            'vectorSearchConfiguration': {
                'numberOfResults': numberOfResults,
                'overrideSearchType': "HYBRID/SEMANTIC", # optional
            }
        }
    )
response = retrieve("As of December 31st 2023, what is the leased square footage for physical stores in North America?", "<knowledge base id>")["retrievalResults"]

- overrideSearchType vaihtoehto retrievalConfiguration tarjoaa mahdollisuuden käyttää jompaakumpaa HYBRID or SEMANTIC. Oletusarvoisesti se valitsee oikean strategian, jotta saat osuvimmat tulokset, ja jos haluat ohittaa oletusvaihtoehdon käyttää joko hybridihakua tai semanttista hakua, voit asettaa arvoksi HYBRID/SEMANTIC. Tuotos Retrieve API sisältää haetut tekstikappaleet, lähdetietojen sijaintityypin ja URI:n sekä hakujen osuvuuspisteet. Pisteet auttavat määrittämään, mitkä palaset vastaavat parhaiten kyselyn vastausta.

Seuraavat ovat edellisen kyselyn tulokset hybridihaulla (jotkin tulokset on muokattu lyhyyden vuoksi):

[
  {
    "content": {
      "text": "... Description of Use Leased Square Footage (1).... Physical stores (2) 22,871  ..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "Property and equipment, net by segment is as follows (in millions): December 31, 2021 2022 2023 North America $ 83,640 $ 90,076 $ 93,632 International 21,718 23,347 24,357 AWS 43,245 60,324 72,701 Corporate 1.."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "..amortization of property and equipment acquired under finance leases of $9.9 billion, $6.1 billion, and $5.9 billion for 2021, 2022, and 2023. 54 Table of Contents Note 4 — LEASES We have entered into non-cancellable operating and finance leases for fulfillment network, data center, office, and physical store facilities as well as server and networking equipment, aircraft, and vehicles. Gross assets acquired under finance leases, ..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61908984
  }
]

Seuraavat ovat semanttisen haun tulokset (jotkin tulokset on muokattu lyhyyden vuoksi):

[
  {
    "content": {
      "text": "Property and equipment, net by segment is as follows (in millions):    December 31,    2021 2022 2023   North America $ 83,640 $ 90,076 $ 93,632  International 21,718 23,347 24,357  AWS 43,245 60,324 72,701.."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.6389407
  },
  {
    "content": {
      "text": "Depreciation and amortization expense on property and equipment was $22.9 billion, $24.9 billion, and $30.2 billion which includes amortization of property and equipment acquired under finance leases of $9.9 billion, $6.1 billion, and $5.9 billion for 2021, 2022, and 2023.   54        Table of Contents   Note 4 — LEASES We have entered into non-cancellable operating and finance leases for fulfillment network, data center, office, and physical store facilities as well a..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61908984
  },
  {
    "content": {
      "text": "Incentives that we receive from property and equipment   vendors are recorded as a reduction to our costs. Property includes buildings and land that we own, along with property we have acquired under build-to-suit lease arrangements when we have control over the building during the construction period and finance lease arrangements..."
    },
    "location": {
      "type": "S3",
      "s3Location": {
        "uri": "s3://<bucket_name>/amazon-10k-2023.pdf"
      }
    },
    "score": 0.61353767
  }
]

Kuten tuloksista näkyy, hybridihaku pystyi hakemaan hakutuloksen Pohjois-Amerikan fyysisten myymälöiden vuokratuista neliöistä, kuten käyttäjän kyselyssä mainittiin. Pääsyynä oli se, että hybridihaku pystyi yhdistämään tuloksia avainsanoista, kuten date, physical storesja North America kyselyssä, kun taas semanttinen haku ei. Siksi, kun hakutuloksia täydennetään käyttäjän kyselyllä ja kehotteella, FM ei pysty antamaan oikeaa vastausta semanttisessa haussa.

Katsotaanpa nyt RetrieveAndGenerate API hybridihaulla ymmärtääksesi FM:n luoman lopullisen vastauksen.

RetrieveAndGenerate API

- RetrieveAndGenerate API kysyy tietokannasta ja luo vastauksen haettujen tulosten perusteella. Määrität tietokannan tunnuksen sekä FM:n, jotta voit luoda vastauksen tuloksista. Amazon Bedrock muuntaa kyselyt upotuksiksi, tekee kyselyitä tietokannasta hakutyypin perusteella ja täydentää sitten FM-kehotetta hakutuloksilla kontekstitietona ja palauttaa FM:n luoman vastauksen.

Käytetään kyselyä "Mikä on 31, mikä on fyysisten myymälöiden vuokrattu neliötila Pohjois-Amerikassa?" ja kysyä RetrieveAndGenerate API luomaan vastauksen kyselymme avulla:

def retrieveAndGenerate(input, kbId):
    return bedrock_agent_runtime.retrieve_and_generate(
        input={
            'text': input
        },
        retrieveAndGenerateConfiguration={
            'type': 'KNOWLEDGE_BASE',
            'knowledgeBaseConfiguration': {
                'knowledgeBaseId': kbId,
                'modelArn': 'arn:aws:bedrock:us-east-1::foundation-model/anthropic.claude-instant-v1'
                'retrievalConfiguration': {
                'overrideSearchType': 'HYBRID/SEMANTIC',
                }
                }
            }
        )
response = retrieveAndGenerate("As of December 31st 2023, what is the leased square footage for physical stores in North America?", "<knowledge base id>")["output"]["text"]

Seuraavat ovat hybridihaun tulokset:

22,871 thousand leased square feet

Seuraavat ovat semanttisen haun tulokset:

The search results do not contain any information about the leased square footage for physical stores in North America for 2023.

Varsinainen vastaus kyselyyn on 22,871 thousand leased square feet, joka on luotu hybridihaulla. Hybridihaun hakutulokset sisälsivät tiedot Pohjois-Amerikan fyysisten myymälöiden vuokratuista neliöistä, kun taas semanttinen haku ei pystynyt hakemaan oikeita tietoja vektorikaupasta upotuskäännöksen vuoksi. Siksi FM ei voinut antaa oikeaa vastausta, koska sillä ei ollut oikeita ja osuvimpia hakutuloksia.

Kuitenkin yleisempiin kysymyksiin, jotka eivät koske kokonaisuuksia, kuten physical stores or North America, sekä hybridi- että semanttinen haku antavat samanlaisia ​​tuloksia.

Seuraavassa on esimerkkivastauksia muutamista kyselyistä, jotka osoittavat tapauksia, joissa sekä hybridi- että semanttinen haku tuottavat samanlaisia ​​tuloksia.

Kysymys Semanttinen haku: RAG API Hybridihaku: RAG API
Miten Amazon palvelee kehittäjiä ja yrityksiä? Palvelemme kaikenkokoisia kehittäjiä ja yrityksiä, mukaan lukien start-up-yritykset, valtion virastot ja korkeakoulut, AWS:n kautta, joka tarjoaa laajan valikoiman on-demand-teknologiapalveluita, mukaan lukien laskenta-, tallennus-, tietokanta-, analytiikan ja koneoppimisen sekä muut palvelut Palvelemme kaikenkokoisia kehittäjiä ja yrityksiä, mukaan lukien start-up-yritykset, valtion virastot ja korkeakoulut, AWS:n kautta, joka tarjoaa laajan valikoiman on-demand-teknologiapalveluita, mukaan lukien laskenta-, tallennus-, tietokanta-, analytiikan ja koneoppimisen sekä muut palvelut.
Ketkä ovat Amazonin johtajia ja johtajia 24. tammikuuta 2024? Amazonin johtajiin vuodesta 2024 lähtien kuuluivat Andrew R. Jassy toimitusjohtajana, Douglas J. Herrington Worldwide Amazon Storesin toimitusjohtajana, Brian T. Olsavsky johtajana ja talousjohtajana sekä Shelley L. Reynolds varatoimitusjohtajana , maailmanlaajuinen valvoja ja kirjanpitäjä, Adam N. Selipsky Amazon Web Servicesin toimitusjohtajana ja David A. Zapolsky Global Public Policy and General Counsel -asianajajana. Vuodesta 2024 lähtien Jeffrey P. Bezos toimii Amazon.comin johtajana. Andrew R. Jassy toimii toimitusjohtajana ja toimitusjohtajana. Muita johtajia ovat Douglas J. Herrington Worldwide Amazon Storesin toimitusjohtajana, Brian T. Olsavsky johtajana ja talousjohtajana, Shelley L. Reynolds varatoimitusjohtajana, maailmanlaajuisesti valvojana ja kirjanpitäjänä sekä Adam N. Selipsky toimitusjohtajana Amazon Web Services. David A. Zapolsky toimii Senior Vice President, Global Public Policy and General Counsel

Käytä hybridihakua ja semanttisia hakuvaihtoehtoja Amazon Bedrock -konsolin kautta

Jos haluat käyttää hybridi- ja semanttisia hakuvaihtoehtoja Amazon Bedrock -konsolissa, suorita seuraavat vaiheet:

  1. Valitse Amazon Bedrock -konsolista Tietoa navigointipaneelissa.
  2. Valitse luomasi tietokanta.
  3. Valita Testaa tietopohjaa.
  4. Valitse kokoonpanokuvake.
  5. varten Hakutyyppi¸ valitse Hybridihaku (semanttinen ja teksti).

Oletuksena voit valita FM:n saadaksesi luodun vastauksen kyselyysi. Jos haluat nähdä vain haetut tulokset, voit vaihtaa Luo vastaus pois päältä saadaksesi vain haetut tulokset.

Yhteenveto

Tässä viestissä käsittelimme Amazon Bedrockin Knowledge Basesin uutta kyselyominaisuutta, joka mahdollistaa hybridihaun. Opimme määrittämään hybridihakuvaihtoehdon SDK:ssa ja Amazon Bedrock -konsolissa. Tämä auttaa ylittämään joitain rajoituksia, jotka liittyvät pelkkään semanttiseen hakuun, erityisesti haettaessa suuria erisisältöisiä dokumenttikokoelmia. Hybridihaun käyttö riippuu asiakirjatyypistä ja käyttötapauksesta, jota yrität toteuttaa.

Katso lisäresurssit seuraavista:

Viitteet

RAG-putkien hakusuorituskyvyn parantaminen hybridihaun avulla


Tietoja Tekijät

Mani Khanuja on tekninen johtaja – Generative AI Specialists, kirjoittanut kirjan Applied Machine Learning and High Performance Computing on AWS ja hallituksen jäsen naisten tuotantokoulutuksessa säätiön hallituksessa. Hän johtaa koneoppimisprojekteja eri aloilla, kuten tietokonenäön, luonnollisen kielen käsittelyn ja generatiivisen tekoälyn aloilla. Hän puhuu sisäisissä ja ulkoisissa konferensseissa, kuten AWS re:Invent, Women in Manufacturing West, YouTube webinaareissa ja GHC 23:ssa. Vapaa-ajallaan hän tykkää käydä pitkillä lenkillä rannalla.

Pallavi Nargund on AWS:n pääratkaisuarkkitehti. Pilviteknologian mahdollistajana hän työskentelee asiakkaiden kanssa ymmärtääkseen heidän tavoitteitaan ja haasteitaan sekä antaakseen ohjeellisia ohjeita saavuttaakseen tavoitteensa AWS-tarjousten avulla. Hän on intohimoinen naisiin teknologiassa ja on Amazonin Women in AI/ML -järjestön ydinjäsen. Hän puhuu sisäisissä ja ulkoisissa konferensseissa, kuten AWS re:Invent, AWS Summits ja webinaareissa. Työn ulkopuolella hän harrastaa vapaaehtoistyötä, puutarhanhoitoa, pyöräilyä ja patikointia.

spot_img

Uusin älykkyys

spot_img

Keskustele kanssamme

Hei siellä! Kuinka voin olla avuksi?