Amazon Bedrock надає широкий спектр високоефективних базових моделей від Amazon та інших провідних компаній штучного інтелекту, в тому числі Антропний, AI21, Meta, Cohere та Стабільність ШІ, і охоплює широкий спектр випадків використання, включаючи створення тексту та зображень, пошук, чат, міркування та дії агентів тощо. Новий Генератор зображень Amazon Titan модель дозволяє творцям вмісту швидко створювати високоякісні реалістичні зображення за допомогою простих текстових підказок англійською мовою. Удосконалена модель штучного інтелекту розуміє складні інструкції з кількома об’єктами та повертає зображення студійної якості, придатні для реклама, електронна комерція та розваги. Основні функції включають можливість уточнювати зображення шляхом повторення підказок, автоматичне редагування фону та створення кількох варіацій однієї сцени. Творці також можуть налаштувати модель за допомогою власних даних для виведення зображень бренду в певному стилі. Важливо, що Titan Image Generator має вбудовані засоби захисту, як-от невидимі водяні знаки на всіх створених штучним інтелектом зображеннях, щоб заохотити відповідальне використання та пом’якшити поширення дезінформації. Ця інноваційна технологія дозволяє створювати нестандартні зображення у великих обсягах будь-яка галузь більш доступним і ефективним.
Новий Amazon Titan Multimodal Embeddings Модель допомагає створити точніший пошук і рекомендації завдяки розумінню тексту, зображень або обох. Він перетворює зображення та текст англійською мовою на семантичні вектори, фіксуючи значення та зв’язки у ваших даних. Ви можете комбінувати текст і зображення, як-от описи продуктів і фотографії, щоб ефективніше ідентифікувати товари. Вектори забезпечують швидкий і точний пошук. Titan Multimodal Embeddings є гнучким у векторних розмірах, що забезпечує оптимізацію для потреб продуктивності. Асинхронний API і Служба Amazon OpenSearch конектор дозволяє легко інтегрувати модель у ваші програми нейронного пошуку.
У цій публікації ми розглянемо, як використовувати моделі Titan Image Generator і Titan Multimodal Embeddings через AWS Python SDK.
Генерація та редагування зображень
У цьому розділі ми демонструємо основні шаблони кодування для використання AWS SDK для створення нових зображень і редагування існуючих зображень за допомогою штучного інтелекту. Приклади коду надаються на Python, і JavaScript (Node.js) також доступний у цьому GitHub сховище.
Перш ніж ви зможете писати сценарії, які використовують Amazon Bedrock API, вам потрібно інсталювати відповідну версію AWS SDK у вашому середовищі. Для сценаріїв Python можна використовувати AWS SDK для Python (Boto3). Користувачі Python також можуть захотіти встановити Модуль подушка, що полегшує операції із зображеннями, наприклад завантаження та збереження зображень. Інструкції з налаштування див GitHub сховище.
Крім того, дозвольте доступ до моделей Amazon Titan Image Generator і Titan Multimodal Embeddings. Для отримання додаткової інформації див Доступ до моделі.
Допоміжні функції
Наступна функція налаштовує клієнт середовища виконання Amazon Bedrock Boto3 і генерує зображення, приймаючи корисні дані різних конфігурацій (про які ми обговоримо далі в цій публікації):
Створення зображень із тексту
Сценарії, які генерують нове зображення з текстового підказки, дотримуються такого шаблону реалізації:
- Налаштуйте текстову підказку та необов’язкову негативну текстову підказку.
- Використовувати
BedrockRuntime
клієнт для виклику моделі Titan Image Generator. - Розберіть і розшифруйте відповідь.
- Збережіть отримані зображення на диск.
Перетворення тексту в зображення
Нижче наведено типовий сценарій створення зображення для моделі Titan Image Generator:
Це створить зображення, подібні до наведених нижче.
Зображення відповіді 1 | Зображення відповіді 2 |
Варіанти зображень
Варіація зображення надає спосіб генерувати тонкі варіанти існуючого зображення. Наведений нижче фрагмент коду використовує одне із зображень, згенерованих у попередньому прикладі, для створення варіантів зображень:
Це створить зображення, подібні до наведених нижче.
Вихідне зображення | Зображення відповіді 1 | Зображення відповіді 2 |
Редагувати наявне зображення
Модель Titan Image Generator дозволяє додавати, видаляти або замінювати елементи чи області в межах наявного зображення. Ви вказуєте, на яку область потрібно вплинути, надаючи одне з наведеного нижче:
- Зображення маски – Зображення маски – це двійкове зображення, у якому пікселі із значенням 0 представляють область, на яку потрібно вплинути, а пікселі із значенням 255 представляють область, яка має залишатися незмінною.
- Підказка маски – Підказка маски – це текстовий опис природною мовою елементів, на які потрібно вплинути, який використовує внутрішню модель сегментації тексту.
Для отримання додаткової інформації зверніться до Швидкі інженерні вказівки.
Сценарії, які застосовують редагування до зображення, дотримуються цього шаблону реалізації:
- Завантажте з диска зображення для редагування.
- Перетворіть зображення на рядок у кодуванні base64.
- Налаштуйте маску одним із таких способів:
- Завантажте зображення маски з диска, закодувавши його як base64 і встановивши як
maskImage
параметр. - Встановіть
maskText
параметр до текстового опису елементів, на які потрібно впливати.
- Завантажте зображення маски з диска, закодувавши його як base64 і встановивши як
- Укажіть новий вміст, який буде створено, використовуючи один із наведених нижче параметрів:
- Щоб додати або замінити елемент, установіть
text
параметр для опису нового вмісту. - Щоб видалити елемент, опустіть
text
параметр повністю.
- Щоб додати або замінити елемент, установіть
- Використовувати
BedrockRuntime
клієнт для виклику моделі Titan Image Generator. - Розберіть і розшифруйте відповідь.
- Збережіть отримані зображення на диск.
Редагування об'єкта: малювання за допомогою зображення маски
Нижче наведено типовий сценарій редагування зображень для моделі Titan Image Generator maskImage
. Ми беремо одне зі згенерованих раніше зображень і створюємо зображення маски, де пікселі зі значенням 0 відображаються як чорні, а пікселі зі значеннями 255 – як білі. Ми також замінюємо одну із собак на зображенні котом за допомогою текстової підказки.
Це створить зображення, подібні до наведених нижче.
Вихідне зображення | Зображення маски | Відредаговане зображення |
Видалення об’єкта: малювання за допомогою підказки маски
В іншому прикладі ми використовуємо maskPrompt
щоб указати об’єкт на зображенні, взятому з попередніх кроків, для редагування. Якщо пропустити текстову підказку, об’єкт буде видалено:
Це створить зображення, подібні до наведених нижче.
Вихідне зображення | Зображення відповіді |
Редагування фону: Outpainting
Зафарбовування корисно, коли потрібно замінити фон зображення. Ви також можете розширити межі зображення для ефекту зменшення масштабу. У наступному прикладі сценарію ми використовуємо maskPrompt
вказати, який об'єкт залишити; ви також можете використовувати maskImage
. Параметр outPaintingMode
вказує, чи дозволяти модифікацію пікселів усередині маски. Якщо встановлено як DEFAULT
, пікселі всередині маски можна змінювати, щоб реконструйоване зображення було узгодженим загалом. Цей варіант рекомендується, якщо maskImage
наданий не представляє об’єкт із точністю до піксельного рівня. Якщо встановлено як PRECISE
, модифікація пікселів усередині маски запобігає. Цей параметр рекомендується, якщо використовується a maskPrompt
або maskImage
який представляє об’єкт із точністю до піксельного рівня.
Це створить зображення, подібні до наведених нижче.
Вихідне зображення | текст | Зображення відповіді |
"Пляжний" | ||
«ліс» |
Крім того, ефекти різних значень для outPaintingMode
, При maskImage
які не окреслюють контури об’єкта з точністю на рівні пікселя, є такими.
У цьому розділі наведено огляд операцій, які можна виконувати з моделлю Titan Image Generator. Зокрема, ці сценарії демонструють завдання з перетворення тексту в зображення, варіації зображення, зафарбовування та зафарбовування. Ви повинні мати можливість адаптувати шаблони для своїх власних програм, посилаючись на деталі параметрів для тих типів завдань, які описано в Документація Amazon Titan Image Generator.
Мультимодальне вбудовування та пошук
Ви можете використовувати модель Amazon Titan Multimodal Embeddings для таких корпоративних завдань, як пошук зображень і рекомендації на основі схожості, і вона має вбудовану систему пом’якшення, яка допомагає зменшити упередженість у результатах пошуку. Існує кілька розмірів розмірів вбудовування для найкращого компромісу між затримкою та точністю для різних потреб, і всі вони можуть бути налаштовані за допомогою простого API для адаптації до ваших власних даних, зберігаючи безпеку та конфіденційність даних. Amazon Titan Multimodal Embeddings надається як прості API для програм пошуку та рекомендацій у режимі реального часу або асинхронного пакетного перетворення та може підключатися до різних векторних баз даних, у тому числі Служба Amazon OpenSearch.
Допоміжні функції
Наступна функція перетворює зображення та необов’язково текст у мультимодальні вбудовування:
Наступна функція повертає найпоширеніші схожі мультимодальні вбудовування за запитом multimodal embaddings. Зауважте, що на практиці ви можете використовувати керовану векторну базу даних, таку як OpenSearch Service. Наступний приклад наведено для ілюстрації:
Синтетичний набір даних
Для ілюстрації ми використовуємо Модель Claude 2.1 від Anthropic в Amazon Bedrock щоб випадковим чином створити сім різних продуктів, кожен із трьома варіантами, використовуючи наступну підказку:
Generate a list of 7 items description for an online e-commerce shop, each comes with 3 variants of color or type. All with separate full sentence description.
Нижче наведено список отриманих результатів:
Призначте наведену вище відповідь змінній response_cat
. Потім ми використовуємо модель Titan Image Generator, щоб створити зображення продукту для кожного товару:
Усі створені зображення можна знайти в додатку в кінці цієї публікації.
Мультимодальне індексування набору даних
Використовуйте такий код для мультимодального індексування набору даних:
Мультимодальний пошук
Використовуйте наступний код для мультимодального пошуку:
Нижче наведено деякі результати пошуку.
Висновок
У публікації представлені моделі Amazon Titan Image Generator і Amazon Titan Multimodal Embeddings. Titan Image Generator дає змогу створювати власні високоякісні зображення з текстових підказок. Основні функції включають ітерацію підказок, автоматичне фонове редагування та налаштування даних. Він має такі засоби захисту, як невидимі водяні знаки, які заохочують до відповідального використання. Titan Multimodal Embeddings перетворює текст, зображення або те й інше в семантичні вектори для забезпечення точного пошуку та рекомендацій. Потім ми надали зразки коду Python для використання цих служб і продемонстрували створення зображень із текстових підказок і ітерацію цих зображень; редагування існуючих зображень шляхом додавання, видалення або заміни елементів, визначених масковими зображеннями або масковим текстом; створення мультимодальних вставок із тексту, зображень або обох; і пошук подібних мультимодальних вбудовувань у запит. Ми також продемонстрували використання синтетичного набору даних електронної комерції, індексованого та здійсненого за допомогою Titan Multimodal Embeddings. Мета цієї публікації — дати розробникам змогу почати використовувати ці нові служби ШІ у своїх програмах. Шаблони коду можуть служити шаблонами для власних реалізацій.
Весь код доступний на GitHub сховище. Для отримання додаткової інформації зверніться до Посібник користувача Amazon Bedrock.
Про авторів
Рохіт Міттал є головним менеджером із продуктів Amazon AI, створюючи мультимодальні базові моделі. Нещодавно він очолив запуск моделі Amazon Titan Image Generator у рамках сервісу Amazon Bedrock. Маючи досвід роботи зі штучним інтелектом/ML, NLP і пошуком, він зацікавлений у створенні продуктів, які вирішують проблеми клієнтів за допомогою інноваційних технологій.
Доктор Ашвін Свамінатан є дослідником комп’ютерного бачення та машинного навчання, інженером і менеджером із 12+ роками досвіду роботи в галузі та 5+ років досвіду наукових досліджень. Сильні основи та підтверджена здатність швидко здобувати знання та робити внесок у нові та нові сфери.
Доктор Юйшен Се є головним науковим співробітником Amazon AGI. Його робота зосереджена на створенні мультимодальних моделей основи. До того як приєднатися до AGI, він очолював різні мультимодальні розробки ШІ в AWS, такі як Amazon Titan Image Generator і Amazon Texttract Queries.
Доктор Хао Ян є головним прикладним науковим співробітником Amazon. Його основні наукові інтереси – виявлення об’єктів і навчання з обмеженими анотаціями. Поза роботою Хао любить дивитися фільми, фотографувати та проводити активний відпочинок.
Доктор Давіде Модоло є менеджером прикладної науки в Amazon AGI, працює над створенням великих мультимодальних базових моделей. До того як приєднатися до Amazon AGI, він 7 років був менеджером/керівником у AWS AI Labs (Amazon Bedrock і Amazon Rekognition). Поза роботою він любить подорожувати та займатися будь-яким видом спорту, особливо футболом.
Доктор Байчуань Сун, зараз працює старшим архітектором рішень AI/ML в AWS, зосереджуючись на генеративному штучному інтелекті та застосовуючи свої знання в галузі даних і машинного навчання, щоб надавати практичні хмарні бізнес-рішення. Маючи досвід управлінського консультування та архітектури рішень штучного інтелекту, він вирішує низку складних завдань, зокрема робототехнічне комп’ютерне бачення, прогнозування часових рядів та прогнозне технічне обслуговування тощо. Його робота базується на солідному досвіді управління проектами, дослідженнях і розробці програмного забезпечення та академічній діяльності. Поза роботою доктор Сан насолоджується балансом між подорожами та проведенням часу з родиною та друзями.
Доктор Кай Чжу зараз працює інженером із підтримки хмарних технологій в AWS, допомагаючи клієнтам у вирішенні проблем із сервісами, пов’язаними зі штучним інтелектом/ML, як-от SageMaker, Bedrock тощо. Він є експертом із предметних питань SageMaker. Маючи досвід у галузі науки про дані та інженерії даних, він зацікавлений у створенні генеративних проектів на основі ШІ.
Кріс Шульц понад 25 років втілює в життя захоплюючий досвід користувачів, поєднуючи нові технології з дизайном світового класу. Виконуючи роль старшого менеджера з продуктів, Кріс допомагає розробляти та створювати сервіси AWS для медіа та розваг, ігор і просторових обчислень.
Додаток
У наступних розділах ми демонструємо складні приклади використання, як-от вставка тексту, руки та відображення, щоб підкреслити можливості моделі Titan Image Generator. Ми також включаємо зразки вихідних зображень, створених у попередніх прикладах.
текст
Модель Titan Image Generator відмінно справляється зі складними робочими процесами, такими як вставка читабельного тексту в зображення. Цей приклад демонструє здатність Titan чітко відображати великі та малі літери в узгодженому стилі на зображенні.
коргі в бейсболці з текстом «genai» | щасливий хлопчик показує великий палець у футболці з написом «generative AI» |
Руки
Модель Titan Image Generator також має можливість створювати детальні зображення AI. На зображенні показані реалістичні руки та пальці з видимими деталями, що виходить за рамки більш простого створення зображень штучного інтелекту, якому може бракувати такої специфічності. У наступних прикладах зверніть увагу на точне зображення пози та анатомії.
рука людини, погляд зверху | уважний погляд на руки людини, що тримає чашку кави |
Mirror
Зображення, створені моделлю Titan Image Generator, просторово впорядковують об’єкти та точно відображають дзеркальні ефекти, як показано в наступних прикладах.
Милий пухнастий білий кіт стоїть на задніх лапах і з цікавістю вдивляється в ошатне золоте дзеркало. У відображенні кішка бачить себе | красиве небо озеро з відображеннями на воді |
Зображення синтетичних продуктів
Нижче наведено зображення продуктів, створені раніше в цьому дописі для моделі Titan Multimodal Embeddings.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/use-amazon-titan-models-for-image-generation-editing-and-searching/