27.6 C
نیویورک

آموزش بازی Minecraft با ویدیوی پیش آموزش (VPT)

تاریخ:

ما یک شبکه عصبی را آموزش دادیم تا بازی Minecraft توسط Video Pretraining (VPT) را بر روی یک مجموعه داده عظیم ویدیویی بدون برچسب از بازی Minecraft انسانی انجام دهد، در حالی که فقط از مقدار کمی از داده‌های پیمانکار برچسب‌گذاری شده استفاده می‌کردیم. با تنظیم دقیق، مدل ما می‌تواند ساخت ابزارهای الماسی را بیاموزد، کاری که معمولاً انسان‌های ماهر بیش از 20 دقیقه (24,000 عمل) طول می‌کشد. مدل ما از رابط انسانی بومی فشار دادن کلیدها و حرکات ماوس استفاده می‌کند، که آن را کاملاً عمومی می‌کند و گامی به سمت عوامل عمومی استفاده‌کننده از رایانه را نشان می‌دهد.

مقاله را بخوانید


وزن کد و مدل را مشاهده کنید


مسابقه MineRL

اینترنت حاوی حجم عظیمی از ویدیوهای در دسترس عموم است که می‌توانیم از آنها بیاموزیم. می‌توانید تماشا کنید که یک شخص ارائه‌ای زیبا دارد، یک هنرمند دیجیتالی یک غروب زیبا را ترسیم می‌کند، و یک بازیکن Minecraft که یک خانه پیچیده می‌سازد. با این حال، این ویدئوها فقط یک رکورد از چی اتفاق افتاد اما نه دقیقا چگونه به دست آمد، یعنی دنباله دقیق حرکات و کلیدهای فشار داده شده ماوس را نمی دانید. اگر بخواهیم در مقیاس بزرگ بسازیم مدل های پایه در این حوزه ها همانطور که در زبان انجام داده ایم GPT، این فقدان برچسب های عمل چالش جدیدی را ایجاد می کند که در حوزه زبان وجود ندارد، جایی که "برچسب های کنش" به سادگی کلمات بعدی در یک جمله هستند.

به منظور استفاده از انبوه داده‌های ویدیویی بدون برچسب موجود در اینترنت، یک روش یادگیری تقلیدی بدیع و در عین حال ساده و نیمه نظارتی را معرفی می‌کنیم: پیش‌آموزش ویدیویی (VPT). ما با جمع‌آوری مجموعه داده‌های کوچکی از پیمانکاران شروع می‌کنیم که در آن نه تنها ویدیوی آنها، بلکه اقداماتی را که انجام داده‌اند نیز ضبط می‌کنیم، که در مورد ما فشار دادن کلید و حرکت ماوس است. با این داده‌ها یک مدل دینامیک معکوس (IDM) را آموزش می‌دهیم، که عمل انجام شده در هر مرحله از ویدیو را پیش‌بینی می‌کند. نکته مهم این است که IDM می تواند از گذشته استفاده کند و آینده اطلاعاتی برای حدس زدن عمل در هر مرحله. این کار بسیار ساده تر است و بنابراین به داده های بسیار کمتری نسبت به کار شبیه سازی رفتاری برای پیش بینی اقدامات داده شده نیاز دارد. فقط فریم های ویدیویی گذشته، که مستلزم استنباط کاری است که فرد می خواهد انجام دهد و چگونه آن را انجام دهد. سپس می‌توانیم از IDM آموزش‌دیده برای برچسب‌گذاری مجموعه داده‌های بسیار بزرگ‌تری از ویدیوهای آنلاین استفاده کنیم و یاد بگیریم که از طریق شبیه‌سازی رفتاری عمل کنیم.

تصویر
تصویر
مروری بر روش VPT

نتایج VPT صفر شات

ما تصمیم گرفتیم روش خود را در Minecraft تأیید کنیم زیرا (1) یکی از فعال‌ترین بازی‌های ویدیویی در جهان است و بنابراین دارای انبوهی از داده‌های ویدیویی آزادانه در دسترس است و (2) با طیف گسترده‌ای از چیزها باز است. انجام دهید، شبیه به برنامه های کاربردی دنیای واقعی مانند استفاده از رایانه. بر خلاف قبلی با این نسخهها کار در Minecraft که از فضاهای اکشن ساده‌شده با هدف تسهیل کاوش استفاده می‌کنند، هوش مصنوعی ما از رابط انسانی بسیار کاربردی‌تر، هرچند بسیار دشوارتر، استفاده می‌کند: نرخ فریم ۲۰ هرتز با ماوس و صفحه‌کلید.

مدل شبیه‌سازی رفتاری ما («مدل پایه VPT») که بر روی 70,000 ساعت ویدیوی آنلاین با برچسب IDM آموزش دیده است، وظایفی را در Minecraft انجام می‌دهد که دستیابی به آنها با یادگیری تقویتی از ابتدا غیرممکن است. یاد می گیرد که درختان را خرد کند تا کنده ها را جمع کند، آن کنده ها را به صورت تخته درآورد، و سپس آن تخته ها را در میز کاردستی بسازد. این سکانس تقریباً 50 ثانیه یا 1,000 اکشن متوالی بازی برای یک انسان مسلط در Minecraft طول می کشد.

تصویر
تصویر
دنباله ای از اقلام مورد نیاز برای ساخت میز کاردستی، با برچسب میانگین زمانی که انسان های ماهر برای رسیدن به هر مرحله نیاز دارند.
[محتوای جاسازی شده]
ساخت میز کاردستی "شات صفر" (یعنی فقط بعد از آموزش قبل از تمرین بدون تنظیم دقیق اضافی)

علاوه بر این، این مدل مهارت‌های پیچیده دیگری را که انسان‌ها اغلب در بازی انجام می‌دهند، انجام می‌دهد، مانند شنا کردن، شکار حیوانات برای غذا، و خوردن آن غذا. همچنین مهارت "پرش از ستون" را یاد گرفت، یک رفتار رایج در Minecraft که با پرش های مکرر و قرار دادن یک بلوک در زیر خود، خود را بالا می برد.

تنظیم دقیق با شبیه سازی رفتاری

مدل‌های پایه به گونه‌ای طراحی شده‌اند که نمایه رفتاری گسترده‌ای داشته باشند و به طور کلی در طیف گسترده‌ای از وظایف قادر باشند. برای ادغام دانش جدید یا اجازه دادن به آنها برای تخصص در توزیع وظایف محدودتر، تنظیم دقیق این مدل‌ها به مجموعه داده‌های کوچکتر و خاص‌تر معمول است. به عنوان یک مطالعه موردی در مورد اینکه چگونه می توان مدل پایه VPT را به خوبی با مجموعه داده های پایین دستی تنظیم کرد، از پیمانکاران خود خواستیم به مدت 10 دقیقه در دنیای جدید Minecraft بازی کنند و خانه ای از مواد اولیه Minecraft بسازند. ما امیدوار بودیم که این توانایی مدل پایه برای اجرای قابل اعتماد مهارت‌های «بازی اولیه» مانند ساخت میزهای کاردستی را تقویت کند. هنگام تنظیم دقیق این مجموعه داده، نه تنها شاهد پیشرفت قابل‌توجهی در اجرای قابل اعتماد مهارت‌های اولیه بازی در مدل پایه هستیم، بلکه مدل تنظیم‌شده همچنین می‌آموزد که با ساخت هر دو چوب، حتی عمیق‌تر به درخت فناوری برود. و ابزار سنگی حتی گاهی اوقات ما شاهد ساختن سرپناه ابتدایی و جستجوی مامور در روستاها از جمله حمله به صندوقچه ها هستیم.

تصویر
تصویر
دنباله ای از اقلام مورد نیاز برای ساخت کلنگ سنگی با برچسب میانگین زمانی که انسان های ماهر برای رسیدن به هر مرحله نیاز دارند.
بهبود رفتار اولیه بازی از تنظیم دقیق BC

[محتوای جاسازی شده]
ساخت کلنگ سنگی
[محتوای جاسازی شده]
ساخت یک پناهگاه چوبی ابتدایی
[محتوای جاسازی شده]
جست و جو در یک روستا

مقیاس بندی داده ها

شاید مهم‌ترین فرضیه کار ما این باشد که استفاده از داده‌های پیمانکار برچسب‌گذاری شده برای آموزش یک IDM (به عنوان بخشی از خط لوله VPT) بسیار مؤثرتر از آموزش مستقیم مدل پایه BC از همان مجموعه داده پیمانکار کوچک است. برای تأیید این فرضیه، مدل‌های پایه را بر روی افزایش مقدار داده از 1 تا 70,000 ساعت آموزش می‌دهیم. کسانی که با کمتر از 2,000 ساعت داده آموزش دیده اند، بر روی داده های پیمانکار با برچسب های حقیقت زمینی که در ابتدا برای آموزش IDM جمع آوری شده بود، آموزش می بینند، و کسانی که بیش از 2,000 ساعت آموزش دیده اند، بر روی داده های اینترنتی با برچسب IDM ما آموزش می بینند. سپس هر مدل فونداسیون را می گیریم و آن را با مجموعه داده های ساختمان خانه که در بخش قبل توضیح داده شد تنظیم می کنیم.

تأثیر داده های آموزش مدل پایه بر تنظیم دقیق

با افزایش داده های مدل فونداسیون، ما به طور کلی شاهد افزایش توانایی کاردستی هستیم و تنها در بزرگترین مقیاس داده ها، ما شاهد ظهور ساخت ابزار سنگی هستیم.

تنظیم دقیق با یادگیری تقویتی

هنگامی که امکان تعیین یک تابع پاداش وجود دارد، یادگیری تقویتی (RL) می تواند یک روش قدرتمند برای استخراج عملکرد بالا، حتی بالقوه فوق انسانی باشد. با این حال، بسیاری از وظایف نیاز به غلبه بر چالش‌های سخت کاوش دارند، و اکثر روش‌های RL با آن‌ها مقابله می‌کنند تصادفی پیشین های اکتشاف، به عنوان مثال، مدل ها اغلب تشویق می شوند تا به طور تصادفی از طریق پاداش های آنتروپی عمل کنند. مدل VPT باید مقدمات بسیار بهتری برای RL باشد، زیرا شبیه‌سازی رفتار انسان احتمالاً بسیار مفیدتر از انجام اقدامات تصادفی است. ما مدل خود را وظیفه چالش برانگیز جمع آوری کلنگ الماس قرار دادیم، قابلیتی بی سابقه در Minecraft که هنگام استفاده از رابط انسانی بومی دشوارتر می شود.

ساخت کلنگ الماسی مستلزم یک سری وظایف فرعی طولانی و پیچیده است. برای اینکه این کار قابل انجام باشد، برای هر مورد در دنباله به عوامل پاداش می دهیم.

تصویر
تصویر
[محتوای جاسازی شده]
مدل VPT با تنظیم دقیق RL در حال ساخت کلنگ الماسی

ما دریافتیم که یک خط مشی RL که از یک مقداردهی اولیه تصادفی آموزش داده شده است (روش استاندارد RL) به سختی به پاداشی دست می یابد، هرگز یاد نمی گیرد که لاگ ها را جمع آوری کند و فقط به ندرت چوب ها را جمع آوری می کند. در مقابل، تنظیم دقیق از یک مدل VPT نه تنها یاد می‌گیرد که کلنگ‌های الماسی بسازد (که در 2.5٪ از قسمت‌های 10 دقیقه‌ای Minecraft انجام می‌شود)، بلکه حتی در جمع‌آوری همه موارد منجر به موفقیت در سطح انسانی نیز می‌شود. کلنگ الماس این اولین بار است که کسی یک عامل کامپیوتری را نشان می‌دهد که قادر به ساخت ابزارهای الماس در Minecraft است که به طور متوسط ​​بیش از 20 دقیقه (24,000 عمل) برای انسان وقت می‌گیرد.

پاداش بیش از قسمت

نتیجه

VPT مسیر را برای اجازه دادن به عوامل هموار می کند یاد بگیر عمل کنی با تماشای تعداد زیادی ویدیو در اینترنت. در مقایسه با مدل‌سازی ویدئویی تولیدی یا روش‌های متضاد که فقط نتیجه می‌دهند بازنمایی پیش از این، VPT امکان هیجان انگیز یادگیری مستقیم در مقیاس بزرگ را ارائه می دهد پیشین های رفتاری در حوزه های بیشتر از زبان. در حالی که ما فقط در Minecraft آزمایش می کنیم، بازی بسیار باز است و رابط انسانی بومی (موس و صفحه کلید) بسیار عمومی است، بنابراین ما معتقدیم که نتایج ما برای سایر حوزه های مشابه، به عنوان مثال استفاده از رایانه، نوید خوبی دارد.

برای کسب اطلاعات بیشتر، مراجعه کنید به مقاله ما. ما همچنین داده‌های پیمانکار، محیط Minecraft، کد مدل و وزن مدل خود را منبع‌دهی باز می‌کنیم، که امیدواریم به تحقیقات آینده در مورد VPT کمک کند. علاوه بر این، امسال با مسابقه MineRL NeurIPS شریک شده ایم. شرکت کنندگان می توانند با استفاده از مدل های ما و تنظیم دقیق آنها، سعی کنند بسیاری از کارهای دشوار را در Minecraft حل کنند. علاقه مندان می توانند به آدرس زیر مراجعه کنند صفحه وب مسابقه و برای جایزه آسمان آبی رقابت کنید $ 100,000 علاوه بر یک استخر جوایز منظم از $ 20,000. کمک‌های مالی برای گروه‌ها و افراد دارای نمایندگی کمتر در دسترس است.

مقالات مرتبط

نقطه_img

مقاله های اخیر

نقطه_img