ما یک شبکه عصبی را آموزش دادیم تا بازی Minecraft توسط Video Pretraining (VPT) را بر روی یک مجموعه داده عظیم ویدیویی بدون برچسب از بازی Minecraft انسانی انجام دهد، در حالی که فقط از مقدار کمی از دادههای پیمانکار برچسبگذاری شده استفاده میکردیم. با تنظیم دقیق، مدل ما میتواند ساخت ابزارهای الماسی را بیاموزد، کاری که معمولاً انسانهای ماهر بیش از 20 دقیقه (24,000 عمل) طول میکشد. مدل ما از رابط انسانی بومی فشار دادن کلیدها و حرکات ماوس استفاده میکند، که آن را کاملاً عمومی میکند و گامی به سمت عوامل عمومی استفادهکننده از رایانه را نشان میدهد.
وزن کد و مدل را مشاهده کنید
مسابقه MineRL
اینترنت حاوی حجم عظیمی از ویدیوهای در دسترس عموم است که میتوانیم از آنها بیاموزیم. میتوانید تماشا کنید که یک شخص ارائهای زیبا دارد، یک هنرمند دیجیتالی یک غروب زیبا را ترسیم میکند، و یک بازیکن Minecraft که یک خانه پیچیده میسازد. با این حال، این ویدئوها فقط یک رکورد از چی اتفاق افتاد اما نه دقیقا چگونه به دست آمد، یعنی دنباله دقیق حرکات و کلیدهای فشار داده شده ماوس را نمی دانید. اگر بخواهیم در مقیاس بزرگ بسازیم مدل های پایه در این حوزه ها همانطور که در زبان انجام داده ایم GPT، این فقدان برچسب های عمل چالش جدیدی را ایجاد می کند که در حوزه زبان وجود ندارد، جایی که "برچسب های کنش" به سادگی کلمات بعدی در یک جمله هستند.
به منظور استفاده از انبوه دادههای ویدیویی بدون برچسب موجود در اینترنت، یک روش یادگیری تقلیدی بدیع و در عین حال ساده و نیمه نظارتی را معرفی میکنیم: پیشآموزش ویدیویی (VPT). ما با جمعآوری مجموعه دادههای کوچکی از پیمانکاران شروع میکنیم که در آن نه تنها ویدیوی آنها، بلکه اقداماتی را که انجام دادهاند نیز ضبط میکنیم، که در مورد ما فشار دادن کلید و حرکت ماوس است. با این دادهها یک مدل دینامیک معکوس (IDM) را آموزش میدهیم، که عمل انجام شده در هر مرحله از ویدیو را پیشبینی میکند. نکته مهم این است که IDM می تواند از گذشته استفاده کند و آینده اطلاعاتی برای حدس زدن عمل در هر مرحله. این کار بسیار ساده تر است و بنابراین به داده های بسیار کمتری نسبت به کار شبیه سازی رفتاری برای پیش بینی اقدامات داده شده نیاز دارد. فقط فریم های ویدیویی گذشته، که مستلزم استنباط کاری است که فرد می خواهد انجام دهد و چگونه آن را انجام دهد. سپس میتوانیم از IDM آموزشدیده برای برچسبگذاری مجموعه دادههای بسیار بزرگتری از ویدیوهای آنلاین استفاده کنیم و یاد بگیریم که از طریق شبیهسازی رفتاری عمل کنیم.
نتایج VPT صفر شات
ما تصمیم گرفتیم روش خود را در Minecraft تأیید کنیم زیرا (1) یکی از فعالترین بازیهای ویدیویی در جهان است و بنابراین دارای انبوهی از دادههای ویدیویی آزادانه در دسترس است و (2) با طیف گستردهای از چیزها باز است. انجام دهید، شبیه به برنامه های کاربردی دنیای واقعی مانند استفاده از رایانه. بر خلاف قبلی با این نسخهها کار در Minecraft که از فضاهای اکشن سادهشده با هدف تسهیل کاوش استفاده میکنند، هوش مصنوعی ما از رابط انسانی بسیار کاربردیتر، هرچند بسیار دشوارتر، استفاده میکند: نرخ فریم ۲۰ هرتز با ماوس و صفحهکلید.
مدل شبیهسازی رفتاری ما («مدل پایه VPT») که بر روی 70,000 ساعت ویدیوی آنلاین با برچسب IDM آموزش دیده است، وظایفی را در Minecraft انجام میدهد که دستیابی به آنها با یادگیری تقویتی از ابتدا غیرممکن است. یاد می گیرد که درختان را خرد کند تا کنده ها را جمع کند، آن کنده ها را به صورت تخته درآورد، و سپس آن تخته ها را در میز کاردستی بسازد. این سکانس تقریباً 50 ثانیه یا 1,000 اکشن متوالی بازی برای یک انسان مسلط در Minecraft طول می کشد.
علاوه بر این، این مدل مهارتهای پیچیده دیگری را که انسانها اغلب در بازی انجام میدهند، انجام میدهد، مانند شنا کردن، شکار حیوانات برای غذا، و خوردن آن غذا. همچنین مهارت "پرش از ستون" را یاد گرفت، یک رفتار رایج در Minecraft که با پرش های مکرر و قرار دادن یک بلوک در زیر خود، خود را بالا می برد.
تنظیم دقیق با شبیه سازی رفتاری
مدلهای پایه به گونهای طراحی شدهاند که نمایه رفتاری گستردهای داشته باشند و به طور کلی در طیف گستردهای از وظایف قادر باشند. برای ادغام دانش جدید یا اجازه دادن به آنها برای تخصص در توزیع وظایف محدودتر، تنظیم دقیق این مدلها به مجموعه دادههای کوچکتر و خاصتر معمول است. به عنوان یک مطالعه موردی در مورد اینکه چگونه می توان مدل پایه VPT را به خوبی با مجموعه داده های پایین دستی تنظیم کرد، از پیمانکاران خود خواستیم به مدت 10 دقیقه در دنیای جدید Minecraft بازی کنند و خانه ای از مواد اولیه Minecraft بسازند. ما امیدوار بودیم که این توانایی مدل پایه برای اجرای قابل اعتماد مهارتهای «بازی اولیه» مانند ساخت میزهای کاردستی را تقویت کند. هنگام تنظیم دقیق این مجموعه داده، نه تنها شاهد پیشرفت قابلتوجهی در اجرای قابل اعتماد مهارتهای اولیه بازی در مدل پایه هستیم، بلکه مدل تنظیمشده همچنین میآموزد که با ساخت هر دو چوب، حتی عمیقتر به درخت فناوری برود. و ابزار سنگی حتی گاهی اوقات ما شاهد ساختن سرپناه ابتدایی و جستجوی مامور در روستاها از جمله حمله به صندوقچه ها هستیم.
بهبود رفتار اولیه بازی از تنظیم دقیق BC
مقیاس بندی داده ها
شاید مهمترین فرضیه کار ما این باشد که استفاده از دادههای پیمانکار برچسبگذاری شده برای آموزش یک IDM (به عنوان بخشی از خط لوله VPT) بسیار مؤثرتر از آموزش مستقیم مدل پایه BC از همان مجموعه داده پیمانکار کوچک است. برای تأیید این فرضیه، مدلهای پایه را بر روی افزایش مقدار داده از 1 تا 70,000 ساعت آموزش میدهیم. کسانی که با کمتر از 2,000 ساعت داده آموزش دیده اند، بر روی داده های پیمانکار با برچسب های حقیقت زمینی که در ابتدا برای آموزش IDM جمع آوری شده بود، آموزش می بینند، و کسانی که بیش از 2,000 ساعت آموزش دیده اند، بر روی داده های اینترنتی با برچسب IDM ما آموزش می بینند. سپس هر مدل فونداسیون را می گیریم و آن را با مجموعه داده های ساختمان خانه که در بخش قبل توضیح داده شد تنظیم می کنیم.
تأثیر داده های آموزش مدل پایه بر تنظیم دقیق
با افزایش داده های مدل فونداسیون، ما به طور کلی شاهد افزایش توانایی کاردستی هستیم و تنها در بزرگترین مقیاس داده ها، ما شاهد ظهور ساخت ابزار سنگی هستیم.
تنظیم دقیق با یادگیری تقویتی
هنگامی که امکان تعیین یک تابع پاداش وجود دارد، یادگیری تقویتی (RL) می تواند یک روش قدرتمند برای استخراج عملکرد بالا، حتی بالقوه فوق انسانی باشد. با این حال، بسیاری از وظایف نیاز به غلبه بر چالشهای سخت کاوش دارند، و اکثر روشهای RL با آنها مقابله میکنند تصادفی پیشین های اکتشاف، به عنوان مثال، مدل ها اغلب تشویق می شوند تا به طور تصادفی از طریق پاداش های آنتروپی عمل کنند. مدل VPT باید مقدمات بسیار بهتری برای RL باشد، زیرا شبیهسازی رفتار انسان احتمالاً بسیار مفیدتر از انجام اقدامات تصادفی است. ما مدل خود را وظیفه چالش برانگیز جمع آوری کلنگ الماس قرار دادیم، قابلیتی بی سابقه در Minecraft که هنگام استفاده از رابط انسانی بومی دشوارتر می شود.
ساخت کلنگ الماسی مستلزم یک سری وظایف فرعی طولانی و پیچیده است. برای اینکه این کار قابل انجام باشد، برای هر مورد در دنباله به عوامل پاداش می دهیم.
ما دریافتیم که یک خط مشی RL که از یک مقداردهی اولیه تصادفی آموزش داده شده است (روش استاندارد RL) به سختی به پاداشی دست می یابد، هرگز یاد نمی گیرد که لاگ ها را جمع آوری کند و فقط به ندرت چوب ها را جمع آوری می کند. در مقابل، تنظیم دقیق از یک مدل VPT نه تنها یاد میگیرد که کلنگهای الماسی بسازد (که در 2.5٪ از قسمتهای 10 دقیقهای Minecraft انجام میشود)، بلکه حتی در جمعآوری همه موارد منجر به موفقیت در سطح انسانی نیز میشود. کلنگ الماس این اولین بار است که کسی یک عامل کامپیوتری را نشان میدهد که قادر به ساخت ابزارهای الماس در Minecraft است که به طور متوسط بیش از 20 دقیقه (24,000 عمل) برای انسان وقت میگیرد.
پاداش بیش از قسمت
نتیجه
VPT مسیر را برای اجازه دادن به عوامل هموار می کند یاد بگیر عمل کنی با تماشای تعداد زیادی ویدیو در اینترنت. در مقایسه با مدلسازی ویدئویی تولیدی یا روشهای متضاد که فقط نتیجه میدهند بازنمایی پیش از این، VPT امکان هیجان انگیز یادگیری مستقیم در مقیاس بزرگ را ارائه می دهد پیشین های رفتاری در حوزه های بیشتر از زبان. در حالی که ما فقط در Minecraft آزمایش می کنیم، بازی بسیار باز است و رابط انسانی بومی (موس و صفحه کلید) بسیار عمومی است، بنابراین ما معتقدیم که نتایج ما برای سایر دامنه های مشابه، به عنوان مثال استفاده از رایانه، نوید خوبی دارد.
برای کسب اطلاعات بیشتر، مراجعه کنید به مقاله ما. ما همچنین دادههای پیمانکار، محیط Minecraft، کد مدل و وزن مدل خود را منبعدهی باز میکنیم، که امیدواریم به تحقیقات آینده در مورد VPT کمک کند. علاوه بر این، امسال با مسابقه MineRL NeurIPS شریک شده ایم. شرکت کنندگان می توانند با استفاده از مدل های ما و تنظیم دقیق آنها، سعی کنند بسیاری از کارهای دشوار را در Minecraft حل کنند. علاقه مندان می توانند به آدرس زیر مراجعه کنند صفحه وب مسابقه و برای جایزه آسمان آبی رقابت کنید $100,000 علاوه بر یک استخر جوایز منظم از $20,000. کمکهای مالی برای گروهها و افراد دارای نمایندگی کمتر در دسترس است.