هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی

هوش مصنوعی خودآموخته شباهت هایی را به نحوه عملکرد مغز نشان می دهد

تاریخ:

اکنون برای یک دهه، بسیاری از چشمگیرترین سیستم های هوش مصنوعی با استفاده از موجودی عظیمی از داده های برچسب دار آموزش داده شده اند. یک تصویر ممکن است به عنوان مثال "گربه تابی" یا "گربه ببر" برچسب گذاری شود تا یک شبکه عصبی مصنوعی را "آموزش دهد" تا به درستی یک تابی را از یک ببر تشخیص دهد. این استراتژی هم به طرز چشمگیری موفق بوده و هم به طرز غم انگیزی ناقص بوده است.

چنین آموزش «نظارت‌شده» به داده‌هایی نیاز دارد که به سختی توسط انسان برچسب‌گذاری شده‌اند، و شبکه‌های عصبی اغلب از میانبرها استفاده می‌کنند و یاد می‌گیرند که برچسب‌ها را با اطلاعات حداقلی و گاهی سطحی مرتبط کنند. به عنوان مثال، یک شبکه عصبی ممکن است از حضور علف برای تشخیص عکس یک گاو استفاده کند، زیرا گاوها معمولاً در مزرعه عکس می گیرند.

گفت: «ما در حال پرورش نسلی از الگوریتم‌ها هستیم که شبیه به دانش‌آموزانی هستند که کل ترم به کلاس نیامده‌اند و سپس شب قبل از فینال، در حال انباشته شدن هستند.» الکسی افروس، دانشمند کامپیوتر در دانشگاه کالیفرنیا، برکلی. "آنها واقعاً مطالب را یاد نمی گیرند، اما در آزمون خوب عمل می کنند."

علاوه بر این، برای محققان علاقه مند به تلاقی هوش حیوانات و ماشین، این "یادگیری تحت نظارت" ممکن است در آنچه می تواند در مورد مغزهای بیولوژیکی آشکار کند محدود باشد. حیوانات - از جمله انسان ها - از مجموعه داده های برچسب گذاری شده برای یادگیری استفاده نمی کنند. در بیشتر موارد، آنها به تنهایی محیط را کاوش می کنند و با انجام این کار، درک غنی و قوی از جهان به دست می آورند.

اکنون برخی از دانشمندان علوم اعصاب محاسباتی شروع به کاوش در شبکه های عصبی کرده اند که با داده های کم یا بدون برچسب انسانی آموزش دیده اند. این الگوریتم‌های «یادگیری با نظارت خود» بسیار موفق بوده‌اند الگوبرداری از زبان انسان و اخیراً تشخیص تصویر. در کار اخیر، مدل‌های محاسباتی سیستم‌های بینایی و شنوایی پستانداران که با استفاده از مدل‌های یادگیری خود نظارتی ساخته شده‌اند، مطابقت نزدیک‌تری با عملکرد مغز نسبت به همتایان تحت‌نظارت خود نشان داده‌اند. برای برخی از دانشمندان علوم اعصاب، به نظر می رسد که شبکه های مصنوعی شروع به افشای برخی از روش های واقعی مغز ما برای یادگیری کرده اند.

نظارت ناقص

مدل‌های مغزی الهام‌گرفته از شبکه‌های عصبی مصنوعی حدود 10 سال پیش روی کار آمدند، تقریباً در همان زمان که شبکه‌ای عصبی به نام الکس نت وظیفه طبقه بندی تصاویر ناشناخته را متحول کرد. این شبکه، مانند همه شبکه‌های عصبی، از لایه‌هایی از نورون‌های مصنوعی ساخته شده بود، واحدهای محاسباتی که اتصالاتی را به یکدیگر تشکیل می‌دهند که می‌توانند از نظر قدرت یا وزن متفاوت باشند. اگر یک شبکه عصبی نتواند یک تصویر را به درستی طبقه بندی کند، الگوریتم یادگیری وزن اتصالات بین نورون ها را به روز می کند تا احتمال طبقه بندی اشتباه در دور بعدی آموزش کمتر شود. الگوریتم این فرآیند را بارها با تمام تصاویر تمرینی، وزنه‌ها، تا زمانی که میزان خطای شبکه به طور قابل قبولی کم شود، تکرار می‌کند.

تقریباً در همان زمان، عصب‌شناسان اولین مدل‌های محاسباتی را توسعه دادند سیستم بینایی نخستی ها، با استفاده از شبکه های عصبی مانند AlexNet و جانشینان آن. این اتحادیه امیدوارکننده به نظر می‌رسید: برای مثال، زمانی که میمون‌ها و شبکه‌های عصبی مصنوعی تصاویر مشابهی را نشان دادند، فعالیت نورون‌های واقعی و نورون‌های مصنوعی مطابقت جالبی را نشان داد. مدل‌های مصنوعی شنوایی و تشخیص بو دنبال شد.

اما با پیشرفت این زمینه، محققان متوجه محدودیت‌های آموزش تحت نظارت شدند. به عنوان مثال، در سال 2017، لئون گاتیس، دانشمند کامپیوتر در آن زمان در دانشگاه توبینگن در آلمان، و همکارانش تصویری از فورد مدل T گرفتند، سپس یک الگوی پوست پلنگ را روی عکس پوشاندند و تصویری عجیب و غریب اما به راحتی قابل تشخیص ایجاد کردند. . یک شبکه عصبی مصنوعی پیشرو به درستی تصویر اصلی را به عنوان مدل T طبقه بندی کرد، اما تصویر اصلاح شده را یک پلنگ در نظر گرفت. روی بافت ثابت شده بود و هیچ درک درستی از شکل ماشین (یا پلنگ) نداشت.

راهبردهای یادگیری خود نظارتی برای جلوگیری از چنین مشکلاتی طراحی شده اند. در این رویکرد، انسان ها داده ها را برچسب گذاری نمی کنند. در عوض، "برچسب ها از خود داده ها می آیند." فریدمان زنکه، یک عصب شناس محاسباتی در موسسه تحقیقات زیست پزشکی فردریش میشر در بازل، سوئیس. الگوریتم‌های خود نظارت اساساً شکاف‌هایی در داده‌ها ایجاد می‌کنند و از شبکه عصبی می‌خواهند تا جاهای خالی را پر کند. به عنوان مثال، در یک مدل به اصطلاح زبان بزرگ، الگوریتم آموزشی چند کلمه اول یک جمله را به شبکه عصبی نشان می دهد و از آن می خواهد که کلمه بعدی را پیش بینی کند. وقتی با مجموعه عظیمی از متن که از اینترنت جمع آوری شده بود، این مدل آموزش دید به نظر می رسد که یاد می گیرد ساختار نحوی زبان، توانایی زبانی چشمگیر را نشان می دهد - همه بدون برچسب یا نظارت خارجی.

تلاش مشابهی در بینایی کامپیوتر در حال انجام است. در اواخر سال 2021، Kaiming He و همکاران خود را فاش کردندرمزگذار خودکار پوشانده شده"، که بر اساس یک تکنیک توسط تیم افروس در سال 2016 پیشگام شد. الگوریتم یادگیری خود نظارتی به طور تصادفی تصاویر را پنهان می کند و تقریباً سه چهارم هر یک را پنهان می کند. رمزگذار خودکار نقاب‌دار بخش‌های بدون ماسک را به نمایش‌های نهفته تبدیل می‌کند - توصیف‌های فشرده‌شده ریاضی که حاوی اطلاعات مهمی درباره یک شی است. (در مورد یک تصویر، نمایش نهفته ممکن است یک توصیف ریاضی باشد که در میان چیزهای دیگر، شکل یک شی را در تصویر ثبت می‌کند.) سپس یک رمزگشا آن تصاویر را دوباره به تصاویر کامل تبدیل می‌کند.

الگوریتم یادگیری خود نظارت، ترکیب رمزگذار-رمزگشا را آموزش می دهد تا تصاویر ماسک شده را به نسخه های کامل خود تبدیل کند. هر گونه تفاوت بین تصاویر واقعی و تصاویر بازسازی شده به سیستم بازگردانده می شود تا به یادگیری آن کمک کند. این فرآیند برای مجموعه ای از تصاویر آموزشی تکرار می شود تا زمانی که میزان خطای سیستم به طور مناسب کم شود. در یک مثال، زمانی که یک رمزگذار خودکار ماسک‌دار آموزش‌دیده، تصویری از یک اتوبوس که قبلا دیده نشده بود با تقریباً 80 درصد آن مبهم نشان داده شد، سیستم با موفقیت ساختار اتوبوس را بازسازی کرد.

افروس گفت: «این یک نتیجه بسیار بسیار چشمگیر است.

به نظر می رسد بازنمایی های نهفته ایجاد شده در سیستمی مانند این حاوی اطلاعات عمیق تر از استراتژی های قبلی است. این سیستم ممکن است شکل یک ماشین، به عنوان مثال - یا یک پلنگ - و نه فقط الگوهای آنها را یاد بگیرد. افروس گفت: «و این واقعاً ایده اساسی یادگیری با نظارت شخصی است - شما دانش خود را از پایین به بالا می‌سازید. بدون سخت گیری لحظه آخری برای قبولی در آزمون ها.

مغزهای خود نظارت شده

در سیستم هایی مانند این، برخی از عصب شناسان پژواک هایی از نحوه یادگیری ما مشاهده می کنند. من فکر می کنم شکی وجود ندارد که 90 درصد از کارهایی که مغز انجام می دهد یادگیری خود نظارت است. بلیک ریچاردز، یک عصب شناس محاسباتی در دانشگاه مک گیل و میلا، موسسه هوش مصنوعی کبک. تصور می‌شود که مغزهای بیولوژیکی به طور مداوم مکان آینده یک شی را هنگام حرکت یا کلمه بعدی در یک جمله را پیش‌بینی می‌کنند، درست همانطور که یک الگوریتم یادگیری با نظارت خود تلاش می‌کند شکاف یک تصویر یا بخشی از متن را پیش‌بینی کند. و مغزها نیز به تنهایی از اشتباهات خود یاد می گیرند - تنها بخش کوچکی از بازخورد مغز ما از یک منبع خارجی می آید که می گوید، اساسا، "پاسخ اشتباه".

به عنوان مثال، سیستم های بینایی انسان و دیگر نخستی ها را در نظر بگیرید. اینها بهترین سیستم‌های حسی حیوانات هستند، اما دانشمندان علوم اعصاب تلاش کرده‌اند توضیح دهند که چرا آنها شامل دو مسیر مجزا می‌شوند: جریان بینایی شکمی، که مسئول تشخیص اشیا و چهره‌ها است، و جریان بینایی پشتی، که حرکت را پردازش می‌کند ( مسیرهای what" و "where" به ترتیب).

ریچاردز و تیمش یک مدل تحت نظارت خود ایجاد کردند که به پاسخ اشاره می کند. آنها آموزش دیده یک هوش مصنوعی که دو شبکه عصبی مختلف را با هم ترکیب می‌کرد: اولی که معماری ResNet نام داشت، برای پردازش تصاویر طراحی شد. دومی که به عنوان یک شبکه تکراری شناخته می شود، می تواند دنباله ای از ورودی های قبلی را برای پیش بینی در مورد ورودی مورد انتظار بعدی پیگیری کند. برای آموزش هوش مصنوعی ترکیبی، تیم با دنباله ای از مثلاً 10 فریم از یک ویدیو شروع کرد و به ResNet اجازه داد آنها را یکی یکی پردازش کند. سپس شبکه تکراری نمایش نهفته فریم یازدهم را پیش بینی کرد، در حالی که به سادگی با 11 فریم اول مطابقت نداشت. الگوریتم یادگیری خود نظارتی، پیش‌بینی را با مقدار واقعی مقایسه کرد و به شبکه‌های عصبی دستور داد تا وزن‌های خود را به‌روزرسانی کنند تا پیش‌بینی بهتر شود.

تیم ریچاردز دریافتند که هوش مصنوعی آموزش دیده با یک ResNet در تشخیص اشیا خوب است، اما در دسته بندی حرکات نه. اما زمانی که آنها ResNet را به دو بخش تقسیم کردند و دو مسیر را ایجاد کردند (بدون تغییر در تعداد کل نورون ها)، هوش مصنوعی بازنمایی هایی را برای اشیاء در یکی و برای حرکت در دیگری ایجاد کرد و امکان طبقه بندی پایین دستی این ویژگی ها را فراهم کرد - درست همانطور که مغز ما احتمالاً وجود دارد. انجام دادن.

برای آزمایش بیشتر هوش مصنوعی، تیم مجموعه‌ای از ویدئوها را به آن نشان دادند که محققان موسسه علوم مغز آلن در سیاتل قبلاً به موش‌ها نشان داده بودند. مانند نخستی‌ها، موش‌ها دارای نواحی مغزی هستند که برای تصاویر ثابت و حرکت تخصص دارند. محققان آلن فعالیت عصبی را در قشر بینایی موش در حین تماشای ویدیوها ثبت کردند.

در اینجا نیز، تیم ریچاردز شباهت هایی را در نحوه واکنش هوش مصنوعی و مغزهای زنده به ویدئوها پیدا کردند. در طول آموزش، یکی از مسیرها در شبکه عصبی مصنوعی بیشتر شبیه به ناحیه شکمی و تشخیص اشیا در مغز موش شد و مسیر دیگر شبیه به مناطق پشتی متمرکز بر حرکت شد.

ریچاردز گفت: نتایج نشان می دهد که سیستم بینایی ما دارای دو مسیر تخصصی است زیرا آنها به پیش بینی آینده بصری کمک می کنند. یک مسیر به اندازه کافی خوب نیست.

مدل‌های دستگاه شنوایی انسان نیز داستان مشابهی را روایت می‌کنند. در ماه ژوئن، تیمی به رهبری ژان رمی کینگ، یک دانشمند محقق در Meta AI، هوش مصنوعی به نام Wav2Vec 2.0 را آموزش داد، که از یک شبکه عصبی برای تبدیل صدا به نمایش های پنهان استفاده می کند. محققان برخی از این نمایش‌ها را پنهان می‌کنند، که سپس وارد شبکه عصبی جزء دیگری به نام ترانسفورماتور می‌شوند. در طول تمرین، ترانسفورماتور اطلاعات پوشانده شده را پیش بینی می کند. در این فرآیند، کل هوش مصنوعی یاد می‌گیرد که صداها را به نمایش‌های نهفته تبدیل کند - باز هم نیازی به برچسب نیست. کینگ گفت، تیم از حدود 600 ساعت داده گفتاری برای آموزش شبکه استفاده کرد، "که تقریباً همان چیزی است که یک کودک در [دو سال] اول تجربه کسب می کند."

پس از آموزش این سیستم، محققان بخش هایی از کتاب های صوتی را به زبان های انگلیسی، فرانسوی و ماندارین برای آن پخش کردند. محققان سپس عملکرد هوش مصنوعی را با داده های 412 نفر مقایسه کردند - ترکیبی از گویشوران بومی این سه زبان که همزمان با تصویربرداری از مغزشان در یک اسکنر fMRI به صداهای مشابه گوش داده بودند. کینگ گفت که شبکه عصبی او و مغز انسان، علیرغم تصاویر fMRI پر سر و صدا و با وضوح پایین، "نه تنها با یکدیگر ارتباط دارند، بلکه به شکلی سیستماتیک همبستگی دارند": فعالیت در لایه های اولیه هوش مصنوعی با فعالیت همسو می شود. در قشر شنوایی اولیه، در حالی که فعالیت عمیق‌ترین لایه‌های هوش مصنوعی با فعالیت در لایه‌های بالاتر مغز، در این مورد قشر جلوی مغز، همسو است. ریچاردز گفت: «این داده‌ها واقعاً زیبا هستند. این قطعی نیست، اما [این] مدرک قانع‌کننده دیگری است که نشان می‌دهد، در واقع، روشی که ما زبان را یاد می‌گیریم تا حد زیادی با تلاش برای پیش‌بینی چیزهای بعدی است که گفته می‌شود.»

آسیب شناسی درمان نشده

همه قانع نشده اند. جاش مک درموتیک عصب شناس محاسباتی در موسسه فناوری ماساچوست، روی مدل های بینایی و ادراک شنوایی با استفاده از یادگیری تحت نظارت و خود نظارت کار کرده است. آزمایشگاه او چیزی را طراحی کرده است که او آن را "متامرها" می نامد، سیگنال های صوتی و تصویری سنتز شده ای که برای یک انسان فقط هستند. سر و صدای غیر قابل درک. با این حال، برای یک شبکه عصبی مصنوعی، متامرها از سیگنال های واقعی قابل تشخیص نیستند. این نشان می‌دهد که بازنمایی‌هایی که در لایه‌های عمیق‌تر شبکه عصبی شکل می‌گیرند، حتی با یادگیری خود نظارتی، با بازنمایی‌های مغز ما مطابقت ندارند. مک درموت گفت، این رویکردهای یادگیری خود نظارتی "پیشرفت هستند به این معنا که شما می توانید بازنمایی هایی را یاد بگیرید که می توانند بسیاری از رفتارهای شناسایی را بدون نیاز به همه این برچسب ها پشتیبانی کنند." "اما آنها هنوز آسیب شناسی های بسیاری از مدل های تحت نظارت را دارند."

خود الگوریتم ها نیز به کار بیشتری نیاز دارند. به عنوان مثال، در Wav2Vec 2.0 متا AI، هوش مصنوعی تنها بازنمایی های نهفته را برای صدای چند ده میلی ثانیه ای پیش بینی می کند - زمان کمتری نسبت به بیان یک نویز از نظر ادراکی متمایز، چه رسد به یک کلمه. کینگ گفت: «کارهای زیادی برای انجام کاری مشابه کاری که مغز انجام می دهد باید انجام داد.

درک واقعی عملکرد مغز به چیزی بیش از یادگیری تحت نظارت نیاز دارد. برای یک چیز، مغز مملو از اتصالات بازخوردی است، در حالی که مدل های فعلی، اگر وجود داشته باشند، چنین ارتباطی کمی دارند. یک گام واضح بعدی استفاده از یادگیری خود نظارتی برای آموزش شبکه‌های بسیار تکرارشونده است - فرآیندی دشوار - و دیدن اینکه چگونه فعالیت در چنین شبکه‌هایی با فعالیت واقعی مغز مقایسه می‌شود. گام مهم دیگر تطبیق فعالیت نورون‌های مصنوعی در مدل‌های یادگیری تحت نظارت خود با فعالیت نورون‌های بیولوژیکی فردی خواهد بود. کینگ گفت: «امیدواریم در آینده، نتایج [ما] با ضبط‌های تک سلولی نیز تأیید شود.

اگر شباهت‌های مشاهده شده بین مغز و مدل‌های یادگیری تحت نظارت خود برای سایر وظایف حسی نیز وجود داشته باشد، این نشانه قوی‌تر خواهد بود که هر جادویی که مغز ما قادر به انجام آن باشد، نیازمند یادگیری خود نظارتی است. کینگ می‌گوید: «اگر شباهت‌های سیستماتیک بین سیستم‌های بسیار متفاوت پیدا کنیم، نشان می‌دهد که شاید راه‌های زیادی برای پردازش اطلاعات به شیوه‌ای هوشمندانه وجود نداشته باشد. حداقل، این یک نوع فرضیه زیباست که ما دوست داریم با آن کار کنیم.

نقطه_img

جدیدترین اطلاعات

نقطه_img

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟