پلتفرم وبلاگ نویسی Medium از سازمانها میخواهد که مقالات آن را بدون اجازه آموزش مدلهای هوش مصنوعی خراش ندهند، اگرچه اذعان داشت که اجرای این سیاست دشوار خواهد بود.
تونی استابلبین، مدیر عامل شرکت، روز پنجشنبه توضیح داد که چگونه Medium قصد دارد تا از برداشت آثار مکتوب افراد توسط توسعه دهندگانی که به دنبال ساخت مجموعه داده های آموزشی برای شبکه های عصبی هستند، جلوگیری کند. او گفت، بیش از هر چیز، توسعه دهندگان باید برای آموزش مدل های زبانی بزرگ بر روی نثر مردم، رضایت بخواهند - و به نویسندگان اعتبار و غرامت بدهند.
آن مدلهای هوش مصنوعی در نهایت میتوانند نویسندگانی را که روی آنها آموزش دیدهاند به تسخیر خود درآورند، که برای برخی مانند یک بیعدالتی مضاعف به نظر میرسد: کاتبان در وهله اول جبران نشدند، و اکنون مدلها تهدید میکنند که جایگاه و درآمد حاصل از کارشان را بگیرند.
او میگوید: «برای ارائه خلاصهای صریح از وضعیت موجود: شرکتهای هوش مصنوعی ارزشی را از نویسندگان به منظور ارسال هرزنامه به خوانندگان اینترنتی دریافت کردهاند. نوشت در یک پست وبلاگ «Medium در حال تغییر سیاست ما در مورد آموزش هوش مصنوعی است. پاسخ پیش فرض اکنون این است: خیر.
بنابراین Medium وب سایت های خود را به روز کرده است. robots.txt را برای درخواست از ربات خزنده وب OpenAI GPTBot تا محتوا را از صفحات آن کپی نکنید. ناشران دیگر - مانند CNN، رویترز، شیکاگو تریبون، و نیویورک تایمز - قبلاً این کار را انجام داده اند.
Stubblebine این را یک بلوک نرم در هوش مصنوعی نامید: به GPTBot OpenAI متکی است که به درخواست در robots.txt توجه می کند تا به صفحات Medium دسترسی نداشته باشد و محتوا را بالا ببرد. اما سایر خزنده ها می توانند و ممکن است آن را نادیده بگیرند. Medium میتواند منتظر بماند تا آن خزندهها راهی برای مسدود کردن آنها از طریق robots.txt فراهم کنند و فایل خود را بر این اساس بهروزرسانی کنند، اما این وضعیت تضمینی نیست.
مسدود کردن خزندههای وب در سطح پایینتر از robots.txt، مانند آدرس IP یا رشته عامل کاربر، کار خواهد کرد – تا زمانی که رباتها آدرسهای IP جدید دریافت کنند یا رشتههای عامل کاربر خود را تغییر دهند. این یک بازی ضرب و شتم است که ممکن است برای انجام آن خیلی خسته کننده باشد.
Stubblebine اعتراف کرد: «متاسفانه، بلوک robots.txt به روشهای عمده محدود شده است. تا آنجا که میتوانیم بگوییم، OpenAI تنها شرکتی است که راهی برای مسدود کردن عنکبوتهایی که برای یافتن محتوا برای آموزش استفاده میکنند، ارائه میکند. ما فکر نمیکنیم که بتوانیم شرکتهایی غیر از OpenAI را کاملاً مسدود کنیم.»
منظور او این است که حداقل OpenAI قول داده است robots.txt را مشاهده کند. سایر سازمانهایی که دادهها را برای آموزش یادگیری ماشینی جمعآوری میکنند ممکن است آن را نادیده بگیرند.
همه گفتهها، Medium قول داده است که نامههای توقف و توقف را برای کسانی که بدون اجازه مقالاتی برای آموزش مدلها در صفحات آن میخزند ارسال کند. بنابراین، به طور موثر: Medium از خزنده OpenAI خواسته است که آن را به حال خود رها کند، و وب سایت دیگر خزنده های مجموعه داده را در صورت عدم عقب نشینی از طریق تهدیدات قانونی به کار می گیرد. مال وب سایت شرایط استفاده از خدمات به ما گفته شده است که برای منع استفاده از عنکبوت ها و سایر خزنده ها برای خراش دادن مقالات بدون رضایت Medium به روز شده است.
Stubblebine همچنین به نویسندگان در این پلتفرم هشدار داد که مشخص نیست آیا قانون کپی رایت می تواند آنها را در برابر شرکت هایی که مدل های کارشان را آموزش می دهند و از آن مدل ها برای تولید مطالب مشابه یا تقریباً یکسان استفاده می کنند محافظت کند، در میان پرونده های قضایی متعدد در حال انجام در کل این موضوع.
مدیر عامل شرکت مدیوم همچنین به کاربران مدیوم یادآوری کرد که هیچ کس نمی تواند نسخه هایی از آثار خود را بدون اجازه در سایت به فروش برساند. Stubblebine نوشت: "در مجوز پیش فرض در داستان های متوسط، شما حق انحصاری فروش آثار خود را دارید."
او ادامه داد که برخی از توسعه دهندگان هوش مصنوعی ممکن است این کار را انجام داده باشند: خرید یا به دست آوردن نسخه هایی از مقالات و سایر آثار حذف شده از رسانه و سایر بخش های اینترنت توسط فروشندگان شخص ثالث، برای آموزش شبکه ها بر روی آن محتوا. او شستن مطالب دارای حق چاپ مردم را «عملی با جسارت باورنکردنی» نامید.
Stubblebine به شرکتهایی که به دنبال خزیدن دادههای وب از Medium هستند توصیه کرد که با سایت تماس بگیرند تا در مورد اعتبار و جبران خسارت در میان سایر نکات مهم بحث کنند. من این را می گویم زیرا هدف نهایی ما جلوگیری از توسعه هوش مصنوعی نیست. ما در حال حاضر تمام مجموعههای آموزش هوش مصنوعی Medium را حذف میکنیم. اما ما کاملاً انتظار داریم که پس از ایجاد این پروتکلها مجدداً شرکت کنیم.»
مدیوم پیشنهاد کرد که اگر یک سازنده هوش مصنوعی برای متن خراشیده شده غرامت ارائه کند، بیز وبلاگ نویسی 100 درصد آن را به نویسندگانش می دهد.
در ماه ژوئیه، همچنین تایید کرد که اگرچه پست های تولید شده توسط هوش مصنوعی به طور کامل ممنوع نیستند، هیچ متنی را به طور کامل توسط ماشین ها توصیه نمی کند.
«مدیوم مکانی برای داستانهای کاملاً تولید شده با هوش مصنوعی نیست و داستانهای 100 درصد تولید شده توسط هوش مصنوعی واجد شرایط توزیع فراتر از شبکه شخصی نویسنده نیستند.» اظهار داشت:به ®
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://go.theregister.com/feed/www.theregister.com/2023/09/29/medium_ai_crawlers/