به گفته محققان، مدل‌های زبانی مانند ChatGPT می‌توانند به روش‌هایی بیشتر از «کپی پیست» سرقت ادبی کنند.

او گفت: «به عنوان یک طوطی تصادفی، ما مدل‌های زبانی را آموزش دادیم تا از نوشته‌های انسان تقلید کنند، بدون اینکه به آن‌ها یاد دهیم که چگونه به درستی سرقت ادبی نکنند. حالا وقت آن است که به آنها یاد بدهیم درست بنویسند و راه درازی در پیش داریم.»


OnePlus 11 5G در رویداد راه اندازی Cloud 11 این شرکت راه اندازی شد که همچنین شاهد معرفی چندین دستگاه دیگر بود. ما در مورد این گوشی جدید و تمام سخت افزار جدید OnePlus در Orbital، پادکست Gadgets 360 صحبت می کنیم. Orbital در Spotify، Gaana، JioSaavn، Google Podcasts، Apple Podcasts، Amazon Music و هر جایی که پادکست های خود را دریافت می کنید در دسترس است.
پیوندهای وابسته ممکن است به طور خودکار ایجاد شوند – برای جزئیات بیشتر به بیانیه اخلاقی ما مراجعه کنید.

Dongwon Lee اضافه کرد که نتیجه سرقت علمی چیزی غیرمنتظره نیست.

محققان بر روی شناسایی سه شکل سرقت ادبی متمرکز شدند: کلمه به کلمه یا مستقیماً کپی و چسباندن محتوا. بازنویسی یا بازنویسی و تغییر ساختار محتوا بدون ذکر منبع اصلی؛ و ایده، یا استفاده از ایده اصلی از یک متن بدون انتساب مناسب. آنها خط لوله ای برای تشخیص خودکار سرقت ادبی ساختند و آن را در برابر GPT-2 OpenAI آزمایش کردند زیرا داده های آموزشی مدل زبان به صورت آنلاین در دسترس است و به محققان اجازه می دهد متون تولید شده را با 8 میلیون سند مورد استفاده برای پیش آموزش GPT-2 مقایسه کنند.

تای لی، استادیار علوم کامپیوتر و اطلاعات در دانشگاه می سی سی پی می گوید: «اگرچه خروجی ممکن است جذاب باشد، و استفاده از مدل های زبان ممکن است سرگرم کننده باشد و برای کارهای خاص مفید به نظر برسد، به این معنی نیست که آنها کاربردی هستند. که به عنوان یک کاندیدای دکترا در ایالت پن شروع به کار بر روی این پروژه کرد. در عمل، ما باید به مسائل اخلاقی و کپی رایتی که تولیدکنندگان متن مطرح می‌کنند، رسیدگی کنیم.»

دونگ وون لی، استاد علوم و فناوری اطلاعات در ایالت پن می‌گوید: سرقت ادبی در طعم‌های مختلفی وجود دارد. ما می‌خواستیم ببینیم که آیا مدل‌های زبان نه تنها کپی و پیست می‌کنند، بلکه بدون اینکه متوجه شوند به اشکال پیچیده‌تری از سرقت ادبی متوسل می‌شوند یا خیر.

اگرچه نتایج این مطالعه فقط برای GPT-2 اعمال می‌شود، فرآیند تشخیص سرقت خودکار که محققان ایجاد کرده‌اند می‌تواند برای مدل‌های زبان جدیدتر مانند ChatGPT اعمال شود تا مشخص شود که آیا این مدل‌ها چقدر محتوای آموزشی را سرقت می‌کنند یا خیر. به گفته محققان، با این حال، آزمایش سرقت ادبی به توسعه دهندگان بستگی دارد که داده های آموزشی را در دسترس عموم قرار دهند.

به گفته دانشمندان، مطالعه کنونی می‌تواند به محققان هوش مصنوعی در ساخت مدل‌های زبانی قوی‌تر، قابل اعتمادتر و مسئولانه‌تر در آینده کمک کند. در حال حاضر، آنها از افراد می خواهند که هنگام استفاده از تولید کننده های متن احتیاط کنند.

به گفته محققان، این مطالعه نیاز به تحقیقات بیشتر در مورد تولیدکننده‌های متن و سؤالات اخلاقی و فلسفی که آنها مطرح می‌کنند، برجسته می‌کند.

این تیم متوجه شد که مدل‌های زبان هر سه نوع سرقت ادبی را مرتکب می‌شوند و هر چه مجموعه داده‌ها و پارامترهای مورد استفاده برای آموزش مدل بیشتر باشد، سرقت ادبی بیشتر اتفاق می‌افتد. آن‌ها همچنین خاطرنشان کردند که مدل‌های زبانی دقیق، سرقت ادبی را کاهش می‌دهند، اما موارد بازنویسی و سرقت علمی را افزایش می‌دهند. علاوه بر این، آنها نمونه هایی از مدل زبان را شناسایی کردند که اطلاعات خصوصی افراد را از طریق هر سه شکل سرقت ادبی افشا می کرد. محققان یافته های خود را در کنفرانس وب ACM 2023 که از 30 آوریل تا 4 مه در آستین، تگزاس برگزار می شود، ارائه خواهند کرد.

دانشمندان از 210000 متن تولید شده برای آزمایش سرقت ادبی در مدل‌های زبانی از پیش آموزش‌دیده و مدل‌های زبانی دقیق یا مدل‌هایی که بیشتر برای تمرکز بر حوزه‌های موضوعی آموزش دیده‌اند، استفاده کردند. در این مورد، تیم سه مدل زبان را برای تمرکز بر اسناد علمی، مقالات علمی مرتبط با COVID-19 و ادعاهای ثبت اختراع تنظیم کرد. آنها از یک موتور جستجوی منبع باز برای بازیابی 10 سند آموزشی برتر استفاده کردند که شبیه به هر متن تولید شده بود و الگوریتم هم ترازی متن موجود را اصلاح کردند تا نمونه هایی از سرقت ادبی کلمه به کلمه، نقل قول و ایده را بهتر تشخیص دهند.

جویونگ لی، نویسنده اصلی، دانشجوی دکترا در کالج علوم و فناوری اطلاعات در ایالت پن، می‌گوید: «مردم مدل‌های زبانی بزرگ را دنبال می‌کنند، زیرا هر چه مدل بزرگ‌تر شود، توانایی‌های نسل افزایش می‌یابد. در عین حال، آنها اصالت و خلاقیت محتوا را در مجموعه آموزشی به خطر می اندازند، این یک یافته مهم است.»

جینگ‌هوی چن، استادیار علوم اطلاعات و فناوری در ایالت پن، گفت: «محققان و دانشمندان هوش مصنوعی در حال مطالعه چگونگی بهتر و قوی‌تر کردن مدل‌های زبان هستند، در همین حال، بسیاری از افراد از مدل‌های زبان در زندگی روزمره خود برای کارهای مختلف بهره‌وری استفاده می‌کنند. اگرچه استفاده از مدل‌های زبان به‌عنوان یک موتور جستجو یا سرریز پشته برای اشکال‌زدایی کد احتمالاً خوب است، برای مقاصد دیگر، از آنجایی که مدل زبان ممکن است محتوای سرقت‌آمیز تولید کند، ممکن است پیامدهای منفی برای کاربر داشته باشد.»

برای جزئیات جدیدترین راه اندازی ها و اخبار سامسونگ، شیائومی، ریلمی، وان پلاس، اوپو و سایر شرکت ها در کنگره جهانی موبایل در بارسلون، از مرکز MWC 2023 ما دیدن کنید.



منبع

نگرانی در مورد سرقت ادبی زمانی مطرح می‌شود که مدل‌های زبان، احتمالاً شامل ChatGPT، مفاهیم را از داده‌های آموزشی بدون ذکر منبع اصلی بازنویسی و استفاده مجدد می‌کنند.

ممکن است دانش آموزان قبل از اتمام تکلیف بعدی خود با یک ربات چت، کمی فکر کنند. با توجه به یک تیم تحقیقاتی به رهبری دانشگاه پن که اولین مطالعه را انجام داد تا به طور خاص به این موضوع نگاه کند، مدل‌های زبانی که متنی را در پاسخ به کاربر تولید می‌کنند، محتوای سرقت ادبی را به روش‌های مختلفی تحریک می‌کنند.