او گفت: «به عنوان یک طوطی تصادفی، ما مدلهای زبانی را آموزش دادیم تا از نوشتههای انسان تقلید کنند، بدون اینکه به آنها یاد دهیم که چگونه به درستی سرقت ادبی نکنند. حالا وقت آن است که به آنها یاد بدهیم درست بنویسند و راه درازی در پیش داریم.»
به گفته محققان، مدلهای زبانی مانند ChatGPT میتوانند به روشهایی بیشتر از «کپی پیست» سرقت ادبی کنند.
Dongwon Lee اضافه کرد که نتیجه سرقت علمی چیزی غیرمنتظره نیست.
محققان بر روی شناسایی سه شکل سرقت ادبی متمرکز شدند: کلمه به کلمه یا مستقیماً کپی و چسباندن محتوا. بازنویسی یا بازنویسی و تغییر ساختار محتوا بدون ذکر منبع اصلی؛ و ایده، یا استفاده از ایده اصلی از یک متن بدون انتساب مناسب. آنها خط لوله ای برای تشخیص خودکار سرقت ادبی ساختند و آن را در برابر GPT-2 OpenAI آزمایش کردند زیرا داده های آموزشی مدل زبان به صورت آنلاین در دسترس است و به محققان اجازه می دهد متون تولید شده را با 8 میلیون سند مورد استفاده برای پیش آموزش GPT-2 مقایسه کنند.
تای لی، استادیار علوم کامپیوتر و اطلاعات در دانشگاه می سی سی پی می گوید: «اگرچه خروجی ممکن است جذاب باشد، و استفاده از مدل های زبان ممکن است سرگرم کننده باشد و برای کارهای خاص مفید به نظر برسد، به این معنی نیست که آنها کاربردی هستند. که به عنوان یک کاندیدای دکترا در ایالت پن شروع به کار بر روی این پروژه کرد. در عمل، ما باید به مسائل اخلاقی و کپی رایتی که تولیدکنندگان متن مطرح میکنند، رسیدگی کنیم.»
دونگ وون لی، استاد علوم و فناوری اطلاعات در ایالت پن میگوید: سرقت ادبی در طعمهای مختلفی وجود دارد. ما میخواستیم ببینیم که آیا مدلهای زبان نه تنها کپی و پیست میکنند، بلکه بدون اینکه متوجه شوند به اشکال پیچیدهتری از سرقت ادبی متوسل میشوند یا خیر.
اگرچه نتایج این مطالعه فقط برای GPT-2 اعمال میشود، فرآیند تشخیص سرقت خودکار که محققان ایجاد کردهاند میتواند برای مدلهای زبان جدیدتر مانند ChatGPT اعمال شود تا مشخص شود که آیا این مدلها چقدر محتوای آموزشی را سرقت میکنند یا خیر. به گفته محققان، با این حال، آزمایش سرقت ادبی به توسعه دهندگان بستگی دارد که داده های آموزشی را در دسترس عموم قرار دهند.
به گفته دانشمندان، مطالعه کنونی میتواند به محققان هوش مصنوعی در ساخت مدلهای زبانی قویتر، قابل اعتمادتر و مسئولانهتر در آینده کمک کند. در حال حاضر، آنها از افراد می خواهند که هنگام استفاده از تولید کننده های متن احتیاط کنند.
به گفته محققان، این مطالعه نیاز به تحقیقات بیشتر در مورد تولیدکنندههای متن و سؤالات اخلاقی و فلسفی که آنها مطرح میکنند، برجسته میکند.
این تیم متوجه شد که مدلهای زبان هر سه نوع سرقت ادبی را مرتکب میشوند و هر چه مجموعه دادهها و پارامترهای مورد استفاده برای آموزش مدل بیشتر باشد، سرقت ادبی بیشتر اتفاق میافتد. آنها همچنین خاطرنشان کردند که مدلهای زبانی دقیق، سرقت ادبی را کاهش میدهند، اما موارد بازنویسی و سرقت علمی را افزایش میدهند. علاوه بر این، آنها نمونه هایی از مدل زبان را شناسایی کردند که اطلاعات خصوصی افراد را از طریق هر سه شکل سرقت ادبی افشا می کرد. محققان یافته های خود را در کنفرانس وب ACM 2023 که از 30 آوریل تا 4 مه در آستین، تگزاس برگزار می شود، ارائه خواهند کرد.
دانشمندان از 210000 متن تولید شده برای آزمایش سرقت ادبی در مدلهای زبانی از پیش آموزشدیده و مدلهای زبانی دقیق یا مدلهایی که بیشتر برای تمرکز بر حوزههای موضوعی آموزش دیدهاند، استفاده کردند. در این مورد، تیم سه مدل زبان را برای تمرکز بر اسناد علمی، مقالات علمی مرتبط با COVID-19 و ادعاهای ثبت اختراع تنظیم کرد. آنها از یک موتور جستجوی منبع باز برای بازیابی 10 سند آموزشی برتر استفاده کردند که شبیه به هر متن تولید شده بود و الگوریتم هم ترازی متن موجود را اصلاح کردند تا نمونه هایی از سرقت ادبی کلمه به کلمه، نقل قول و ایده را بهتر تشخیص دهند.
جویونگ لی، نویسنده اصلی، دانشجوی دکترا در کالج علوم و فناوری اطلاعات در ایالت پن، میگوید: «مردم مدلهای زبانی بزرگ را دنبال میکنند، زیرا هر چه مدل بزرگتر شود، تواناییهای نسل افزایش مییابد. در عین حال، آنها اصالت و خلاقیت محتوا را در مجموعه آموزشی به خطر می اندازند، این یک یافته مهم است.»
جینگهوی چن، استادیار علوم اطلاعات و فناوری در ایالت پن، گفت: «محققان و دانشمندان هوش مصنوعی در حال مطالعه چگونگی بهتر و قویتر کردن مدلهای زبان هستند، در همین حال، بسیاری از افراد از مدلهای زبان در زندگی روزمره خود برای کارهای مختلف بهرهوری استفاده میکنند. اگرچه استفاده از مدلهای زبان بهعنوان یک موتور جستجو یا سرریز پشته برای اشکالزدایی کد احتمالاً خوب است، برای مقاصد دیگر، از آنجایی که مدل زبان ممکن است محتوای سرقتآمیز تولید کند، ممکن است پیامدهای منفی برای کاربر داشته باشد.»
برای جزئیات جدیدترین راه اندازی ها و اخبار سامسونگ، شیائومی، ریلمی، وان پلاس، اوپو و سایر شرکت ها در کنگره جهانی موبایل در بارسلون، از مرکز MWC 2023 ما دیدن کنید.
نگرانی در مورد سرقت ادبی زمانی مطرح میشود که مدلهای زبان، احتمالاً شامل ChatGPT، مفاهیم را از دادههای آموزشی بدون ذکر منبع اصلی بازنویسی و استفاده مجدد میکنند.
ممکن است دانش آموزان قبل از اتمام تکلیف بعدی خود با یک ربات چت، کمی فکر کنند. با توجه به یک تیم تحقیقاتی به رهبری دانشگاه پن که اولین مطالعه را انجام داد تا به طور خاص به این موضوع نگاه کند، مدلهای زبانی که متنی را در پاسخ به کاربر تولید میکنند، محتوای سرقت ادبی را به روشهای مختلفی تحریک میکنند.