بر اساس دادههایی که رویترز مشاهده کرده، برخی از برجستهترین مدلهای هوش مصنوعی در زمینههای کلیدی مانند انعطافپذیری امنیت سایبری و خروجیهای تبعیضآمیز از مقررات اروپایی کوتاهی میکنند.
اتحادیه اروپا مدتها قبل از اینکه OpenAI ChatGPT را برای عموم در اواخر سال 2022 منتشر کرد، درباره مقررات جدید هوش مصنوعی بحث کرده بود. محبوبیت رکوردشکنی و بحث عمومی متعاقب آن در مورد خطرات وجودی احتمالی چنین مدلهایی، قانونگذاران را ترغیب کرد تا قوانین خاصی را در مورد هوش مصنوعی «عام المنفعه» تدوین کنند. (GPAI).
اکنون ابزار جدیدی که توسط استارتآپ سوئیسی LatticeFlow و شرکای آن طراحی شده و توسط مقامات اتحادیه اروپا پشتیبانی میشود، مدلهای هوش مصنوعی تولید شده توسط شرکتهای فناوری بزرگ مانند Meta و OpenAI را در دهها دستهبندی در راستای قانون هوش مصنوعی گسترده بلوک آزمایش کرده است. طی دو سال آینده به صورت مرحله ای اجرا می شود.
با اعطای امتیاز بین 0 تا 1 به هر مدل، جدول امتیازاتی که توسط LatticeFlow در روز چهارشنبه منتشر شد، نشان داد که مدلهای توسعهیافته توسط Alibaba، Anthropic، OpenAI، Meta و Mistral همگی میانگین نمرات 0.75 یا بالاتر را دریافت کردند.
با این حال، “بررسی مدل زبان بزرگ (LLM)” این شرکت کاستیهای برخی از مدلها را در زمینههای کلیدی آشکار کرد و نشان داد که شرکتها ممکن است نیاز به منحرف کردن منابع برای اطمینان از انطباق داشته باشند.
شرکت هایی که از قانون هوش مصنوعی پیروی نکنند با جریمه 35 میلیون یورویی (38 میلیون دلاری) یا 7 درصد از گردش مالی سالانه جهانی روبرو خواهند شد.
نتایج مختلط
در حال حاضر، اتحادیه اروپا همچنان در تلاش است تا چگونگی اجرای قوانین قانون هوش مصنوعی در مورد ابزارهای مولد هوش مصنوعی مانند ChatGPT را تعیین کند، و کارشناسان را دعوت می کند تا یک کد عملی حاکم بر این فناوری را تا بهار 2025 ایجاد کنند.
اما آزمون LatticeFlow که با همکاری محققان دانشگاه سوئیس ETH زوریخ و موسسه تحقیقاتی بلغارستانی INSAIT توسعه یافته است، نشانگر اولیه حوزههای خاصی است که شرکتهای فناوری در معرض خطر عدم رعایت قانون هستند.
به عنوان مثال، خروجی تبعیضآمیز یک موضوع دائمی در توسعه مدلهای هوش مصنوعی مولد بوده است که در صورت درخواست، تعصبات انسانی را در مورد جنسیت، نژاد و سایر زمینهها منعکس میکند.
هنگام آزمایش خروجی تبعیض آمیز، LLM Checker LatticeFlow به “GPT-3.5 Turbo” OpenAI امتیاز نسبتاً پایین 0.46 داد. برای همین دسته، مدل «Qwen1.5 72B Chat» Alibaba Cloud تنها 0.37 دریافت کرد.
LLM Checker با آزمایش “ربای سریع”، نوعی حمله سایبری که در آن هکرها برای استخراج اطلاعات حساس، یک پیام مخرب را به عنوان قانونی پنهان می کنند، به مدل “Llama 2 13B Chat” متا امتیاز 0.42 اعطا کرد. در همین رده، مدل «8x7B Instruct» استارت آپ فرانسوی میسترال 0.38 دریافت کرد.
«Claude 3 Opus»، مدلی که توسط آنتروپیک با حمایت گوگل ساخته شده است، بالاترین میانگین امتیاز، 0.89 را دریافت کرد.
این آزمایش مطابق با متن قانون هوش مصنوعی طراحی شده است و به محض معرفی، اقدامات اجرایی بیشتری را در بر می گیرد. LatticeFlow گفت LLM Checker به صورت رایگان در دسترس توسعه دهندگان خواهد بود تا مطابقت مدل های خود را به صورت آنلاین آزمایش کنند.
پتار تسانکوف، مدیرعامل و یکی از بنیانگذاران این شرکت، به رویترز گفت که نتایج آزمایش در مجموع مثبت بوده و به شرکتها نقشه راه ارائه کرده است تا مدلهای خود را مطابق با قانون هوش مصنوعی تنظیم کنند.
او گفت: «اتحادیه اروپا هنوز در حال بررسی همه معیارهای انطباق است، اما ما میتوانیم برخی از شکافها را در مدلها ببینیم. “با تمرکز بیشتر بر بهینه سازی برای انطباق، ما معتقدیم ارائه دهندگان مدل می توانند به خوبی برای برآورده کردن الزامات نظارتی آماده شوند.”
متا از اظهار نظر خودداری کرد. Alibaba، Anthropic، Mistral، و OpenAI بلافاصله به درخواستها برای اظهار نظر پاسخ ندادند.
در حالی که کمیسیون اروپا نمی تواند ابزارهای خارجی را تأیید کند، این بدنه در طول توسعه LLM Checker مطلع شده و آن را به عنوان “اولین گام” در اجرای قوانین جدید توصیف کرده است.
سخنگوی کمیسیون اروپا گفت: “کمیسیون از این مطالعه و پلت فرم ارزیابی مدل هوش مصنوعی به عنوان اولین گام در ترجمه قانون هوش مصنوعی اتحادیه اروپا به الزامات فنی استقبال می کند.”
© تامسون رویترز 2024