Kinder, Friendlier AI Chatbot ‘Claude 2’ معرفی شده توسط Anthropic

26 مهر 140221 تیر 1402 از TechNewsWorld

با این حال، این ممکن است تأثیر محدودی بر Claude 2 داشته باشد. استرلینگ به TechNewsWorld گفت: «بیشتر مردم تفاوت‌های عمده‌ای را مشاهده نمی‌کنند مگر اینکه از همه این برنامه‌ها در کنار هم استفاده کنند. تفاوت‌هایی که افراد ممکن است درک کنند در درجه اول در رابط‌های کاربری است.

آنتروپیک در بیانیه ای گفت: “کلود را به عنوان یک همکار دوستانه، مشتاق یا دستیار شخصی در نظر بگیرید که می تواند به زبان طبیعی آموزش ببیند تا در بسیاری از وظایف به شما کمک کند.”

آنتروپیک اضافه کرد که کلود اکنون می‌تواند اسناد طولانی‌تری نیز بنویسد – از یادداشت‌ها گرفته تا نامه‌ها و داستان‌ها تا چند هزار کلمه.

تبلیغات

Enlighten - هوش مصنوعی مورد اعتماد برای تجارت

به گفته آنتروپیک، Claude 2 نسبت به مدل‌های قبلی در زمینه‌های کدنویسی، ریاضی و استدلال بهبود یافته است.

حتی اگر Claude 2 بتواند به قول خود مبنی بر اینکه یک چت ربات هوش مصنوعی «مفید، بی ضرر و صادق» باشد عمل کند، باید بجنگد تا در بازاری که در حال تبدیل شدن به یک بازار بسیار پر سر و صدا است، مورد توجه قرار گیرد.

اندرل خاطرنشان کرد: «ما از تعداد چیزهای اعلام شده غرق شده‌ایم و بالا رفتن از سر و صدا را سخت‌تر می‌کند.

آنتروپیک همچنین از پیشرفت‌های ایمنی انجام‌شده در کلود 2 حمایت کرد. توضیح داد که یک «تیم قرمز» داخلی دارد که مدل‌های خود را بر اساس مجموعه‌ای از پیام‌های مضر امتیاز می‌دهد. تست ها خودکار هستند، اما نتایج به طور مرتب به صورت دستی بررسی می شوند. در آخرین ارزیابی خود، Anthropic اشاره کرد که Claude 2 در ارائه پاسخ های بی ضرر دو برابر بهتر از Claude 1.3 بود.

روز سه‌شنبه توسط توسعه‌دهنده آن، آنتروپیک، یک چت ربات جدید هوش مصنوعی که به‌عنوان «مفید، بی‌ضرر و صادقانه» نام‌گذاری شده بود، جمع‌آوری شد.

علاوه بر این، مجموعه‌ای از اصول به نام قانون اساسی در سیستم تعبیه شده است که می‌تواند پاسخ‌های آن را بدون نیاز به استفاده از ناظم انسانی تعدیل کند.

کاهش آسیب

پنجره زمینه کلود 2 می تواند تا 75000 کلمه را مدیریت کند. این بدان معناست که کلود می تواند صدها صفحه از اسناد فنی یا حتی یک کتاب را هضم کند. در مقایسه، حداکثر ورودی ChatGPT 3000 کلمه است.

با این حال، آن را تنها کمی بهتر از سلف خود در GSM8K، که شامل مجموعه بزرگی از مسائل ریاضی کلاس مدرسه، کسب امتیاز 88.0٪، در مقایسه با 85.2٪ برای Claude 1.3 بود.

او خاطرنشان کرد که ارائه دهندگان صنعتی مانند مایکروسافت، انویدیا و IBM از زمانی که وارد دامنه شدند، ایمنی هوش مصنوعی را جدی گرفتند. او گفت: «به نظر می‌رسد برخی استارت‌آپ‌های دیگر بیشتر بر راه‌اندازی چیزی متمرکز هستند تا چیزی مطمئن و قابل اعتماد.

او به TechNewsWorld گفت: “این اجراست که احتمالا بین ارائه دهندگان متفاوت است.”

گرگ استرلینگ، یکی از بنیانگذاران Near Media، یک وب‌سایت خبری، تفسیری و تحلیلی، توضیح داد: «با Bing، نتایج جستجوی به‌روزی را دریافت می‌کنید، که با Bard نیز دریافت می‌کنید.

در حوزه کدنویسی، کلود 2 در آزمون Codex HumanEval، یک آزمون کدنویسی پایتون، 71.2 درصد امتیاز کسب کرد. این یک پیشرفت قابل توجه نسبت به مدل های قبلی است که به امتیاز 56.0 درصد دست یافتند.

Anthropic کلود را در زمینه دیگری بهبود بخشید: ورودی.

استرلینگ افزود: «ChatGPT، Bing و Bard بیشترین اشتراک فکری را دارند و بیشتر مردم دلیل کمی برای استفاده از برنامه‌های کاربردی دیگر خواهند دید.

او خاطرنشان کرد که تلاش برای متمایز کردن کلود به عنوان هوش مصنوعی «دوستانه» احتمالاً برای متمایز کردن آن از سایر بازیگران در بازار کافی نخواهد بود. او گفت: «این یک انتزاع است. کلود باید عملکرد بهتری داشته باشد یا مفیدتر باشد تا بتواند به فرزندی پذیرفته شود. مردم هیچ تمایزی بین آن و رقیب شناخته شده آن ChatGPT نخواهند دید.”

ویل دافیلد، تحلیلگر سیاست در موسسه کاتو، یک اندیشکده واشنگتن دی سی، اظهار داشت: «آنتروپیک در تلاش است تا به فضای دستیار شخصی متمایل شود.

Anthropic تنها نیست که سعی می کند آسیب های احتمالی ناشی از نرم افزار هوش مصنوعی مولد خود را کاهش دهد. راب اندرل، رئیس و تحلیلگر اصلی در گروه Enderle، یک شرکت خدمات مشاوره ای در Bend، Ore، مشاهده کرد: “همه روی هوش مصنوعی های مفیدی کار می کنند که قرار است هیچ آسیبی نداشته باشند، و هدف تقریباً جهانی است.”

او گفت: «هوش مصنوعی همچنین می‌تواند اطلاعات جانبدارانه یا سمی را در برخی موارد منتشر کند.

به عنوان مثال، در بخش چند گزینه ای یک آزمون وکالت، کلود 2 امتیاز 76.5٪ را کسب کرد. مدل های قبلی امتیاز 73.0٪ را کسب کردند.

او ادامه داد: “هوش مصنوعی با سرعت ماشین کار می کند، و ما این کار را نمی کنیم.”

تبلیغات

Enderle معتقد است که داشتن یک هوش مصنوعی “صادق” کلید اعتماد به آن است. او گفت: «داشتن یک هوش مصنوعی مضر و غیرصادق برای ما فایده چندانی ندارد. اما اگر به این فناوری اعتماد نداریم، نباید از آن استفاده کنیم.»

Claude 2 نسبت به مدل های قبلی ما در ارزیابی هایی از جمله Codex HumanEval، GSM8K و MMLU بهبود یافته است. می توانید مجموعه کامل ارزیابی ها را در کارت مدل ما مشاهده کنید: https://t.co/fJ210d9utd pic.twitter.com/LLOuUNfOFV

چت بات، کلود 2، دارای مجموعه ای آشنا است. می تواند خلاصه ایجاد کند، کد بنویسد، متن را ترجمه کند، و کارهایی را انجام دهد که برای ژانر نرم افزاری سخت شده اند.

استرلینگ اضافه کرد: «هوش مصنوعی می‌تواند چیزهایی درست کند که نادرست اما قابل قبول هستند. اگر مردم بر اطلاعات نادرست تکیه کنند، این بسیار مشکل ساز است.

این آخرین نسخه از ارائه AI مولد را می توان از طریق API و از طریق یک رابط وب جدید که عموم مردم در ایالات متحده و بریتانیا می توانند از آن استفاده کنند، قابل دسترسی است. پیش از این، این برنامه فقط با درخواست یا از طریق Slack به عنوان یک برنامه برای مشاغل در دسترس بود.

تلاش برای به حداقل رساندن آسیب در یک برنامه هوش مصنوعی مولد می تواند به طور بالقوه بر ارزش آن تأثیر بگذارد. با این حال، به نظر نمی رسد که این مورد در مورد کلود 2 باشد. دافیلد گفت: “به نظر نمی رسد که این تا حد بی فایده باشد.”

غلبه بر سد نویز

دافیلد افزود: “من همیشه با استفاده از زبانی مانند بی ضرر مخالفم، زیرا ابزارهای مفید معمولاً می توانند به نحوی برای آسیب رساندن سوء استفاده شوند.”

همانطور که اگر سطح سر و صدای بالا کافی نیست، اشتیاقی برای مقابله وجود دارد. دافیلد مشاهده کرد: «محتوا کردن مردم با هر نوع چت ربات جدید سخت تر از شش ماه پیش است. کمی خستگی در ربات چت وجود دارد.

منبع

– Anthropic (@AnthropicAI) 11 جولای 2023

تاخیر دانش

مانند ChatGPT، کلود به اینترنت متصل نیست. بر روی داده‌هایی که به‌طور ناگهانی در دسامبر 2022 به پایان می‌رسند آموزش داده شده است. این به آن برتری جزئی نسبت به ChatGPT می‌دهد، که داده‌های آن در حال حاضر در سپتامبر 2021 قطع می‌شود – اما از بینگ و بارد عقب‌تر است.

او به TechNewsWorld گفت: «در حالی که مایکروسافت می‌تواند بینگ را به مجموعه بهره‌وری خود بیاورد، کلود می‌خواهد دستیار شخصی مفیدتر از بقیه باشد.

نمرات استدلال بهبود یافته

در امتحانات خواندن و نوشتن GRE برای دانشجویان کالج متقاضی تحصیلات تکمیلی، کلود 2 بالاتر از صدک 90 را کسب کرد. در استدلال کمی، به خوبی متقاضیان بود.