انویدیا از «چاقوی ارتش سوئیس» ابزارهای صوتی هوش مصنوعی رونمایی کرد: Fugatto

انویدیا، سازنده تراشه‌های کامپیوتری پرقدرت، روز دوشنبه از یک مدل هوش مصنوعی جدید که توسط محققان خود ساخته شده است، رونمایی کرد که می‌تواند هر ترکیبی از موسیقی، صداها و صداهای توصیف شده را با استفاده از هر ترکیبی از متن و فایل‌های صوتی ایجاد یا تغییر دهد.

مدل جدید هوش مصنوعی به نام Fugatto – برای Foundational Generative Audio Transformer Opus – می تواند یک قطعه موسیقی را بر اساس یک پیام متنی ایجاد کند، سازهایی را از آهنگ موجود حذف یا اضافه کند، لهجه یا احساس را در یک صدا تغییر دهد، و حتی صداهایی تولید کند که قبلاً شنیده نشده بود. .

به گفته انویدیا، با پشتیبانی از چندین کار تولید و تبدیل صدا، Fugatto اولین مدل هوش مصنوعی مولد بنیادی است که ویژگی‌های نوظهور – قابلیت‌هایی که از تعامل توانایی‌های مختلف آموزش‌دیده‌اش ناشی می‌شود – و توانایی ترکیب دستورالعمل‌های آزاد را به نمایش می‌گذارد.

رافائل واله، مدیر تحقیقات صوتی کاربردی در انویدیا، در بیانیه‌ای گفت: «ما می‌خواستیم مدلی ایجاد کنیم که صدا را مانند انسان‌ها درک و تولید کند».

او افزود: “Fugatto اولین گام ما به سوی آینده ای است که در آن یادگیری چندوظیفه ای بدون نظارت در سنتز و تبدیل صدا از مقیاس داده ها و مدل ها بیرون می آید.”

انویدیا خاطرنشان کرد که این مدل می‌تواند کارهایی را انجام دهد که روی آن‌ها از قبل آموزش‌دیده نشده است، و همچنین صداهایی تولید می‌کند که در طول زمان تغییر می‌کنند، مانند اثر داپلر رعد و برق در هنگام عبور طوفان باران از یک منطقه.

این شرکت اضافه کرد که برخلاف اکثر مدل‌ها، که فقط می‌توانند داده‌های آموزشی را که در معرض آن قرار گرفته‌اند بازسازی کنند، Fugatto به کاربران اجازه می‌دهد مناظر صوتی ایجاد کنند که قبلاً هرگز دیده نشده است، مانند رعد و برق که تا سپیده دم با صدای آواز پرندگان کاهش می‌یابد.

مدل AI برای تبدیل صدا

کاوه وحدت، بنیانگذار و رئیس RiseOpp، یک شرکت ملی خدمات CMO مستقر در سانفرانسیسکو، اظهار داشت: «معرفی Fugatto توسط انویدیا، پیشرفت قابل توجهی در فناوری صوتی مبتنی بر هوش مصنوعی است.

او به TechNewsWorld گفت: «بر خلاف مدل‌های موجود که در کارهای خاص – مانند آهنگسازی، سنتز صدا، یا تولید جلوه‌های صوتی تخصص دارند – Fugatto یک چارچوب یکپارچه ارائه می‌دهد که می‌تواند طیف متنوعی از عملکردهای مرتبط با صدا را مدیریت کند. “این تطبیق پذیری آن را به عنوان یک ابزار جامع برای سنتز و تبدیل صدا قرار می دهد.”

وحدت توضیح داد که Fugatto خود را از طریق توانایی تولید و تبدیل صدا بر اساس دستورالعمل های متنی و ورودی های صوتی اختیاری متمایز می کند. او گفت: «این رویکرد دو ورودی کاربران را قادر می‌سازد تا خروجی‌های صوتی پیچیده‌ای ایجاد کنند که عناصر مختلف را به‌طور یکپارچه ترکیب می‌کند، مانند ترکیب ملودی ساکسیفون با صدای یک گربه میو».

علاوه بر این، او ادامه داد، ظرفیت Fugatto برای درون‌یابی بین دستورالعمل‌ها اجازه می‌دهد تا کنترل دقیقی بر ویژگی‌هایی مانند لهجه و احساسات در ترکیب صدا داشته باشد و سطحی از سفارشی‌سازی را ارائه می‌دهد که معمولاً در ابزارهای صوتی فعلی هوش مصنوعی یافت نمی‌شود.

بنجامین لی، استاد مهندسی در دانشگاه پنسیلوانیا افزود: «فوگاتو گامی خارق‌العاده به سوی هوش مصنوعی است که می‌تواند چندین مدالیت را به طور همزمان مدیریت کند».

او به TechNewsWorld گفت: «استفاده از ورودی‌های متن و صدا با هم ممکن است مدل‌های بسیار کارآمدتر یا مؤثرتری نسبت به استفاده از متن به تنهایی ایجاد کند. این فناوری جالب است زیرا با نگاهی فراتر از متن به تنهایی، حجم داده‌های آموزشی و قابلیت‌های مدل‌های هوش مصنوعی مولد را افزایش می‌دهد.

انویدیا در بهترین حالت خود

Mark N. Vena، رئیس و تحلیلگر اصلی SmartTech Research در لاس وگاس، اظهار داشت که Fugatto نماینده Nvidia در بهترین حالت خود است.

او به TechNewsWorld گفت: «این فناوری قابلیت‌های پیشرفته‌ای را در پردازش صوتی هوش مصنوعی با امکان تبدیل صدای موجود به فرم‌های کاملاً جدید معرفی می‌کند. “این شامل تبدیل ملودی پیانو به خط آوازی انسانی یا تغییر لهجه و لحن احساسی کلمات گفتاری است که انعطاف‌پذیری بی‌سابقه‌ای در دستکاری صدا ارائه می‌دهد.”

او گفت: «برخلاف ابزارهای صوتی موجود هوش مصنوعی، Fugatto می‌تواند صداهای بدیع را از توضیحات متن تولید کند، مانند ایجاد صدای شیپور مانند پارس کردن سگ». «این ویژگی‌ها ابزارهای نوآورانه‌ای برای طراحی صدا و ویرایش صدا در اختیار سازندگان موسیقی، فیلم و بازی قرار می‌دهند.»

راس روبین، تحلیلگر اصلی Reticle Research، یک شرکت مشاوره فناوری مصرف کننده در نیو، افزود: Fugatto با صدا به طور کلی برخورد می کند – شامل جلوه های صوتی، موسیقی، صدا، تقریباً هر نوع صوتی، از جمله صداهایی که قبلاً شنیده نشده اند. شهر یورک.

او به عنوان مثال از سونو، سرویسی که از هوش مصنوعی برای تولید آهنگ استفاده می کند، اشاره کرد. آنها به تازگی نسخه جدیدی را منتشر کرده اند که بهبودهایی در نحوه تولید صدای انسان و موارد دیگر دارد، اما انواع تغییرات دقیق و خلاقانه ای را که Fugatto اجازه می دهد، مانند افزودن سازهای جدید به یک میکس، تغییر حالات روحی از شاد اجازه نمی دهد. او به TechNewsWorld گفت: غمگین بودن، یا انتقال آهنگ از کلید فرعی به کلید اصلی.

او گفت: «درک آن از دنیای صدا و انعطاف‌پذیری که ارائه می‌کند فراتر از موتورهای مخصوص ماسک است که برای چیزهایی مانند تولید صدای انسان یا تولید آهنگ دیده‌ایم.

دری را برای خلاقان باز می کند

وحدت خاطرنشان کرد: فوگاتو هم در تبلیغات و هم در یادگیری زبان می تواند مفید باشد. او خاطرنشان کرد: آژانس‌ها می‌توانند محتوای صوتی سفارشی‌سازی‌شده ایجاد کنند که با هویت برند، از جمله صداگذاری با لهجه‌های خاص یا لحن‌های احساسی هماهنگ باشد.

در عین حال، در یادگیری زبان، پلتفرم‌های آموزشی قادر خواهند بود مواد صوتی شخصی‌سازی‌شده، مانند دیالوگ‌ها با لهجه‌های مختلف یا زمینه‌های احساسی را برای کمک به فراگیری زبان توسعه دهند.

Vena ادامه داد: “فناوری Fugatto درها را به روی طیف گسترده ای از کاربردها در صنایع خلاق باز می کند.” او گفت: «فیلم سازان و توسعه دهندگان بازی می توانند از آن برای ایجاد مناظر صوتی منحصر به فرد، مانند تبدیل صداهای روزمره به جلوه های خارق العاده یا فراگیر استفاده کنند. همچنین دارای پتانسیل تجربه‌های صوتی شخصی‌سازی‌شده در واقعیت مجازی، فناوری‌های کمکی، و آموزش، تنظیم صداها با لحن‌های احساسی خاص یا ترجیحات کاربر است.»

او افزود: «در تولید موسیقی، می‌تواند سازها یا سبک‌های آوازی را برای کشف آهنگ‌های نوآورانه تغییر دهد.»

با این حال، ممکن است برای دستیابی به نتایج موسیقی بهتر به توسعه بیشتری نیاز باشد. دنیس باتوری-کیتس، نوازنده و آهنگساز در Northfield Falls، Vt. مشاهده کرد: «همه این نتایج بی‌اهمیت هستند، و برخی از آنها برای مدت طولانی‌تری وجود داشته‌اند – و بهتر.

او به TechNewsWorld گفت: «ایزوله صدا ناشیانه و غیرموسیقایی بود. ابزارهای اضافی نیز بی اهمیت بودند و بیشتر دگرگونی ها بی رنگ بودند. تنها مزیت آن این است که به یادگیری خاصی نیاز ندارد، بنابراین توسعه موسیقیایی برای کاربر هوش مصنوعی حداقل خواهد بود.

او می‌گوید: «ممکن است استفاده‌های جدیدی را آغاز کند – نوازندگان واقعی در حال حاضر به طرز شگفت‌انگیزی مبتکر هستند – اما اگر توسعه‌دهندگان برای شروع کار موسیقی بهتری نداشته باشند، نتایج دلهره‌آور خواهد بود. “آنها برای ملحق شدن به شیب بصری و کلامی هوش مصنوعی، آهنگی موسیقایی خواهند داشت.”

AGI Stand-In

با هوش مصنوعی عمومی (AGI) که هنوز در آینده بسیار زیاد است، Fugatto ممکن است مدلی برای شبیه‌سازی AGI باشد که در نهایت هدف آن تکرار یا پیشی گرفتن از توانایی‌های شناختی انسان در طیف گسترده‌ای از وظایف است.

راب اندرل، رئیس و تحلیلگر اصلی در گروه Enderle، یک شرکت خدمات مشاوره ای در Bend، Ore، توضیح داد: “Fugatto بخشی از راه حلی است که از هوش مصنوعی مولد در یک بسته مشترک با سایر ابزارهای AI برای ایجاد راه حلی شبیه AGI استفاده می کند.”

او به TechNewsWorld گفت: «تا زمانی که AGI کار کند، این رویکرد راه غالب برای ایجاد پروژه‌های هوش مصنوعی کامل‌تر با کیفیت و علاقه به مراتب بالاتر خواهد بود.»

منبع