انویدیا، سازنده تراشههای کامپیوتری پرقدرت، روز دوشنبه از یک مدل هوش مصنوعی جدید که توسط محققان خود ساخته شده است، رونمایی کرد که میتواند هر ترکیبی از موسیقی، صداها و صداهای توصیف شده را با استفاده از هر ترکیبی از متن و فایلهای صوتی ایجاد یا تغییر دهد.
مدل جدید هوش مصنوعی به نام Fugatto – برای Foundational Generative Audio Transformer Opus – می تواند یک قطعه موسیقی را بر اساس یک پیام متنی ایجاد کند، سازهایی را از آهنگ موجود حذف یا اضافه کند، لهجه یا احساس را در یک صدا تغییر دهد، و حتی صداهایی تولید کند که قبلاً شنیده نشده بود. .
به گفته انویدیا، با پشتیبانی از چندین کار تولید و تبدیل صدا، Fugatto اولین مدل هوش مصنوعی مولد بنیادی است که ویژگیهای نوظهور – قابلیتهایی که از تعامل تواناییهای مختلف آموزشدیدهاش ناشی میشود – و توانایی ترکیب دستورالعملهای آزاد را به نمایش میگذارد.
رافائل واله، مدیر تحقیقات صوتی کاربردی در انویدیا، در بیانیهای گفت: «ما میخواستیم مدلی ایجاد کنیم که صدا را مانند انسانها درک و تولید کند».
او افزود: “Fugatto اولین گام ما به سوی آینده ای است که در آن یادگیری چندوظیفه ای بدون نظارت در سنتز و تبدیل صدا از مقیاس داده ها و مدل ها بیرون می آید.”
انویدیا خاطرنشان کرد که این مدل میتواند کارهایی را انجام دهد که روی آنها از قبل آموزشدیده نشده است، و همچنین صداهایی تولید میکند که در طول زمان تغییر میکنند، مانند اثر داپلر رعد و برق در هنگام عبور طوفان باران از یک منطقه.
این شرکت اضافه کرد که برخلاف اکثر مدلها، که فقط میتوانند دادههای آموزشی را که در معرض آن قرار گرفتهاند بازسازی کنند، Fugatto به کاربران اجازه میدهد مناظر صوتی ایجاد کنند که قبلاً هرگز دیده نشده است، مانند رعد و برق که تا سپیده دم با صدای آواز پرندگان کاهش مییابد.
مدل AI برای تبدیل صدا
کاوه وحدت، بنیانگذار و رئیس RiseOpp، یک شرکت ملی خدمات CMO مستقر در سانفرانسیسکو، اظهار داشت: «معرفی Fugatto توسط انویدیا، پیشرفت قابل توجهی در فناوری صوتی مبتنی بر هوش مصنوعی است.
او به TechNewsWorld گفت: «بر خلاف مدلهای موجود که در کارهای خاص – مانند آهنگسازی، سنتز صدا، یا تولید جلوههای صوتی تخصص دارند – Fugatto یک چارچوب یکپارچه ارائه میدهد که میتواند طیف متنوعی از عملکردهای مرتبط با صدا را مدیریت کند. “این تطبیق پذیری آن را به عنوان یک ابزار جامع برای سنتز و تبدیل صدا قرار می دهد.”
وحدت توضیح داد که Fugatto خود را از طریق توانایی تولید و تبدیل صدا بر اساس دستورالعمل های متنی و ورودی های صوتی اختیاری متمایز می کند. او گفت: «این رویکرد دو ورودی کاربران را قادر میسازد تا خروجیهای صوتی پیچیدهای ایجاد کنند که عناصر مختلف را بهطور یکپارچه ترکیب میکند، مانند ترکیب ملودی ساکسیفون با صدای یک گربه میو».
علاوه بر این، او ادامه داد، ظرفیت Fugatto برای درونیابی بین دستورالعملها اجازه میدهد تا کنترل دقیقی بر ویژگیهایی مانند لهجه و احساسات در ترکیب صدا داشته باشد و سطحی از سفارشیسازی را ارائه میدهد که معمولاً در ابزارهای صوتی فعلی هوش مصنوعی یافت نمیشود.
بنجامین لی، استاد مهندسی در دانشگاه پنسیلوانیا افزود: «فوگاتو گامی خارقالعاده به سوی هوش مصنوعی است که میتواند چندین مدالیت را به طور همزمان مدیریت کند».
او به TechNewsWorld گفت: «استفاده از ورودیهای متن و صدا با هم ممکن است مدلهای بسیار کارآمدتر یا مؤثرتری نسبت به استفاده از متن به تنهایی ایجاد کند. این فناوری جالب است زیرا با نگاهی فراتر از متن به تنهایی، حجم دادههای آموزشی و قابلیتهای مدلهای هوش مصنوعی مولد را افزایش میدهد.
انویدیا در بهترین حالت خود
Mark N. Vena، رئیس و تحلیلگر اصلی SmartTech Research در لاس وگاس، اظهار داشت که Fugatto نماینده Nvidia در بهترین حالت خود است.
او به TechNewsWorld گفت: «این فناوری قابلیتهای پیشرفتهای را در پردازش صوتی هوش مصنوعی با امکان تبدیل صدای موجود به فرمهای کاملاً جدید معرفی میکند. “این شامل تبدیل ملودی پیانو به خط آوازی انسانی یا تغییر لهجه و لحن احساسی کلمات گفتاری است که انعطافپذیری بیسابقهای در دستکاری صدا ارائه میدهد.”
او گفت: «برخلاف ابزارهای صوتی موجود هوش مصنوعی، Fugatto میتواند صداهای بدیع را از توضیحات متن تولید کند، مانند ایجاد صدای شیپور مانند پارس کردن سگ». «این ویژگیها ابزارهای نوآورانهای برای طراحی صدا و ویرایش صدا در اختیار سازندگان موسیقی، فیلم و بازی قرار میدهند.»
راس روبین، تحلیلگر اصلی Reticle Research، یک شرکت مشاوره فناوری مصرف کننده در نیو، افزود: Fugatto با صدا به طور کلی برخورد می کند – شامل جلوه های صوتی، موسیقی، صدا، تقریباً هر نوع صوتی، از جمله صداهایی که قبلاً شنیده نشده اند. شهر یورک.
او به عنوان مثال از سونو، سرویسی که از هوش مصنوعی برای تولید آهنگ استفاده می کند، اشاره کرد. آنها به تازگی نسخه جدیدی را منتشر کرده اند که بهبودهایی در نحوه تولید صدای انسان و موارد دیگر دارد، اما انواع تغییرات دقیق و خلاقانه ای را که Fugatto اجازه می دهد، مانند افزودن سازهای جدید به یک میکس، تغییر حالات روحی از شاد اجازه نمی دهد. او به TechNewsWorld گفت: غمگین بودن، یا انتقال آهنگ از کلید فرعی به کلید اصلی.
او گفت: «درک آن از دنیای صدا و انعطافپذیری که ارائه میکند فراتر از موتورهای مخصوص ماسک است که برای چیزهایی مانند تولید صدای انسان یا تولید آهنگ دیدهایم.
دری را برای خلاقان باز می کند
وحدت خاطرنشان کرد: فوگاتو هم در تبلیغات و هم در یادگیری زبان می تواند مفید باشد. او خاطرنشان کرد: آژانسها میتوانند محتوای صوتی سفارشیسازیشده ایجاد کنند که با هویت برند، از جمله صداگذاری با لهجههای خاص یا لحنهای احساسی هماهنگ باشد.
در عین حال، در یادگیری زبان، پلتفرمهای آموزشی قادر خواهند بود مواد صوتی شخصیسازیشده، مانند دیالوگها با لهجههای مختلف یا زمینههای احساسی را برای کمک به فراگیری زبان توسعه دهند.
Vena ادامه داد: “فناوری Fugatto درها را به روی طیف گسترده ای از کاربردها در صنایع خلاق باز می کند.” او گفت: «فیلم سازان و توسعه دهندگان بازی می توانند از آن برای ایجاد مناظر صوتی منحصر به فرد، مانند تبدیل صداهای روزمره به جلوه های خارق العاده یا فراگیر استفاده کنند. همچنین دارای پتانسیل تجربههای صوتی شخصیسازیشده در واقعیت مجازی، فناوریهای کمکی، و آموزش، تنظیم صداها با لحنهای احساسی خاص یا ترجیحات کاربر است.»
او افزود: «در تولید موسیقی، میتواند سازها یا سبکهای آوازی را برای کشف آهنگهای نوآورانه تغییر دهد.»
با این حال، ممکن است برای دستیابی به نتایج موسیقی بهتر به توسعه بیشتری نیاز باشد. دنیس باتوری-کیتس، نوازنده و آهنگساز در Northfield Falls، Vt. مشاهده کرد: «همه این نتایج بیاهمیت هستند، و برخی از آنها برای مدت طولانیتری وجود داشتهاند – و بهتر.
او به TechNewsWorld گفت: «ایزوله صدا ناشیانه و غیرموسیقایی بود. ابزارهای اضافی نیز بی اهمیت بودند و بیشتر دگرگونی ها بی رنگ بودند. تنها مزیت آن این است که به یادگیری خاصی نیاز ندارد، بنابراین توسعه موسیقیایی برای کاربر هوش مصنوعی حداقل خواهد بود.
او میگوید: «ممکن است استفادههای جدیدی را آغاز کند – نوازندگان واقعی در حال حاضر به طرز شگفتانگیزی مبتکر هستند – اما اگر توسعهدهندگان برای شروع کار موسیقی بهتری نداشته باشند، نتایج دلهرهآور خواهد بود. “آنها برای ملحق شدن به شیب بصری و کلامی هوش مصنوعی، آهنگی موسیقایی خواهند داشت.”
AGI Stand-In
با هوش مصنوعی عمومی (AGI) که هنوز در آینده بسیار زیاد است، Fugatto ممکن است مدلی برای شبیهسازی AGI باشد که در نهایت هدف آن تکرار یا پیشی گرفتن از تواناییهای شناختی انسان در طیف گستردهای از وظایف است.
راب اندرل، رئیس و تحلیلگر اصلی در گروه Enderle، یک شرکت خدمات مشاوره ای در Bend، Ore، توضیح داد: “Fugatto بخشی از راه حلی است که از هوش مصنوعی مولد در یک بسته مشترک با سایر ابزارهای AI برای ایجاد راه حلی شبیه AGI استفاده می کند.”
او به TechNewsWorld گفت: «تا زمانی که AGI کار کند، این رویکرد راه غالب برای ایجاد پروژههای هوش مصنوعی کاملتر با کیفیت و علاقه به مراتب بالاتر خواهد بود.»