شبیهسازی صدا در عرض سه ثانیه!
مدل هوش مصنوعی مایکروسافت میتواند لحن احساسی و نوع بیان هر شخصی را با دقت بسیار بالا شبیهسازی کند.
پژوهشگران مایکروسافت یک مدل جدید هوش مصنوعی تبدیل متن به گفتار بهنام VALL-E معرفی کردهاند که میتواند صدای افراد را با نمونهی صوتی سهثانیهای از صدای آنها، شبیهسازی کنند. این مدل پساز یادگیری صدای خاص، میتواند آن را با هر چیزی که میگویید ترکیب کند و اینکار را بهنحوی انجام میدهد که لحن احساسی گویندهی اصلی حفظ شود.
سازندگان VALL-E حدس میزنند این مدل هوش مصنوعی میتواند برای برنامههای کاربردی تبدیل متن به گفتار با کیفیت بالا یا برنامههای ویرایش گفتار که در آن صدای ضبطشدهی یک شخص میتواند ویرایش شود مورد استفاده قرار گیرد. این مدل همچنین میتواند با ترکیب سایر مدلهای هوش مصنوعی مثل GPT-۳ برای ایجاد محتوای صوتی استفاده شود.
VALL-E برای ترکیب گفتار شخصیشده نشانههای صوتی را از صدای سهثانیهای شخص موردنظر ثبت میکند و درنهایت از آنها برای سنتز شکل موج نهایی با رمزگشایی کدک عصبی مربوطه بهره میبرد.
مایکروسافت در وبسایت نمونهی VALL-E، دهها نمونهی صوتی از مدل هوش مصنوعی، ارائه داده است. در میان نمونهها، Speaker Prompt صدای سهثانیهای ارائهشده به VALL-E است که باید از آن تقلید کند. در این وبسایت صدای سهثانیهای نمونه مربوط به همان گوینده است که یک عبارت خاص را برای مقاصد آزمایشی بیان میکند. Baseline نمونهای از سنتر است که با روش سنتز متن به گفتار ارائه میشود و نمونهی VALL-E خروجی ایجاد شده با هوش مصنوعی را ارائه میدهد.
VALL-E علاوهبر حفظ لحن صوتی و احساسی گوینده، میتواند از محیط آکوستیک نمونهی صوتی نیز تقلید کند. بهعنوان مثال، اگر نمونه از یک تماس تلفنی گرفته شده باشد، خروجی صدا ویژگیهای صوتی و فرکانس یک تماس تلفنی را در خروجی سنتزشدهی خود شبیهسازی میکند و نمونههای مایکروسافت نشان میدهد VALL-E قادر است با تغییر دامنهی تصادفی مورداستفاده در فرآیند تولید صدا، تغییراتی در تُن آن ایجاد کند.
از آنجا که گفتار ایجاد شده با VALL-E میتواند هویت گوینده را حفظ کند، شاید خطرات بالقوهای در استفادهی نادرست از مدل وجود داشته باشد که از جمله میتوان به جعل هویت صدا یا جعل هویت یک گویندهی خاص اشاره کرد. برای کاهش چینین خطراتی میتوان یک مدل تشخیص برای تمایز ایجاد کرد. بدین ترتیب مشخص میشود آیا کلید صوتی با VALL-E ایجاد شده است یا خیر. ما همچنین اصول هوش مصنوعی مایکروسافت را در توسعهی بیشتر مدلهای بهکار خواهیم برد.