هوش مصنوعی مایکروسافت طی سه ثانیه صدای افراد را تقلید می‌کند

مایکروسافت از یک هوش مصنوعی شبیه‌ساز صدا رونمایی کرده است که قادر است صدای افراد را پس از فقط سه ثانیه گوش دادن به صحبت‌ کردن آن‌ها، عینا تقلید کند.

به گزارش سیتنا، مدل زبان «وال-ای» (VALL-E) با استفاده از شش هزار ساعت سخنرانی انگلیسی از هفت هزار سخنران مختلف آموزش داده شد تا «طرز حرف زدن شخصی‌سازی شده با کیفیت بالا» از هر گوینده نادیده‌ای را بازآفرینی کند.

هنگامی که این دستگاه هوش‌مصنوعی، صدای ضبط‌شده فردی را در اختیار داشته باشد، قادر است صدای او را جوری بازسازی کند که گویی آن شخص در حال گفتن هر چیزی است. این سیستم حتی می‌تواند لحن احساسی و محیط پژواک‌شناختی گوینده اصلی را تقلید کند.

به گزارش ایندیپندنت، در مقاله‌ای که این سامانه را توصیف می‌کند، آمده است: «نتایج آزمایش نشان می‌دهد که وال-ای از نظر طبیعی بودن گفتار و شباهت به گوینده، به طرز چشمگیری از پیشرفته‌ترین سامانه‌ یادگیری بدون مشاهده نمونه‌های مشابه [برای] تولید متن به گفتار (TTS) بهتر عمل می‌کند. افزون بر این، متوجه شدیم که وال-ای می‌تواند احساسات و محیط پژواک‌شناختی صدای گوینده را در خلال تولید صدا درست حفظ کند.»

از جمله کاربردهای بالقوه آن، خواندن کامل کتاب‌های صوتی از تنها یک نمونه ضبط‌شده [صدای] نویسندگان، ویدیوهایی با صداگذاری به زبان طبیعی، و پرکردن صدا برای بازیگر فیلم در صورت خراب شدن ضبط اصلی است.

همانند سایر فناوری‌های «جعل عمیق» که شباهت بصری افراد را در ویدیوها تقلید می‌کند، امکان استفاده نادرست هم مطرح است.

نرم افزار وال-ای که برای تولید صدای ساختگی استفاده می‌شود، در حال حاضر برای استفاده عموم در دسترس نیست، و مایکروسافت به «خطرات احتمالی در استفاده نادرست از این ابزار، از جمله جعل شناسایی صدا یا جعل هویت یک گوینده خاص» اشاره کرده است.

مایکروسافت گفت که در ادامه توسعه وال-ای از «اصول هوش مصنوعی مسئولانه» خود پیروی می‌کند، و راه‌های ممکن را در تشخیص صداهای تولیدشده برای کاهش چنین خطراتی نیز در نظر می‌گیرد.

مایکروسافت، وال-ای را با استفاده از ضبط‌ صداها در حوزه عمومی، عمدتا از کتاب‌های صوتی «لیبری‌ووکس» آموزش داد، و سخنرانانی که صدای آن‌ها تقلید شد، با میل خود در آزمایش‌ها شرکت کردند.

پژوهشگران مایکروسافت در اظهارنامه‌‌ای اخلاقی گفتند: «زمانی که این مدل به سخنرانان نادیده تعمیم داده می‌شود، اجزای مربوط به آن باید با مدل‌های ویرایش گفتار، شامل پروتکلی به منظور اطمینان از توافق گوینده با اعمال ویرایش‌ها و سیستم تشخیص صدای ویرایش‌شده، همراه شوند.»

انتهای پیام