از فناوری دیپ‌فیک صوتی که منجر به کلون کردن اصوات یا بازتولید تقریبا بی‌نقص صدای افراد می‌شود می‌انرژیهم برای مقاصد خوب و هم مقاصد بد استفاده کرد. برای مثال می‌انرژیآن را در سرویس‌های ترکیب صدا به کار گرفت و صدا را به افرادی که این قابلیت را به خاطر عارضه‌هایی مثل اسکلروز جانبی آمیوتروفیک، آپراکسی، ضربه‌های مغزی تروماتیک، سکته یا هرچیز مشابهی از دست داده‌اند بازگرداند.

از این فناوری همین حالا در صنایع فیلم و تلویزیون، گیمینگ و مراکز تماس استفاده می‌شود و بی‌شمار پتانسیل نیز برای استفاده از آن در امور رمزنگاری و تراپی نیز وجود ندارد. در عین حال، نمی‌انرژیاین را زیر سوال برد که فناوری دیپ‌فیک صوتی تهدیدی بزرگ برای پروسه‌های دموکراتیک است، مخصوصا پروسه‌هایی که به حریم شخصی مربوط می‌شوند. در صورت استفاده بدخواهانه، فناوری دیپ‌فیک صوتی می‌تواند به کلاهبرداری، فریب و آزار منجر شود.دقیقا به خاطر همین پتانسیل‌های خوب و بد، اکنون زمانش رسیده که توجهی مضاعف به فناوری دیپ‌فیک صوتی نشان دهیم و به طرقی به بررسی به آن بپردازیم که منجر به کاهش خطر فریب دادن مردم شود، مخصوصا این فریب که شخصی سرشناس، چیزی را گفته که در حقیقت بیانش نکرده هست.

موارد استفاده برای کسب‌وکارها چه خواهد بود؟ ارقام نشان می‌دهند که فرصتی بزرگ برای سازمان‌های اقتصادی فراهم شده تا از فناوری‌های صوتی استفاده کرده و وارد تجارت‌های جدید شوند. موسسه AppDynamics در سال ۲۰۱۸ گزارش کرد که تا سال ۲۰۲۰، بیش از نیمی از سرچ‌های انجام شده در سطح وب، با صدا صورت خواهند گرفت.از سوی دیگر نیز، ۶۱ درصد از تصمیم‌گیران برجسته حوزه تکنولوژی اطلاعات گام را فراتر گذاشته و انتظار دارند فرمان‌های صوتی به صورت کامل جایگزین فرمان‌های تایپ شده به صورت دستی برای یافتن اطلاعات در سراسر اینترنت شوند. و نسل جوان در این حوزه پیشرو است – ۸۴ درصد از متولدین قرن بیست و یکم همین حالا از دستیارهای صوتی برای پایش برنامه روزانه و مسئولیت‌های خود استفاده می‌کنند.بیایید به مرور مزایا، معایب و آینده که در انتظار فناوری دیپ‌فیک صوتی است بپردازیم.


مزایا


امکان صحبت به صورت طبیعی از سوی افرادی که از مشکلات پزشکی رنج می‌برندامکان برقراری ارتباط و اشتراک‌گذاری افکار و احساسات با کلمات، از اهمیتی بسیار زیاد برخوردار بوده و در واقع این یکی از معدود خصوصیت‌هایی است که ما انسان‌ها را منحصر به فرد می‌کند. اما فناوری واگردانی صوتی سنت‌شکنانه کنونی، کارهای بسیار بیشتری می‌تواند برای افرادی انجام دهد که از قابلیت صحبت برخوردار نیستند.برای مثال افزایش فناوری اتوماسیون خانگی را کنترل صوتی را در نظر بگیرید. کلون کردن صدا می‌تواند باعث شود افرادی که قادر به صحبت به صورت طبیعی نیستند استقلال بیشتری داشته باشند و بهتر به استفاده از دیوایس‌هایی بپردازند که از با فرمان‌های صوتی کنترل می‌شوند.دستیارهای صوتیبنابر گزارش «پیش‌بینی وضعیت دستیار دیجیتال و دیوایس صوتی مبتنی بر هوش مصنوعی» کمپانی Ovum، تا سال ۲۰۲۱ میلادی شمار دستیارهای صوتی از تعداد انسان‌های حاضر روی کره خاکی بیشتر خواهد بود. بیایید برای مثال به دستیار صوتی گوگل نگاه کنیم. صدای این دستیار با استفاده از سیستم نوشتار به گفتار Tacotron 2 تولید می‌شود که خود بر دو شبکه عصبی عمیق متکی هست.اولین شبکه، متن را به تصویری بصری (یا طیف نگاره) از فرکانس‌های صدا به مرور زمان تبدیل می‌کند و سپس یک سیستم WaveNet به تحلیل طیف نگاره پرداخته و المان‌های صوتی را شکل می‌دهد. خروجی، گفتاری است که تفاوت چندانی با گفتار عادی انسانی ندارد و حتی می‌تواند کلمات بسیار دشوار را به خوبی تلفظ کند.محتوای تعاملی برای کورس‌های یادگیری آنلاینکلون کردن صدا با هوش مصنوعی باعث می‌شود که دیگر در هر کلاس درس نیازی به نوت‌برداری یا بازنگری در نوت‌ها برای یافتن اشتباهات بالقوه نباشد. از سوی دیگر، هزینه پولی و زمانی سخنرانی‌هایی که به صورت حرفه‌ای ضبط می‌شوند نیز کاهش می‌یابد و کورس‌های یادگیری آنلاین شکلی دسترس‌پذیرتر به خود می‌گیرند. این اتفاقی کوچک نیست، مخصوصا در دوران بحران کنونی که به خاطر پاندمی کووید-۱۹، محدودیت‌های فراوان برای مردم به وجود آمده هست.


معایب


اخاذیاز ویدیوهای جعلی اما شدیدا واقع‌گرایانه با صحنه‌های جنسی یا خشونت‌آمیز که با ترکیب فناوری‌ دیب‌فیک ویدیویی و صوتی ساخته شده‌اند می‌انرژیبرای اخاذی از افراد استفاده کرد.ایمیل‌های اسپماگر تا به حال ایمیل برایتان آمده باشد که در آن نوشته شده «با بانک X ارتباط برقرار کنید تا اطلاعات بیشتر راجع به روند حواله پول در اختیارتان قرار بگیرد» به احتمال زیاد نام ایمیل‌های اسپم به گوشتان خورده و هیچ توجهی هم به آن‌ها نشان نداده‌اید. اما یک تماس تلتکنیکی از سوی کسی که صدایی بسیار شبیه به یکی از مخاطبان مورد اعتمادتان دارد و شما را به پاسخ دادن به یک ایمیل ترغیب می‌کند ممکن است نظرتان را عوض کرده و باعث شود دست به انجام کاری بزنید که بعدا آرزو می‌کردید هیچوقت انجامش نمی‌دادید.رقابت غیر قانونییک نفر ممکن است خود را مدیر عامل فلان شرکت جای بزند و در این جایگاه بااهمیت، شروع به نشر اطلاعات دروعین در تماس‌های تلتکنیکی مربوط به گزارش‌های مالی کند. سهام‌داران و سرمایه‌گذاران فریب خواهند خورد و قیمت سهام را از آنچه در واقعیت هست خواهند پنداشت. از همین تکنیک بدخواهانه می‌انرژیبرای تخریب رقبای صنعتی نیز استفاده کرد.


آینده


استفاده در مدل بنگاه-به-بنگاهبا درنظرگیری یافته‌های موجود در گزارش AppDynamics که بالاتر به آن‌ها اشاره شد، استفاده از فناوری بازتولید صدا به صورت گسترده، آنقدرها دور نیست. ۶۹ درصد از تصمیم‌گیرندگان حوزه تکنولوژی اطلاعات در کمپانی‌هایی کار می‌کنند که یا همین حالا روی فناوری سرمایه‌گذاری کرده‌اند یا می‌خواهند طی سه سال آتی روی آن سرمایه‌گذاری کنند.چه به دنبال بازتولید صدا باشید، چه درمان برای مشکلات کلامی، چه گیمینگ، چه رمزنگاری و چه هرچیز دیگر، از فناوری کلون صدا می‌انرژیدر گستره وسیعی از صنایع نفع برد. برای مثال با پیشرفت یک سیستم بلادرنگ در جهانی گیمینگ می‌انرژیبه گیمرها اجازه داد که از صداهای مختلف در چت‌های داخل بازی استفاده کنند. وقتی صحبت از فناوری دیپ‌فیک صوتی باشد، دنیا دارد با سرعت بسیار زیادی تغییر می‌کند.کلون صدا برای مراکز تماسشرکت Reespecher اکنون مشغول کار روی فناوری‌هایی سنت‌شکن است که به اپراتورها در آن‌سوی آب‌ها اجازه می‌دهد صدایی شبیه به افراد بومی داشته باشند. بنابراین هنگام تماس با یکی از این مراکز، احساس خواهید کرد که با یکی از شهروندان کشور خود صحبت می‌کنید. از سوی دیگر، اپراتورهای رباتیک هم به زودی صدایی انسانی‌تر خواهند داشت.

جمع‌بندی

فناوری دیپ‌فیک صوتی بدون هیچ تردید ریسک‌های خود را به همراه می‌آورد، اما اولین گام برای تمرکز مضاعف روی جنبه‌های مثبت فناوری اینست که جنبه‌های منفی را شناسایی کرده و در صدد تقلیل دادن آن‌ها برآییم. صداهای کلون شده‌ای که هیچ تفاوتی با صدای سخنگوی اصلی ندارند می‌توانند بهترین ابزار ممکن برای فیلم‌سازان، بازی‌سازان و دیگر تولیدکننده مدیا باشند.خیلی زود صداهای بازتولید شده به صورت دیجیتالی، احساسات و حالات گوناگون را نیز در بر می‌گیرند، همانطور که شواهدش را با دستیارهای صوتی نظیر بیکسبی سامسونگ، سیری اپل یا الکسای آمازون دیده‌ایم. و با از راه رسیدن صداهایی که قادر به انتقال احساسات باشند، مشاوره و مصاحبت شکلی کاملا تازه به خود خواهند گرفت.