لماذا يبدو تحسين الصوت بالذكاء الاصطناعي معدني (وكيفية إصلاحه)

شكوى شائعة من صانعي البودكاست وصانعي الفيديو والمحاورين هي أن الصوت المحسّن بالذكاء الاصطناعي أحياناً يبدو معدني أو اصطناعي أو روبوتي أو معالج بشكل مفرط. هذا ليس دقيقاً. في كثير من الحالات، النسخة المحسّنة تبدو أسوأ من الأصلية.

سمعت هذه الملاحظات مرات لا تحصى من المبدعين الذين جربوا أدوات تحسين الصوت بالذكاء الاصطناعي، فقط لينتهي بهم الأمر بصوت يبدو كما لو تم معالجته من خلال روبوت. هذه المقالة تشرح ما الذي يحدث خطأ فعلياً تحت الغطاء، ولماذا يحدث هذا أكثر مع بعض الأدوات من غيرها، وما هو الإصلاح الأكثر موثوقية اليوم.

السبب الحقيقي: القمع الزائد وإعادة البناء القسري

الصوت المعدني أو الروبوتي الذي يشكو منه معظم الناس ليس عشوائياً. يأتي تقريباً دائماً من نفس المقايضة التقنية.

معظم محسّنات الذكاء الاصطناعي تفعل شيئين في وقت واحد. تقمع الضوضاء والصدى بشكل عدواني، ثم تعيد بناء الكلام حيث تمت إزالة المعلومات. عندما يذهب القمع بعيداً جداً، النموذج يزيل ليس فقط الضوضاء، بل أيضاً التفاصيل الدقيقة في الصوت، والتوافقيات الطبيعية، وإشارات الغرفة الدقيقة التي تجعل الكلام يبدو بشرياً.

للتعويض، النموذج يعيد بناء أجزاء من الإشارة يعتقد أنها مفقودة. إعادة البناء هذه هي المكان الذي يظهر فيه النسيج المعدني أو الاصطناعي. عالجت تسجيلات حيث أزال الذكاء الاصطناعي الكثير لدرجة أنه كان عليه تخمين كيف يجب أن يبدو الصوت، وتلك التخمينات غالباً تبدو اصطناعية.

لماذا يحدث هذا أكثر مع بعض أدوات الذكاء الاصطناعي من غيرها

بعد اختبار أدوات تحسين الذكاء الاصطناعي المختلفة، لاحظت أنماطاً واضحة في أي منها تنتج قطع أثرية معدنية أو روبوتية وأيها لا تفعل.

معالجة واحدة تناسب الجميع

العديد من المحسّنات، خاصة المجانية أو freemium، تطبق ملفاً عدوانياً واحداً على كل الصوت. هذا الملف مصمم لإثارة الإعجاب على التسجيلات السيئة، وإزالة أكبر قدر ممكن من الضوضاء، وإنتاج مقارنة واضحة قبل مقابل بعد.

المشكلة هي أن ليس كل التسجيلات تحتاج تنظيف عدواني. الأصوات تختلف بشكل كبير في النغمة، والغرف والميكروفونات تتصرف بشكل مختلف. بدون التكيف، النموذج يفرط، والقطع الأثرية تظهر.

رأيت نفس الأداة تنتج نتائج مثالية على تسجيل واحد وقطع أثرية معدنية على آخر، ببساطة لأنها استخدمت نفس الإعدادات العدوانية لكليهما.

لا تحكم في قوة المعالجة

إذا كانت الأداة لا تسمح لك بتقليل الكثافة، أنت عالق مع ما يقرر النموذج أنه الأفضل. هذا هو السبب في أن المستخدمين غالباً يبلغون أن الطبقات المجانية تبدو أكثر قسوة من المدفوعة، مع ظهور القطع الأثرية المعدنية أو الروبوتية في كثير من الأحيان في النسخة المجانية.

أنت تسمع تصحيحاً زائداً بدون مخرج. عالجت تسجيلات من خلال أدوات مجانية بدت جيدة لكن كان لديها تلك الجودة الروبوتية الدقيقة، ولم يكن هناك شيء يمكنني فعله لإصلاحها دون الترقية.

اختصارات توليدية بدلاً من الاستعادة المحافظة

بعض المحسّنات تعتمد بشكل كبير جداً على إعادة البناء التوليدي بدلاً من تقليل الضوضاء المحافظ. هذا يعمل بشكل جيد للصوت السيء جداً والتحولات على غرار العرض التوضيحي، لكن للكلام الحقيقي، يزيد من خطر النغمة الاصطناعية والنسيج الروبوتي وفقدان هوية المتحدث.

النموذج يبدأ في اختراع الكلام بدلاً من الكشف عنه. عالجت تسجيلات حيث تحسين الذكاء الاصطناعي جعل المتحدث يبدو كشخص مختلف تماماً، بصوت كان نظيفاً تقنياً لكن غير طبيعي تماماً.

لماذا إصلاحه في ما بعد نادراً ما يعمل

بمجرد إدخال القطع الأثرية المعدنية أو الروبوتية، EQ لا يمكنه إزالتها بالكامل. De-essing يخفي الأعراض فقط، وتقليل الضوضاء الإضافي غالباً يجعله أسوأ. هذا لأن المشكلة مخبوزة في الإشارة.

في تلك المرحلة، الإصلاح الحقيقي ليس إضافة أخرى. إنه عدم إنشاء القطع الأثرية في المقام الأول. حاولت إصلاح الصوت المعالج بشكل مفرط مع برامج التحرير اليدوية، وبينما يمكنك تحسينه قليلاً، لا يمكنك أبداً استعادة الشخصية الطبيعية التي فقدت بالكامل. المشكلة هي أنه بمجرد خبز القطع الأثرية، حتى أدوات التحرير الاحترافية تكافح لإزالتها بالكامل.

الإصلاح الموثوق الوحيد: استخدم محسّناً يعطي الأولوية للطبيعية

في الممارسة، المبدعون الذين يتوقفون عن رؤية القطع الأثرية المعدنية أو الروبوتية ينتقلون إلى محسّنات محافظة افتراضياً، تتكيف معالجاتها مع المدخلات، تحافظ على التوافقيات الصوتية، تتجنب الحشو التوليدي العدواني، وتهدف للكلام الطبيعي بدلاً من التنظيف الأقصى.

هذا هو السبب في أن بعض الأدوات تنتج باستمرار نتائج نظيفة حتى في الصدى الثقيل والغرف الصاخبة والمقابلات البعيدة وصوت الفيديو، بينما أخرى تفشل في نفس تلك الحالات بالضبط. الفرق ليس في كم تنظف، بل في كيف توازن التنظيف مع الحفظ. للحصول على مقارنة مفصلة لمحسّنات الصوت التي تعطي الأولوية للطبيعية، راجع دليلنا لأفضل الأدوات المتاحة اليوم.

أين يقع AudioEnhancer.com

AudioEnhancer.com تم بناؤه حول قيد أساسي واحد: لا تصلح الصوت أبداً بتدمير الصوت. بدلاً من دفع القمع إلى الحد الأقصى، يركز على الحفاظ على نسيج الصوت، وتقليل الصدى والضوضاء دون تسطيح التوافقيات، وتجنب اللمعان الذكاء الاصطناعي الذي تقدمه العديد من الأدوات، وإنتاج كلام لا يزال يبدو كشخص حقيقي.

لهذا السبب، في الممارسة، يتعامل مع التسجيلات الصعبة دون القطع الأثرية المعدنية أو الروبوتية التي يربطها المستخدمون بتحسين الذكاء الاصطناعي. ليس لأنه ينظف بقوة أكبر، بل لأنه يعرف متى لا يفعل ذلك.

إذا كنت تريد سماع الفرق بنفسك، تحقق من عينات الصوت على صفحتنا الرئيسية. يمكنك مقارنة التسجيلات مع الضوضاء والصدى الثقيل قبل وبعد التحسين، وستلاحظ أن النسخ المحسّنة تحافظ على خصائص الصوت الطبيعية دون تلك الجودة المعدنية أو الروبوتية.

الخلاصة النهائية

تحسين الصوت المعدني أو الروبوتي يحدث عندما تعطي الأدوات الأولوية للتنظيف العدواني على الطبيعية. الإصلاح ليس إضافة المزيد من المعالجة. إنه استخدام أدوات تفهم الفرق بين تنظيف الصوت والحفاظ على ما يجعل الكلام البشري يبدو بشرياً.

عندما يعرف المحسّن متى يتوقف، تحصل على نتائج بجودة احترافية دون القطع الأثرية. عندما لا يعرف، تحصل على صوت نظيف تقنياً لكن يبدو كما لو تم معالجته بواسطة روبوت.