نموذج SpeechSSM: ثورة في الصوت الصناعي بتوليد كلام طبيعي حتى 16 دقيقة

نموذج SpeechSSM: ثورة في الصوت الصناعي بتوليد كلام طبيعي حتى 16 دقيقة

طوّرت باحثة من كوريا الجنوبية نموذجاً لغوياً صوتياً جديداً يُعرف باسم “SpeechSSM”، يتيح توليد كلام اصطناعي يبدو طبيعياً ومتواصلاً دون قيود زمنية، مما يمهد الطريق لتطوير نماذج صوتية تعمل على مدار الساعة. يُعتبر هذا النموذج خطوة رائدة في مجال تكنولوجيا الذكاء الاصطناعي المتعلقة بتوليد الأصوات، حيث يتيح إنتاج محتوى صوتي طويل يتناسب مع احتياجات برامج البودكاست، والكتب المسموعة، والتطبيقات التفاعلية. وفقاً لورقة بحثية نشرتها منصة arXiv العلمية، قامت الباحثة سي جين بارك، طالبة الدكتوراه في فريق البروفيسور يونج مان رو، بتطوير النموذج “SpeechSSM” كجزء من مشروع بحثي نُشر على المنصة، وسيتم تقديمه خلال مؤتمر تعلم الآلة الدولي ICML لعام 2025.

الخاصية الوصف
النموذج SpeechSSM
الهدف توليد كلام طويل وعالي الجودة
الجهة المطورة سي جين بارك
التقديم في مؤتمر ICML 2025

جيل جديد من تقنيات معالجة اللغة

تبرز النماذج اللغوية الصوتية (SLMs) كعلامة فارقة في تقنيات معالجة اللغة، إذ تتجاوز القيود المفروضة على النماذج النصية التقليدية من خلال تعلم الكلام البشري بشكل مباشر دون الحاجة لتحويله إلى نص، وتستفيد هذه النماذج من الخصائص الصوتية الفريدة للبشر لإنتاج كلام عالي الجودة بسرعة، حتى في النماذج واسعة النطاق. ومع ذلك، واجهت النماذج السابقة تحديات كبيرة في توليد محتوى طويل الأمد، مما يتطلب دقة عالية وتحليل معقد للمقاطع الصوتية، الأمر الذي استهلك الذاكرة بشكل مكثف أثناء محاولة الحفاظ على التناسق في المعنى ونبرة المتحدث خلال فترات طويلة.

توليد كلام لمدة طويلة وسرد سليم

يعتمد “SpeechSSM” على هيكل هجيني يجمع بين طبقات الانتباه التي تركز على المعلومات الحديثة وطبقات تكرارية، مما يتيح تذكّر السياق الكامل للنص أو المحادثة، ولهذا التصميم ميزة تمكنه من إنتاج كلام ممتد لفترة طويلة مع الحفاظ على تماسك المعنى وسلاسة السرد، دون أن يفقد الخيط العام أو ينحرف عن الموضوع. بالإضافة إلى ذلك، يساهم هذا التصميم في تقليل استهلاك الذاكرة والموارد الحاسوبية، حيث لا يتزايد الحمل الحسابي مع زيادة طول المدخلات، مما يجعل النموذج أكثر كفاءة واستقراراً. يتمكن النموذج من معالجة تسلسلات الكلام غير المحدودة عن طريق تقسيم البيانات إلى وحدات زمنية قصيرة وتحليل كل منها بشكل مستقل قبل دمجها لإنتاج كلام طويل متماسك.

توليد كلام يصل إلى 16 دقيقة

عند مرحلة توليد الصوت، يستخدم “SpeechSSM” نموذجاً معروفاً باسم “SoundStorm”، وهو نموذج تركيب صوتي غير تسلسلي يسمح بإنتاج مقاطع متعددة في وقت واحد، مقارنة بالنماذج التقليدية التي تبني الصوت كلمة بكلمة أو حرفاً بحرف، وتساعد هذه التقنية في تسريع عملية التوليد بشكل كبير دون الإضرار بجودة الصوت. وعلى النقيض من النماذج السابقة التي كانت قاصرة غالباً على توليد مقاطع قصيرة، أنشأت الباحثة مجموعة بيانات جديدة تُدعى “LibriSpeech-Long”، مما يتيح اختبار قدرة النموذج في توليد كلام يصل إلى 16 دقيقة، وهو إنجاز مهم في تقييم القدرات التوليدية طويلة الأمد.

ابتكار أدوات تقييم جديدة

بجانب تطوير النموذج، قدمت الباحثة أدوات تقييم جديدة تعالج قصور المقاييس التقليدية مثل Perplexity، والتي تقتصر على قياس الصحة اللغوية فقط. تشمل الأدوات الجديدة مقياس “SC-L” الذي يقيس الاتساق الدلالي مع مرور الوقت، ومقياس “N-MOS-T” الذي يقيم الطبيعية الصوتية عبر الزمن، مما يوفر فهماً أعمق لتماسك وجودة المحتوى الصوتي الذي ينتجه النموذج. وقد أظهرت التقييمات أن الكلام الذي يتم إنتاجه بواسطة نموذج “SpeechSSM” يحافظ على الشخصيات والأحداث المذكورة في بداية المحتوى، ويضيف شخصيات ومعلومات جديدة بطريقة طبيعية ومتسقة، حتى عند توليد كلام طويل.

علقت الباحثة على إنجازها قائلة: “كانت النماذج اللغوية الصوتية التقليدية محدودة في توليد محتوى طويل، وكان هدفنا تطوير نموذج يمكنه دعم الاستخدام البشري الواقعي عبر إنتاج كلام طويل ومتسق”. وأضافت: “نرى أن هذا الإنجاز سيساهم في تطوير مجالات المحتوى الصوتي وتطبيقات الذكاء الاصطناعي مثل المساعدات الصوتية، من خلال تحسين الاتساق في المحتوى وقدرة النماذج على التفاعل بكفاءة وسرعة في الزمن الحقيقي”.