كيف تعمل آلات النطق الإلكترونية؟

إن من مستحدثات الأدوات والبرمجيات التقنية ما نُسمّيه بآلات النطق الإلكترونية أو (speech synthesizers) وفي هذا المقال نلقي الضوء على ماهية النطق الآلي وكيفيته والفوائد العلمية والاستخدامية لهذا النوع من النطق الآلي أو ذاك كما نتطرق لأهمية تصنيع آلات النطق الإلكترونية في حياة ذوي الإعاقة من المكفوفين ودورها كذلك في حل مشكلات صعوبات التعلم وكذلك التسهيلات العامة التي تقوم آلات النطق الإلكترونية بها في حياتنا العامة، إلى جانب إلقاء الضوء على التحدياتِ البرمجيةِ واللغويةِ في إنتاج الصوت الآلي المُحاكي للصوت البشري.

تهدف صناعة آلات النطق الإلكترونية إلى استغلال المعالِجات الحاسوبية في إنتاج صوت آلي لغوي يحاكي الصوت البشري على أن يتّصِف هذا الصوت الصناعي بالطبيعية (natural) والنقاء (eligible): أما الطبيعيةُ فهي مقدار محاكاة الصوت الآلي للصوت البشري، وأما النقاء فهو مدى سهولة إدراك الأذن البشرية للصوت الآلي ومدى قُدرتها على التعامل معه.

عمليات آلة النطق الإلكترونية

وتقوم آلة النطق الإلكترونية بأربعة مهام داخلية حتى تقوم بإنتاج الصوت البشري:

* العملية الأولى هي عملية ما قبل معالجة النص وهي التي يتم من خلالها تحويل الرموز والاختصارات والأرقام إلى مُقابلها الطبيعي المكتوب أي أن هذه العملية تستهدف تحويل الخطوط والأرقام المختلفة إلى مُقابلها اللغوي حسب اللغة البشرية المناسبة.
* والعملية الثانية هي الترميز الصوتي وهي عملية محاكاة النص الطبيعي بمقابله من الترميز الصوتي أي محاكاة النص الطبيعي بمثيله من الرموز الصوتية الدالة عليه.
* والعملية الثالثة هي التقسيم التفعيلي للنص ويتم من خلالِه تقسيم النص إلى وحدات صوتية لغوية متكاملة أي جُمَل وعبارات وتراكيب لغوية مستقلة. وتُكون عمليتَي الترميز الصوتي والتقسيم التفعيلي ناتجا من الرموز اللغوية المتسقة لكي تستغله العملية الرابعة في إنتاج الصوت المُحاكي للصوت البشري.
* فالعملية الرابعة إذن هي عملية النطق الآلي الذي ينتج عن تحويل الرموز اللغوية سالفة الذكر إلى أصوات تُحاكي الصوت البشري.

وبهذا نصل إلى السؤال الذي يطرح نفسه على ساحة الحوار:

ما هي الأساليب التقنية المستخدمة في إنتاج الصوت الآلي المُحاكي للصوت البشري؟

وللإجابة عن هذا السؤال يجب أن نسترجع الخاصيتين السابقتين للصوت الآلي وهما الطبيعية والنقاء، وكما ذكرنا أن الطبيعية هي مقدار محاكاة الصوت الآلي للصوت البشري في ترددِه وطبقتِه وخصائصِه الصوتيةِ المختلفة، أما النقاء فهو مدى إمكانية استقبال أو إدراك الأذن البشرية لهذا الصوت حتى يتمكن السامع من تحليل الصوت وفهمه وتمييزه عن غيرِه، ويقاس نجاح وتفوق آلة صوتية عن غيرها بمدى تحقيقها لهذين الشرطين وإن باتت التحديات البرمجية والمنطقية أكبر من مواجهتها إلى يومنا هذا، فالطبيعيةُ تقضي بمحاكاة الصوت البشري والنقاءُ يحتاج لتحكم غير مسبوق في الإنتاج الصوتي، وهما منهجان مختلفان ومتباينان ذلك لاختلاف أساليب تحقيق سمات كل منهما، ولِإنتاج الصوت الآلي يتبَع المبرمجون إحدى طريقتين هما: الدمجية (concatinative)أو التكوينية (formative).

* أولا: الطريقة الدمجية وتقضي باستدعاء الجُمَل الصوتية المسجلة سلفا من قِبَل أحد الأصوات البشرية وتجميعها لإنتاج صوت آلي يقرأ ما يلقفه من نص مكتوب، وهذه الطريقة تنتِج لنا صوتاً أقرب للصوت البشري بشكل رائع إلا أنّ الفروق الزمنية الحادثة ما بين جملة صوتية وأخرى تليها يخرج لنا ذَبذبات صوتية توحي بعدم الاستقرار والثبات للصوت المُنتَج، وتنقسم الطريقة الدمجية إلى ثلاثة أساليب فرعية هي:
الإنتاج الصوتي بتحديد الوحدة الصوتية،
والإنتاج الصوتي ثنائي الصوت،
والإنتاج الصوتي مخصص المجال.

أما عن الإنتاج الصوتي بتحديد الوحدة الصوتية فهو عبارة عن إنشاء قاعدة بيانات صوتية هائلة الحجم تحتوي على الإشارات الصوتية والأصوات الطبيعية وأنصاف الأصوات سواء كانت متحركة أو ساكنة بالإضافة إلى مقاطع صوتية وكلمات وجُمَل وعبارات صوتية كلها يمكن استدعاؤها عند الحاجة لتكوين صوت آلي مُحاكي للصوت البشري، إلا أنّ هذه الطريقة تستلزم تسجيل ساعات طويلة من الصوت الطبيعي ثم تقسيمه عن طريق أدوات صوتية متطورة ومتخصصة جدا وبعد ذلك تخزينه في مساحات هائلة ربما تتجاوز بضع جيجات من وسائط التخزين وبالتالي تستغرق وقْتاً في عملية استدعائها وإن قَل احتمال الحاجة لمعالجة آلية معقدة إذ أن هذا النوع، على رغم مثالية إنتاجه للصوت المُحاكي للصوت البشري، إلا أنه يخفَق في بعض المهام مثل نطق الكلمات الصغيرة التي يحتاج لتكوينها وربما تكون موجودة بالفعل في مقاطع لغوية أخرى في نفس قاعدة البيانات، وأذكر لكم أَخيرا أنّ قاعدة البيانات المذكورة لا يجب أن تخلو من كافة السمات الصوتية لكل سِجِل فيها مثل طبقة نطقه وتردد النطق والوقت المستغرق في النطق وما إلى ذلك.
وأما إنتاج الصوت بالثنائية الصوتية يحتاج إلى إنشاء قاعدة بيانات صغيرة تشتمل على الثنائيات الصوتية للغة بمعنى أنّ مثل هذه القاعدة للبيانات الصوتية تشتمِل على أصوات مقطعية في مقابل رموز صوتية ثنائية يتم استدعاؤها وإجراء بعض المعالجة الآلية لإشاراتها قبل إنتاج الصوت النهائي منها، وهذا النوع ينتِج لنا صوتا أردأ من سابقِه وإن كان أقرب للطبيعية عن استخدام الطريقة التكوينية في إنتاج الصوت الآلي، فهذه الطريقة تَجمَع ما بين مميزات الصوت الطبيعي الذي تُنتِجه طريقة تحديد الوحدة الصوتية وبين الطريقة التكوينية حيث يتم التحكم في سرعة وطبقة الصوت المنطوق، ولا شك من إفادة هذه الطريقة في إنتاج برمجيات صوتية تجارية ومجانية في أسواق البرمجيات نظرا لإمكانياتها في التحكم في الصوت الناتج عنها،
وأما طريقة الإنتاج الصوتي مخصص المجال يَشتمِل على قاعدة بيانات صوتية بمجموعة من الكلمات والجُمَل والعبارات الكاملة ولهذا فهو لا يصلح إلا لنطق عبارات مختصة بمجال محدد دون غيرِه كمثل نطق جدول زمني برحلات الطيران أو قراءة التقارير المناخية وغيرها.

ومن هنا يتبين لنا أنّ الطريقة الدمجية بكافة أساليبها تعتمد على إنشاء قواعد بيانات صوتية تَشتمِل على السمات الصوتية المختلفة لِلُغةٍ ما ثم استدعاؤها عند الحاجة لإنتاج صوت آلي مُحاكي للصوت البشري، إلا أن الطريقة الدمجية تخفَق في إنتاج الصوت الآلي في حالات شتى مثل عدم تضمين صوت لغوي معين أو طبقة صوتية بعينها في قاعدة البيانات التي يلجأ إليها محرك التشغيل الخاص بآلة النطق، أو تصادف وجود مجموعة متسلسلة من الأصوات الساكنة التي لا قِبَلَ لآلة النطق بإدراكها نظرا لعدم قدرة آلة النطق على إنتاج أصوات متفرقة إلى هذا الحد من الدقة، وهنا يكمن التحدي البَرمجي في إنتاج حل صوتي يحقق الطبيعية والنقاء في آن واحد، لا سيما ضرورة وجود محلل دلالي في بعض اللغات لِإدراك الفارق ما بين كلمة تحمل مَعنيَين وبالتالي تحتاج لإنتاج صوتين متباينَين عندئذ.

* ثانيا: الطريقة التكوينية (formative) وهي طريقة تخلو من تسجيل الصوت البشري تماما وتلجأ لتركيب الصوت المُحاكي للصوت البشري عن طريق إنتاج صوتي تكويني يخضع لعدة معاملات فيزيقية مثل: تردُّد الصوت وحِدّته والوقت المنصرم عند نطقه وغير ذلك من السمات الصوتية لِلُغة بشرية بعينها، والطريقة التكوينية تعتمد في إنتاجها للصوت على قواعد برمجية أكثر دقة من تلك الموجودة في الطريقة الدمجية وإن كانت الطريقة الدمجية لا تخلو من تراكيب تكوينية مثل التي ذكرناها لكم في طريقة إنتاج الصوت بالثنائية الصوتية والتي تعد إحدى الطرق الفرعية للطريقة الدمجية. ويُعَد إنتاج الصوت الآلي الصناعي بهذه الطريقة التكوينية مجالً متميزً عند الحديث عن نقائهِ وقدرتِه الفائقة على نطق النص المكتوب بصوت مفهوم وإن زادت سرعته أو حِدّته، وهذا ما يدعو الشركات المنتِجة لبرامج قراءة الشاشة الخاصة بالمكفوفين وضعاف البصر للاستعانة بمثل هذا النوع من آلات النطق طمعا في أعلى درجة من النقاء والتحكم، ومع ذلك فإن آلات النطق التكوينية لا تطْمح في تحقيق أعلى مستويات الطبيعية في مُحاكاة الصوت البشري ذلك لأنها لا تعتمد في الأساس على صوت بَشَري في إنتاج الصوت الخارج منها وإنما تقوم بذاتها بتصنيع الصوت طِبقا لمجموعة من القواعد المنطقية والبرمجية كما أسلفنا، ونظرا لخلو هذا النوع من قواعد البيانات الضخمة يمكن الاستعانة به في العمل ضمن منظومات برامج أخرى تتضاءل فيها إمكانيات المعالجات الحاسوبية والذاكرة المستخدمة مثل بعض ألعاب الأطفال التي تحتاج لنطق الكلمات أو العبارات، ونظرا لعِظَم قدرِ التحكم الذي تمنحه الطريقة التكوينية لإنتاج الصوت للمبرمجين، يمكن للصوت الناتج عن هذه الطريقة تنغيم العبارات المختلفة طبقا لمحتواها اللغوي كأن ترتفع حدة الصوت في نهاية السؤال وتنخفض عند التعجب بل وتُبدِي فرحِها أو أساها عند صدور عبارات معينة منها دَليلا على عِظَم قدر التحكم البَرمجي في مكونات هذا النوع من آلات النطق.

ولا ينقضي الأمر بالأنظمة المذكورة وإنما تختلف المعامل الصوتية وتتنوع أساليبها في إنتاج الصوت فمنها ما ينتج الصوت باستخدام المنهج النطقي عن طريق قياس الأصوات الحلقية والأنفية ثم محاكاتها، ومنها ما يحاكي الميتافيزيقا الصوتية للأصوات البشرية، ومنها ما يحاكي الأصوات البشرية بصوت صفير مضخم لكي ينتج لنا صوتا آليا مضاهيا للصوت البشري، وهكذا.

كتبه لكم: وائل زكريا