تتباين التحديات التقنية في إنتاج وتصنيع آلات النطق الإلكترونية بتباين المرحلة التي يمر بها النص بدأً من تحويل النص إلى شكله الحاسوبي المألوف للحاسبات ثم التحديات البرمجية عند تحويل النص إلى رموز صوتية حتى يمكن نطقها لاحقا ثم التحديات الخاصة بتقييم آلات النطق على المستوى اللغوي والاستخدامي والأدائي، بالإضافة إلى تحديات أخرى غير تقنية إلا أنها تؤثر على المسيرة التكنولوجية في تطوير مثل هذه الآلات الناطقة التي تحاكي الصوت البشري. وفيما يلي سرد موجز لأهم العراقيل التقنية التي تواجه المبرمجين في هذا المضمار:
* أولا: تحديات تحويل النص الآلي إلى نص طبيعي مفهوم
فعملية تحويل النص الآلي إلى نص طبيعي عملية غاية في التعقيد والصعوبة بقدر ما تحمل اللغة المستهدفة بالنطق مغايرات في النطق عنه في الهجاء، وبعض هذه التحديات تشمل التحدي في تحويل كلمة يتفق هجاؤها وتختلف طريقة نطقها حسب السياق النصي الواردة به، مثل: "فَجْر" و"فُجْر"، أو مثل: "إنْ" و"إنّ" أو "ظَهَرَ" و"ظُهْر" أو "كِتاب" و"كُتّاب"، فاللغة العربية، على سبيل المثال، لا تخلو من تشابه هجائي واختلاف نطقي كما هو موضح بالأمثلة المذكورة، وهذا ما يمكن تداركه بكتابة الخط العربي بضبطه ضبطا كاملا أي إدخال العلامات التشكيلية المتمثلة في الفتحة (َ) والكسرة (ِ) والضمة (ُ) والسكون (ْ) وعلامات التنوين على الفتح (ً) والضم (ٌ) والكسر (ٍ) بالإضافة إلى الشدة (ّ) إلا أن الكاتب العربي ما يكاد يكتب بالضبط والتشكيل لتعوده على قراءة وكتابة النص العربي بدونها ولاختصار الكتابة وتوفير الجهد المبذول والحبر المنثور في تحمل عبء الكتابة بهذا النمط، ولا شك أن الترجيح النطقي يمثل عقبة عند تحديد نطق دون آخر لهجاء واحد وإن تغير المعنى والمبنى للكلام المنطوق عندئذ، ولا تنتهي التحديات اللفظية عند ذلك ولكنها تمتد لترجمة الأرقام بشكل صحيح فمن السهل نطق الأرقام منفردة كأن ننطق "واحد" عند مصادفة رقم 1، ولكن العقبة تأتي عند تحويل الأرقام إلى أعداد منطوقة لفظا مثل "1234" والتي ننطقها "ألْف ومئتين وأربعة وثلاثون" خاصة لوجود دلائل إعرابية تقضي بمطابقة المعدود أو مخالفته للعدد جنسا حسب مجموعة من القواعد النحوية، ولا شك في أن الأرقام ذاتها تنطق بطرق مختلفة حسب السياق التي ترد فيه فقراءة الأرقام في تاريخ اليوم والشهر والسنة يختلف عن قراءة أرقام الساعة والدقيقة والثانية والذي يختلف بدوره عن قراءة الأرقام التي تحمل كسور عشرية وما إلى ذلك، ولا تخلو التحديات الخاصة بتحويل النص الآلي إلى نص طبيعي من وجود بعض الاختصارات أو الاختزالات اللفظية مثل اختلاف النطق في: "ذلك"، و"هذان" و"الرحمن"، بالإضافة إلى تحدي الوقوف على أهم القواعد الهجائية المتعلقة بالنطق مثل اللام الشمسية واللام القمرية وهكذا.
* ثانيا: تحديات الترميز الصوتي (transcription)
وهي التحديات التي يواجهها المبرمجون عند تحويل النص الطبيعي إلى نص رمزِي يحمل الدلالات الصوتية لكل صوت فيه، وهنا نتعرض باختصار وإيجاز لمنهجين في التعامل مع الترميز الصوتي يقضي أحدهما بإنشاء قاموس صوتي كامل يحمل الألفاظ ومقابلها الصوتي حتى يتسنى للباحث عن كلمة معينة العثور على كيفية نطقها طبقا لمجموعة من الرموز المتفق عليها، أما المنهج الثاني فيقضي باستنباط القواعد النطقية من الهجاء الوارد بالألفاظ محاكاة لعملية تعلم القراءة طبقا لقواعد محددة، ولكل من المنهجين ميزاته وعيوبه، فعلى الرغم من دقة المنهج القاموسي في نطق الكلمات إلا أنه يفشل فشلا ذريعا في نطق كلمات غير موجودة بقاموسه (وهو أمر كثير الحدوث إذ لا يخلو نص من اسم علم أو من اسم مكان أو كلمة مستقاة من لغة أجنبية)، أما المنهج التقعيدي في نطق الكلمات فإنه يزج بنا في زخم من القواعد المركبة والمعقدة التي تحتاج إلى معالجة حاسوبية عالية السرعة ودقيقة الأداء، إلى جانب وجود ألفاظ شاذة لا يمكن تقعيد نطقها مثل الكلمة الإنكليزية "of" التي لا يخلو نص إنكليزي من وجودها وهي التي تنطق فيها ال"f" على أنها "v" وغير ذلك من التحديات الهجائية، ومن هنا تستخدم كافة آلات النطق المنهجين القاموسي والتقعيدي في إنتاج نص ترميزي صحيح يمكن نطقه تباعا.
ثالثًا: تحديات تَقييم مخرجات آلات النطق
وفي هذه المرة يكمن التحدي في الحكم الدقيق على مدى صحة ومطابقة النطق الآلي لمثيله البشري من عدمه، وينتج ذلك عن عدم وجود قاعدة بيانات متكاملة وصحيحة وموضوعية يمكن للباحثين في مجالات الصوتيات اللجوء إليها عند الحاجة لتقييم إنتاج صوتي آلي، فالمعاهد العلمية والمعامل الصوتية كل يستخدم قاعدة بيانات خاصة به لا تخضع لمعايير قاطعة موضوعية يمكن الاستعانة بها في تقييم الإنتاج الصوتي الآلي، إلا أن العلماء المتخصصين يلجأون في الآونة الأخيرة إلى قاعدة بيانات محددة ويسعون لتطويرها وتزويدها بكافة المعلومات المستحدثة في هذا الحقل المعرفي.
* رابعًا: التنغيم والتفعيلات والمحتوى الانفعالي للنص
وهي التحديات الخاصة بتحديد الجُمَل الطلبية من أمر ونهي واستفهام وتعجب وغير ذلك من الجُمَل التي تزداد فيها حدة الصوت وتقل حسب موقع الكلمة في الجملة، وإن كان للاستفهام علامة تظهره وللتعجب علامة تبديه إلا أن بقية أنواع الجُمَل الطلبية لا تكاد تتضح من الجُمَل الخبرية إلا من خلال محلل دلالي (وهو أمر معقد ولا مجال لاستخدامه لمجرد النطق طالما وجدت طرق سهلة وبديلة)، ولا يقف نطق العبارات عند هذا الحد وإنما يمكن تحديد الحالة الانفعالية لقارئ النص بالفرح أو الأسى أو التهكم أو اللا مبالاة من خلال سياق النص المقروء وهو ما يدعو علماء اللغة في العالم إلى تجديد محاولاتهم في الوقوف على القواعد اللغوية التي تحدد الحالة الانفعالية لنص ما بدقة تساعد آلات النطق الإلكترونية إصدار أصوات محاكية للأصوات البشرية في حالات الابتسام أو العبس أو الإرهاق وما إلى ذلك.
قد يظن القارئ بأن تلكم التحديات تمثل كل التحديات التي تواجه المبرمجين في إعدادهم لآلات ناطقة تحاكي الصوت البشري، ولكن الأمر يختلف كثيرا عن ظنونهم، فالمشكلات اللغوية لا تمثل إلا عقبة بحثية علمية واحدة من عقبات أخرى تضم المشكلات الاقتصادية في إنتاج معالجات حاسوبية أكثر سرعة وأكبر دقة من سالفتها ومشكلات رياضية مثل العقدة الرياضية عند مد الحاسوب بكمية هائلة من القواعد التي يجب عليه الالتزام بها ومشكلات فنية دقيقة تتمثل في تشفير قواعد البيانات بصورة تقلل من ضخامة حجمها وغير ذلك من المشكلات التي تقف حجر عثرة أمام إنتاج صوت آلي يضاهي الصوت البشري، ولكن الآمال في الوصول إلى الحل الأمثل في إنتاج صوت آلي يحاكي الصوت البشري لا تزال كبيرة خاصة لوجود فئات عديدة تسعى بدأب لحل المشكلات وتخطي التحديات المذكورة من أجل دمج آلات النطق في كافة المجالات التي تنتظرها.
كتبه لكم: وائل زكريا
ساحة النقاش