من التحديات الرقمية للغة والكتابة العربيتين

تحديات جارية

لا تزال اللغة والكتابة العربيتين في مواجهة عديد التحديات في المجال الإلكتروني يعود مصدرها بالأساس إلى ضعف مخرجات البحث العلمي العربي في التعاطي مع البيانات الرقمية متعددة اللغات من حيث التجديد والتحديث والابتكار. فبعد تجاوز عقبة الترميز الرقمي الثنائي للغات بواسطة المعايير الدولية كمواصفات iso 8859 ثم مواصفات اليونيكود Unicode التي حلت العديد من الصعوبات المتعلقة بشيفرة اللغات ونظم الكتابة العالمية، لا تزال اللغة العربية في بحث متواصل عن أفضل السبل لدعم تواجدها في الفضاء الرقمي العالمي والدليل على ذلك النسب المتدنية لتواجد المحتويات العربية على الشبكات مقارنة بلغات مهيمنة لاتينية وآسيوية تقلها انتشارا وعراقة. ونسوق فيما يلي ملامسة مقتضبة لبعض التحديات التي لا تزال اللغة والكتابة العربيتين في أمس الحاجة إلى تجاوزها في الفضاء الرقمي.

الترميز

من المهم أن نذكر من جديد بالقضايا الاستراتيجية المتعلقة بالإجراءات المتبعة من قبل الهيئات الإقليمية للمواصفات والتقييس في دعم وجود اللغة العربية في الفضاءات الدولية لصنع القرار. ففي عصر العولمة، تمثل المواصفات أحد الركائز الأساسية لتطوير العلوم والتكنولوجيا لجميع البلدان. وفي العالم العربي، نظرا إلى تزايد الاهتمام بقطاع تكنولوجيا المعلومات والاتصال وتطوير الموارد والقدرات المحلية من أجل بناء الاقتصاديات الوطنية، لا بد من تطوير معايير عربية حديثة تتماشى مع التطورات العالمية لتكنولوجيا المعلومات والاتصالات. فقد أثبتت المعايير قدرتها على تعزيز الوظائف الافتراضية الحديثة ذات القيمة المضافة كالتجارة الإلكترونية والحكومة الإلكترونية والتعلم الإلكتروني. وبالتالي فهي قادرة على المساهمة في التغيرات الاقتصادية والاجتماعية في المنطقة على الرغم من التحديات المستمرة التي غالبا ما تعطل إمكانية تطبيقها. ومن بين التحديات الرئيسية التي واجهتها اللغة العربية منذ بداية العصر الرقمي، كانت هنالك مسألة ترميز الأحرف العربية التي تم حلها إلى حد كبير من خلال المساهمات الداخلية والخارجية خاصة تلك المجهودات التي قامت بها المنظمة العربية للمواصفات والمقاييس (ASMO) ثم تلك التي قامت بها الجمعية الأوروبية لمصنعي الحواسيب European Computer Manufacturers Association/ECMA، وكذلك مجمع اليونيكود Unicode ومنظمة الآيزو ISO. ثم ظهرت خلال السنوات 2000-1900 تحديات التدويل (I18N: Internationalisation)  والتحيين المحلي (L10N : Localisation) للبرمجيات والمحتويات الرقمية، وكلتا الطريقتين مكنتا في نفس الوقت من توفير الموارد الرقمية متعددة اللغات لأكبر عدد من المستخدمين في جميع أنحاء العالم من خلال تكيف التطبيقات والمحتويات مع الطابع المحلي للعديد من البيئات الثقافية واللغوية. لكن، وإن ساهم الحراك الدولي العام في التعامل مع قضايا التعددية اللغوية الرقمية في الدفع لإيجاد الحلول العملية للكتابة العربية، فأن الحلول المعمول بها اليوم في التعامل مع اللغة العربية سواء على مستوى الترميز المقنن للمحارف أو صياغة الواجهات التطبيقية للبرمجيات لا تزال في حاجة ماسة إلى إعادة النظر في مدى تطابقها مع الخصوصيات الحضارية واللغوية للمستخدمين الناطقين بالعربية. ولنا في ذلك العديد من الأمثلة التي لا تزال تشكل تقصيرا مسكوتا عنه في مدى انسجام الحلول الإلكترونية المعمول بها مع البعدين الثقافي واللغوي العربيين كالتعامل مع النصوص مزدوجة الاتجاه وخوارزميات الأرقام والمحارف الناقطة. سنتعرض في تدوينة لاحقة إلى هذه الإشكاليات للوقوف على انعكاسات الأسبقية التاريخية للمبادرة اللاتينية في مجال الترميز الرقمي لللغات وسيطرتها على الصناعة الإلكترونية العالمية ومدى تأثير ذلك على الخصوصيات الثقافية والحضارية لعديد المجتمعات ومن بينها العالم العربي.

ضعف نسب المحتويات العربية على الإنترنت كمّا وكيفا

تشير كل الأرقام اليوم إلى ضعف تواجد اللغة العربية على الشبكات الرقمية إذ لا يتجاوز المحتوى العربي على الانترنت في أقصى تقدير نسبة 3٪ من مجموع المحتوى العالمي كما تشير إلى ذلك أرقام موقع “موضوع” في دراسة حول “مؤشر المحتوى العربي الرقمي” (1) رغم أن بعض الإحصائيات تشير أيضا إلى أن اللغة العربية هي اللغة الثامنة الأكثر استخداما على شبكة الإنترنت وتصنف من هذا الباب قبل الفرنسية والروسية والكورية. إلا أن نفس الدراسة تشكك في مصداقية الأرقام المعتمدة نظرا للخلط السائد في عديد الإحصائيات بين نسب المحتوى العربي وعدد المستخدمين من المنطقة العربية وفي ذلك فرق كبير نظرا للنسب العالية من تصفح القارئ العربي للمواقع اللاتينية. ومع ذلك، وباختلاف المحدّدات التي تعتمدها كافة الدراسات، فإن جميع الإحصائيات تدل على تواضع المحتوى العربي كمًا وكيفًا وتصفحًا مقارنة بأرقام عديد الدول التي تقلنا عددا وإمكانيات. فقد أكدت نتائج نفس الدراسة التي أجرتها موسوعة “موضوع”، أن “المحتوى العربي يشكل 0.89% من المحتوى الكلي على الإنترنت، بعد إسقاط الأنماط المتكرّرة والمتشابهة، التي تعتبر أكبر مشاكل المحتوى العربي من ناحية التكرار وسرقة المجهود الفردي نظرًا لغياب تشريعات تحمي حقوق الملكية”. كما تشير الدراسة إلى أن مواقع التواصل الاجتماعي تلعب دورًا كبير في تضخم الأرقام والنسب “إذ هي مليئة بالمحتوى غير المفيد، وغالبًا ما يكون باللهجات الدارجة التي تفتقر للأسلوب العلمي، وتحدّ من الجمهور الذي يستطيع استيعابها على صعيد البلد الواحد، لكنها تُغْني المحتوى عبر الدور الإعلاني والتجاري الكبير في ظل غياب الشركات كونها تحظى بنسب تصفح مرتفعة”. وهذا من شأنه أن يلعب دورا هاما على مستوى جودة المحتوى خاصة في بناء الشبكات الدلالية التي يبنى عليها اليوم مجتمع المعرفة. هذه التحولات العالمية في صياغة مجتمع معرفي جديد تضع هندسة اللغة العربية أمام قضايا جديدة من أهمها تحديات المعالجة الدلالية على الشبكات الرقمية واندماجها في منظومة معرفية كونية بصدد البناء.

مشكلة المصطلحات والشبكات الدلالية العربية

لم تعد إذا رهانات اللغة والكتابة العربيتين متعلقة بالتشفير والترميز لنظام الكتابة العربية بل يتعداه إلى مسائل متعلقة أكثرا بالتحليل النحوي والدلالي والترجمة الآلية والذكاء الاصطناعي، وهي مجالات ستواجه فيها المصطلحات والتصنيفات العربية تحديات كبرى للمواءمة المفاهيم وتوحيد مناهج صياغة الأنطولوجيات وتوحيدها ليس فقط بين مختلف المجالات المعرفية بل بين مختلف الأقطار العربية واستعمالاتها المختلفة للمصطلحات والمفاهيم. فبعد تجاوز العائق التقني المتمثل في مسالة الترميز الموحد للمحارف العربية والتي تم حله في سياق الديناميكية الدولية من أجل التعددية اللغوية الرقمية العالمية والحد من هيمنة اللغة الإنجليزية على الفضاء الرقمي، تواجه اللغة العربية عدة إشكاليات أخرى تميزها عن بقية اللغات كمسألة المعجمية والمصطلحات وهي من أهم القطاعات التي تتطلب التحديث الشامل للنماذج الكلاسيكية في إدارتها والتعامل معها. لكن كما يذكر ذلك أحمد إبراهيم في تدوينة على موقع “العربي الجديد” “يكمن القصور في غياب آليات التحديث وتبني معايير المصطلحات الحديثة، بسبب الغياب شبه الكامل، وحتى الدور السلبي الذي تلعبه مجامع اللغة العربية التقليدية، التي عجزت من ثمانينيات القرن الماضي عن اللحاق بركب التطور العالمي. نحن بحاجة ماسّة لجهة ناظمة تشرف على مسألة المصطلحات الحديثة، وتوحيد معايير المحتوى الرقمي، والانفتاح تجاه مصطلحات العصر” (2). ويؤكد مدير مؤسسة “الأرابيك” حسب نفس المصدر هذا الرأي حين يعتبر أن اللغة ليست قاصرة في حدّ ذاتها عن اللحاق بركب اللغات العالمية في مجال المحتوى الرقمي، فهي تمتلك مقوّمات التطوّر والنمو واستيعاب علوم العصر الحديث، “لكن يكمن القصور في غياب آليات التحديث وتبني معايير المصطلحات الحديثة” (2). ومن أهم عمليات التحديث المصطلحي هي حسب رأينا تلك التي تعتمد على المناهج المعيارية الدولية وفي مقدمتها معايير اللجنة التقنية ISO TC37 التابعة للمنظمة الدولية للمعايير إذ تعتبر هذه المواصفات من أبرز الإجراءات الدولية المعتمدة في بناء الشبكات الدلالية المعيارية والاندماج في مجتمع المعرفة الذي هو بصدد الإنشاء. كما نرى أن للمنظمة العربية للتربية والثقافة والعلوم/ألكسو دور رئيسي في هذا المجال خاصة وهي تمتلك مؤسسة مختصة في هذا المجال ونقصد بذلك مكتب تنسيق التعريب بالرباط (3).

التعرف الضوئي على المحارف

من مشكلات الكتابة العربية أيضا مسالة التعرف الضوئي على الحروف التي من شأنها تكثيف عمليات الترقيم الآلي للمخزون الثقافي العربي من مخطوطات وأرشيفات ثرية تصعب إلى اليوم عملية إدماجها في الفضاء الرقمي لأسباب تقنية ولغوية وحضارية. ويرجع ذلك أساسا إلى مشاكل ميكنة الكتابة وتركيبتها المتراصة أو الملتصقة وهي نتيجة حتمية لفترة تاريخية رفضت خلالها الحضارة العربية تبني الثورة المطبعية التي عرفتها الحضارة الغربية إثر اختراع الطباعة بالحروف المنقولة سنة 1450 من قبل يوهانس غوتنبرغ. لذا بقيت الكتابة العربية إلى اليوم بطابعها الترابطي الذي يطرح العديد من التحديات للتعرف على الأنماط والمعالجة المطبعية. فهناك الكثير من علامات التشكيل النصي أو الحروف المرتبطة والمتراصة التي تجعل في كثير من الأحيان عملية التعرف الضوئي على أشكال الحروف وطبيعة الربط فيما بينها أمرا عسيرا. وفي كثير من الأحيان أيضا، تمثل عملية إعادة إدخال النص وتصحيحه بالطريقة اليدوية أكثر نجاعة من حيث التكلفة والوقت وتكاليف العمل ببرامج باهظة الثمن للقراءة الضوئية للحروف. أما في خصوص الوثائق القديمة، بما أن مهنة النشر كانت فقيرة نسبيا، فالورق والحبر كانا متوسطا الجودة التي تجعل من التعرف الضوئي على الحروف أمرا غير ملائم. كل هذه العوامل تجعل في كثير من الأحيان عملية التعرف الضوئي على الحروف أمرا معقدا للغاية تصعب عموما مقارنته الربحية باستخدام العامل البشري حتى بالنسبة لعمليات كبيرة جدا من المسح الضوئي.

أسماء النطاقات

تعتبر مسألة أسماء النطاقات من أحدث المشكلات التي تعترض اللغة والكتابة العربيتين. وهي بالأحرى مشكلة تخص كافة اللغات العالمية ما عدى الإنجليزية التي استفردت لأسباب تاريخية وقانونية بأسماء النطاقات منذ نشأة الشبكات الإلكترونية. وتكتسي مسألة أسماء النطاقات أهمية كبيرة باعتبار أن الوصول إلى الموارد الرقمية على الانترنت هي قضية حيوية للتنوع اللغوي المنشود على شبكة الإنترنت. فجميع الموارد وجميع الخدمات على موزعات الشبكة تتطلب بدون استثناء عناوينا ذاتية تمكن من تحميلها واستخدامها. ولهذه العناوين خاصية في كونها تكتب استثناء وإلى فترة قريبة جدا بالأحرف اللاتينية الغير معلمة أي تلك التي تنفرد بها اللغة الانجليزية. وبالتالي، فإن المتحدثين باللغات اللاتينية المستعملة للتشكيل أو المتحدثين بلغة واحدة غير لاتينية يتم اقصاؤهم على مستوى الاستخدام والوصول إلى الخدمات والموارد عبر الشبكات. فوفقا للإحصاءات التي أبلغ عنها مركز الترخيص والإعلام عن أسماء النطاقاتInternet Names Authorization & Information Center (INAIC) ، يوجد كل يوم على الانترنت ما لا يقل عن 500 مليون شخص في جميع أنحاء العالم ثلثهم فقط يتحدثون اللغة الإنجليزية باعتبارها لغتهم الأم. وهذا يؤكد الارتباط الواضح بين لغة عنوان المورد ومحتواه على الواب إذ هناك فوائد واضحة للأفراد من القدرة على قراءة وفهم أسماء النطاقات بلغاتهم الأصلية. ولهذا، فأن أي عالم صينى أحادي اللغة أو مزارع منغولي يتحدث فقط لغته الأم، لا يمكنه استخدام جهاز الكمبيوتر للوصول عبر الإنترنت إلى إي محتوى معرف بعنوان في أحرف لاتينية إنجليزية صرفة. أمام جدية هذه المسالة على المستوى الدولي، بدأت الحلول التقنية تظهر منذ سنة 1996. ففي عام 2008 وضع فريق عمل هندسة الإنترنت (IETF) توصيات لصياغة أسماء النطاقات الدولية (idn) أساسها استخدام أحرف غير لاتينية في تكوين عناوين المواقع والخدمات على الشبكات. وفي عام 2009 وافقت الوكالة التي تدير أسماء نطاقات الإنترنت في جميع أنحاء العالم (icann) على إدراج أسماء النطاقات الدولية العليا (الجذرية) في أحرف غير لاتينية. بهذه المناسبة، يعتبر يوم الخميس 6 مايو 2010 يوما مميزا في تاريخ الإنترنت حيث أطلقت وكالة icann في ذلك الیوم أسماء النطاقات الدولیة بشکل رسمي. لأول مرة منذ ذلك التاريخ صار من الممكن استخدام أحرف غیر لاتینیة في منطقة الجذر (المستوى الأعلى) من عناوين الموارد الرقمية على الإنترنت. وتشمل كل هذه الخصوصيات اللغوية المجتمعات العربية التي تكثر فيها نسبة أحاديي اللغة الغير قادرين على استعمال النطاقات اللاتينية. لذا شكلت هذه المسألة رهانا هاما للمختصين العرب بتقنيات الانترنت. وكانت نتيجة ذلك الاهتمام أن بعض الدول العربية سعت إلى تسجيل حضورها في هذا المجال الإستراتيجي من خلال مجموعات عمل وهيئات وفرق بحث ساهمت في إيجاد الحلول الملائمة لطبيعة اللغة والكتابة العربيتين خاصة في ميزتيها الترابطية واتجاهها من اليمين إلى الشمال. من بين العاملين على هذا الملف نذكر بالخصوص مجموعة العمل الاستراتيجي بالشرق الأوسط (MESWG) وهي فرقة عمل معنية بالخط العربي على مستوى أسماء النطاقات وتدويلها. تتكون هذه الفرقة من ستة عشر خبيرا من اثني عشر بلدا يمثلون أكثر من تسع لغات تستخدم الأبجدية العربية، بما في ذلك العربية والماليزية (جاوي) والباشتو والفارسية والبنجابية، والسيرايكية، والسندية، والتروالية، والأردية (4). وتعتبر مصر والسعودية والإمارات العربية المتحدة من الدول العربية الأولى التي استخدمت الحروف العربية في أسماء نطاقات الإنترنت الخاصة بها على سبيل المثال:

  • سجل.السعودية
  • موقع.مصر
  • مركزالتسجيل.إمارات

Source : http://blog.webcertain.com/wp-content/uploads/2016/03/arabic-domain-names-  10032016.jpg

  الهوامش

  لمزيد القراءة