بدايات الترميز الرقمي المعياري للمحارف العربية

من بين التحديات الرئيسية التي واجهتها اللغة العربية في بدايات العصر الرقمي، كانت هنالك أولا مشكلات تشفير المحارف بطريقة معيارية يعتمدها المصنعون لتوفير المعدات والبرمجيات الخاصة باللغة والكتابة العربيتين. وقد تم التوصل إلى تجاوز قسط كبير من هذه التحديات بفضل المساهمات الداخلية والخارجية، خاصة تلك المجهودات التي قامت بها المنظمة العربية للمواصفات والمقاييس (ASMO) ثم تلك التي بادرت بها الجمعية الأوروبية لمصنعي الحواسيب (ECMA/European Computer Manufacturers Association) ، وأخيرا الحلول المعتمدة من قبل مجمع اليونيكود Unicode ومنظمة الآيزو ISO. ولقد كان للدور العربي في هذه المجهودات العالمية دور ليس بالهين في إثراء التعددية اللغوية الرقمية العالمية وفك السيطرة اللاتينية على التكنولوجيات الحديثة للمعلومات. لكن يبقى الدور العربي، رغم مساهمته في الحضارة العالمية الرقمية واتساع الرقعة الجغرافية للوطن العربي وكثافة بعده الديموغرافي، أدنى بكثير من المستوى الذي كان من الضروري أن يكون عليه. في تعرضنا لمزايا هذا الدور ونقائصه من خلال هذه التدوينات المتخصصة، سنعود هنا إلى منطلق التجربة العربية في المغامرة الرقمية من خلال باب التشفير والترميز للكتابة واللغة العربيتين من أجل تعريب المعدات والبرمجيات الحاسوبية. فعلى الرغم من أن بدايات تعريب الأجهزة الحاسوبية في البلدان العربية تعود إلى الستينيات من القرن الماضي مع أنظمة البطاقات المثقبة، فإن وضع المعايير الرقمية الثنائية لم تظهر جديا إلا منذ أواخر الثمانينات من خلال عدد من المبادرات المتفرقة في الزمان والمكان منتجة عددا من المواصفات المختلفة ليس فقط من بلد إلى آخر ولكن أيضا من قطاع إلى آخر. كانت هذه المواصفات عموما عبارة عن مجموعات من المحارف الخالية من التشكيل ولا تسمح بالتعايش مع الحروف اللاتينية ذات الاتجاه المخالف. وللتذكير فإن مشكلة التشكيل في الكتابة العربية وازدواجية الاتجاه على مستوى الواجهات التطبيقية لا تزال قائمة وبدون حلول مناسبة لعديد الحالات ربما سنأتي عليها في تدوينات لاحقة.

كما أوردنا ذلك في التدوينات السابقة، تشتغل جل الحواسيب اليوم بواسطة المعايير الدولية للتشفير الرقمي الثنائي للحروف المعدة من قبل مجمع اليونيكود ومواصفة الأيزو 10646 بمختلف تفرعاتها وأشكال تبسيطها كمجموعات المحارف الدولية UTF-8 و UTF 16 وغيرها. وتعتمد اللغة العربية بدورها هذه التقنيات في دعم تواجدها على الشبكات وفي مختلف المجالات الرقمية تماشيا مع ما تفرضه ضرورة التلاؤم والتطابق مع المنظومات الالكترونية العالمية. إلا أن التجربة العربية، وكسائر اللغات والكتابات العالمية الأخرى، عرفت بدايات محلية وقطرية متعثرة وغير قارة قبل أن تندمج في صياغة الحلول العالمية التي توفرها معايير اليونيكود والأيزو. وسنعرض هنا بشديد الاقتضاب أهم المحطات التي مرت بها هذه التجربة من أجل تشفير الحروف العربية واعتمادها في تصنيع المعدات وصياغة البرمجيات وكتابة المحتويات.

مواصفة آسمو 449

مع مطلع النصف الثاني من السبعينات من القرن الماضي، توصل المجهود العربي إلى الإقرار بضرورة التقارب بين المحاولات المعيارية المتفرقة للمحارف الرقمية العربية. بهذا المقتضى، تمت الدعوة إلى تنظيم اول اجتماع عربي انعقد بالمغرب في عام 1975 شارك فيه عدد من الخبراء العرب لمناقشة إمكانية إنشاء مواصفة معيارية موحدة لنقل البيانات باللغة العربية تكون مطابقة للخصائص التالية:

  • اعتماد أبجدية متكاملة مع وجود الحد الأدنى من الرموز الوظيفية،
  • اعتماد أبجدية متكاملة مع وجود علامات التشكيل،
  • اعتماد أبجدية عربية تكون متوافقة مع الأبجدية الدولية رقم5 ومطابقة لخصوصيات المواصفة الدولية ISO / IEC646

مع مطلع عام 1976 تم التوصل إلى أول معيار عربي موحد لنقل البيانات (CODAR 1) تم اعتماده كنظير عربي لمعيار ASCII. وقد تمت مراجعة هذا المعيار من قبل جميع الأطراف المعنية قبل أن ينعقد اجتماع إقليمي عربي بمدينة بنزرت بتونس في يونيو حزيران من عام 1976 للاتفاق على استراتيجية عمل وسياسة تكنولوجية عربية موحدة خاصة وأنه تم خلال ذلك الاجتماع تقديم مشروع موازي لمعيار CODAR1 اقترحته العراق آنذاك.

تعرضت المداولات خلال ذلك الاجتماع إلى عديد القضايا كضرورة إدراج حروف التشكيل من عدمه في الأبجدية العربية الرقمية. وقد أسفرت المداولات في نهاية المطاف إلى الإقرار بضرورة إدخال بعض التقيحات على المعيار CODAR1 للوصول إلى مشروع مؤقت آخر هو CODAR 2. وقد عرض هذا المشروع في نفس السنة على مؤتمر الوزراء العرب المسؤولين عن تطبيق العلوم والتكنولوجيا من أجل التنمية (CASTARAB) الذي انعقد في الرباط بالمغرب في أغسطس 1976، وعلى الدورة التاسعة عشر للمؤتمر العام لليونسكو في ديسمبر كانون الاول عام 1976 المنعقد بنيروبي بكينيا. وقد قامت الجهتان بتبني المشروع بالكامل.

في شهر جوان حزيران من عام 1977، قامت لجنة مختصة أنشأها المكتب الدولي للمعلوماتية (IBI) لتأسيس معيار مشترك لاستخدام اللغة العربية في أجهزة الكمبيوتر(COARIN)، باجتماع في روما تم خلاله تقريب الخلافات حول تقنين الحروف العربية والتوصل إلى معيار موحد جديد هو المعيار CODAR-U الذي تم التوافق عليه في 15 جوان حزيران 1977 وتسجيله لاحقا لدى منظمة الأيزو. كما تم تقديم مشروع CODAR-U من أجل الدراسة والمراجعة إلى العديد من الهيئات العربية والدولية من بينها الاتحاد العربي للاتصالات (ATU) والمنظمة العربية للمواصفات والمقاييس (ASMO). وقد تناولت هذه الأخيرة الموضوع بجدية بإحداث لجنة فنية خاصة (اللجنة رقم 8) كان لها الأثر الكبير والمباشر لاحقا على إنشاء سلسلة هامة من المعايير المتصلة والمتفرعة.

CODAR_UDمن ناحية أخرى، وأمام البطء الحاصل في تبني الحلول النهائية الملائمة للشيفرة المعيارية للحروف العربية – الأمر الذي أحدث بعض الاضطرابات في الأعمال التجارية لدى الشركات المصنعة للأجهزة الموجهة للدول العربية، تقدمت الرابطة الأوروبية لمصنعي الحواسيب (ECMA) في شهر فيفري 1982، بوصفها سلطة تسجيل للرموز الحاسوبية لدى منظمة الأيزو، بمقترح لمعيار متكامل يستجيب للحاجيات اللغوية الرقمية لشركائها العرب. وكان الرد العربي على هذا المقترح أن دعت كلّ من المنظمة العربية للمواصفات والمقاييس والألكسو إلى اجتماع طارئ في الرباط يومي 22 و 23 أبريل 1982 من أجل الاتفاق على معيار موحد آخر يكون بمثابة الحل النهائي لتشفير الحروف الرقمية العربية. تم إثر ذلك الاجتماع إصدار معيار CODAR-UF/DF كمواصفة عربية موحدة في شكلها النهائي. وقد شكلت تلك المبادرة بداية لسلسلة من المعايير المتفرعة والخاصة بإشراف اللجنة رقم 8 التابعة لمنظمة ASMO من جملتها المواصفة 662 ASMO التي حملت في ثناياها فكرة صياغة الحاسوب العربي أحادي اللغة.

مواصفة آسمو 662 (ASCII موسع)

أدى الحماس في تصميم معيار عربي يتوافق تماما مع المعيار الدولي ISO/IEC 646 إلى الاعتقاد بإمكانية إنشاء نظام عربي مستقل لا يعتمد على أي لغة لاتينية داعمة. ففي عام 1985، تم التوصل إلى تعريف معيار عربي موسع (ASMO 662) مكون من رموز تشفيرية بطول ثماني بتات (Octet) واعتماده في صياغة جدول متكامل لترميز البيانات حصريا بالمحارف العربية بين أنظمة الكمبيوتر المعربة. وكانت لهذه المبادرة الأهداف التالية:

  • إنشاء جدول رموز عربية مستقل عن الرموز اللاتينية يهيئ لتصميم جهاز كمبيوتر عربي أحادي اللغة،
  • إمكانية توسيع جدول الحروف العربية على أساس الاحتياجات اللغوية الخاصة دون الحاجة إلى تصميم مسبق. وفي هذا دعم للغات التي تستعمل الحروف العربية بتمكنيها من إيجاد الحلول الملائمة للحوسبة المحلية (كالفارسية والأفغانية والبربرية …)،
  • تفادي التكرار الذي قد ينجم عن استخدام الجداول المشتركة بين الأحرف العربية واللاتينية،
  • تجنب استخدام برامج تحليل السياق لتحديد الاتجاهية لبعض العلامات المزدوجة الشائعة في الكتابات العربية واللاتينية.

asmo6601

نظرا لعديد الاعتبارات الجيوسياسية والاقتصادية المختلفة التي يطول شرحها هنا، لم يكن من الممكن تنفيذ هذه السياسة العربية من أجل تصنيع جهاز كمبيوتر أحادي اللغة. يمكننا فقط أن نقول هنا أن سياق التعددية اللغوية في تصنيع أجهزة الكمبيوتر وتأثير العولمة المتصاعد منذ ذلك الوقت ساهما في إفشال هذا المشروع. لذا، تحتم على كافة اللغات “الأقلية” ومن بينها العربية، المرور بلغة لاتينية داعمة لضمان تواجدها في السياق الرقمي الدولي. فما كان للغة العربية من حل إلا التوجه نحو اعتماد معيار تشفيري موسع (8 بتات) يحتوي على مجموعتين من المحارف أولها اللاتينية وثانيها العربية. وكان ذلك أيضا حال كافة اللغات “الأقلية” التي تم ضمها لاحقا في سلسلة المعايير المصنفة تحت المعيار العام ISO 8859. بهذه الطريقة، تكرست الهيمنة اللاتينية على المعايير الدولية لتشفير المحارف بتمركز معيار ASCII أو Latin-1 في مداخل كافة المعايير الدولية ومن جملتها اليونيكود وISO 10646 وتفريعاتها المختلفة ك UTF 8 وغيرها. بهذا التوجه تمت صياغة المعيار العربي ASMO 708.

مواصفة أسمو 708 (ISO/IEC 8859-6)

نظرا لطبيعة تصميمها المبني على الثنائية اللغوية بين اللاتينية العربية، تتكون المواصفة ASMO 708 من مجموعة الأحرف اللاتينية المطابقة لمواصفةISO/IEC 646 ومجموعة الأحرف العربية المحددة في معيار ASMO 449 مع اثنين من السمات الرئيسية:

  • تحديد مكان واحد لنفس الحروف المشتركة بين نظامين للكتابة. من نتائج هذا التصميم هو توفير مجموعة مكونة من 50 محرفا عربيا (حروف المواصفة ASMO449 دون الحروف المشتركة) ومجموعة مكونة من 128 حرفا لاتينيا تتضمن المحارف المشتركة كعلامات التنقيط والأرقام،
  • إمكانية تطبيق تقنيات توسيع الجداول وفقا للمواصفات ISO/IEC 2022 و ISO/IEC 4873

نظرا إلى البعد الاندماجي بين مجموعتين من المحارف المستعملة جدا في التطبيقات العلمية، تم اعتماد هذا المعيار من قبل الجمعية الأوروبية لمصنعي الحواسيب تحت المعرف الوحيد ECMA 114 . كما اعتمدته منظمة الأيزو في إطار سلسلتها الجديدة من المعايير الموسعة 8859 تحت المعرف الفرعي ISO/IEC 8859-6 الخاص باللغة والكتابة العربية.

مواصفة أيزو ISO 8859-6

تم تطوير سلسلة مواصفات ISO/IEC 8859 لتحديد تمثيل ثنائي واحد وثابت للحروف الرسومية. في الواقع، تتكون سلسلة المعايير ISO 8859 أولا من المعيار المعروف باسم Latint-1 المطابق للجزء الأول من السلسلة ISO 8859-1. ولكن، نظرا لأنه ليس من السهل تمثيل جميع الحروف المستعملة في جدول واحد، تم تقسيم سلسلة ISO/IEC 8859 إلى عدة أجزاء تُنسَب كل واحدة منها إلى منطقة محددة من العالم لخدمة متطلبات واحتياجات مجموعات لغوية معينة (كاللغات الأوروبية، السريالية واليونانية والعربية والعبرية…). كل جزء يحتوي على 128 حرف مأخوذ من مواصفة ASCII كمجموعة أساسية، مع تكملة الجزء المتبقي من جدول التشفير بمجموعة من المحارف المتغيرة حسب كل لغة على حدة.

تشكل المواصفة الفرعية ISO 8859-6 الخاصة بالكتابة العربية الجزء السادس من السلسلة ISO 8859 . من إشكاليات هذه المواصفة الفرعية أن اللغات التي تعتمد على الحروف العربية في كتاباتها لا يمكن لها أن تجد في هذه المواصفة كافة متطلباتها اللغوية. كما أن ترتيب الأحرف فيها يعتمد التسلسل المنطقي وليس البصري وهذا من شأنه أن يشكل عوائق كبيرة لاتزال تعاني منها إلى اليوم الواجهات التطبيقية متعددة اللغات كالكتابة مزدوجة الاتجاهات والترتيب الهجائي وخاصة معالجة الأرقام. سنعود ربما إلى التعرض إلى هذه الإشكالية في مدونة لاحقة نظرا لأهميتها في التعامل مع التطبيقات ثنائية اللغة ذات الاتجاه المزدوج. فاللغة العربية تكتب من اليمين إلى اليسار مع استثناءات هامة مثل الأرقام ذات الاتجاه الإلزامي من اليسار إلى اليمين. كما أن الأشكال المختلفة التي تربط الحروف العربية لا تمتلك في هذه المواصفة ترميزا متميزا.

 

توحيد الترميز الرقمي الثنائي للغات والكتابات

مواصلة للتدوينة السابقة التي ذكرنا فيها جملة من التحديات التي تواجهها اللغة والكتابة العربية في المجال الرقمي، نتعرض باختصار شديد في هذه التدوينة إلى بداية منظومات الترميز الرقمي الثنائي للغات والكتابات وأهم المجهودات الدولية لتوحيدها من خلال مواصفات عالمية. سيتسنى لنا إثر ذلك في التدوينات التالية التوقف على أهم محطات … يتبع