توحيد الترميز الرقمي الثنائي للغات والكتابات

مواصلة للتدوينة السابقة التي ذكرنا فيها جملة من التحديات التي تواجهها اللغة والكتابة العربية في المجال الرقمي، نتعرض باختصار شديد في هذه التدوينة إلى بداية منظومات الترميز الرقمي الثنائي للغات والكتابات وأهم المجهودات الدولية لتوحيدها من خلال مواصفات عالمية. سيتسنى لنا إثر ذلك في التدوينات التالية التوقف على أهم محطات الترميز الرقمي الثنائي للغة والكتابة العربية ومختلف التحديات المتعلقة بتوحيدها.

بدايات الترميز الثنائي الرقمي والهيمنة اللغوية الأنجلوسكسونية

يدرك المختصون في المجال التكنولوجي أهمية الترميز الثنائي للبيانات النصية كأول لبنة وضعت لبناء العالم الرقمي الذي نعيشه اليوم بكافة أدواته الإلكترونية ومحتوياته المعرفية ونظمه البرمجية المختلفة. ولئن غلبت اليوم على مجالنا الرقمي المحتويات متعددة الوسائط من فيديوهات وصور فوتوغرافية وملفات صوتية، فإن البيانات النصية كانت ولا تزال المحرك الرئيسي للأجهزة الحاسوبية وشبكات الاتصال العالمية. وتعود أهمية البيانات النصية ليس إلى تفوقها الكمي كما يمكن تصوره، علما وأن قدرات الأجهزة والشبكات المتضاعفة على خزن البيانات وتبادلها جعلت من الوسائط المرئية والمسموعة Multimedia أكثر الموارد استخداما على الشبكات. بل إن أهمية البيانات النصية تكمن في أنها، علاوة عن كونها الأداة التاريخية الأولى لصياغة المحتوى المعرفي، هي أيضا الأداة التي تمكن من التحكم في الأجهزة والشبكات من خلال البرمجيات والبروتوكولات ورموز التحكم المنظمة لسير عمل كافة المنصات الرقمية.

دون العودة إلى التاريخ الطويل والمتشعب لظهور تقنيات الترميز الثنائي، فإن البداية الصناعية للترقيم الإلكتروني الثنائي للبيانات أخذت بعدا صناعيا دوليا مع المواصفة الامريكية ASCII-American Standard Code for Information Interchange. فقبل ظهور مواصفة ASCII، كان من الصعب التواصل بواسطة أجهزة الكمبيوتر إذ كان لكل مُصنّع تقريبا نظامه الخاص لتمثيل الحروف والأرقام ورموز التحكم. كان هناك على سبيل الذكر أكثر من 60 طريقة مختلفة لترميز المحارف في أجهزة الكمبيوتر. وكانت أجهزة شركة IBM تستخدم لوحدها تسعة مجموعات محارف مختلفة. لذا كان لظهور مواصفة ASCII أهمية كبيرة في توسيع رقعة استخدام الحواسيب من خلال توحيد الترميز الثنائي للمحارف. وفي هذا الصدد، لعب بوب بيمير Bob Bemer، وهو عالم كمبيوتر كان يعمل بشركة IBM بين أواخر 1950 وأوائل 1960، دورا رئيسيا في تطوير مواصفة ASCII ونشرها سنة 1963 رغم كونها لم تحظ بالقبول العام إلى أن بدأت شركة IBM باستخدامها في صناعة أول حواسيبها الشخصية بعد 18 عاما من تاريخ نشرها.

عرضت مواصفة ASCII سنة 1972 على منظمة الأيزو كي تصبح مواصفة دولية تحت المعرف الدولي ISO/IEC 646:1972. بهذه الطريقة (أي بواسطة تدويل المواصفة النصية ASCII) تمكنت الصناعة الأنجلوسكسونية وخاصة الأمريكية منها من فرض سيطرتها على العالم الرقمي إلى حد الآن باعتماد اللغة الإنجليزية كلغة برمجية وحيدة يقع اعتمادها لتشغيل الأجهزة والمعدات الرقمية رغم المزاحمة المحتشمة التي بدأت تبديها بعض اللغات الأخرى على مستوي البرمجة وبروتوكولات الاتصال وأسماء النطاقات.

التعددية اللغوية الرقمية وضرورة الترميز الموحد

مع انتشار الاعلامية دوليا توالت التشكيات من عدم تلاؤم الترميز الرقمي الثنائي المبني على مواصفة ISO/IEC 646 للأجهزة من قبل مجموعات مستخدمين ومصنعين لم تجد في استخدام الحواسيب تناسقا مع خصائصها اللغوية والحضارية من حيث أشكال المحارف والرموز الخاصة للعُملة ووحدات القياس. وأدت ردود الفعل هذه إلى صياغة مواصفة ترميز جديدة تعبر عن خصوصيات لغوية أكثر تنوعا. ففي سنة 1986 وافقت منظمة الأيزو على اعتماد المواصفة ISO 8859 التي تنقسم إلى 15 جزءا فرعيا لترميز عدد من اللغات العالمية الإضافية من بينها اللغة العربية (ISO 8859-6). وتبدأ كل أجزاء المواصفة ISO 8859 ب 128 حرفا مماثلا لحروف مواصفة US-ASCII في حين يتم توزيع الرموز 128 المتبقية على الحروف المستخدمة في لغات أبجدية أخرى.

من إشكاليات الجزء السادس من مواصفة ISO 8859 كونه يقوم بترميز الكتابة العربية وبالتالي فهو يعتبر حلا مناسبا لكافة اللغات التي تعتمد الحروف العربية. من هنا المضور تأتي الإشكالية الأولى بحيث يصعب على اللغات التي تتعدى حاجياتها اللغوية حدود الكتابة العربية أن تكون معتمدة بشكل كامل. من ذلك بعض الصوتيات الفارسية أو الأفغانية التي استنبطت لها محارف مركبة لتجسيمها بحروف غير معتمدة في الكتابة العربية. كما أن الكتابة العربية رغم كونها ذات اتجاه من اليمين إلى اليسار، فإن عديد الاستثناءات الهامة ككتابة الأرقام تشكل عائقا تقنيا كبيرا في تزامن النصوص العربية واللاتينية في نفس الوثيقة وعلى نفس الشاشة. وتعتبر أيضا صعوبات التعرف الضوئي على العديد من روابط الحروف العربية التي لا تمتلك ترميزات متميزة نقصا كبيرا لهذه المواصفة الفرعية العربية. كذلك هو الحال لعديد المواصفات الفرعية المنبثقة عن المواصفة الأم ISO 8859 والتي اضطرت جميعها إلى البحث عن بدائل تكنولوجية أكثر نجاعة وشمولية.

ISO 8859-6

أمام تفاقم المشاكل المتعلقة باختلاف تقنيات الترميز للغات والكتابات وعدم تطابقها محليا ودوليا، توصّل البحث من جهتين مختلفتين خلال السنة 1990 إلى تقديم مبادرتين رئيسيتين هما مواصفة اليونيكود الصادرة عن مجموعة مُصنّعِين Consortium متكون من عدة شركات (Xerox, Apple…) ومواصفة ISO 10646 التي أصدرتها المنظمة الدولية للمواصفات. شكلت هاتين المبادرتين محاولة لحل مشكلة تعدد المواصفات وعدم نجاعتها في الربط بين الثقافات والحظارات وذلك بتوفير شفرة ترميز موحدة لكافة الكتابات الكونية. منذ سنة 1991 تجانست المواصفتان في إطار صفحة رموز موحدة مع تفوق اليونيكود في توفير مواصفات إضافية لمعالجة النصوص ثنائية الاتجاه كالعربية.

بفضل هاتين المبادرتين، يمكن أن نعتبر أنه ثمة الآن مواصفة موحدة قادرة على عرض أو تمثيل عدد كبير من اللغات في وثيقة واحدة. يُستخدَم اليونيكود اليوم على مستوى أغلب صفحات الويب وهو غالبا ما يشار إليه تحت مسمى UTF-8 كواحدة من عديد الطرق المعتمدة في ترميز وتخزين كل الرموز المكتوبة باللغات الإنسانية كعشرات الآلاف من الحروف الصينية ورموز الرياضيات فضلا عن حروف من عديد اللغات الميتة.

سنواصل في التدوينة الموالية التعرض إلى أهم المحطات التي عرفتها المبادرات العربية لإنشاء أول المواصفات لترميز اللغة والكتابة العربية قبل أن تتكفل بذلك الهيئات والمنظمات الدولية. ثم نمر إلى الحديث عن التحديات الراهنة للكتابة العربية في الفضاء الرقمي العالمي.

 لمزيد القراءة


تعليق

توحيد الترميز الرقمي الثنائي للغات والكتابات — تعليق واحد

  1. بارك الله فيك دكتور، معلومات قيمة لكن لو تزودنا بالمراجع خاصة ما تعلق بترميز أحرف اللغة العربية

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *