ইউনিকোড ও মাতৃভাষার ডিজিটাইজেশন

ড. এম মেসবাহউদ্দিন সরকার

ড. এম মেসবাহউদ্দিন সরকার
ড. এম মেসবাহউদ্দিন সরকার। সংগৃহীত ছবি

সমগ্র বিশ্বেই ইংরেজি ভাষায় টাইপ করার ক্ষেত্রে ইংরেজি কি-বোর্ড লে-আউট ব্যবহার করা হয়। ফলে স্থান-কাল-পাত্রভেদে অনায়াসে ইংরেজিতে টাইপ করা ও লেখা ডকুমেন্ট পড়া যায় সহজে; কিন্তু ইংরেজি ছাড়াও পৃথিবীতে অসংখ্য ভাষা আছে। যুক্তরাষ্ট্রভিত্তিক গবেষণা প্রতিষ্ঠান অ্যানথোলগের গবেষণা অনুসারে বর্তমানে পৃথিবীতে ভাষার সংখ্যা প্রায় সাত হাজার। যদিও আগামী শতকে এসব ভাষার অর্ধেকের মৃত্যু ঘটবে এবং এই মুহূর্তে বিশ্বের ৪৭৩টি ভাষা হারিয়ে যাওয়ার তালিকায় আছে।

ইংরেজি ভাষার আগ্রাসনের কারণেই এই সংকট। তাদের মতে, যেসব ভাষার লিপি কম্পিউটার রিডেবল নয়, সেসব ভাষাই দ্রুত হারিয়ে যাবে।

গুটেনবার্গের মুদ্রণযন্ত্রের সিসারূপ ভাষা থেকে বর্তমান তথ্য-প্রযুক্তির ভাষারূপ বিশ্লেষণ করলে দেখা যায়, পৃথিবীতে টিকে থাকবে সেই সব ভাষা, যেগুলো প্রযুক্তিবান্ধব। যেসব ভাষার লিখিত রূপ নেই, সেই ভাষাগুলোর বেশির ভাগই এরই মধ্যে পৃথিবী থেকে হারিয়ে গেছে। তাই ভাষাকে প্রযুক্তি উপযোগী করা না গেলে ভাষার সংকোচন ঠেকিয়ে রাখা কষ্টকর হবে। কিন্তু একেক দেশের ভাষার অক্ষর ও সাংকেতিক চিহ্ন আলাদা; যদিও কিছু সাংকেতিক চিহ্ন পৃথিবীব্যাপী একই রকম। এগুলোকে বলা হয় ইমোজি। বিশ্বব্যাপী অগণিত ইমোজি, ভাষালিপি ও সাংকেতিক চিহ্ন আধুনিক কম্পিউটার বা ডিজিটাল ডিভাইসের বোধগম্য করা এবং আঞ্চলিক মাতৃভাষার মাধ্যমে ওই অঞ্চলের মানুষের সঙ্গে তথ্যের আদান-প্রদান করার বিশ্বস্বীকৃত ও সর্বজনীন পদ্ধতি হলো ইউনিকোড।

ইউনিকোড তৈরির আগ পর্যন্ত উদ্ভাবিত আলফানিউমেরিক কোডগুলোতে খুবই অল্পসংখ্যক বর্ণ বা চিহ্ন প্রকাশ করা যেত। আবার কম্পিউটারের আদিকাল থেকে এখন পর্যন্ত প্রচলিত আসকি কোডে ১২৮টি বা ২৫৬টি বর্ণের কোডিং ব্যবস্থা আছে, যা মূলত ইংরেজি ভাষায় ব্যবহৃত সর্বোচ্চ ২৫৬টি বর্ণ ও চিহ্নকে বোঝানোর জন্যই তৈরি করা। অর্থাৎ বোঝা যাচ্ছে যে বিশ্বের বেশির ভাগ ভাষাই আসকি বা অন্যান্য কোড দ্বারা প্রকাশ করা সম্ভব হয় না। আসকি কোডের সব সীমাবদ্ধতাকে দূর করে প্রস্তুত করা হয়েছে ইউনিকোড। এই কোড পৃথিবীর প্রতিটি ভাষার প্রতিটি অক্ষরের জন্য একটি একক সংখ্যা/নম্বর বরাদ্দ/প্রদান করে, সেটা যে প্ল্যাটফর্মের জন্যই হোক, যে প্রগ্রামের জন্যই হোক, আর যে ভাষার জন্যই হোক। এটি ১৬ বিট বা ২ বাইট নিয়ে গঠিত এবং এই কোডের সাহায্যে বর্তমানে ৬৫৫৩৬ (=২১৬)টি অদ্বিতীয় চিহ্নকে নির্দিষ্ট করা যায়। প্রচলিত ভাষার চিহ্ন ছাড়াও যতি বা বিরাম চিহ্ন, অক্ষর সংলগ্ন চিহ্ন (যেমন—বাংলায় হসন্ত), সংগীতশাস্ত্রে ব্যবহৃত চিহ্ন, সাধারণ ও উচ্চতর গণিতের সঙ্গে সম্পর্কিত চিহ্ন, প্রকৌশলগত চিহ্নসহ নানা ধরনের চিহ্নকে প্রকাশ করতে পারে।

এখন পর্যন্ত যেসব লিপি ইউনিকোডে অন্তর্ভুক্ত হয়েছে সেগুলো হচ্ছে, আরবি, আর্মেনীয়, বাংলা, ব্রাই বা ব্রেইল, কানাডীয় আদিবাসী, চেরোকি, কপ্টীয়, সিরিলীয়, দেবনাগরী, ইথিওপীয়, জর্জীয়, গ্রিক, গুজরাটি, গুরুমুখী (পাঞ্জাবি), হান (কাঞ্জি, হাঞ্জা, হাঞ্জি), হাঙ্গুল (কোরীয়), হিব্রু, হিরাগানা ও কাতাকানা (জাপানি), আ-ধ্ব-ব খমের (কম্বোডীয়), কন্নড়, লাও, লাতিন, মালয়ালাম, মঙ্গোলীয়, বর্মী, ওড়িয়া, সিরীয়, তামিল, তেলেগু, থাই, তিব্বতি, টিফিনাঘ, য়ি, ঝুয়িন। এটিতে ১৫৯টি আধুনিক ও ঐতিহাসিক লিপির লিখন প্রতীক ছাড়াও অন্য অনেক প্রতীক, ইমোজি (আবেগ-অনুভূতিজ্ঞাপক চিত্রপ্রতীক) এবং অদৃশ্য নিয়ন্ত্রণ ও বিন্যাস সংকেতের জন্য এক লাখ ৪৪ হাজার ৭৬২টি পরিগণনীয় প্রতীক সংজ্ঞায়িত করা হয়েছে। আরো আট লাখ ৭০ হাজার কোড পয়েন্ট অব্যবহৃত অবস্থায় রাখা হয়েছে ভবিষ্যতের কথা বিবেচনা করে।

ডিজিটাল সিস্টেমে কোনো ভাষালিপির এনকোডিং আন্তর্জাতিকভাবে স্বীকৃত হলেই সেই ভাষায় ইন্টারনেটে বিশ্বব্যাপী তথ্য বিনিময় করা যায়। আর ভাষার জন্য তথ্য বিনিময়ের এই কাজটিই করে থাকে ইউনিকোড। এটি হচ্ছে আন্তর্জাতিক বর্ণ সংকেতায়নের প্ল্যাটফর্ম বা ইউনিকোড কনসোর্টিয়াম। ১৯৯১ সালে অ্যাপল ইনক ও জেরক্স করপোরেশন যৌথভাবে ইউনিকোড উদ্ভাবন করে। বাংলা ভাষাকে ইউনিকোডভুক্ত করার জন্য ২০১০ সালে ওই কনসোর্টিয়ামের সদস্য পদ দেওয়া হয়। ফলে ইন্টারনেটের সাহায্যে যেকোনো ডিজিটাল ডিভাইসে অনায়াসেই বাংলায় লেখা তথ্য বিনিময় করা যায়। চায়নিজ, জাপানিজ, কোরিয়ান, স্প্যানিশ, হিন্দি ইত্যাদি অনেক আগেই ইউনিকোডভুক্ত হওয়ায় তথ্য-প্রযুক্তির এই সুযোগটি কাজে লাগিয়ে বিশ্বব্যাপী ভাষার আদান-প্রদান করছে এবং ছড়িয়ে দিচ্ছে তাদের শিক্ষা-সংস্কৃতি ও ঐতিহ্যকে। অ্যাপল, এইচপি, আইবিএম, জাস্টসিসটেম, মাইক্রোসফট, ওরাকল, স্যাপ, সান, সাইবেজ, ইউনিসিসসহ অনেক কম্পিউটার উন্নয়নকারী সংস্থা এই কোডকে আদর্শ হিসেবে গ্রহণ করেছে। সাধারণত আসকি কোডে অক্ষর বা চিহ্নকে নিউমেরিক পদ্ধতিতে প্রকাশ করা হয়, আর ইউনিকোডে তা হেক্সাডেসিমাল পদ্ধতিতে লেখা হয়। যেমন—আসকি কোডে

A ও a-এর মান যথাক্রমে ৬৫ ও ৯৭, আর ইউনিকোডে তা u00৪১ এবং u00৬১ । বর্তমানে বিশ্বব্যাপী ইউনিকোডের পাশাপাশি প্রচলিত আসকি কোডও চালু আছে।

মাতৃভাষার মাধ্যমে তথ্য আদান-প্রদান ছাড়াও এখনকার দিনে বেশির ভাগ মানুষ টেক্সট মেসেজেই কথা বলতে স্বাচ্ছন্দ্য বোধ করে। আর টেক্সট মেসেজে আবেগের বহিঃপ্রকাশের জন্য ব্যবহার করা হয় ইমোজি। সোশ্যাল মিডিয়া, কমার্শিয়াল, প্রফেশনাল, নন-প্রফেশনাল সব জায়গায়ই ইমোজির ব্যবহার দেখা যায়। ডিজিটাল দুনিয়ায় সব মিলিয়ে মোট তিন হাজার ৬৬৫টি ইমোজি রয়েছে। ইউনিকোডের সর্বশেষ ভার্সন ১৪.০-তে সব ধরনের ডিজিটাল ডিভাইসে উপরোক্ত সব ইমোজির ব্যবহারসহ ‘বিনস’, ‘ট্রোলস’, ‘মিরর বল’ ও ‘মেল্টিং ফেইস’-এর মতো ইমোজিগুলোর মাধ্যমে তথ্যের আদান-প্রদান করতে পারছে ব্যবহারকারীরা। সংযুক্ত হয়েছে নতুন ১৫টি ভিন্ন ধরনের ‘স্কিন টোন’-এর হ্যান্ডশেক। শিগগিরই অন্তর্ভুক্ত হবে ‘প্রেগন্যান্ট ম্যান’ ও ‘প্রেগন্যান্ট পারসন’ ইমোজির ব্যবহার। ইউনিকোড কনসোর্টিয়াম ইমোজির মানদণ্ড বিবেচনা করে আরো নতুন নতুন ইমোজি প্রকাশের ব্যবস্থা নিচ্ছে, যাতে ব্যবহারকারীরা লেখার পরিবর্তে প্রতীক (ইমোজি) ব্যবহার করে আরো দ্রুতগতিতে মাতৃভাষায় তথ্যের আদান-প্রদান করতে পারে এবং সর্বত্র ছড়িয়ে দিতে পারে নিজস্ব সংস্কৃতি।

তথ্য-প্রযুক্তি উদ্ভাবনে ও প্রয়োগে যেসব দেশ এগিয়ে রয়েছে, সেসব দেশে প্রযুক্তিতে মাতৃভাষার ব্যবহার বেশি গুরুত্ব দিচ্ছে। বর্তমানে চীনে ইন্টারনেট ব্যবহারকারীর সংখ্যা প্রায় ৫০ কোটি। প্রায় ৩৫ কোটি মানুষ বাংলায় কথা ও তথ্য আদান-প্রদান করে। ব্যবহারকারীর সংখ্যায় এটি জাতিসংঘের ষষ্ঠ ভাষা এবং আন্তর্জাতিক মাতৃভাষা হিসেবে স্থান পেয়েছে। সার্চ ইঞ্জিন গুগলও ১৩০টি ভাষার সঙ্গে বাংলাকে যুক্ত করেছে। ফলে বাংলা উইকিপিডিয়া এখন বিশ্বের বৃহত্তম বাংলা ভাষার ওয়েবসাইট। ভাষাকে যান্ত্রিকীকরণ ও পরিপূর্ণ প্রযুক্তিবান্ধব করে শিক্ষা-সংস্কৃতি, গবেষণা, ব্যবসা-বাণিজ্য ইত্যাদি কাজে ব্যবহার করে অর্থকরী সম্পদে পরিণত করা যায়। সে জন্য মাতৃভাষা ডিজিটাইজেশনের মাধ্যমে সর্বজনীন করার কোনো বিকল্প নেই।

লেখক : অধ্যাপক, আইআইটি, জাহাঙ্গীরনগর বিশ্ববিদ্যালয়

শেয়ার করুন