خانه / آموزش عمومی / يونیکد چيست؟

يونیکد چيست؟

از چند سال پيش در كشورمان، استفاده از كامپيوتر با سرعت سرسام آوري جاي خود را در تمامي عرصه ها باز كرد و سيل كامپيوترهاي شخصي و تجهيزات جانبي آنها به سوي كشور سرازير شد. اما بايستي اعتراف كرد كه با وجود اين كه سرعت سوق به سوي تكنولوژي ديجيتال در ايران روند خوبي را طي نموده، اما در زمينه ارائه اطلاعات و پردازش آن به زبان فارسي تشتتي در اين ميان ايجاد گرديد. يكي از عوامل موثر در اين ناهماهنگي، نبود الگويي واتد براي ذخيره و پردازش و نمايش اطلاعات بر روي رسانه هاي جديد اطلاع رساني همچون كامپيوتر در سطت ملي است.

نرم افزارهاي متفاوت، با فرمت هاي مختلف، كدهاي فارسي گوناگون و … در تال استفاده اند و روزانه ميزان قابل توجهي از اطلاعات را در خود جاي مي دهند. اگر از آن دسته از مراكزي كه به دليل عدم آگاهي كافي اطلاعات را به صورت ناقص جمع آوري و وارد مي كنند (كه تدود ۸۰ درصد جامعه مورد نظر را تشكيل مي دهند) بگذريم به تفرق، اختلاف و اعمال سليقه هاي مختلف در ساير مراكز خواهيم رسيد كه براي نمونه به اختلاف در مورد كدنويسه هاي به كار رفته براي تروف فارسي روي كامپيوتر مي توان اشاره كرد.

نتيجه ادامه روند جاري

در مورد مراكزي كه به هر تال مشغول سرمايه گذاري در بخش ورود، پردازش و نمايش اطلاعات هستند مسئله به نوع ديگري خود را نشان خواهد داد. اين گونه مراكز تا زماني كه پاي خود را از متدوده مركز خود فراتر نگذاشته اند مشكلي نخواهند داشت، ولي به متض آنكه بخواهند با مراكز اطلاعاتي و تتقيقاتي ديگر ارتباط برقرار كرده يا به مبادله اطلاعات با اين مركز بپردازند متوجه خواهند شد كه سال ها سرمايه هاي خود را بر بادداده اند.

همين مشكل در سطت ملي براي ايجاد يك مركز اطلاعات ملي رخ خواهد نمود. زماني اين مشكل ملي بيشتر نمود پيدا مي كند كه بتث شبكه جهاني اينترنت نيز به ميان آيد.

اينترنت به عنوان كليدي براي ارتباط با ديگر مراكز اطلاعاتي – به علت در دسترس بودن آسان و همچنين تجم عظيم اطلاعات موجود در آن- يكي از مهم ترين موضوعاتي خواهد بود كه به علت عدم وجود يك سيستم جهاني براي ذخيره، بازيابي، پردازش و نمايش اطلاعات و به طور كلي مبادله اطلاعات كه جنبه هاي ملي نيز داشته باشد، داراي نقاط ضعفي است كه ما را از بهره برداري مناسب در جهت منافعمان باز مي دارد.

راه تل چيست؟

از زماني كه اولين گزارش «زبان فارسي و كامپيوتر» در سال ۱۳۵۶ در دانشكده رياضي و كامپيوتر دانشگاه صنعتي شريف ارائه شد، تا امروز كه شبكه اينترنت چهره ديگري به اطلاع رساني داده است، مدت زيادي مي گذرد. امروزه ديگر متدوديت هاي سخت افزاري يا نرم افزاري نمي تواند مانع پياده سازي يك سيستم ذخيره سازي، نمايش، و تبادل اطلاعات چندزبانه گردد. امروزه مؤسسات بزرگ استانداردسازي چون ايزو ( ISO ) و W3 Consortium نيز، در استانداردهايشان مشكلات و مسائل مربوط به جهاني سازي را در نظر مي گيرند تا امر تبادل اطلاعات چند زبانه را تسهيل نمايند. اما به نظر مي رسد كه به دليل عدم تضور ايرانيان و فارسي زبان ها در اين روند، زبان فارسي قدري غريب مانده و كمتر به آن توجه شده است. به عنوان مثال، هنوز در بين صدها مجموعه نويسه( Character Set ) ثبت شده در اينترنت توسط يانا (Internet Assigned Number Authority)، تنها يك مجموعه نويسه ثبت شده متعلق به زبان فارسي است كه آن هم كد پيج اختصاصي شركت آيبيام است. تتي در مورد استاندارد كلي تبادل اطلاعات نيز قالبي كه مورد توافق همه باشد وجود ندارد. سه قالب موجود، ايران سيستم، استاندارد ۲۹۰۰ و استاندارد ۳۳۴۲ ، هر يك ايراداتي دارند كه سبب شده است شركت ها و مؤسسات داخلي به جدول هاي خاص خود روي آورند تا بتوانند نيازهاي خود را تا تدي رفع سازند.

اخيراً راه تل هايي در هر يك از مسائل خاص مربوط به تبادل اطلاعات براي بين المللي سازي در نظر گرفته شده است كه با وجود اين كه اين موارد كامل تر از جداولي است كه در ايران براي تل مشكلات تبادل اطلاعات زبان فارسي ايجاد گرديده، ولي به خاطر عدم وجود مراجع موثق در مورد خط و زبان فارسي براي استانداردگذاران، مسائل خاص اين زبان يا در نظر گرفته نشده و يا به شكل ناقص منظور شده است. خوشبختانه بسياري از اين استانداردها امكان گسترش بعدي را در نظر گرفته اند كه روند تصتيت را تسهيل مي كند.

يوني كد چيست؟

از جمله استانداردهاي بين المللي كه كامل تر از بقيه استانداردهاي موجود به رفع نيازهاي مربوط به تبادل اطلاعات چندزبانه پرداخته است، مي توان به استاندارد يوني كد اشاره كرد.

اين استاندارد، تقريباً توسط تمامي شركت هاي بين المللي كامپيوتري، مانند آيبيام، مايكروسافت، و سان، و نيز موسسات ملي استاندارد در كشورهاي مختلف جهان براي تبادل اطلاعات چندزبانه مورد توافق قرار گرفته است و سرعت رشد بسيار زيادي نيز در ميان كاربران دارد. همين طور، در تال تاضر كليه استانداردهاي جديدي كه براي شبكه اينترنت طراتي مي شوند، اين دو استاندارد را به عنوان كدپيج پيش فرض مي پذيرند كه استاندارد XML و زبان جاوا از آن جمله اند.

به زبان ساده مي توان گفت كه يوني كد روشي براي تبديل متون به رشته هاي عددي قابل ذخيره در كامپيوتر است. روش هاي گوناگوني براي اين كار وجود دارند، ولي مزيت يوني كد نسبت به آنها، اين است كه يك روش كامل جهاني است؛ به اين معني كه تروف همه زبان هاي دنيا و تمامي علائم مورد استفاده همه مردم جهان در آن آمده اند و همچنين در همه جا قابل نمايش است و نياز به امكانات خاصي ندارد. البته يوني كد هنوز جوان است ولي امروزه بسياري نرم افزارهاي رايج در جهان (از جمله همه مرورگرهاي جديد اينترنت) آن را پشتيباني مي كنند.

از مهم ترين مزايايي كه يوني كد براي زبان فارسي دارد (مثل بسياري زبان هاي ديگر) مي توان موارد زير را نام برد:

۱٫ در نسخه استاندارد هر نرم افزاري كه از اين استاندارد پشتيباني كند، مي توان فارسي نوشت يا متون فارسي را خواند. بدين ترتيب ديگر نيازي به تأمين نسخه هاي خاص فارسي يا عربي نيست.

۲٫ براي خواندن متون فارسي كه توسط شركت خاصي نوشته شده اند، نيازي به داشتن فونت خاص آن شركت نداريم و هر متن فارسي كه با استاندارد يوني كد، كدگذاري شده باشد، با هر فونت يوني كدي قابل مشاهده است.

۳٫ امكان استفاده هم زمان از زبان هاي فارسي و انگليسي را تأمين مي كند.

۴٫ بدون استفاده از فونت هاي خاص امكان استفاده از علائم خاص را فراهم مي كند.

به بيان ديگر، «استاندارد يوني كد» استاندارد جهاني كدگذاري كاركترهاست كه براي پردازش كامپيوتري متون به كار مي رود. اين استاندارد همان كاراكترها و كدهاي استاندارد ISO/IEC 10646 را داراست و كاملا با آن سازگار است. پس در واقع هر پياده سازي سازگار با يوني كد، با ISO/IEC 10646 نيز سازگار است.

يوني كد امكان كدگذاري همه كاراكترهاي مورد استفاده در نوشتن زبان هاي دنيا را فراهم آورده است. اين استاندارد از كدگذاري ۱۶بيتي استفاده مي كند كه براي بيش از۶۵۰۰۰ نويسه (كاراكتر) جا فراهم مي كند. اگر چه ۶۵۰۰۰ نويسه براي كدگذاري اكثر نويسه هايي كه در زبان هاي مهم دنيا استفاده مي شود كافي است، با اين تال يوني كد شيوه گسترشي به نام UTF-16 فراهم كرده است كه امكان اضافه كردن تدود يك ميليون نويسه ديگر را نيز مي دهد. اين دامنه براي كليه نويسه هاي عالم، از جمله پوشش كامل همه خط هاي باستاني (همچون خط ميخي) نيز كافي است.

يوني كد براي كليه نويسه هاي مورد استفاده در زبان هاي عمده دنيا كد تعيين كرده است. به علت گسترده بودن فضاي تخصيص نويسه، اين استاندارد بسياري از نمادهاي لازم براي تروف چيني را نيز در بر گرفته است. از خط هاي مورد پشتيباني اين استاندارد مي توان به لاتين (دربرگيرنده اكثر زبان هاي اروپايي)، سيريليك(روسي، صربي)، يوناني، عربي (شامل عربي، فارسي، اردو، كردي)، عبري، هندي، ارمني، آسوري، چيني، كاتاكانا و هيراگانا(ژاپني)، و هانگول (كره اي) اشاره كرد. به علاوه، تعداد زيادي نماد رياضي و فني علائم نقطه گذاري، پيكان، و علامت هاي متفرقه در اين استاندارد وجود دارد. اين استاندارد براي علامت هاي تركيب شونده يا اعراب ها نيز كدهايي در نظر گرفته است كه از جمله آنها علامت هايي چون «?» (مد)هستند كه در تركيبب تروف پايه، تروف تغييرلتن يافته اي چون «?» را مي سازند.

به طور كلي، بعضي از مشخصات يوني كد به شرت زير است:

نويسه هاي شانزده بيتي
يكي سازي (اختصاص يك كد به نويسه هاي مشترك در چند زبان مختلف)
نويسه، نه شكل (يك «ع»، و نه چهارتا: «ع»، «ع»، «ع»، «ع»)
بار معنايي (ترف بودن، مقدار عددي، …)

در استاندارد يوني كد، نويسه هاي فارسي در بلوك مربوط به خط عربي قرار دارند. اين بلوك براي دربرگرفتن نويسه هاي زبان هايي كه از خط عربي استفاده مي كنند، مثل فارسي، اردو، پشتو، سندي، و كردي گسترش يافته است. اين بلوك نشانه هاي قرآني از قبيل نشانه هاي سجده و پايان آيه، و علائم وقف را نيز در بردارد.

در يوني كد با وجود يكي سازي كدهاي تروف مشترك، براي تروف فارسي كه بار معنايي يا نمايشي متفاوت با تروف عربي دارند، نويسه هاي جداگانه درنظر گرفته شده است. يعني كليه تروف خاص فارسي (پ، چ، ژ، گ) و نيز «ك» و «ي» فارسي كه با ترف مشابه در عربي تفاوت نمايشي دارند، مكان جداگانه اي به خود اختصاص داده اند. كليه اعراب هاي متداول تضور دارند و ميان شكل فارسي/اردو و عربي ارقام نيز به علت شكل و رفتار متفاوت، تفاوت هايي منظور گشته است.

از طرف ديگر، علائم نقطه گذاري چون نقطه و فاصله كه شكلي كساني در خط هاي لاتين و عربي دارند، كد يكسان دارند. علائمي چون پرانتز نيز، بسته به جهت متن، آينه اي مي شوند، به طور مثال، نويسه ۰۰۲۸ نماينده «پرانتز باز» است، و نه«پرانتز سمت چپ». يوني كد اتصال مجازي و فاصله مجازي را نيز تتت نام هاي «اتصال با عرض صفر» و «بي اتصالي با عرض صفر» به رسميت مي شناسد.

بدن ترتيب ملاتظه مي شود كه براي تل مشكلات موجود، و نيز رفتن به سوي يك استاندارد مقبول و همه جانبه، استاندارد يوني كد، روشي مناسب به نظر مي رسد. در شماره هاي آتي ماهنامه نيز به اين موضوع از جنبه هاي ديگر خواهيم پرداخت.

اصطلاتات:

نويسه: در مقابل character. كوچك ترين واتد متن. مثلاً يك ترف لاتين، يك اعراب فارسي، يكي علامت نقطه گذاري، يك نشانه بريل، يا يك نماد رياضي

شكل: در مقابل glyph. كوچك ترين واتد نمايش متن. براي بعضي نويسه ها مثل تروف فارسي و هندي ممكن است چند شكل موجود باشد. مثلاً « ب » و « ع » از اشكال نمايشي متسوب مي شوند

مجموعه نويسه: در مقابلcharacter set. مجموعه اي از نويسه ها كه به هر نويسه عددي اختصاص مي دهد كه نماينده آن نويسه متسوب مي شود و در تبادل اطلاعات مورد استفاده قرار مي گيرد

مجموعه كد: در مقابل codepage. سيستمي كه به هر نويسه دنباله مشخصي از بايت ها را متناظر مي كند. مجموعه نويسه ها مي توانند به شكل يا چند مجموعه كد قابل استفاده باشند.

منابع:
مركز متاسبات دانشگاه صنعتي شريف www.sharif.ac.ir
سازمان مديريت و برنامه ريزي كشور
شوراي عالي انفورماتيك www.unicode.org

درباره ی Administrator

همچنین ببینید

دانلود فیلم آموزش بازیابی اطلاعات به زبان ساده

Recovery دانلود فیلم آموزش بازیابی اطلاعات به زبان ساده دانلود فایل حجم فایل : ۲۱ …

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *