You are on page 1of 22

‫العدد التاسع والعشرون ‪1027‬‬ ‫مجلة كلية المأمون الجامعة‬

‫حماية وثائق النصوص العربية االلكترونية باستخدام‬


‫العالمات المائية‬
‫د‪ .‬عبد اللطيف علي حسين‬
‫الجامعة العراقية – كلية التربية ‪ -‬قسم الحاسوب‬

‫المستخلص‪:‬‬
‫يبتكر البحث طريقة جديدة إلدراج عالمات مائية في ملفات النص العربي باستخدام عالمات‬
‫التشكيل (‪ .)Diacritical Marks‬يتم بوساطتها إدراج معلومات حقوق الملكية الفكرية‬
‫للمالك الحقيقي في النسخة األصلية و النسخ المستنسخة عنها‪ .‬و إدراج معلومات عن‬
‫المشتري األول للمستند لمنع تداوله خارج االتفاقات المبرمة مع المشتري‪.‬‬

‫نظام الكتابة في اللغة العربية يتكون من حروف أساس (‪ ,)Basic letters‬وتسمى أيضا‬
‫الحروف الصامتة (‪ ,)Consonant‬عالمات تشكيل تستخدم كحركات لضبط معاني الكلمات و‬
‫تطبيق القواعد النحوية في إعراب الكلمات و الجمل‪ ,‬تتصف عالمات التشكيل بان كتابتها في‬
‫النص اختيارية‪ ,‬و عالمات الفصل و الوصل (‪.)Punctuation Marks‬‬

‫طورت عدة أطقم من الحروف (‪ )Fonts‬لكتابة ملفات النصوص العربية‪ ,‬اختلفت هذه األطقم‬
‫بأشكالها و بانتمائها إلى األنواع المتعددة من حروف الحاسوب‪ .‬و لكنها جميعا تمثل محاوالت‬
‫الستيعاب خصائص الحرف العربي و اللغة العربية‪.‬‬

‫الطريقة المقترحة في بحثنا هذا‪ ,‬تفتح المجال إلضافة العالمات المائية إلى ملفات النصوص‬
‫العربية االلكترونية‪ ,‬تتيح للمالك إثبات حق ملكيته للمستند أمام القضاء‪ .‬وهي‪:‬‬
‫‪ ‬طريقة الترميز بالظهور و االختفاء المتتالي للحركات‪.‬‬
‫درس البحث طريقة تمثيل الحرف‪ ,‬و أجزاءه المكونة له‪ ,‬في الحاسوب‪ ,‬و خصائص تمثيل‬
‫عالمات التشكيل في حروف الحاسوب بشكل عام و ركز على عالمات التشكيل في أطقم الحرف‬
‫العربي في الحاسوب بشكل خاص‪ .‬وكانت اإلمكانية عالية إليجاد عالمات مائية رقمية‬
‫في النص العربي‪ ,‬باستخدام عالمات التشكيل عديمة العرض ( ‪Zero Width‬‬
‫‪.)Diacritic Marks‬‬
‫تعرض البحث إلى سبل زيادة كفاءة هذه الطريقة و درجة مقاومتها للهجمات المحتملة على‬
‫النص المحمي‪.‬‬

‫الكلمات المفتاحية ‪ :‬العالمات المائية ‪ ،‬النصوص العربية االلكترونية ‪ ،‬سرية المعلومات‬


‫‪،‬اخفاء المعلومات‬
1027 ‫العدد التاسع والعشرون‬ ‫مجلة كلية المأمون الجامعة‬

Watermarking Electronic Arabic-text


Documents

Abstract:
This paper presents a new method to incorporate watermarks in the
Arabic text files using diacritics. Intellectual property rights of the real
owner included in the original version and the other copies, with
information about the first buyer of the document to prevent the
circulation outside the agreement of the buyer.
Writing system in the Arabic language consists of (Basic letters), also
called (Consonants), (diacritics) to adjust the meanings of words and the
application of grammatical rules to express words and phrases, and
(Punctuation Marks (. Diacritics are written in the text optionally.
Several sets of characters (Fonts) are developed to write Arabic text files,
these sets differ in forms and belong to the multiple kinds of computer
fonts. They all represent attempts to accommodate the Arab : Character
and the characteristics of the Arabic language.
The proposed method in our research aims to add watermarks to the
electronic Arabic text files, allowing the owner to prove his ownership of
the document in front of the judiciary. This is:
 Coding method by view and hide diacritics sequentially.
The research studied font representation and its components in computer,
and the characteristics of diacritics representation in Arabic font sets in
computer in particular. There was high capability to insert digital
watermarks in the Arabic text using (Zero Width Diacritic Marks).
The research presents approaches to increase efficiency and resistance of
this method against attacks.

Keywords: Watermarking, Arabic E-Documents, Information security,


Information hiding.
‫العدد التاسع والعشرون ‪1027‬‬ ‫مجلة كلية المأمون الجامعة‬

‫‪ . 2‬مقدمة‪:‬‬
‫تنقسم تقنيات إخفاء المعلومات (‪ )Information hiding‬إلى قسمين هما الكتابة‬
‫المخفية (‪ )Steganography‬و العالمات المائية (‪ .)Watermarking‬تركز‬
‫تقنيات الكتابة المخفية ‪ ,‬االهتمام على توفير امن المعلومات السرية بوساطة‬
‫إخفائها في الوسط الغطاء‪ ,‬يتجه التركيز في العالمات المائية الرقمية إلى توفير‬
‫معلومات إضافية عن الوسط الغطاء مخفية فيه‪)Judge, 2001(,‬‬
‫‪.)Johnson et al.2000 (, )Katzenbeisser & Petitcolas,2000(,‬‬
‫الغرض الرئيس من إضافة العالمات المائية الرقمية هو حماية محتويات معينة من‬
‫النسخ و النشر غير المخول بوساطة تمكين المالك من إثبات ملكيته للمحتوى أمام‬
‫المحاكم‪ .‬يعتمد ذلك عادة على وجود مدى واسع من الضوضاء‪ ,‬ضمن المحتوى‪,‬‬
‫يمكن التغيير فيه مع احتفاظ المادة التي تحتويه على خواصها األساسية‪ .‬فمثال‪,‬‬
‫يؤدي تغيير البتات األقل أهمية ( ‪ )Least Significant Bits‬في نقاط صورة‪,‬‬
‫إلى تغيير جودة مظهرها بشكل بسيط‪ ,‬ال يمكن للعين البشرية مالحظته‪ .‬ان حجم‬
‫العالمات المرئية التي يمكن إضافتها (كما في البتات األقل أهمية للصورة ) يعتمد‬
‫على حدود قدرة اإلحساس البشري إلدراك التغيير الصوري أو السمعي‪ .‬معدل‬
‫اإلخفاء (‪ )Hiding rate‬هو نسبة عدد البتات المخفية إلى عدد البتات المستخدمة‬
‫لإلخفاء‪Johnson et al. ( , )Katzenbeisser & Petitcolas,2000(,‬‬
‫‪.)2000‬‬
‫يزداد التركيز على موضوع إدراج العالمات المائية الرقمية باتجاه أنواع من‬
‫البيانات مثل النصوص‪ ,‬البرمجيات‪ ,‬و الخوارزميات‪ ,‬لكون هذه األنواع من‬
‫البيانات تمتاز بشكلها المحدد جدا (مقارنة مع األنواع األخرى كالصور ‪,‬‬
‫المرئيات‪ ,‬و السمعيات)‪ ,‬لذلك تكون القدرة على إدراج العالمات المائية فيها مهمة‬
‫صعبة‪.)Topkara et al.2005 (,‬‬
‫إن التحديات التي تواجه إدراج عالمات مائية رصينة‪ ,‬في مادة ما‪ ,‬تتمثل بما يأتي‪,‬‬
‫(‪:)Topkara et al.2005‬‬
‫‪ .1‬إن حشر العالمة المائية ال يحط من قيمة المادة‪.‬‬
‫‪ .2‬يمكن إثبات العالمة المائية أمام القضاء‪.‬‬
‫‪ .3‬يصعب اكتشاف‪,‬إزالة أو تغيير العالمة المائية‪ ,‬بدون الحط من قيمة‬
‫المادة‪.‬‬
‫‪ .4‬عدم الحاجة لخزن النسخة األصلية للمادة‪.‬‬
‫‪ .5‬يمكن إضافة أكثر من عالمة مائية في المادة نفسها‪.‬‬
‫‪ .6‬يمكن قراءة العالمة المائية بوساطة مفتاح سري‪.‬‬
‫العدد التاسع والعشرون ‪1027‬‬ ‫مجلة كلية المأمون الجامعة‬

‫الحفاظ على قيمة المادة أو إمكانية االستفادة منها هو أمر محوري في عملية إدراج‬
‫العالمات المائية‪ .‬وهو أمر يتعلق كثيرا بنوع البيانات واالستخدام المطلوب لها‪.‬‬
‫فمثال‪ ,‬بالنسبة للنص تعني القيمة أن يعطي النص بعد التغيير المعنى نفسه‪ .‬الشكل‬
‫رقم (‪ )1‬يوضح أنموذجا لعملية إدراج عالمة مائية في نص‪.‬‬

‫‪ . 1‬طرائق إدراج العالمات المائية – عرض تاريخي‪:‬‬


‫طورت العديد من طرائق إدراج العالمات المائية في الوثائق متعددة األوساط‬
‫(‪ ,)Multimedia‬مثل الصور و المرئيات و السمعيات‪ .‬معظم طرائق إدراج‬
‫العالمات المائية في مستندات النصوص اعتمدت على أسلوب تحويل النص إلى‬
‫صورة أوال‪ ,‬قبل إدراج العالمة المائية في صورة النص‪,)Kim ,2004( ,‬‬
‫(‪ .)Brassil et al.1999‬و يعود السبب إلى أن بيانات النص المكتوب تحتوي‬
‫على ضوضاء (‪ )Noise‬و تكرار (‪ )Redundancy‬اقل من البيانات متعددة‬
‫األوساط ذات الضوضاء و التكرار العالي‪,)Topkara et al.2005 ( ,‬‬
‫(‪.)Johnson et al.2000‬‬

‫‪1‬‬
‫‪Mark‬‬

‫‪Cover-text‬‬ ‫‪Marked text‬‬

‫‪Secret/public key‬‬
‫العدد التاسع والعشرون ‪1027‬‬ ‫مجلة كلية المأمون الجامعة‬

‫لذلك يعد اإلخفاء في النص اكثر صعوبة من اإلخفاء في االوساط المتعددة‪ .‬إن‬
‫التقنيات المستخدمة في إخفاء المعلومات في صور النصوص هي‪Bender et (,‬‬
‫‪: )al.1996‬‬
‫أ ‪ -‬ترميز إزاحة السطر (‪.)Line shift coding‬‬
‫ب ‪ -‬ترميز إزاحة الكلمة (‪.)Word shift coding‬‬
‫ج ‪ -‬ترميز الخصائص الصورية (‪.) Feature coding‬‬
‫د ‪ -‬تقنيات المساحات البيضاء (‪.)White space techniques‬‬
‫طرائققق إخفققاء المعلومققات يمكققن أن تسققتخدم ترميققز المعلومققات مبا ققرة فققي الققنص‬
‫( و بذلك تستغل التكرار الطبيعي في اللغة) أو في هيئة النص‪ ,‬بوساطة التعديل فقي‬
‫الخصققائص مققا بققين السققطور (‪ ,)Interline‬أو فققي الخصققائص مققا بققين الكلم ق ات‬
‫(‪.)Johnson et al.2000( ,)Interword‬‬
‫انتققد البقاحثون فقي (‪ ،)Atallah et al. 2001a, 2001b‬الطرائقق التقي تحقول‬
‫القنص إلققى صقورة قبققل إدراج العالمققات المائيقة فيققه‪ ،‬ألن هقذه الطرائققق ال تسققتخدم‬
‫النص ذاته في تمثيقل العالمقة المائيقة‪ ,‬ممقا يجعقل ذلقك غيقر مجقد فقي مجقال اللغقات‬
‫الطبيعيقققة (‪ .)Natural Languages‬فطقققوروا طريققققة إدراج العالمقققات المائيقققة‬
‫باسققتخدام التعققويل بالمرادفققات(‪ )Synonyms Substitution‬لتمثيققل العالمققة‬
‫المائيقققة‪ .‬المثقققال ا تقققي يوضقققح كيفيقققة تمثيقققل سلسقققلة البتقققات الثنائيقققة (‪5= )101‬‬
‫باستخدام العبارة في أدناه‪ .‬تمثل الكلمات بين االقواس المردافقات المحتمقل اسقتخدام‬
‫احداها في تمثيل العالمة المائية‪.‬‬

‫‪‬‬ ‫‪‬‬ ‫‪‬‬ ‫‪‬‬


‫‪0‬‬ ‫‪wonderful‬‬
‫‪1‬‬ ‫‪decent‬‬ ‫‪0 city‬‬
‫‪Midshire is a‬‬ ‫‪2‬‬ ‫‪fine‬‬ ‫‪little‬‬ ‫‪1 town‬‬
‫‪3‬‬ ‫‪great‬‬
‫‪4‬‬ ‫‪nice‬‬

‫يتم حل معادلة من مجهولين (‪: )a1,a0‬‬

‫‪2 a1+‬‬ ‫‪a0 = 5‬‬ ‫)‪…………….(1‬‬

‫مققع التحديققدات التققي تفرضققها المرادفققات (‪ )0 ≥ a0> 2‬و (‪ ,)0 ≥ a1> 5‬ليكققون‬
‫الحققققل هققققو‪ , 2 = a1 ,‬و ‪ .1 = a0‬و يعنققققي هققققذا اختيققققار المرادفققققات (‪ )fine‬و‬
‫(‪ .)Atallah et al.2001b(,)Topkara et al.2005 (,)town‬معقدل اإلخفقاء‬
‫العدد التاسع والعشرون ‪1027‬‬ ‫مجلة كلية المأمون الجامعة‬

‫المتققدني‪ ,‬و ضققعا العالمققة المائيققة امققام الهجققوم التخريبققي‪ ,‬همققا نقققاط ضققعا هققذه‬
‫الطريقة‪.‬‬
‫طققورت طريقققة اخققرى ادرجققت العالمققات المائيققة فققي الققنص باسققتخدام التعققديل فققي‬
‫الهيكقل الشقجري للجمقل (‪ ,)Tree Structure of Sentences‬لتحقيقق متانقة و‬
‫مرونة اكثر في خوارزمية اإلخفاء ‪.)Atallah et al.2002(,‬‬
‫طرائققق اخققرى ولققدت نصوصققا اسققتنادا إلققى القققواميس و القواعققد اللغويققة‪ ,‬لغققرض‬
‫اسققتعمالها كوسققط الخفققاء العالمققات (‪ .)Context-Free Grammar‬و اخققرى‬
‫اسققتخدمت طريقققة هجينققة مققن الطرائققق المققذكورة سققالفا (‪ .)NICETEXT‬معظققم‬
‫طرائق إدراج العالمات المائية تستخدم عمليات التشفير و الترميز إلضافة مستوى‬
‫أعلقى مقن السقرية(‪Johnson et (, )Katzenbeisser & Petitcolas,2000‬‬
‫‪.)al.2000‬‬

‫‪ . 3‬أطقم الحروف في الحاسوب ‪:Computer Font‬‬


‫تنقسم أطقم حروف الحاسوب حسب عرض الفراغ األفقي المخصص لحروفها‬
‫ضمن سياق النص‪ ,‬و كما يأتي‪: )3( ،)2( ، )1(,‬‬

‫‪ ‬أطقم الحروف ثابتة العرض ‪fixed-width Fonts‬‬


‫‪ ‬أطقم الحروف تناسبية العرض ‪Proportional Fonts‬‬

‫في كال النوعين توجد مكونات ( حروف‪ ,‬رموز‪ ,‬او عالمات)‪ ,‬ليس لها عرض‬
‫أفقي خاص بها‪ ,‬تحتله عند ورودها في سياق النص‪ .‬يدعى هذا النوع من المكونات‬
‫بعديمة العرض (‪)Zero- width‬‬

‫‪ . 2 . 3‬العالمات عديمة العرض ‪:Zero Width Marks‬‬


‫يمكن تمثيل سالسل من الحروف كحرف واحد يسمى الحرف المركب‬
‫(‪ )Precomposed‬او (‪ )Composite‬أو (‪ .)Decomposable‬مثال ذلك‬
‫الحرف "‪ "ü‬يمكن ترميزه كحرف مفرد بالرمز (‪ ,)U+00FC‬أو بحرف أساس‬
‫"‪ "u‬متبوعا بالعالمة عديمة العرض "¨" ذات الرمز (‪ .)U+0308‬تركب الشفرة‬
‫الموحدة الحروف بحسب قواعد هذه اللغات‪ ,‬تحقيقا للتوافق مع اللغات التي تحتوي‬
‫العديد من الحروف المركبة‪.‬‬
‫العدد التاسع والعشرون ‪1027‬‬ ‫مجلة كلية المأمون الجامعة‬

‫‪ . 1 . 3‬أطقم الحروف العربية في الحاسوب‪:‬‬


‫استخدمت عدة مجموعات حروف (‪ )Character Sets‬لترميز االبجدية العربية‪,‬‬
‫اهمها (‪ )ISO-8859-6( ,)Arabic Windows,CP-1256‬و الشفرة الموحدة‬
‫(‪ .)Unicode‬ستكون الشفرة الموحدة هي المعول عليها في هذا البحث لكونها‬
‫الشفرة القياسية األكثر استخداما‪.)4( ,‬‬

‫‪ . 2 . 1 . 3‬األبجدية العربية في الشفرة الموحدة‪:‬‬


‫ترميز االبجدية العربية في الشفرة الموحدة يقع في الجزء المسمى (المقطع‬
‫العربي)‪ ,‬و هي المدخالت من (‪ )U+0600‬إلى (‪ )U+06FF‬في سلسلة الرموز‬
‫للشفرة الموحدة‪ .‬وال تحتوي أي من هذه المجاميع على قواعد للشكل الذي سيأخذه‬
‫الحرف‪ ,‬ابتدائي‪ ,‬وسطي‪ ,‬و نهائي‪ ,‬خالل النص‪ ,‬فقد ترك ترميز ذلك إلى ما يدعى‬
‫بماكنة التشكيل (‪ ) Rendering engine‬الختيار الشكل الطباعي المناسب‬
‫للحرف وفق سياق النص‪ .‬توجد في الشفرة الموحدة سالسل الرموز التالية‪)4(,‬‬
‫‪: )5(,‬‬

‫سلسلة الرموز العربية (‪ :(0600–06FF‬ترمز الحروف العربية‬ ‫‪‬‬


‫األساس و عالمات التشكيل‪ .‬وال تتضمن صيغ االقتران ( ‪Contextual‬‬
‫‪ )forms‬بين الحروف‪.‬‬
‫سلسلة ملحق الرموز العربية )‪ :(0750–077F‬تتضمن أ كال‬ ‫‪‬‬
‫الحروف التي تستخدم غالبا في لغات افريقية غير العربية‪.‬‬
‫سلسلة صيغ التمثيل العربية المجموعة ‪:(FB50–FDFF) ,A‬‬ ‫‪‬‬
‫تتضمن صيغ االقتران و روابط (‪ )Ligatures‬مختلا الحروف‬
‫الضرورية في اللغة الفارسية‪ ,‬األردية‪ ,‬السندية‪ ,‬و لغات آسيا الوسطى‪.‬‬
‫سلسلة صيغ التمثيل العربية المجموعة ‪ :(FE70–FEFF) ,B‬تتضمن‬ ‫‪‬‬
‫صيغ الفراغات لعالمات التشكيل العربية و صيغ اقتران أخرى‪.‬‬

‫‪ . 1 . 1 . 3‬عالمات التشكيل أو الحركات في اللغة العربية‪:‬‬


‫تشمل عالمات التشكيل في اللغة العربية الحركات اإلعرابية االربع (الفتحة‪,‬‬
‫الضمة‪ ,‬الكسرة‪ ,‬السكون)‪ ,‬يضاف لها حركات التنوين الثالث و الشدة‪Elshafei (,‬‬
‫‪ .)et al.2006‬و تتصا جميعها بما يأتي‪:‬‬

‫‪ ‬الحركققققققات االربققققققع فققققققي اللغققققققة العربيققققققة تمثققققققل صققققققوتا قصققققققيرا‬


‫‪ )Short‬يغيققققققر طريقققققققة نطققققققق الحققققققرف االسققققققاس‪,‬‬ ‫(‪sound‬‬
‫تسققققققتخدم للتمييققققققز بققققققين الكلمققققققات ذات اال ققققققكال المتشققققققابهة فققققققي‬
‫العدد التاسع والعشرون ‪1027‬‬ ‫مجلة كلية المأمون الجامعة‬

‫الصقققققورة و المختلفقققققة فقققققي النطقققققق‪ ,‬و ققققققد يتغيقققققر معنقققققى الكلمقققققة‬


‫نتيجة لذلك‪.‬‬
‫ان كتابة الحركات في اللغة العربية اختيارية‪ .‬فالقارئ العربي غالبا ما‬ ‫‪‬‬
‫يقرأ النص المكتوب بدون الحاجة إلى وجود الحركات مع الحروف و‬
‫يتم تقدير وجودها من قبل القارئ حسب ورودها في سياق النص‪ .‬و‬
‫لذلك فان غياب الحركات عن النص كليا أو جزئيا ال يثير غرابة لدى‬
‫القارئ للنص‪.‬‬
‫تتغير بعل الحركات المرافقة للكلمة الواحدة بحسب موقع الكلمة‬ ‫‪‬‬
‫ضمن النص‪ .‬ان ظهور حركة معينة على الحرف يتغير على وفق‬
‫قواعد اعرابية و لغوية خاصة باللغة العربية‪ ,‬مثل رفع االسم حين يرد‬
‫في موقع الفاعل و نصبه حين يرد في موقع المفعول به‪ ,‬و هكذا‪.‬‬
‫ال تمتلك الحركات فراغا افقيا خاصا بها ضمن النص‪ ,‬بل تكتب‬ ‫‪‬‬
‫الحركات فوق أو تحت الحرف االساس و هي لذلك تندرج تحت‬
‫صنا العالمات عديمة العرض‪.‬‬
‫يمكن توليد الحركات آليا في الحاسوب للنصوص الخالية من‬ ‫‪‬‬
‫الحركات‪ .‬استنادا إلى دراسة احصائية لكم كبير من النصوص التي‬
‫تحتوي الحركات كما في البحوث المشار لها في‪Elshafei et (,‬‬
‫‪ ,)Gal, 2002( ,)al.2006‬مستخدمة أنموذج ماركوف‪.‬‬

‫تتيح هذه المواصفات استخدام الحركات في تقنية تثبيت عالمات مائية في النص‬
‫العربي و كما سيرد في الطريقة المقترحة في بحثنا الحقا‪.‬‬

‫‪ . 4‬طريقة البحث المقترحة لتثبيت العالمات االمائية الخفية باستخدام الحركات‪:‬‬


‫تستند الطريقة التي يقترحها بحثنا هذا‪ ,‬إلى كون عنصري اإلخفاء‬
‫(الضوضاء‪ ,‬و التكرار) يتوفران باستخدام الحركات في النص العربي لالسباب‬
‫ا تية‪:‬‬
‫‪ .1‬اختيارية وجود الحركات و عدم لزومها يوفر نوعا من الضوضاء ال يؤثر‬
‫حذفه في اغلب االحوال على صحة سياق النص‪.‬‬
‫‪ .2‬اختيارية وجود الحركات و عدم لزومها يوفر ايضا المظهر البريء للنص‬
‫الخالي‪ ,‬كليا أو جزئيا‪ ,‬من الحركات‪.‬‬
‫‪ .3‬تكرار الحركات على الحروف يوفر مساحة إلخفاء كمية كبيرة من‬
‫المعلومات اذا قورنت بتقنيات اإلخفاء األخرى المستخدمة في اإلخفاء‬
‫في النصوص‪.‬‬
‫‪ .4‬عدد الحركات يوفر امكانية للترميز باربعة رموز بدال من الترميز الثنائي‪.‬‬
‫العدد التاسع والعشرون ‪1027‬‬ ‫مجلة كلية المأمون الجامعة‬

‫الطريقة المقترحة في بحثنا هي‪ ,‬طريقة الترميز بالظهور و االختفاء المتتالي‬


‫للحركات‪.‬‬

‫‪ . 2 . 4‬طريقة الترميز بالظهور و االختفاء المتتالي للحركات‪:‬‬


‫تختص الطريقة بإدراج العالمات المائية الرقمية المكتوبة بالترميز‬
‫الثنائي(‪ )Binary Coding‬في النص العربي الذي تقترن حروفه بالحركات‪ .‬في‬
‫حالة عدم اقتران حروف النص بالحركات‪ ,‬كليا أو جزئيا‪ ,‬تستخدم خوارزمية‬
‫مناسبة لتوليد الحركات آليا‪ ,)Elshafei et al.2006(,‬ثم تجرى بعد ذلك عملية‬
‫إدراج العالمة المائية‪.‬‬
‫‪ . 2 . 2 . 4‬إدراج العالمة المائية‪:‬‬
‫تعمل الطريقة المقترحة على تمثيل سالسل البيانات الرقمية الثنائية المكونة‬
‫من الرمزين (‪ )1 ,0‬استنادا لحالة اختفاء أو ظهور الحركة على الحرف‪ ,‬فيتم‬
‫تمثيل الرمز (‪ )0‬بوساطة عدم إظهار الحركة على الحرف‪ ,‬و تمثيل الرمز (‪)1‬‬
‫بوساطة إظهار الحركة على الحرف‪ .‬يتم إهمال مكونات النص غير الحرفية التي‬
‫بين الكلمات (الفراغات‪,‬عالمات الفصل و الوصل‪,‬األرقام‪ ,)...,‬و التي ال تقترن‬
‫عادة بحركات‪ .‬مثال‪ ,‬النص ا تي هو تمثيل لسلسلة الرموز الثنائية المدرجة تحته‪:‬‬

‫اَلُلغَة اَل َعرَبيَةُ ُلغَ ٌة حَيَة‪.‬‬

‫‪011111110110101101‬‬

‫إذا كانت العالمة المائية المطلوب إدراجها في النص ليست بالصيغة الثنائية‪,‬‬
‫فيجب تحويلها أوال‪ ,‬إلى الصيغة الثنائية(‪ )Binary Format‬قبل إدراجها في‬
‫النص‪.‬‬
‫تدرج عدة عالمات في النص الواحد أو تجزأ العالمة الواحدة إلى أجزاء تنتشر في‬
‫مساحة النص‪ ,‬لغرض زيادة رصانة العالمة المائية ضد الهجمات المحتملة‪.‬‬
‫يتكون هيكل العالمة المائية الواحدة من األجزاء ا تية‪:‬‬
‫‪ .1‬بصمة العالمة (‪ : )Mark stamp‬سلسلة من البتات لتعيين بداية‬
‫العالمة‪.‬‬
‫‪ .2‬طول العالمة (‪ :)Mark length‬قيمة عددية تحدد طول العالمة بالبتات‬
‫‪.‬‬
‫‪ .3‬متن العالمة(‪ :)Mark body‬المعلومات التي تتضمنها العالمة المائية‪.‬‬
‫‪ .4‬مؤشر الجزء الالحق(‪ :)Pointer‬قيمة عددية لمؤ ر يحدد موقع العالمة‬
‫التالية أو الجزء التالي للعالمة الواحدة‪ ,‬ضمن النص‪.‬‬
‫العدد التاسع والعشرون ‪1027‬‬ ‫مجلة كلية المأمون الجامعة‬

‫من الواجب ان يكون طول أجزاء العالمة (‪ ,2 ,1‬و ‪ ) 4‬محددا مسبقا بشكل تام‪,‬‬
‫الغرض من ذلك هو تمييز بداية الجزء الخاص بمتن العالمة من بين األجزاء‬
‫األخرى ضمن العالمة الواحدة‪ .‬و يراعى في ذلك دراسة الطول الالزم لكل جزء‪.‬‬
‫و بالتحديدات ا تية‪:‬‬
‫‪ .2‬طول بصمة العالمة المائية‪ :‬زيادة طول البصمة يؤدي إلى زيادة عدد‬
‫تباديل رموزها الثنائية و الذي بدوره يتيح زيادة في تعدد أنواع البصمات‬
‫الممكنة‪ .‬و لكنه بالمقابل يقلل من المساحة المتاحة لمتن العالمة‪.‬‬
‫‪ .1‬طول حقل طول العالمة المائية‪ :‬يجب ان يكون بطول مناسب ليسع تمثيل‬
‫أطول عالمة مائية يحتمل إدراجها‪.‬‬
‫‪ .3‬طول مؤشر الجزء الالحق‪ :‬يجب ان يكون بطول مناسب ليسع تمثيل ابعد‬
‫جزء الحق ضمن النص‪.‬‬

‫في حالة تعدد العالمات المائية‪ ,‬من المفيد تضمين العالمة المائية الواحدة‪ ,‬بيانات‬
‫وسيطة (‪ ,)Metadata‬عن العالمات المائية األخرى‪ .‬مثل (موقع العالمة المائية‪,‬‬
‫تسلسل العالمة ضمن العالمات‪ ,‬عدد العالمات الكلي‪ ,‬طول العالمات الكلي‪.)...,‬‬
‫تساعد هذه البيانات في مقاومة الهجوم الذي يضيا عالمة مائية مزورة إلى النص‪,‬‬
‫أو الهجوم الذي يغير في إحدى العالمات‪ .‬و لغرض تمييز هذه البيانات عن‬
‫معلومات متن العالمة المائية‪ ,‬يجب دراسة تثبيت موقع و طول كل جزء من هذه‬
‫البيانات ضمن هيكل العالمة المائية الواحدة‪ .‬ان مساوئ إدراج مثل هذه البيانات هو‬
‫زيادة تعقيد خوارزمية اإلدراج و اإلدخال‪ ,‬و التقليل من المساحة المخصصة لمتن‬
‫العالمة المائية‪ .‬الشكل رقم (‪ )2‬يوضح هيكل العالمة المائية العام‪.‬‬

‫مؤ رالجزء‬ ‫متن‬ ‫طول‬ ‫بصمة‬


‫الالحق‬ ‫العالمة‬ ‫العالمة‬ ‫العالمة‬

‫توضح الخوارزميتان (‪ ,)3( ,)1‬في البنود الالحقة طريقة البحث المقترحة إلدراج‬
‫العالمة المائية‪.‬‬
‫العدد التاسع والعشرون ‪1027‬‬ ‫مجلة كلية المأمون الجامعة‬

‫‪ . 1 . 2 . 4‬استخراج العالمة المائية‪:‬‬


‫تبدأ عملية استخراج العالمة المائية من النص المحمي‪ ,‬بتحديد بداية العالمة‬
‫المائية ضمن سلسلة البتات الناتجة‪ ,‬بالبحث عن بصمة العالمة المائية‪ ,‬المعرفة‬
‫مسبقا‪ .‬و منها يتم قراءة بقية أجزاء العالمة المائية حسب الهيكل المتفق عليه‬
‫مسبقا‪ ,‬بتحويل حاالت الظهور و االختفاء للحركات المقترنة بحروف النص إلى ما‬
‫يقابلها من الترميز الثنائي‪(,‬اختفاء‪( ,)0 ,‬ظهور‪ ,)1,‬ثم جمعها في سلسلة متتالية‬
‫من البتات‪ .‬توضح الخوارزميتان (‪ ,)4( ,)2‬في البنود الالحقة طريقة البحث‬
‫المقترحة الستخراج العالمة المائية‪.‬‬

‫‪ . 1 . 4‬خوارزميات البحث المقترحة إلدراج و استخراج العالمة المائية‪:‬‬


‫في هذا البحث‪ ,‬سيتم اإل ارة إلى النص األصلي في مرحلة اإلدراج بالرمز‬
‫‪ c ‬و تمثيله بسلسلة من األرقام ‪ ci ‬بطول ‪ . c  i  1 , c ‬قيم ‪ci ‬‬
‫المحتملة هي }‪ ,{0,1‬تحددها حالة الحركة اإلعرابية ‪ w  . w ‬تأخذ إحدى‬
‫قيمتين هما (ظهور ‪ ,)view‬أو (اختفاء ‪ .)hide‬تحويل حالة الحركة اإلعرابية‬
‫إلى قيمة ثنائية يتم على وفق الدالة ‪ f wi ‬كا تي‪:‬‬
‫‪0 if wi  hide diactric‬‬
‫‪ci  f wi   ‬‬
‫‪1 if wi  view diactric‬‬
‫في حالة فهرسة (‪ )Indexing‬جميع عناصر النص األصلي ‪ ci ‬نستخدم الرمز‬
‫‪  j ‬لهذا الفهرس‪ .‬و إذا كان هذا الفهرس هو نفسه مفهرسا‪ ,‬نستخدم ‪  j i ‬لإل ارة‬
‫إلى العنصر ‪. c j ‬‬
‫‪i‬‬

‫سنشير للعالمة المائية بالرمز ‪ m ‬و طول العالمة المائية بالرمز ‪ . m ‬و البتات‬
‫التي تشكل العالمة المائية بالرمز ‪ , mi ‬حيث ‪ , m  i  1‬و أن‬
‫‪. mi  0,1 ‬‬
‫‪ s ‬يمثل النص المحمي‪ ,‬و هو أيضا سلسلة من ‪ si ‬بطول ‪ . c ‬قيم ‪si ‬‬
‫المحتملة هي }‪ ,{0,1‬و هي تحدد حالة الحركة اإلعرابية بعد إدراج العالمة‬
‫المائية على وفق الدالة ‪ f 1 si ‬كا تي‪:‬‬
‫‪ hide diactric if si  0‬‬
‫‪wi  f 1 si   ‬‬
‫‪view diactric if si 1‬‬
‫العدد التاسع والعشرون ‪1027‬‬ ‫مجلة كلية المأمون الجامعة‬

‫يتم في إجرائية اإلدراج اختيار مجموعة جزئية ‪ j1 , j (m)‬من عناصر النص‬
‫األصلي ثم إجراء عملية التعويل في هذه المجموعة الجزئية‪ ,‬و التي تستبدل‬
‫بالعناصر ‪ , mi ‬حيث ‪ , mi  0or 1‬و كا تي‪:‬‬ ‫العناصر‪c ‬‬
‫‪ji‬‬

‫‪cj ‬‬
‫‪ mi‬‬
‫‪i‬‬

‫في إجرائية االستخراج‪ ,‬يستخرج ‪ s i ‬لعناصر النص المحمي المختارة و تسطر‬


‫إلعادة تشكيل العالمة المائية‪ .‬هذه الصيغة األساسية ممثلة في الخوارزمية (‪ )1‬و‬
‫‪ ‬‬
‫الخوارزمية (‪ .)2‬و تبقى مسألة مهمة أخرى هي كيفية اختيار ‪ . c ji‬من اجل أن‬
‫يكون من الممكن فك ترميز العالمة المائية‪ ,‬يجب على المستلم الوصول إلى سلسلة‬
‫فهرسة العالمات المستخدمة في إجرائية اإلدراج‪.‬‬
‫في ابسط حالة‪ ,‬تستخدم كل عناصر النص األصلي لنقل المعلومات بدءاُ بأول‬
‫عنصر‪,‬ولكن غالباً ما تكون للعالمة المائية بتات اقل من ‪ , c ‬و عليه فان‬
‫إجرائية اإلدراج ستنتهي قبل نهاية عناصر النص األصلي بكثير‪ .‬في هذه الحالة‬
‫ستترك كل عناصر النص األصلي المتبقية بدون تغيير‪ ,‬فيقود ذلك إلى مشكلة أمنية‬
‫جدية‪ ,‬هي االختالف في عشوائية عناصر النص األصلي بين المجموعة‬
‫المستخدمة كغطاء و األخرى غير المستخدمة‪ .‬و حل هذه المشكلة ممكن بتكبير‬
‫حجم العالمة المائية بإضافة بتات عشوائية بحيث تكون ‪ , c   m ‬في محاولة‬
‫لتوليد تغيير متساوٍ في عشوائية عناصر النص األصلي من بداية النص األصلي‬
‫إلى نهايته‪.‬‬
‫طريقة أخرى لحل هذه المشكلة هي في استخدام مولد أرقام عشوائية‬
‫( ‪ )Pseudorandom number generator‬لنشر العالمة المائية على طول‬
‫النص األصلي بطريقة عشوائية‪ .‬إذا كان طرفا اإلدراج و االستخراج يتشاركان‬
‫في مفتاح تشفير ‪ k ‬يستخدم كبذرة (‪ )seed‬لمولد األرقام العشوائية‪ ,‬فباإلمكان‬
‫توليد سلسلة عشوائية ‪ k1,...,k m  ‬و استخدام العناصر كعالمات فهرسة حيث‬
‫‪j1  k1‬‬
‫‪ji  ji 1  k i‬‬ ‫‪i 2‬‬

‫لذا فان المسافة بين بتين من بتات العالمة المائية يتحدد بشكل عشوائي‪ .‬و لما كان‬
‫المستلم على معرفة بالبذرة ‪ k ‬و معلومات مولد األرقام العشوائية‪ ,‬يكون بإمكانه‬
‫إعادة تركيب ‪ , k i ‬و من بعد ذلك كل عناصر الفهرسة ‪ .  ji ‬هذه التقنية‬
‫موضحة في الخوارزمية(‪ )3‬و الخوارزمية (‪.)4‬‬
1027 ‫العدد التاسع والعشرون‬ ‫مجلة كلية المأمون الجامعة‬

‫) إدراج العالمة المائية‬2( ‫خوارزمية رقم‬


_____________________________________________
for i 1,, c  do
if wi  hide daictric then
ci  0
else
ci 1
endfor
for i 1,, c  do
s i  ci
endfor
for i 1,, m  do
compute index ji where to store ith message bit
s j cj 
 mi
i i

endfor
for i 1,, m  do

if s j 0
i

wj  hide daictric
i

else
wj  view daictric
i

endfor
1027 ‫العدد التاسع والعشرون‬ ‫مجلة كلية المأمون الجامعة‬

‫) استخراج عالمة مائية‬1( ‫خوارزمية رقم‬


___________________________________________
for i 1,, c  do
if wi  hide daictric then
si  0
else
si 1
endfor

for i 1,, m  do


compute index ji where the ith message bit is stored
mi 
 s j
i

endfor

‫) إدراج عالمة مائية باستخدام مولد أرقام عشوائية‬3( ‫خوارزمية رقم‬


______________________________________________
for i 1,, c  do
if wi  hide daictric then
ci  0
else
ci 1
endfor

for i 1,, c  do


s i  ci
endfor
generate random sequence k i using seed k
n  k1
for i 1,, m  do
1027 ‫العدد التاسع والعشرون‬ ‫مجلة كلية المأمون الجامعة‬

compute index ji where to store ith message bit


sn  cn   mi
n  n  ki
endfor
for i 1,, m  do
if s n  0
wn  hide daictric
else
wn  view daictric
endfor
____________________________________________

‫) استخراج عالمة مائية باستخدام مولد أرقام عشوائية‬4( ‫خوارزمية رقم‬


______________________________________________
for i 1,, c  do
if wi  hide daictric then
si  0
else
si 1
endfor

generate random sequence k i using seed k


n  k1
for i 1,, m  do
compute index ji where the ith message bit is stored
mi   f (cn )
n  n  ki
endfor
‫العدد التاسع والعشرون ‪1027‬‬ ‫مجلة كلية المأمون الجامعة‬

‫‪ .3 . 4‬عناصر السرية اإلضافية (الترميز و التشفير )‪:‬‬


‫في الشكل رقم (‪ ,)1‬يالحظ إضافة عناصر سرية لخوارزمية العالمات المائية‪,‬‬
‫عدا عن أساليب اإلخفاء ‪ ,‬و يكون ذلك باستخدام تشفير المفتاح العام‬
‫(‪ )Public key‬أو تشفير المفتاح السري (‪ )Secret key‬لتشفير العالمة المائية‬
‫قبل إدراجها ضمن النص‪ .‬دراسة تفاصيل استخدام هذين النوعين من مفاتيح‬
‫التشفير تندرج ضمن حقل التشفير (‪.)Cryptography‬‬

‫‪ .2 . 3 . 4‬تشفير المفتاح السري‪:‬‬


‫طرق التشفير التي تستخدم مفتاح تشفير سري‪ ,‬تستعمل نفس المفتاح في‬
‫مرحلتي التشفير و فك التشفير‪ .‬لذلك فان هذا النوع من التشفير يفقد جزءا من قوته‬
‫عند نشره ألكثر من مستخدم واحد‪ .‬إن خصائص هذا النوع من التشفير تجعله‬
‫مناسبا للعالمات المائية التي تحتوي معلومات عن المالك األصلي للوثيقة أو‬
‫معلومات عن محتوى الوثيقة نفسها‪ .‬فيكون المالك األصلي هو الوحيد الذي يمتلك‬
‫مفتاح التشفير‪.‬‬

‫‪ . 1 . 3. 4‬تشفير المفتاح العام‪:‬‬


‫يصمم مفتاح التشفير العام لتقليل مخاطر استعمال المفتاح الواحد موزعا ألكثر‬
‫من خص‪ .‬فيستعمل مفتاحان احدهما يستعمل للتشفير‪ ,‬يعمم و ينشر على عدة‬
‫عمالء‪ .‬و المفتاح ا خر يستعمل لحل التشفير و يبقى سريا‪ .‬إن خصائص هذا‬
‫النوع من التشفير تجعله مناسبا للعالمات المائية التي تحتوي على معلومات عن‬
‫المشتري األول للوثيقة أو معلومات عن محتوى الوثيقة‪.‬‬

‫‪ . 4 . 4‬التوليد اآللي للحركات في النص العربي‪:‬‬


‫طور الباحثون في ‪ ,)Elshafei et al.2006(,‬طريقة فعالة لتوليد الحركات‬
‫ا لي في النص العربي‪ .‬لقد صاغ الباحثون مسألة التوليد ا لي للحركات في النص‬
‫العربي الخالي من الحركات استنادا إلى أنموذج ماركوف الخفي ( ‪Hidden‬‬
‫‪ .)Markov Model‬عد الباحثون تسلسل ورود الكلمات في النص الخالي من‬
‫الحركات كسلسلة مالحظة (‪ ,)Observation sequence‬و عبارات الكلمات‬
‫بالحركات على انها الحاالت الخفية (‪ )Hidden state‬المطلوب احتسابها‪ .‬استند‬
‫البحث إلى مجموعة وثائقية (‪ )Corpus‬من النصوص العربية بالحركات‪ ,‬متوفرة‬
‫في مدينة الملك عبد العزيز للعلوم و التقنية‪ ,‬الهدف من استخدامها هو توفير‬
‫الجداول اإلحصائية لتحديد االحتمالية األمثل للحركات‪ ,‬الالزمة لتطبيق أنموذج‬
‫ماركوف الخفي‪.‬‬
‫العدد التاسع والعشرون ‪1027‬‬ ‫مجلة كلية المأمون الجامعة‬

‫إن الدور الذي تؤديه المجموعة الوثائقية للنص العربي بالحركات‪ ,‬يحدد الصورة‬
‫اإلحصائية (‪ )Statistical Format‬لسلسلة الحركات المتولدة‪ ,‬فمثالً‪ ,‬النتائج التي‬
‫استخرجها‪ , )Gal,2002(,‬عند استخدامه القرآن الكريم كمجموعة وثائقية لتطبيق‬
‫أنموذج ماركوف الخفي في توليد الحركات‪ ,‬تختلا صورتها اإلحصائية عن‬
‫النتائج في‪ ,)Elshafei et al.2006(,‬التي استخدمت أنموذج ماركوف الخفي‬
‫أيضا‪ ,‬إن اختيار مجموعات وثائقية مختلفة بشكل مناسب‪ ,‬ينتج عنه استخراج‬
‫صورة إحصائية مميزة لكل سلسلة حركات متولدة‪.‬‬
‫يقترح بحثنا استغالل إمكانية التوليد أ لي لحركات النص العربي الخالي من‬
‫الحركات‪ ,‬وتوظيفها في تثبيت العالمات المائية في النص‪ ,‬و يعد اختالف الصورة‬
‫اإلحصائية لسلسلة الحركات المتولدة بمثابة بصمة للنص المحمي‪ ,‬يمكن تمييز‬
‫مرجعيته بداللة المجموعة الوثائقية المستخدمة في إنتاج سلسلة الحركات المتولدة‬
‫عنها‪ ,‬باإلضافة إلى العالمات المائية التي يتضمنها النص‪.‬‬

‫‪ . 5‬المناقشة‪:‬‬
‫التغلب على التحديات المطروحة أمام عملية إدراج العالمات المائية المذكورة‬
‫في مقدمة البحث‪ ,‬هو معيار نجاح أي طريقة تروم إدراج عالمات مائية في نص‬
‫ما‪ ,‬كما يأتي‪:‬‬
‫‪ .1‬المحافظة على قيمة النص ‪ :‬إن ظهور الحركات في النص العربي هو أمر‬
‫اختياري‪ ,‬لذلك فان استغالل ظهور و اختفاء الحركات في النص العربي‪,‬كليا‬
‫أو جزئيا‪ ,‬ال يحط من قيمته‪ .‬ال يتأثر هيكل النص أو هيكل الجمل فيه بإضافة‬
‫العالمات المائية‪ .‬من المحتمل تغير معنى بعل الكلمات تبعا لألخطاء التي‬
‫تصاحب عملية التوليد ا لي للحركات‪ .‬لذلك يرتبط مدى تغير معنى الكلمات‬
‫بمدى دقة خوارزمية التوليد إضافة إلى حجم و دقة المجموعة الوثائقية‬
‫المستخدمة لهذا الغرض‪.‬‬
‫‪ .2‬إثبات العالمة المائية ‪ :‬توفر الطريقة المقترحة في هذا البحث إمكانية عالية‬
‫في تمثيل كمية معلومات منتشرة على عموم النص بما يكفي إلثباتها أمام‬
‫القضاء‪ .‬و تعتمد كمية المعلومات و عدد العالمات المدرجة في النص‪ ,‬على‬
‫حجم النص األصلي‪ .‬إن إثبات حقوق الملكية أمام القضاء يعتمد على جانبين‬
‫رئيسين هما ‪ ,‬أوال‪,‬التشابه الجوهري بين النسخة األصلية و المستنسخة و‬
‫إثبات عملية االستنساخ‪ ,‬و ثانيا‪ ,‬إثبات إن النص غير القانوني هو أجزاء‬
‫جوهرية مستنسخة و مطابقة للنص المحمي بحقوق حفظ الملكية‪.‬‬
‫‪ .3‬الحاجة لخزن النسخة األصلية ‪ :‬إن الطريقة المقترحة في البحث ال تستلزم‬
‫خزن النسخة األصلية‪ .‬فالنص األصلي يبقى موجودا ضمن النص المحمي‬
‫العدد التاسع والعشرون ‪1027‬‬ ‫مجلة كلية المأمون الجامعة‬

‫بعد إدخال العالمة المائية‪ ,‬حيث سيؤلا مع الحركات المضافة النص المحمي‬
‫المتولد‪.‬‬
‫يمكن إضافة أكثر من عالمة في المادة نفسها‪ :‬و يعتمد ذلك على سعة النص‬ ‫‪.4‬‬
‫المطلوب حمايته‪ .‬النص الطويل يتيح مساحة كبيرة لعالمة مائية طويلة‪ ,‬كما‬
‫يتيح تعدد العالمة المائية الواحدة ضمن النص‪ .‬و تعتبر الصورة اإلحصائية‬
‫للحركات المتولدة آليا عالمة مائية أيضا‪ ,‬تشير إلى الخصائص اإلحصائية‬
‫للمجموعة الوثائقية المستخدمة‪ .‬لزيادة متانة العالمات المائية المتعددة في‬
‫النص الواحد‪ ,‬يجب إضافة معلومة إلى العالمة المائية عن عدد العالمات التي‬
‫يتضمنها النص‪.‬‬
‫ترميز و تشفير العالمات المائية ‪ :‬يتم تشفير العالمة المائية في الطريقة‬ ‫‪.5‬‬
‫المقترحة‪ ,‬قبل التحويل إلى الصيغة الثنائية‪ ,‬و يكون التشفير بالمفتاح المناسب‬
‫لطبيعة العالمة المائية‪ ,‬يكون تشفير المفتاح العام مناسبا للنصوص التي‬
‫ستعمم على العمالء‪ .‬يمكن استخدام خوارزميات ترميز بيانات مناسبة للصيغة‬
‫الثنائية لضغط حجمها‪ ,‬مثل خوارزمية ترميز هوفمان (‪)Huffman‬‬
‫للحصول على معدل إخفاء أعلى‪.‬‬
‫مقاومة العالمات المائية‪ :‬إن أهم الهجمات المحتملة على النص المحمي‬ ‫‪.6‬‬
‫تتمثل بما يأتي‪:‬‬
‫هجوم االكتشاف و اإلزالة (‪ :) Detect and Erasure attack‬في‬ ‫‪‬‬
‫حساب أولي لقياس حاجة الخصم االحتسابية الالزمة لهجوم االكتشاف‬
‫اإلحصائي‪ ,‬فان نصا يحتوي على (‪ )P‬من الحروف و كانت هناك عالمة‬
‫بطول معلوم (‪ )N‬من البتات‪ ,‬فان عدد التباديل التي يمكن إن تتخذها العالمة‬
‫على حروف النص تعطى بالقيمة‪ .)P! / (P – N)!( ,‬وهو عدد اكبر من‬
‫(‪ ,)2N‬الذي يمثل عدد العبارات المختلفة بطول (‪ .)N‬على سبيل المثال‪ ,‬لو‬
‫كان عدد حروف النص التي تتقبل الحركات هو (‪ )30000‬حرفا‪ ,‬وأدرجت‬
‫بيانات لعالمات مائية بطول (‪ )15000‬بتا‪ ,‬فهناك عدد من التباديل يبلغ‬
‫(‪ )1065156‬محتملة داخل النص‪ .‬في حين ان عدد التباديل المحتملة‬
‫للعبارات المختلفة بطول (‪ )N‬يبلغ تقريبا(‪.)104515‬‬

‫إذا كان طول العالمة مجهول فان عدد التباديل المحتملة التي يمكن أن‬
‫تتخذها العالمة المائية بطول (‪ )n‬من البتات بين حروف النص سترتفع إلى‪:‬‬
‫العدد التاسع والعشرون ‪1027‬‬ ‫مجلة كلية المأمون الجامعة‬

‫‪P‬‬ ‫!‪P‬‬
‫‪‬‬
‫!)‪(P - n‬‬
‫‪n 1‬‬

‫يضطر هجوم اإلزالة لمحو جميع العالمات أو جميع أجزاء العالمة الواحدة‪,‬‬
‫أو يكون الهجوم فا ال‪ .‬كما إن عدد التباديل على وفق االحتساب الذي أجريناه‬
‫‪ ,‬يوضح ان مهاجمة العالمة المائية بالهجوم اإلحصائي‪ ,‬خصوصا مع إضافة‬
‫عوامل سرية أخرى يجعل معرفة معلومات عن العالمة المائية صعبا‪ ,‬فضال‬
‫عن معرفة وجودها بالفعل‪.‬‬
‫‪ ‬هجوم االجتزاء (‪ :)Subset copy attack‬تستند الطريقة المقترحة في‬
‫مقاومة هجوم االجتزاء‪ ,‬إلى انتشار و ترابط العالمات المتعددة في النص‬
‫الواحد و كذلك انتشار و ترابط أجزاء العالمة الواحدة في مساحة النص‪.‬‬
‫بانتشار مناسب‪ .‬ال يمكن للمهاجم اجتزاء نص خالٍ من عالمة مائية أو جزء‬
‫من عالمة مائية‪ .‬و بالترابط بين العالمات أو أجزاء العالمة يمكن إثبات موقع‬
‫النص المجتزأ ضمن سياق النص األصلي‪.‬‬
‫‪ ‬هجوم التغيير (‪ :)Alteration attack‬إن إضافة البيانات الوسيطة تمنع‬
‫المهاجم من تغيير محتوى العالمة المائية‪ ,‬الن ذلك سيؤدي إلى تناقل‬
‫المحتوى مع البيانات الوسيطة المفترض أنها تصفه‪ .‬إن نجاح هذا الهجوم‬
‫يعتمد على قدرة المهاجم على التشكيل بين البيانات الوسيطة و متن العالمة‪ ,‬و‬
‫هو أمر صعب جدا‪.‬‬
‫‪ ‬هجوم اإلضافة (‪ :)Addition attack‬يحاول المهاجم في هذا الهجوم‬
‫إضافة عالمة مائية خاصة به إلى النص المحمي‪ ,‬بغية االحتجاج بها أمام‬
‫القضاء و نسبة حق ملكية النص إليه‪ .‬تقاوم البيانات الوسيطة المدرجة ضمن‬
‫العالمة المائية‪ ,‬مثل العدد الكلي و الطول الكلي للعالمات المائية‪ ,‬مثل هذا‬
‫الهجوم‪.‬‬

‫معدل اإلخفاء بهذه الطريقة يساوي (‪ ,)6 : 1‬أو (‪ .)%1225‬وهو معدل جيد‬
‫مقارنة بأعلى معدالت الطرق السائدة لإلخفاء في النص‪ ,‬التي تتراوح بين (‪-6‬‬
‫‪.)%15‬‬
‫العدد التاسع والعشرون ‪1027‬‬ ‫مجلة كلية المأمون الجامعة‬

‫‪ . 6‬االستنتاجات‪:‬‬
‫قدم البحث تقنية جديدة لحماية مستندات النص العربي بإدراج عالمات مائية‬
‫فيها‪ .‬استغلت هذه التقنية خاصية وجود عالمات التشكيل (الحركات اإلعرابية) في‬
‫النص العربي لتمثيل سلسلة ثنائية من األعداد كعالمة مائية مخفية في النص‪ .‬صمم‬
‫البحث أنموذجا مكونا من أربعة أجزاء‪,‬قابلة للزيادة‪ ,‬للعالمة المائية لتلبية متطلبات‬
‫التكامل‪ ,‬الكفاءة‪ ,‬و المتانة في مقاومة الهجمات المحتملة عليها ‪ .‬معدل اإلخفاء‬
‫المتوقع حسب الطريقة المقترحة هو (‪ .)%1225‬و هو معدل مقبول بالمقارنة مع‬
‫معدالت اإلخفاء السائدة في النصوص‪ .‬قدم البحث خوارزميات إدراج و استخراج‬
‫للعالمة المائية على وفق طريقته المقترحة‪ .‬يؤكد البحث على أن تسبق عملية‬
‫إدراج العالمات المائية عملية تشفير و ترميز للعالمة المائية لتوفير مستوى أفضل‬
‫من السرية و ضغط البيانات لتوفير معدل إخفاء عالي‪ .‬اقترح البحث استغالل‬
‫الدراسات الجارية لتوليد الحركات اإلعرابية آليا في النص العربي الخالي من‬
‫الحركات‪.‬‬

‫المصادر‪:‬‬

‫‪(Atallah, 2001a) Atallah, M., Raskin, V. “Natural language‬‬


‫‪watermarking: Watermarking Text-Meaning‬‬
‫‪Representation Tree”, Proceedings of Workshop on‬‬
‫‪New Paradigms in Information Security, Cork, Ireland,‬‬
‫‪2001.‬‬

‫‪(Atallah, 2001b) Atallah M., Raskin, V., Hempelmann, C. F.,‬‬


‫‪Kerscbaum, F., Mohamed, D., and Aik, S., “Natural‬‬
‫‪language watermarking: Design, Analysis, and aproof-‬‬
‫‪of-Cocept Implementation” Proceedings of the Fourth‬‬
‫‪Information Hiding Workshop, vol. LNCS 2137, April‬‬
‫‪2001, Pittsburgh, PA.‬‬

‫‪(Atallah, 2002) Atallah M., Raskin, V., Hempelmann,‬‬


‫‪Karahan, M., Sion,R., Topkara, U., and Triezenberg K.‬‬
1027 ‫العدد التاسع والعشرون‬ ‫مجلة كلية المأمون الجامعة‬

E., “Natural language watermarking and tamper


proofing” Proceedings of the Fifth Information Hiding
Workshop, vol. LNCS 2578, 7-9 October 2002,
Noordwijkerhout, The Netherlands.

(Bender, 1996) Bender, W., Gruhl D., N. Morimoto, and A.


Lu, “ Techniques For Data Hiding” ,IBM Systems
Journal 35, Nos. 3&4, 313336 ,1996.

(Brassil, 1999) Brassil, J. T., S. Low, and N. F. Maxemchuk,


"Copyright Protection for the Electronic
Distribution of Text Documents", Proceedings of the
IEEE, June 1999.

(Elshafei, 2006) Elshafei, Mustafa, Al-Muhtaseb, Husni, and


Algamdi, Mansour, “Machine Generation of Arabic
Diacritical Marks”, International Conference on
Machine Learning; Models, Technologies &
Applications, 2006 (MLMTA’06).

)Gal,2002) Gal, Ya'akov, "An HMM Approach to Vowel


Restoration in Arabic and Hebrew”, Proceedings of the
Workshop on Computational Approaches to Semitic
Languages, ACL, July 2002, Philadelphia.

(Judge, 2001) Judge, James C.,”Steganography: Past,


Present, Future”, 2001. Available in
http://www.sans.org/rr/whitepapers/stenganography/552
.php

(Johnson, 2000) Johnson N. F., Duric Z., and Jajodia S.,


“Information Hiding, Steganography and watermarking
– Attacks and Countermeasures”, kluwer Academic
Publishers, 2000.
1027 ‫العدد التاسع والعشرون‬ ‫مجلة كلية المأمون الجامعة‬

(Katzenbeisser & Petitcolas, 2000) Katzenbeisser S., and


Petitcolas F. A., “Information Hiding, techniques for
Steganography and digital watermarking”, Artech
house, 2000.

(Kim, 2004) Kim, Young-Won, “Watermarking text


document images using edge direction histograms”, Il-
Seok Oh, Journal Title: Pattern Recognition Letters,
2004, Vol: 25 Issue: 11, p. 1243 - 1251.

(Topkara, 2005) Topkara, M. ,Taskiran, C. M.,and Delp, E.,


“Natural language watermarking,” Proceedings of the
SPIE International Conference on Security,
Steganography, and Watermarking of Multimedia
Contents VII, 2005.

(Wright ,1998 ) T. Wright IEEE Annals of the History of


Computing ( Volume: 20, Issue: 2, Apr-Jun 1998 )

(1) http://www.lexicon.org.uk/definition/typeface/
(2) http://www.lexicon.org.uk/definition/fixed-width-font/
(3) http://www.lexicon.org.uk/definition/proportional-font/
(4) The Unicode Standard, Version 4.0 - Unicode Consortium
-ch02 Unicode Consortium, 2006,
http://www.unicode.org/standard/principales.htm
(5) Unicode Consortium, 2006,
http://www.unicode.org/ucd.htm

You might also like