Professional Documents
Culture Documents
طرق البحث في محرك البحث قوقل
طرق البحث في محرك البحث قوقل
محرك البحث جوجل :يعد محرك البحث جوجل من أكثر محركات البحث شهرة على المستوى العالمي نظرًا لما يتمتع به من سرعة في مالحقة الصفحات الجديدة وتكشيفها ،حيث
.يبلغ حجم قاعدة بياناته وفقًا آلخر التقديرات حوالي 9مليار صفحة
Sergey Brin and Larry Page.وقد قام بتطوير هذا المحرك اثنان من طلبة الدكتوراه بجامعة ستانفورد عام 1998هما :سيرغي برين والري بايج
والمصطلح جوجل يعنى باإلنجليزية ماليين المليارات كما تعنى أيضا يبحلق أو ينظر بشدة وتركيز مما يعكس رغبة مؤسسيه على مالحقة وتكشيف أكبر قدر ممكن من صفحات
.ومواقع الويب ،كما يعكس أيضا إدراكهم منذ البداية للنمو السريع لشبكة اإلنترنت
وتشير إحصائيات محرك البحث جوجل إلى أنه يجيب على أكثر من 150مليون استفسار يوميا بمختلف لغات العالم ،حيث يتيح البحث بحوالي 35لغة منها اللغة العربية .وقد
.أثبت محرك البحث جوجل كفاءة كبيرة في تعامله مع اللغة العربية من خالل العديد من التجارب والدراسات التي سعت إلى تقييم أداء محركات البحث
ومن أهم المالمح التي تميز محرك البحث جوجل هو قدرته الفائقة على عرض وترتيب النتائج وفقا الرتباطها بموضوع االستفسار ،حيث أشارت العديد من دارسات تقييم نتائج
وغيرها .ويرجع الفضل في AltaVista, Yahoo, Allthewebالبحث واالسترجاع من محركات البحث إلى أن محرك البحث جوجل يتفوق على كل المحركات المنافسة مثل
Page Rank ، .هذه الميزة إلى الطريقة التي يعتمد عليها محرك البحث في ترتيب نتائج االسترجاع والتي تعرف بنموذج بترتيب الصفحة
في Ranking Accuracyودقة الترتيب Precisionوالتحقيق Recallويرجع تفوق محرك البحث جوجل على غيره من محركات البحث المعروفة في معدالت االستدعاء
:تصورنا إلى
وهو النظام الذي Rank Order Calculation.لحساب ترتيب الصفحات Web Link Structureالسبب األول يتمثل في اعتماده على استخدام بنية روابط الويب o
Page Rank Model.oيطلق عليه نموذج ترتيب الصفحة
لتحسين نتائج البحث من حيث معدالت االستدعاء (عدد الصفحات المسترجعة) حيث يسترجع محرك البحث الصفحات المصدرية ذات Linksالسبب الثاني هو استخدام الروابط
واحدة من أهم المالمح المميزة Hyperlinksتعتبر الروابط Page Rank Modelالعالقة بموضوع االستفسار وغيرها من الصفحات المرتبطة بها §.نموذج ترتيب الصفحة
في منتصف الخمسينات من القرن الماضي في ) (Eugene Garfieldللشبكة العنكبوتية حيث تشبه العالقة بين الصفحات والروابط تلك العالقة التي أستخدمها يوجين جارفيلدد
إعداد كشافات اإلستشهادات المرجعية .وتعتمد فكرة هذه الكشافات على افتراض منطقي يدعى وجود عالقة تربط بين المقالة المصدرية والمصادر المستشهد بها في هذه المقالة.
.وهو ما يساعد على حساب مدى قوة أو ضعف العالقات التي تربط بين مصادر المعلومات سواء كانت مقاالت أو دوريات أو مؤلفين
وهو نفس األساس الذي اعتمد عليه القائمون على بناء محرك البحث جوجل حيث افترضوا وجود عالقة بين الصفحة والصفحات التي تشير إليها من خالل الروابط الفائقة ،وقد
التي قاموا بتجهيزها وتضمنت ما يقرب من Maps 518ثبت نجاح هذا االفتراض بشكل كبير.وقد اعتمد القائمون على بناء محرك البحث جوجل على مجموعة من الخرائط
لكي تمثل عينة متميزة للعالقات التي تربط بين صفحات المعلومات على الشبكة العنكبوتية .وقد أتاحت هذه الخرائط إجراء Hyperlinksمليون وحدة من الروابط الفائقة
.حسابات سريعة للتعرف على مدى قوة العالقة التي تربط بين مجموعة من الصفحات
ثم ترتيب هذه الصفحات من خالل االعتماد على تحليل ما تحويه من روابط داخلية تربطها بصفحات أخرى والروابط الخارجية التي تربط الصفحات األخرى بها .ويتميز هذا
المقياس بأنه مقياس ديمقراطي إلى حد كبير حيث يحدد مكانة الصفحة بين غيرها من الصفحات بناء على مدى أهميتها بالنسبة للصفحات األخرى سواء باإلشارة إلى هذه
.الصفحات أو باإلشارات التي تتلقاها الصفحة من الصفحات األخرى
يتم حساب عدد الروابط الموجودة في الصفحة وتشير إلى صفحات أخرى كما يتم حساب عدد Page Rank Calculation Methodطريقة حساب ترتيب الصفحة §
بين الصفحة والصفحات أخرى .وتتم Similarity Scoreهذه الحسابات لتحديد قيمة تشابه Normalizationالروابط التي تشير إلى الصفحة المصدرية ثم يتم تطبيع
هو معامل ثابت ما بين ( d )0,1والمعامل T1-----Tnوعددها ) (Point to itمرتبطة بصفحات أخرى تشير إليها Aعملية التطبيع وفقًا للمعادلة التالية:نفترض أن الصفحة
.وعادة ما يأخذ القيمة 0.85إال في حاالت استثنائية سنوضحها فيما بعد
= ):PR• (Aكما يلى ) PR(Aبالتالي يكون حساب ترتيب الصفحة ) (Point to other Pagesإلى عدد الروابط الخارجة من الصفحة وتشير إلى صفحات أخرى Cوتشير
Probabilityيمثل توزيع احتمالي Page Rankنالحظ من المعادلة أن ترتيب الصفحة))(1-d) + d (PR(T1) / C(T1) +------------ PR(Tn) / C(Tn
مما يعنى أن مجموع ترتيب الصفحات لكل عملية يعادل واحًد ا صحيًح ا ،مما يسمح بترتيب الصفحات تنازليًا وفقا Over Web Pagesلكل صفحات الويب Distribution
وهو معامل يتعلق بسلوك المستفيدين عند التعامل مع الصفحة .وهذا المعامل Link Structureويتم حساب معامل آخر لترتيب الصفحة يعتمد أيضا على بنية الروابط A.لقيمة
يتعلق بمعدالت اإلفادة من صفحة معينه ،مما يعنى أن المستفيد يمكن أن يغير من ترتيب الصفحات وفقًا لمدى استخدامه لهذه الصفحات .ويتم تحديد مدى اإلفادة من صفحة معينة
d.وفقًا لعدد مرات النقر على الرابط الفائق المتعلق بهذه الصفحة في كل مرة تظهر فيه هذه الصفحة ضمن نتائج البحث ،حيث يتم تعديل قيمة المعامل
فإذا قام المستفيد بفتح الصفحة التي تظهر في ترتيب 3مثًال ولم يفتح الصفحة التي تظهر في الترتيب 1يعتبر محرك البحث جوجل أن هذا إعالن من المستفيد أن الصفحة 3أفضل
الخاص بترتيب الصفحة 3مما يجعلها تظهر قبل الصفحة 2 ، 1إذا كان سلوك كل أو dمن الصفحة 1بالنسبة لهذا االستفسار ،مما يجعل محرك البحث يعدل من قيمة المعامل
.معظم المستفيدين منها يسير في نفس االتجاه .ويعتبر هذا المقياس أيضا من المقاييس الديمقراطية التي تميز محرك البحث جوجل عن غيره من المحركات
والذي يتوقف على مجموع سلوك المستفيدين من صفحة معينة خالل فترة زمنية معينة Relevance Feedback §.برد فعل الصالحية dوتعرف عملية تعديل قيمة المعامل
وهو الملف الذي يشتمل على أكواد لغة تكويد النصوص Source File-يتم معاملة النصوص التي تعبر عن الروابط في الملف المصدري Anchor Text :نصوص الزاوية
.بطريقة خاصة في محرك البحث جوجل HTML-الفائقة
مع الروابط التي توجد داخل الصفحة وتكشف النصوص التي توجد داخل هذه الروابط Link Analysisحيث تتعامل معظم محركات البحث التي تستخدم أسلوب تحليل الروابط
• :ولهذه الطريقة العديد من المزايا ومنها Point to it.بينما يكشف محرك البحث جوجل الروابط التي تشير إلى الصفحة
عادة ما تتضمن وصف دقيق لصفحة الويب يفوق ما تقدمه الصفحة في جسمها الرئيسي من كلمات مفتاحية تصف الموضوع الذي Anchor Textأوًال نصوص الزاوية
تتناوله ،وهو ما أثبتته العديد من الدراسات حيث أن هذه النصوص تمثل عناوين الموضوعات الرئيسية التي تتناولها هذه الصفحات
وبالتالي يمكن استخدام Text Based Search Engines ،ثانيًا نصوص الزاوية تساعد على تكشيف الصفحات التي ال يمكن تكشيفها من خالل محركات بحث نصية •.
مثل ملفات الصوت ،الفيديو ،الصور ،برامج الكمبيوتر ،الخرائط ،قواعد البيانات...الخ Multimediaهذه النصوص في تكشيف الوسائط المتعددة
بتجميعها أو زيارتها ،بالتالي يمكن من خالل هذا األسلوب تجميع أكبر عدد ممكن من Crawlersثالثًا تساعد نصوص الزاوية على تكشيف صفحات لم تقوم الزواحف •.
.الصفحات أو التعرف عليها دون الحاجة إلى زيارة الخوادم التي تستضيفها .خاصة إذا ما عرفنا أن هذه الزواحف عادة ما تكون متحيزة جغرافيًا ولغويًا في تغطيتها
Domainوهو ما جعل محرك البحث جوجل من أكبر محركات البحث وأشملها من حيث حدود التغطية سواء الجغرافية أو اللغوية أو الموضوعية أو وفقًا لألسماء السائدة
Names.
وتجدر اإلشارة هنا إلى أن هذه الميزة قد تنقلب إلى عيب كبير وتسبب مشاكل كثيرة حيث أن محرك البحث يمكن أن يسترجع نتائج لصفحات لم يزورها الزاحف مطلقًا ويتأكد من
وجودها .ويعتبر استخدام نصوص أقواس الزاوية عملية في غاية الصعوبة نظرًا لضخامة حجم البيانات التي يتم معالجتها حيث أن معالجة 24مليون صفحة تتطلب على األقل
معالجة 259مليون نص زاوية في محرك البحث جوجل حتى عام 2000بمتوسط 10.8نص زاوية للصفحة الواحدة .وقد استخدمت فكرة توسيع التغطية من خالل التعامل مع
وهو أول محرك بحث يتضمن WWW WORMللصفحات التي تشير إلى الصفحات المصدرية في محرك البحث Anchor Text Propagatingنصوص أقواس الزاوية
Non Textual Pages.زاحف – تم بناءه عام – 1994لتكشيف الصفحات الغير نصية
ويعتبر استخدام نصوص أقواس الزاوية عملية في غاية الصعوبة نظرًا لضخامة حجم البيانات التي يتم معالجتها حيث أن معالجة 24مليون صفحة تتطلب على األقل معالجة 259
مليون نص زاوية في محرك البحث جوجل حتى عام 2000بمتوسط 10.8نص زاوية للصفحة الواحدة .وباإلضافة إلى استخدام الروابط ونصوص الزاوية في تكشيف الصفحات
.لتحديد أهمية الرابط في الصفحة Link Locationيقوم محرك البحث جوجل بتحديد موقع الرابط
فتعتبر الروابط التي تأتى في عناوين منفصلة أكثر أهمية من الروابط التي ترد ضمن نص ما ،والروابط التي ترد في المحتويات والفئات التي تتضمنها الصفحة أكثر أهمية من
.الروابط التي ترد في عناوين فرعية
وأساليب Proximity Indexing،والتكشيف التجاورى Term Frequency،كما يستخدم محرك البحث جوجل أساليب التكشيف التقليدية مثل أسلوب تردد المصطلحات
يعتمد على الطبيعة الديمقراطية الفريدة في الويب ،وذلك باستعمال Page Rankمن ثم فإن نظام ترتيب الصفحة Term Weighting Schemes.وزن المصطلحات
.كدليل على أهمية صفحة معينة Hyperlinksاالرتباطات
يفسر االرتباط من صفحة أ إلى الصفحة ب على أنه تصويت من الصفحة أ لمصلحة الصفحة ب .لكنه ال ينظر فقط إلى كمية األصوات (أي االرتباطات Googleبمعنى أن
الموجهة إلى صفحة معينة) ،بل يحلل الصفحة التي تقوم بالتصويت .فإذا كانت الصفحات التي تصِّو ت "مهمة" ،يعطيها ذلك وزنا أكبر ،ويجعل الصفحات األخرى التي تم التصويت
.في كل مرة ُيجري بحثا Googleأعلى ،األمر الذي يتذكره Page Rankلها مهمة أيضا .تحصل المواقع المهمة رفيعة الجودة على ترتيب
المعقدة ليجد Text Matchingوتقنيات مطابقة النص Page Rankبين Googleوبالطبع ال تعني الصفحات المهمة للمستفيد شيئا إن كانت ال تطابق بحثه .لذلك يجمع
عند عدد المرات التي تظهر فيها عباره معينة في الصفحة ،بل يفحص كل أوجه محتويات الصفحة Googleصفحات مهمة وتالئم موضوع البحث على السواء .وال يتوقف
.ومحتويات الصفحات المرتبطة بها ليعرف ما إذا كانت مطابقة للبحث أم ال
نزاهة جوجل:من أهم السمات التي تميز النتائج المسترجعة من محرك البحث جوجل هى النزاهة في عرض النتائج ،حيث أن طريقة عمل جوجل المعقدة واآللية تجعل من الصعب
العبث البشرى بالنتائج المسترجعة .ذلك على الرغم من أن جوجل يقوم بعرض إعالنات مدفوعة األجر في قمة صفحة النتائج لمجموعة من المنتجات المرتبطة بموضوع االستفسار
بالتالي فإن البحث في جوجل يمثل طريقة سهلة Page Rank،إال أنه ال يبيع مواقع أفضل ضمن صفحات النتائج الرئيسية ،حيث ال يسمح محرك البحث بشراء ترتيب الصفحة
.وموضوعية للعثور على نتائج عالية الجودة وتحوى معلومات تطابق موضوع البحث
الذي يعطى الصفحة ترتيًبا أعلى في حالة تردد استخدامها من جانب Relevance Feedbackوعلى الرغم من ذلك فإن اعتماد جوجل على أسلوب رد فعل الصالحية
المستفيدين ،قد ساعد بشكل غير مباشر على العبث البشرى بنتائج البحث ،حيث يمكن للمستفيد أن يرفع من ترتيب صفحة ما من خالل إعادة البحث مرات عديدة وفتح تلك الصفحة
Searchمعد الكتاب السنوي لمحركات البحث ) (Andre Rouxمما يعطيها أهمية أو قيمة أكبر من الصفحات التي تسترجع معها.مبررات استخدام جوجل:يرى أندريه روكس
أنه توجد مجموعة من المبررات المنطقية التي تدفع المستفيدين إلى تفضيل جوجل عن غيره من محركات البحث وزيادة معدالت استخدامه من جانب Engines Yearbook
:رواد شبكة اإلنترنت ،وتشمل هذه المبررات ما يلي
أن محرك البحث جوجل أكبر محركات البحث من حيث تغطيته لصفحات ومواقع الويب كما انه أسرع محركات البحث المتاحة على Google Coverage:التغطية في جوجل 1-
الشبكة العنكبوتية .وقد أثبتت العديد من الدراسات كما سبق وعرضنا أن جوجل يتفوق على كل محركات البحث المتاحة على الشبكة العنكبوتية ،كما أوضحت دراسات اإلفادة من
محركات البحث أن جوجل يأتى على قمة المحركات التي يستخدمها المستفيدون من الشبكة العنكبوتية في جميع أنحاء العالم ،كما انه يتميز أيضا بتنوع خدماته إلى الحد الذي جعل
من جوجل أكبر شركة لتقديم خدمات المعلومات على شبكة اإلنترنت .وتوجد منافسة شرسة بين كال من جوجل وياهو على تحقيق أعلى األرباح من خالل خدمات اإلنترنت
األساس الذي أعتمد عليه مصممي جوجل هو أساس ديمقراطي إلى حد كبير ويتناسب مع طبيعة الشبكة العنكبوتية بما Search Engine Structure:بنية محرك البحث .2-
تتميز به من روابط فائقة حتى أن مصمم الشبكة العنكبوتية تيم برنر لى يرى أن مصممي جوجل تفوقوا على كل محركات البحث األخرى بإدراكهم هذه الميزة التي جعلت من جوجل
بيئة متميزة السترجاع المعلومات من الشبكة العنكبوتية
إن محرك البحث جوجل يتميز أيضا بأنه يسعى لتنظيم شبكة اإلنترنت بحيادية تامة حيث يقوم بعرض النتائج مدفوعة األجر في موقع Neutral and Un-Biasالحياد .3-
منفصل وبعيد تمامًا عن نتائج البحث األساسية
تتميز النتائج المسترجعة من محرك البحث جوجل بالدقة المتناهية حيث يعتمد على أسلوب المطابقة Accuracy of Retrieved Results:دقة النتائج المسترجعة .4-
بالتالي فهو ال يسترجع إال النتائج التي تتطابق مع كلمات البحث سواء ضمن نص الصفحة أو ضمن االرتباطات التي تشير إلى الصفحة.كما أن استخدام Exact Matchالحرفية
جعل من النتائج التي يسترجعها محرك البحث جوجل ال تتضمن كل كلمات البحث فقط بل يحلل جوجل أيضا الكلمات المجاورة Proximity Search،مبدأ البحث التجاورى
لمصطلحات البحث في الصفحة .فبخالف محركات بحث كثيرة يرتب جوجل النتائج وفقا لتجاور مصطلحات البحث أوال حيث يعطى أولوية للنتائج التي تكون فيها كلمات البحث
.متجاورة أكثر من تلك التي تكون فيها كلمات البحث متباعدة .بالتالي يستطيع المستفيد أن يحصل على نتائجه مرتبة وفقا الحتياجاته الخاصة والتي تختلف من مستفيد آلخر
يقدم جوجل وغيره من محركات البحث وصف دقيق للصفحة المسترجعة في صورة مقتطفات من النص الذي يطابق البحث Results Description: ،وصف النتائج 5-
من الصفحة تتضمن تحليل كامل Page Cashوبالطبع تتغير هذه المقتطفات وفقا لكلمات البحث .ولكن أهم ما يميز جوجل عن غيره من المحركات أنه يقوم بتخزين نسخة مخبأة
للصفحة وفقًا الرتباطها بكلمات البحث .وذلك لكي تتمكن من استعمالها في حال توقف الصفحة وقتيا .وكثيرا ما تكون الصفحة المخبأة أسرع من االرتباط العادي ،مع أن المعلومات
قد ال تكون محّد ثة
فإذا كنت تبحث عن I `m Lucky.يتيح جوجل طريقة سريعة للبحث المحدد الذي يبحث عن صفحة معينة فيما يعرف بضربة حظ Response Time:وقت االستجابة .6-
النتيجة المطلوبة في رأس الصفحة .حيث أنشأ القائمون على جوجل زر "ضربة حظ" الذي يأخذ المستفيد مباشرة إلى Googleأشياء شائعة ومعروفة ،مثل اسم شركة ،يضع
.موقع نتيجة البحث األولى .وميزة "ضربة حظ أنها مصممة إليصالك إلى المعلومات المفيدة بشكل سريع ومباشر
الخالصة:تناولت هذه الورقة عرض للطريقة التي يعتمد عليها محرك البحث جوجل في تحليل وترتيب صفحات الويب والتى تميزه عن غيره من محركات البحث العالمية .وأشارت
الورقة إلى أن محرك البحث جوجل استند في فكرته األساسية للتحليل والفرز على أحد األساليب المعروفة لدى المتخصصين في علوم المعلومات بأسلوب تحليل اإلستشهادات
المرجعية والتى أطلق عليها تحليل الروابط الفائقة ،وأعتمد عليها بشكل بصفة أساسية في تطوير خوارزميات التكشيف واالسترجاع والفرز .كما استعرضت أيضا المالمح األساسية
.التي تبرر استخدام هذا المحرك من جانب عدد كبير من المستفيدين من حيث التغطية والبنية والحياد والدقة ووصف النتائج ووقت االستجابة
: - CommereceNet/ Nielsen (2005, June, 10) Worldwide Internet Population. Availableالمصادر
Onlinehttp://www.commerce.net/research/status/wwstats.html - Dennis, S., Bruza, P., & McArthur, R. (2002). Web
Searching: A Process Oriented Experimental Study of Three Interactive Search Paradigms. Journal of the American
Society of Information Science. 53(2): 120-133- Ding, W., & Marchionini, G. (1996). A Comparative Study of Web Service
Performance. In S. Hardin (Ed), Proceedings of the 59th Annual Meeting of the American Society for Information
Science (pp.136-142), Medford. NJ: American Society for Information Science.- Unerwood, Lee. A Brief History of
Search Engines - Webreference.com. September, 2003. Retrieved from the WWW at May 20,
2005.http://www.webreference.com/authoring/search_history - Wall, Aaron. Search Marketing. History of Search
Engines & Web History. Retrieved from the WWW at May, 16, 2005.http://www.search-marketing.info/search-engine-
history - Smith, Z. The Truth about Web: Crawling Towards eternity. Web TechniqueMagazine, May, 2005. Retrieved
from the Web at 27, June, 2005http://www.webtechnique.com/features/2005/05 - Sullivan, D (2002). How Search Engines
Work. Retrieved from the Web at, June, 25, 2005.http://www.searchenginewatch.com/links - Sullivan, D (2002). How
Search Engines Work. Retrieved from the Web at, June, 25, 2005.http://www.searchenginewatch.com/links - Ibid-
Googel. Why We Need to Use Google. Retrieved from the WWW at August, 25, 2005 Available
athttp://www.google.com/intl/ar/why_use.html - Roux, Andre. Search Engines Yearbook. New York: Pendecta
Magazine, 2004, 505 p- Mowshowitz, A., Kawaguchi, A. (2002). Assessing Bias in Search Engines. Information
Processing and Management, 35)4), pp. 443-462