الأربعاء، ٢٨ مارس ٢٠٠٧

محرك البحث جوجل

عنوان المقالة : محرك البحث جوجل: نظرة تشريحية على أسلوبه فى التحليل والفرز
د/خالد عبد الفتاح مدرس علم المعلومات بكلية الآداب جامعة المنيا – قسم المكتبات والمعلومات- مصر
محرك البحث جوجل: يعد محرك البحث جوجل من أكثر محركات البحث شهرة على المستوى العالمي نظراً لما يتمتع به من سرعة في ملاحقة الصفحات الجديدة وتكشيفها، حيث يبلغ حجم قاعدة بياناته وفقاً لآخر التقديرات حوالي 9 مليار صفحة.وقد قام بتطوير هذا المحرك اثنان من طلبة الدكتوراه بجامعة ستانفورد عام 1998 هما: سيرغي برين ولاري بايج Sergey Brin and Larry Page. والمصطلح جوجل يعنى بالإنجليزية ملايين المليارات كما تعنى أيضا يبحلق أو ينظر بشدة وتركيز مما يعكس رغبة مؤسسيه على ملاحقة وتكشيف أكبر قدر ممكن من صفحات ومواقع الويب، كما يعكس أيضا إدراكهم منذ البداية للنمو السريع لشبكة الإنترنت.وتشير إحصائيات محرك البحث جوجل إلى أنه يجيب على أكثر من 150 مليون استفسار يوميا بمختلف لغات العالم، حيث يتيح البحث بحوالي 35 لغة منها اللغة العربية . وقد أثبت محرك البحث جوجل كفاءة كبيرة في تعامله مع اللغة العربية من خلال العديد من التجارب والدراسات التي سعت إلى تقييم أداء محركات البحث .ومن أهم الملامح التي تميز محرك البحث جوجل هو قدرته الفائقة على عرض وترتيب النتائج وفقا لارتباطها بموضوع الاستفسار، حيث أشارت العديد من دارسات تقييم نتائج البحث والاسترجاع من محركات البحث إلى أن محرك البحث جوجل يتفوق على كل المحركات المنافسة مثل AltaVista, Yahoo, Alltheweb وغيرها. ويرجع الفضل في هذه الميزة إلى الطريقة التي يعتمد عليها محرك البحث في ترتيب نتائج الاسترجاع والتي تعرف بنموذج بترتيب الصفحة Page Rank ، . ويرجع تفوق محرك البحث جوجل على غيره من محركات البحث المعروفة في معدلات الاستدعاء Recall والتحقيق Precision ودقة الترتيب Ranking Accuracy في تصورنا إلى: o السبب الأول يتمثل في اعتماده على استخدام بنية روابط الويب Web Link Structure لحساب ترتيب الصفحات Rank Order Calculation. وهو النظام الذي يطلق عليه نموذج ترتيب الصفحة Page Rank Model.o السبب الثاني هو استخدام الروابط Links لتحسين نتائج البحث من حيث معدلات الاستدعاء (عدد الصفحات المسترجعة) حيث يسترجع محرك البحث الصفحات المصدرية ذات العلاقة بموضوع الاستفسار وغيرها من الصفحات المرتبطة بها.§ نموذج ترتيب الصفحة Page Rank Model تعتبر الروابط Hyperlinksواحدة من أهم الملامح المميزة للشبكة العنكبوتية حيث تشبه العلاقة بين الصفحات والروابط تلك العلاقة التي أستخدمها يوجين جارفيلدد (Eugene Garfield) في منتصف الخمسينات من القرن الماضي في إعداد كشافات الإستشهادات المرجعية. وتعتمد فكرة هذه الكشافات على افتراض منطقي يدعى وجود علاقة تربط بين المقالة المصدرية والمصادر المستشهد بها في هذه المقالة. وهو ما يساعد على حساب مدى قوة أو ضعف العلاقات التي تربط بين مصادر المعلومات سواء كانت مقالات أو دوريات أو مؤلفين. وهو نفس الأساس الذي اعتمد عليه القائمون على بناء محرك البحث جوجل حيث افترضوا وجود علاقة بين الصفحة والصفحات التي تشير إليها من خلال الروابط الفائقة، وقد ثبت نجاح هذا الافتراض بشكل كبير.وقد اعتمد القائمون على بناء محرك البحث جوجل على مجموعة من الخرائط Maps التي قاموا بتجهيزها وتضمنت ما يقرب من 518 مليون وحدة من الروابط الفائقة Hyperlinks لكي تمثل عينة متميزة للعلاقات التي تربط بين صفحات المعلومات على الشبكة العنكبوتية. وقد أتاحت هذه الخرائط إجراء حسابات سريعة للتعرف على مدى قوة العلاقة التي تربط بين مجموعة من الصفحات. ثم ترتيب هذه الصفحات من خلال الاعتماد على تحليل ما تحويه من روابط داخلية تربطها بصفحات أخرى والروابط الخارجية التي تربط الصفحات الأخرى بها. ويتميز هذا المقياس بأنه مقياس ديمقراطي إلى حد كبير حيث يحدد مكانة الصفحة بين غيرها من الصفحات بناء على مدى أهميتها بالنسبة للصفحات الأخرى سواء بالإشارة إلى هذه الصفحات أو بالإشارات التي تتلقاها الصفحة من الصفحات الأخرى .§ طريقة حساب ترتيب الصفحة Page Rank Calculation Methodيتم حساب عدد الروابط الموجودة في الصفحة وتشير إلى صفحات أخرى كما يتم حساب عدد الروابط التي تشير إلى الصفحة المصدرية ثم يتم تطبيع Normalization هذه الحسابات لتحديد قيمة تشابه Similarity Score بين الصفحة والصفحات أخرى. وتتم عملية التطبيع وفقاً للمعادلة التالية:نفترض أن الصفحة A مرتبطة بصفحات أخرى تشير إليها (Point to it) وعددها T1-----Tn والمعامل d هو معامل ثابت ما بين (0,1) وعادة ما يأخذ القيمة 0.85 إلا في حالات استثنائية سنوضحها فيما بعد. وتشير C إلى عدد الروابط الخارجة من الصفحة وتشير إلى صفحات أخرى (Point to other Pages) بالتالي يكون حساب ترتيب الصفحة PR(A) كما يلى:PR• (A) = (1-d) + d (PR(T1) / C(T1) +------------ PR(Tn) / C(Tn))نلاحظ من المعادلة أن ترتيب الصفحة Page Rank يمثل توزيع احتماليProbability Distribution لكل صفحات الويب Over Web Pages مما يعنى أن مجموع ترتيب الصفحات لكل عملية يعادل واحدًا صحيحًا، مما يسمح بترتيب الصفحات تنازلياً وفقا لقيمة A. ويتم حساب معامل آخر لترتيب الصفحة يعتمد أيضا على بنية الروابط Link Structure وهو معامل يتعلق بسلوك المستفيدين عند التعامل مع الصفحة. وهذا المعامل يتعلق بمعدلات الإفادة من صفحة معينه، مما يعنى أن المستفيد يمكن أن يغير من ترتيب الصفحات وفقاً لمدى استخدامه لهذه الصفحات. ويتم تحديد مدى الإفادة من صفحة معينة وفقاً لعدد مرات النقر على الرابط الفائق المتعلق بهذه الصفحة في كل مرة تظهر فيه هذه الصفحة ضمن نتائج البحث، حيث يتم تعديل قيمة المعامل d. فإذا قام المستفيد بفتح الصفحة التي تظهر في ترتيب 3 مثلاً ولم يفتح الصفحة التي تظهر في الترتيب 1 يعتبر محرك البحث جوجل أن هذا إعلان من المستفيد أن الصفحة 3 أفضل من الصفحة 1 بالنسبة لهذا الاستفسار، مما يجعل محرك البحث يعدل من قيمة المعامل d الخاص بترتيب الصفحة 3 مما يجعلها تظهر قبل الصفحة 1 ، 2 إذا كان سلوك كل أو معظم المستفيدين منها يسير في نفس الاتجاه. ويعتبر هذا المقياس أيضا من المقاييس الديمقراطية التي تميز محرك البحث جوجل عن غيره من المحركات.وتعرف عملية تعديل قيمة المعامل d برد فعل الصلاحية Relevance Feedback والذي يتوقف على مجموع سلوك المستفيدين من صفحة معينة خلال فترة زمنية معينة .§ نصوص الزاوية Anchor Text :يتم معاملة النصوص التي تعبر عن الروابط في الملف المصدري Source File- وهو الملف الذي يشتمل على أكواد لغة تكويد النصوص الفائقة HTML- بطريقة خاصة في محرك البحث جوجل. حيث تتعامل معظم محركات البحث التي تستخدم أسلوب تحليل الروابط Link Analysis مع الروابط التي توجد داخل الصفحة وتكشف النصوص التي توجد داخل هذه الروابط بينما يكشف محرك البحث جوجل الروابط التي تشير إلى الصفحة Point to it. ولهذه الطريقة العديد من المزايا ومنها :• أولاً نصوص الزاوية Anchor Text عادة ما تتضمن وصف دقيق لصفحة الويب يفوق ما تقدمه الصفحة في جسمها الرئيسي من كلمات مفتاحية تصف الموضوع الذي تتناوله، وهو ما أثبتته العديد من الدراسات حيث أن هذه النصوص تمثل عناوين الموضوعات الرئيسية التي تتناولها هذه الصفحات.• ثانياً نصوص الزاوية تساعد على تكشيف الصفحات التي لا يمكن تكشيفها من خلال محركات بحث نصية Text Based Search Engines ، وبالتالي يمكن استخدام هذه النصوص في تكشيف الوسائط المتعددة Multimedia مثل ملفات الصوت، الفيديو، الصور، برامج الكمبيوتر، الخرائط، قواعد البيانات...الخ.• ثالثاً تساعد نصوص الزاوية على تكشيف صفحات لم تقوم الزواحف Crawlers بتجميعها أو زيارتها، بالتالي يمكن من خلال هذا الأسلوب تجميع أكبر عدد ممكن من الصفحات أو التعرف عليها دون الحاجة إلى زيارة الخوادم التي تستضيفها. خاصة إذا ما عرفنا أن هذه الزواحف عادة ما تكون متحيزة جغرافياً ولغوياً في تغطيتها.وهو ما جعل محرك البحث جوجل من أكبر محركات البحث وأشملها من حيث حدود التغطية سواء الجغرافية أو اللغوية أو الموضوعية أو وفقاً للأسماء السائدة Domain Names.وتجدر الإشارة هنا إلى أن هذه الميزة قد تنقلب إلى عيب كبير وتسبب مشاكل كثيرة حيث أن محرك البحث يمكن أن يسترجع نتائج لصفحات لم يزورها الزاحف مطلقاً ويتأكد من وجودها. ويعتبر استخدام نصوص أقواس الزاوية عملية في غاية الصعوبة نظراً لضخامة حجم البيانات التي يتم معالجتها حيث أن معالجة 24 مليون صفحة تتطلب على الأقل معالجة 259 مليون نص زاوية في محرك البحث جوجل حتى عام 2000 بمتوسط 10.8 نص زاوية للصفحة الواحدة .وقد استخدمت فكرة توسيع التغطية من خلال التعامل مع نصوص أقواس الزاوية Anchor Text Propagating للصفحات التي تشير إلى الصفحات المصدرية في محرك البحث WWW WORM وهو أول محرك بحث يتضمن زاحف – تم بناءه عام 1994 – لتكشيف الصفحات الغير نصية Non Textual Pages. ويعتبر استخدام نصوص أقواس الزاوية عملية في غاية الصعوبة نظراً لضخامة حجم البيانات التي يتم معالجتها حيث أن معالجة 24 مليون صفحة تتطلب على الأقل معالجة 259 مليون نص زاوية في محرك البحث جوجل حتى عام 2000 بمتوسط 10.8 نص زاوية للصفحة الواحدة .وبالإضافة إلى استخدام الروابط ونصوص الزاوية في تكشيف الصفحات يقوم محرك البحث جوجل بتحديد موقع الرابط Link Location لتحديد أهمية الرابط في الصفحة. فتعتبر الروابط التي تأتى في عناوين منفصلة أكثر أهمية من الروابط التي ترد ضمن نص ما، والروابط التي ترد في المحتويات والفئات التي تتضمنها الصفحة أكثر أهمية من الروابط التي ترد في عناوين فرعية. كما يستخدم محرك البحث جوجل أساليب التكشيف التقليدية مثل أسلوب تردد المصطلحات Term Frequency، والتكشيف التجاورى Proximity Indexing، وأساليب وزن المصطلحات Term Weighting Schemes.من ثم فإن نظام ترتيب الصفحة Page Rank يعتمد على الطبيعة الديمقراطية الفريدة في الويب، وذلك باستعمال الارتباطات Hyperlinks كدليل على أهمية صفحة معينة.بمعنى أن Google يفسر الارتباط من صفحة أ إلى الصفحة ب على أنه تصويت من الصفحة أ لمصلحة الصفحة ب. لكنه لا ينظر فقط إلى كمية الأصوات (أي الارتباطات الموجهة إلى صفحة معينة)، بل يحلل الصفحة التي تقوم بالتصويت. فإذا كانت الصفحات التي تصوِّت "مهمة"، يعطيها ذلك وزنا أكبر، ويجعل الصفحات الأخرى التي تم التصويت لها مهمة أيضا. تحصل المواقع المهمة رفيعة الجودة على ترتيب Page Rank أعلى، الأمر الذي يتذكره Google في كل مرة يُجري بحثا. وبالطبع لا تعني الصفحات المهمة للمستفيد شيئا إن كانت لا تطابق بحثه . لذلك يجمع Google بين Page Rank وتقنيات مطابقة النص Text Matching المعقدة ليجد صفحات مهمة وتلائم موضوع البحث على السواء. ولا يتوقف Google عند عدد المرات التي تظهر فيها عباره معينة في الصفحة، بل يفحص كل أوجه محتويات الصفحة ومحتويات الصفحات المرتبطة بها ليعرف ما إذا كانت مطابقة للبحث أم لا .نزاهة جوجل:من أهم السمات التي تميز النتائج المسترجعة من محرك البحث جوجل هى النزاهة في عرض النتائج، حيث أن طريقة عمل جوجل المعقدة والآلية تجعل من الصعب العبث البشرى بالنتائج المسترجعة. ذلك على الرغم من أن جوجل يقوم بعرض إعلانات مدفوعة الأجر في قمة صفحة النتائج لمجموعة من المنتجات المرتبطة بموضوع الاستفسار إلا أنه لا يبيع مواقع أفضل ضمن صفحات النتائج الرئيسية، حيث لا يسمح محرك البحث بشراء ترتيب الصفحة Page Rank، بالتالي فإن البحث في جوجل يمثل طريقة سهلة وموضوعية للعثور على نتائج عالية الجودة وتحوى معلومات تطابق موضوع البحث.وعلى الرغم من ذلك فإن اعتماد جوجل على أسلوب رد فعل الصلاحية Relevance Feedback الذي يعطى الصفحة ترتيبًا أعلى في حالة تردد استخدامها من جانب المستفيدين، قد ساعد بشكل غير مباشر على العبث البشرى بنتائج البحث، حيث يمكن للمستفيد أن يرفع من ترتيب صفحة ما من خلال إعادة البحث مرات عديدة وفتح تلك الصفحة مما يعطيها أهمية أو قيمة أكبر من الصفحات التي تسترجع معها.مبررات استخدام جوجل:يرى أندريه روكس (Andre Roux) معد الكتاب السنوي لمحركات البحث Search Engines Yearbook أنه توجد مجموعة من المبررات المنطقية التي تدفع المستفيدين إلى تفضيل جوجل عن غيره من محركات البحث وزيادة معدلات استخدامه من جانب رواد شبكة الإنترنت، وتشمل هذه المبررات ما يلي : 1- التغطية في جوجل Google Coverage:أن محرك البحث جوجل أكبر محركات البحث من حيث تغطيته لصفحات ومواقع الويب كما انه أسرع محركات البحث المتاحة على الشبكة العنكبوتية. وقد أثبتت العديد من الدراسات كما سبق وعرضنا أن جوجل يتفوق على كل محركات البحث المتاحة على الشبكة العنكبوتية، كما أوضحت دراسات الإفادة من محركات البحث أن جوجل يأتى على قمة المحركات التي يستخدمها المستفيدون من الشبكة العنكبوتية في جميع أنحاء العالم، كما انه يتميز أيضا بتنوع خدماته إلى الحد الذي جعل من جوجل أكبر شركة لتقديم خدمات المعلومات على شبكة الإنترنت. وتوجد منافسة شرسة بين كلا من جوجل وياهو على تحقيق أعلى الأرباح من خلال خدمات الإنترنت.2- بنية محرك البحث Search Engine Structure:الأساس الذي أعتمد عليه مصممي جوجل هو أساس ديمقراطي إلى حد كبير ويتناسب مع طبيعة الشبكة العنكبوتية بما تتميز به من روابط فائقة حتى أن مصمم الشبكة العنكبوتية تيم برنر لى يرى أن مصممي جوجل تفوقوا على كل محركات البحث الأخرى بإدراكهم هذه الميزة التي جعلت من جوجل بيئة متميزة لاسترجاع المعلومات من الشبكة العنكبوتية.3- الحياد Neutral and Un-Bias إن محرك البحث جوجل يتميز أيضا بأنه يسعى لتنظيم شبكة الإنترنت بحيادية تامة حيث يقوم بعرض النتائج مدفوعة الأجر في موقع منفصل وبعيد تماماً عن نتائج البحث الأساسية.4- دقة النتائج المسترجعة Accuracy of Retrieved Results:تتميز النتائج المسترجعة من محرك البحث جوجل بالدقة المتناهية حيث يعتمد على أسلوب المطابقة الحرفية Exact Match بالتالي فهو لا يسترجع إلا النتائج التي تتطابق مع كلمات البحث سواء ضمن نص الصفحة أو ضمن الارتباطات التي تشير إلى الصفحة.كما أن استخدام مبدأ البحث التجاورى Proximity Search، جعل من النتائج التي يسترجعها محرك البحث جوجل لا تتضمن كل كلمات البحث فقط بل يحلل جوجل أيضا الكلمات المجاورة لمصطلحات البحث في الصفحة. فبخلاف محركات بحث كثيرة يرتب جوجل النتائج وفقا لتجاور مصطلحات البحث أولا حيث يعطى أولوية للنتائج التي تكون فيها كلمات البحث متجاورة أكثر من تلك التي تكون فيها كلمات البحث متباعدة. بالتالي يستطيع المستفيد أن يحصل على نتائجه مرتبة وفقا لاحتياجاته الخاصة والتي تختلف من مستفيد لآخر.5- وصف النتائج Results Description:يقدم جوجل وغيره من محركات البحث وصف دقيق للصفحة المسترجعة في صورة مقتطفات من النص الذي يطابق البحث، وبالطبع تتغير هذه المقتطفات وفقا لكلمات البحث. ولكن أهم ما يميز جوجل عن غيره من المحركات أنه يقوم بتخزين نسخة مخبأة Page Cashمن الصفحة تتضمن تحليل كامل للصفحة وفقاً لارتباطها بكلمات البحث. وذلك لكي تتمكن من استعمالها في حال توقف الصفحة وقتيا. وكثيرا ما تكون الصفحة المخبأة أسرع من الارتباط العادي، مع أن المعلومات قد لا تكون محدّثة.6- وقت الاستجابة Response Time:يتيح جوجل طريقة سريعة للبحث المحدد الذي يبحث عن صفحة معينة فيما يعرف بضربة حظ I `m Lucky. فإذا كنت تبحث عن أشياء شائعة ومعروفة، مثل اسم شركة، يضع Google النتيجة المطلوبة في رأس الصفحة. حيث أنشأ القائمون على جوجل زر "ضربة حظ" الذي يأخذ المستفيد مباشرة إلى موقع نتيجة البحث الأولى. وميزة "ضربة حظ أنها مصممة لإيصالك إلى المعلومات المفيدة بشكل سريع ومباشر.الخلاصة:تناولت هذه الورقة عرض للطريقة التي يعتمد عليها محرك البحث جوجل في تحليل وترتيب صفحات الويب والتى تميزه عن غيره من محركات البحث العالمية. وأشارت الورقة إلى أن محرك البحث جوجل استند في فكرته الأساسية للتحليل والفرز على أحد الأساليب المعروفة لدى المتخصصين في علوم المعلومات بأسلوب تحليل الإستشهادات المرجعية والتى أطلق عليها تحليل الروابط الفائقة، وأعتمد عليها بشكل بصفة أساسية في تطوير خوارزميات التكشيف والاسترجاع والفرز. كما استعرضت أيضا الملامح الأساسية التي تبرر استخدام هذا المحرك من جانب عدد كبير من المستفيدين من حيث التغطية والبنية والحياد والدقة ووصف النتائج ووقت الاستجابة.المصادر: - CommereceNet/ Nielsen (2005, June, 10) Worldwide Internet Population. Available Online http://www.commerce.net/research/status/wwstats.html - Dennis, S., Bruza, P., & McArthur, R. (2002). Web Searching: A Process Oriented Experimental Study of Three Interactive Search Paradigms. Journal of the American Society of Information Science. 53(2): 120-133- Ding, W., & Marchionini, G. (1996). A Comparative Study of Web Service Performance. In S. Hardin (Ed), Proceedings of the 59th Annual Meeting of the American Society for Information Science (pp.136-142), Medford. NJ: American Society for Information Science.- Unerwood, Lee. A Brief History of Search Engines - Webreference.com. September, 2003. Retrieved from the WWW at May 20, 2005.http://www.webreference.com/authoring/search_history - Wall, Aaron. Search Marketing. History of Search Engines & Web History. Retrieved from the WWW at May, 16, 2005.http://www.search-marketing.info/search-engine-history - Smith, Z. The Truth about Web: Crawling Towards eternity. Web TechniqueMagazine, May, 2005. Retrieved from the Web at 27, June, 2005http://www.webtechnique.com/features/2005/05 - Sullivan, D (2002). How Search Engines Work. Retrieved from the Web at, June, 25, 2005.http://www.searchenginewatch.com/links - Sullivan, D (2002). How Search Engines Work. Retrieved from the Web at, June, 25, 2005.http://www.searchenginewatch.com/links - Ibid- Googel. Why We Need to Use Google. Retrieved from the WWW at August, 25, 2005 Available athttp://www.google.com/intl/ar/why_use.html - Roux, Andre. Search Engines Yearbook. New York: Pendecta Magazine, 2004, 505 p- Mowshowitz, A., Kawaguchi, A. (2002). Assessing Bias in Search Engines. Information Processing and Management, 35)4), pp. 443-462
منقول من منتديات اليسير