به‌طور کلی، موتورهای‌جستجو در دو دسته قرار می‌گیرند:

موتورهای جستجوی پیمایشی(خودکار) و فهرست‌های تکمیل دستی.

۱- موتورهای جستجوی پیمایشی( Crawler-Based Search Engines)

این نوع از موتورهای جستجو از روش Web Crawling یا خزش استفاده می‌کنند که از سه بخش اصلی زیر تشکیل شده‌اند:

Crawler (کرالر یا خزنده)

قبل از آنکه کرالر را توضیح دهیم بهتر است با مفهوم اسپایدر آشنا شویم. ربات Spider (اسپایدر) یا عنکبوت وظیفه‌ی مراجعه و بازدید از تمامی صفحات وب، خواندن محتوای صفحات و دنبال کردن لینک‌ها و درنهایت جمع‌آوری اطلاعات مورد نیاز را بر عهده دارد.

اما کرالر، خزنده یا پیمایشگر در حکم یک فرمانده برای اسپایدر است و در واقع به اسپایدر دستور می‌دهد تا از کدام منابع و صفحات بازدید کرده و چه اطلاعاتی را جمع‌آوری کند. شما به عنوان دارنده‌ی یک سایت می‌توانید با استفاده از یک سری پروتکل‌ها، میزان دسترسی موتور جستجو به وبسایت خود را تنظیم و کنترل کنید. به فرایند خزش در صفحات وب Crawling گفته می‌شود.

Indexer ( فهرست کننده)

پس از این‌که عملیات جمع‌آوری اطلاعات توسط اسپایدر به پایان رسید ( البته این عملیات با توجه به ماهیت در حال توسعه و گسترش وب هیچ‌گاه به پایان نخواهد رسید)، پیمایشگر اطلاعات را به المان دوم یعنی Indexer تحویل می‌دهد. ایندکسر اطلاعات ارسالی را تجزیه و تحلیل کرده و طبقه‌بندی می‌کند. عملیات تجزیه و تحلیل بدین صورت است که بر اساس تکنیک‌های خاص مشخص می‌شود اطلاعات از کدام صفحه ارسال شده‌است، همچنین میزان حجم اطلاعات صفحه و تعداد کلمات و تکرار و مکان آن‌ها در صفحه و ... معین می‌گردد. در واقع، ایندکسر مانند کتاب بسیار بزرگی است که لیست یا فهرستی از تمامی صفحات وب که توسط اسپایدر پیدا شده، داخل آن موجود است. اگر این صفحات تغییر کند، کتاب شما با محتوا و اطلاعات جدید به‌روز می‌شود.

نرم‌افزار موتورجستجو

اما المان سوم، نرم‌افزار موتورجستجو است. این نرم‌افزار، برنامه‌ای است که میلیون‌ها صفحه‌ی بایگانی‌شده در ایندکسر را گروه‌بندی و بر اساس معیارهای مرتبط با جستجوی کاربر و اهمیت، رتبه‌بندی می‌کند و نتیجه‌ی نهایی را به کاربر نشان می‌دهد. در حقیقت نرم‌افزار موتور جستجو از دوبخش بانک اطلاعاتی و سیستم رتبه‌بندی تشکیل شده است.

بانک اطلاعاتی، کلیه ورودی‌ها از سوی ایندکسر را دریافت کرده، گروه‌بندی و کدگذاری کرده و به صورت فشرده شده ذخیره می‌کند. موتورهای جستجو معمولا بانک اطلاعاتی یا دیتابیس بسیار بزرگی دارند.

موتور جستجو

در این مرحله موتورجستجو آماده‌ی پاسخگویی به کاربر است و سیستم رتبه‌بندی وارد میدان می‌شود. پس از وارد شدن عبارت مدنظر کاربر در جعبه‌ی جستجو و فشردن کلید Enter توسط کاربر، سیستم رتبه‌بندی موتورجستجو برای پاسخگویی، نتایج یافت شده در بانک اطلاعاتی خود را براساس بیشترین رابطه با عبارت یا کلمه‌ی جستجو شده تا کمترین ارتباط مرتب کرده و به کاربر نمایش می‌دهد. البته در این بین، موارد مهمی وجود دارد که باعث می‌شود نتایج در رتبه‌های بالاتری قرار گیرند.

اینجاست که تفاوت اصلی موتورهای جستجوگر مختلف نمایان می‌شود؛ سیستم رتبه‌بندی یک عامل حیاتی برای جستجوگر است. هر جستجوگر از قوانین و الگوریتم‌های خاص و ویژه‌ی خود استفاده می‌کند و نتایج جستجو را به کاربر نشان می‌دهد. به همین علت است که با جستجوی یک کلمه‌ی یکسان در موتورهای جستجوی مختلف به نتایج جستجوی متفاوتی دست می‌یابیم.

موتورهای جستجویی که از روش خزش استفاده می‌کنند، معمولا مشخصات مشابهی دارند و بیشتر تفاوت‌ها آن‌ها، در نحوه‌ی به کارگیری و تقویت سه المان فوق است.

۲- فهرست تکمیل دستی( Human-Powered Directories )

در این روش، موتورهای جستجو به سراغ دایرکتوری‌های دست‌ساز یا فهرست دستی می‌روند که به عنوان نمونه می‌توان به Open Directory مثل Dzom اشاره کرد. این دایرکتوری‌ها براساس ورودی‌های افراد، فهرست می‌شوند و امکان ارائه‌ی توضیحات مختصر برای هر سایت وارد شده در دایرکتوری وجود دارد. در این حالت، جستجو تنها بر روی توضیحات ارائه‌شده انجام می‌گیرد. تغییراتی که در صفحات وب انجام می‌شود، روی فهرست‌بندی نتایج تاثیری ندارد. معمولا مواردی که برای انجام جستجوی بهتر و فهرست‌بندی دقیق‌تر نتایج در جستجوی مبتنی بر خزش مفید واقع می‌شود، تاثیر مثبتی روی جستجوی دایرکتوری‌ها ندارد. تنها تفاوت اینجاست که یک سایت خوب با محتوای خوب و مناسب نسبت به یک سایت ضعیف، بهتر ارزیابی می‌شود.

دایرکتوری DMOZ

۳- موتورهای جستجوی هیبریدی یا نتایج ترکیبی

البته اوایل زمانی که دنیای وب و اینترنت مرسوم شده بود، نتایج جستجوها به صورت مجزا، براساس روش خزش یا فهرست‌بندی دایرکتوری‌های شخصی به دست می‌آمد. ولی در دنیای امروز،  از هر دو روش برای ارائه بهتر نتیجه‌ی عبارت جستجو شده استفاده می‌شود که در این صورت موتور جستجو را هیبریدی می‌نامیم.

 

منبع: پارسی جو