انواع موتورهای جستجو
بهطور کلی، موتورهایجستجو در دو دسته قرار میگیرند:
موتورهای جستجوی پیمایشی(خودکار) و فهرستهای تکمیل دستی.
۱- موتورهای جستجوی پیمایشی( Crawler-Based Search Engines)
این نوع از موتورهای جستجو از روش Web Crawling یا خزش استفاده میکنند که از سه بخش اصلی زیر تشکیل شدهاند:
Crawler (کرالر یا خزنده)
قبل از آنکه کرالر را توضیح دهیم بهتر است با مفهوم اسپایدر آشنا شویم. ربات Spider (اسپایدر) یا عنکبوت وظیفهی مراجعه و بازدید از تمامی صفحات وب، خواندن محتوای صفحات و دنبال کردن لینکها و درنهایت جمعآوری اطلاعات مورد نیاز را بر عهده دارد.
اما کرالر، خزنده یا پیمایشگر در حکم یک فرمانده برای اسپایدر است و در واقع به اسپایدر دستور میدهد تا از کدام منابع و صفحات بازدید کرده و چه اطلاعاتی را جمعآوری کند. شما به عنوان دارندهی یک سایت میتوانید با استفاده از یک سری پروتکلها، میزان دسترسی موتور جستجو به وبسایت خود را تنظیم و کنترل کنید. به فرایند خزش در صفحات وب Crawling گفته میشود.
Indexer ( فهرست کننده)
پس از اینکه عملیات جمعآوری اطلاعات توسط اسپایدر به پایان رسید ( البته این عملیات با توجه به ماهیت در حال توسعه و گسترش وب هیچگاه به پایان نخواهد رسید)، پیمایشگر اطلاعات را به المان دوم یعنی Indexer تحویل میدهد. ایندکسر اطلاعات ارسالی را تجزیه و تحلیل کرده و طبقهبندی میکند. عملیات تجزیه و تحلیل بدین صورت است که بر اساس تکنیکهای خاص مشخص میشود اطلاعات از کدام صفحه ارسال شدهاست، همچنین میزان حجم اطلاعات صفحه و تعداد کلمات و تکرار و مکان آنها در صفحه و ... معین میگردد. در واقع، ایندکسر مانند کتاب بسیار بزرگی است که لیست یا فهرستی از تمامی صفحات وب که توسط اسپایدر پیدا شده، داخل آن موجود است. اگر این صفحات تغییر کند، کتاب شما با محتوا و اطلاعات جدید بهروز میشود.
نرمافزار موتورجستجو
اما المان سوم، نرمافزار موتورجستجو است. این نرمافزار، برنامهای است که میلیونها صفحهی بایگانیشده در ایندکسر را گروهبندی و بر اساس معیارهای مرتبط با جستجوی کاربر و اهمیت، رتبهبندی میکند و نتیجهی نهایی را به کاربر نشان میدهد. در حقیقت نرمافزار موتور جستجو از دوبخش بانک اطلاعاتی و سیستم رتبهبندی تشکیل شده است.
بانک اطلاعاتی، کلیه ورودیها از سوی ایندکسر را دریافت کرده، گروهبندی و کدگذاری کرده و به صورت فشرده شده ذخیره میکند. موتورهای جستجو معمولا بانک اطلاعاتی یا دیتابیس بسیار بزرگی دارند.
در این مرحله موتورجستجو آمادهی پاسخگویی به کاربر است و سیستم رتبهبندی وارد میدان میشود. پس از وارد شدن عبارت مدنظر کاربر در جعبهی جستجو و فشردن کلید Enter توسط کاربر، سیستم رتبهبندی موتورجستجو برای پاسخگویی، نتایج یافت شده در بانک اطلاعاتی خود را براساس بیشترین رابطه با عبارت یا کلمهی جستجو شده تا کمترین ارتباط مرتب کرده و به کاربر نمایش میدهد. البته در این بین، موارد مهمی وجود دارد که باعث میشود نتایج در رتبههای بالاتری قرار گیرند.
اینجاست که تفاوت اصلی موتورهای جستجوگر مختلف نمایان میشود؛ سیستم رتبهبندی یک عامل حیاتی برای جستجوگر است. هر جستجوگر از قوانین و الگوریتمهای خاص و ویژهی خود استفاده میکند و نتایج جستجو را به کاربر نشان میدهد. به همین علت است که با جستجوی یک کلمهی یکسان در موتورهای جستجوی مختلف به نتایج جستجوی متفاوتی دست مییابیم.
موتورهای جستجویی که از روش خزش استفاده میکنند، معمولا مشخصات مشابهی دارند و بیشتر تفاوتها آنها، در نحوهی به کارگیری و تقویت سه المان فوق است.
۲- فهرست تکمیل دستی( Human-Powered Directories )
در این روش، موتورهای جستجو به سراغ دایرکتوریهای دستساز یا فهرست دستی میروند که به عنوان نمونه میتوان به Open Directory مثل Dzom اشاره کرد. این دایرکتوریها براساس ورودیهای افراد، فهرست میشوند و امکان ارائهی توضیحات مختصر برای هر سایت وارد شده در دایرکتوری وجود دارد. در این حالت، جستجو تنها بر روی توضیحات ارائهشده انجام میگیرد. تغییراتی که در صفحات وب انجام میشود، روی فهرستبندی نتایج تاثیری ندارد. معمولا مواردی که برای انجام جستجوی بهتر و فهرستبندی دقیقتر نتایج در جستجوی مبتنی بر خزش مفید واقع میشود، تاثیر مثبتی روی جستجوی دایرکتوریها ندارد. تنها تفاوت اینجاست که یک سایت خوب با محتوای خوب و مناسب نسبت به یک سایت ضعیف، بهتر ارزیابی میشود.
۳- موتورهای جستجوی هیبریدی یا نتایج ترکیبی
البته اوایل زمانی که دنیای وب و اینترنت مرسوم شده بود، نتایج جستجوها به صورت مجزا، براساس روش خزش یا فهرستبندی دایرکتوریهای شخصی به دست میآمد. ولی در دنیای امروز، از هر دو روش برای ارائه بهتر نتیجهی عبارت جستجو شده استفاده میشود که در این صورت موتور جستجو را هیبریدی مینامیم.
منبع: پارسی جو