موتورجستجو چیست و چگونه کار می‌کند؟ (بخش اول)

موتور جستجو چیست

حتما بارها عبارت «موتور جستجو» به گوش شما خورده و به دفعات از انواع این ابزار جستجو استفاده کرده‌اید. اما آیا تا به حال به ماهیت و نحوه‌ی عملکرد موتورهای جستجو فکر کرده‌اید؟ در این مقاله که در دو‌بخش منتشر خواهد شد،‌ قصد داریم تا ضمن بررسی ساده‌ای از مفهوم موتور جستجوگر، شما را با نحوه‌ی عملکرد آن‌ها در رتبه‌بندی وبسایت‌ها آشنا کنیم.

شاید در همان لحظه‌ی اول با شنیدن عبارت موتور جستجو، نام گوگل در ذهن شما تداعی شود. گوگل آنقدر در زمینه‌ی جستجو شناخته‌شده است که نام این کمپانی به عنوان کلمه‌ای با معنای جستجو کردن، وارد فرهنگ لغات شده است. اما موتورهای جستجو به گوگل خلاصه نمی‌شود؛ یاهو، بینگ، Ask و... از جمله مشهورترین موتورهای جستجوگر هستند که روزانه بارها و بارها انواع کلمات و عبارات در آن‌ها جستجو می‌شود. مدل دیگری از موتورهای جستجو که با عنوان موتورهای جستجوی بومی شناخته می‌شوند، نیز در چند سال اخیر به‌شدت مورد استقبال قرار گرفته‌اند که از میان آن‌ها، می‌توان به جستجوگر بایدو در چین، سزنم در جمهوری چک و نیور کره‌جنوبی اشاره کرد. جستجوگرهای بومی با توجه به دانش زیاد خود از فرهنگ و رفتار مردم منطقه و کشور خود، با سرویس‌های متنوع و بهینه‌سازی‌های لازم، قدرت بیشتری در ارائه‌ی قابلیت‌های متنوع و مورد نیاز کاربران بومی خود دارند. در ایران نیز پارسی‌جو از جمله جستجوگرهای بومی موفق به‌شمار می‌رود.

در این مقاله که در دو‌بخش منتشر خواهد شد،‌ قصد داریم ضمن بررسی مفهوم موتور جستجوگر و نحوه‌ی کارکرد آن، چگونگی رتبه‌بندی وبسایت‌ها را در آن شرح دهیم. در قسمت اول مقاله، مفهوم و طرز کار موتور جستجو را بیان می‌کنیم تا در قسمت دوم به شرح عملکرد موتورهای جستجوگر در ارزیابی و رتبه‌بندی اطلاعات بپردازیم.

شاید هیچ گاه میلیون‌ها کاربری که از گوگل یا دیگر موتورهای جستجو استفاده می‌کنند، تا امروز به مفهوم موتورجستجو و نحوه‌ی عملکرد آن فکر نکرده باشند. موتور‌جستجو به معنای خاص در واقع ابزاری است که بعد از دریافت ورودی شامل کلمات، عبارات و...، آن‌ها را از اسناد و اطلاعات موجود در بانک اطلاعاتی جستجو کرده و نتایج به دست آمده را براساس اولویت‌های از‌پیش‌تعیین‌شده، فهرست کرده و به شما نشان می‌دهد.

به عقیده بسیاری از متخصصان حوزه آی‌تی و نرم‌افزار، راه‌اندازی یک موتور جستجوی مستقل و هوشمند آنلاین، یکی از سخت‌ترین و پیچیده‌ترین پروژه‌هایی است که در این حوزه انجام می‌شود.

همین اهمیت بالای جستجوگرهاست که باعث شده است آن‌ها را پایه و ستون توسعه فناوری ارتباطات و اطلاعات و یکی از شاخص‌های توسعه یافتگی صنعت آی‌تی در همه کشورها به‌حساب آورد.

موتور جستجو

توجه داشته باشید که بحث ذیل مرتبط با موتور جستجو‌های مستقل است که تمامی مراحل جستجو به‌طور کامل توسط آن‌ها انجام می‌گیرد. دسته دیگری از جستجوگرها با نام ابرجستجوگرها نیز وجود دارند که فقط به دسته‌بندی و مرتب کردن نتایج موتور جستجوهای مستقل می‌پردازند و از نظر پیچیدگی فنی و اجرا در سطح بسیار ساده‌تری نسبت به جستجوگرهای مستقل قرار می‌گیرند که در مقاله‌ای جداگانه به‌ آن‌ها خواهیم پرداخت.

به‌طور کلی، موتورهای‌جستجو در دو دسته قرار می‌گیرند: موتورهای جستجوی پیمایشی(خودکار) و فهرست‌های تکمیل دستی.

۱- موتورهای جستجوی پیمایشی( Crawler-Based Search Engines)

این نوع از موتورهای جستجو از روش Web Crawling یا خزش استفاده می‌کنند که از سه بخش اصلی زیر تشکیل شده‌اند:

Crawler (کرالر یا خزنده)

قبل از آنکه کرالر را توضیح دهیم بهتر است با مفهوم اسپایدر آشنا شویم. ربات Spider (اسپایدر) یا عنکبوت وظیفه‌ی مراجعه و بازدید از تمامی صفحات وب، خواندن محتوای صفحات و دنبال کردن لینک‌ها و درنهایت جمع‌آوری اطلاعات مورد نیاز را بر عهده دارد.

اما کرالر، خزنده یا پیمایشگر در حکم یک فرمانده برای اسپایدر است و در واقع به اسپایدر دستور می‌دهد تا از کدام منابع و صفحات بازدید کرده و چه اطلاعاتی را جمع‌آوری کند. شما به عنوان دارنده‌ی یک سایت می‌توانید با استفاده از یک سری پروتکل‌ها، میزان دسترسی موتور جستجو به وبسایت خود را تنظیم و کنترل کنید. به فرایند خزش در صفحات وب Crawling گفته می‌شود.

Indexer ( فهرست کننده)

پس از این‌که عملیات جمع‌آوری اطلاعات توسط اسپایدر به پایان رسید ( البته این عملیات با توجه به ماهیت در حال توسعه و گسترش وب هیچ‌گاه به پایان نخواهد رسید)، پیمایشگر اطلاعات را به المان دوم یعنی Indexer تحویل می‌دهد. ایندکسر اطلاعات ارسالی را تجزیه و تحلیل کرده و طبقه‌بندی می‌کند. عملیات تجزیه و تحلیل بدین صورت است که بر اساس تکنیک‌های خاص مشخص می‌شود اطلاعات از کدام صفحه ارسال شده‌است، همچنین میزان حجم اطلاعات صفحه و تعداد کلمات و تکرار و مکان آن‌ها در صفحه و ... معین می‌گردد. در واقع، ایندکسر مانند کتاب بسیار بزرگی است که لیست یا فهرستی از تمامی صفحات وب که توسط اسپایدر پیدا شده، داخل آن موجود است. اگر این صفحات تغییر کند، کتاب شما با محتوا و اطلاعات جدید به‌روز می‌شود.

نرم‌افزار موتورجستجو

اما المان سوم، نرم‌افزار موتورجستجو است. این نرم‌افزار، برنامه‌ای است که میلیون‌ها صفحه‌ی بایگانی‌شده در ایندکسر را گروه‌بندی و بر اساس معیارهای مرتبط با جستجوی کاربر و اهمیت، رتبه‌بندی می‌کند و نتیجه‌ی نهایی را به کاربر نشان می‌دهد. در حقیقت نرم‌افزار موتور جستجو از دوبخش بانک اطلاعاتی و سیستم رتبه‌بندی تشکیل شده است.

بانک اطلاعاتی، کلیه ورودی‌ها از سوی ایندکسر را دریافت کرده، گروه‌بندی و کدگذاری کرده و به صورت فشرده شده ذخیره می‌کند. موتورهای جستجو معمولا بانک اطلاعاتی یا دیتابیس بسیار بزرگی دارند.

دیاگرام معماری موتور جستجوی پیمایشی

در این مرحله موتورجستجو آماده‌ی پاسخگویی به کاربر است و سیستم رتبه‌بندی وارد میدان می‌شود. پس از وارد شدن عبارت مدنظر کاربر در جعبه‌ی جستجو و فشردن کلید Enter توسط کاربر، سیستم رتبه‌بندی موتورجستجو برای پاسخگویی، نتایج یافت شده در بانک اطلاعاتی خود را براساس بیشترین رابطه با عبارت یا کلمه‌ی جستجو شده تا کمترین ارتباط مرتب کرده و به کاربر نمایش می‌دهد. البته در این بین، موارد مهمی وجود دارد که باعث می‌شود نتایج در رتبه‌های بالاتری قرار گیرند.

اینجاست که تفاوت اصلی موتورهای جستجوگر مختلف نمایان می‌شود؛ سیستم رتبه‌بندی یک عامل حیاتی برای جستجوگر است. هر جستجوگر از قوانین و الگوریتم‌های خاص و ویژه‌ی خود استفاده می‌کند و نتایج جستجو را به کاربر نشان می‌دهد. به همین علت است که با جستجوی یک کلمه‌ی یکسان در موتورهای جستجوی مختلف به نتایج جستجوی متفاوتی دست می‌یابیم.

موتورهای جستجویی که از روش خزش استفاده می‌کنند، معمولا مشخصات مشابهی دارند و بیشتر تفاوت‌ها آن‌ها، در نحوه‌ی به کارگیری و تقویت سه المان فوق است. پارسی‌جو از جمله موتورهای جستجویی است که همانند گوگل و خیلی دیگر از جستجوگرهای محبوب از روش خزش استفاده می‌کند و هرگاه تغییری در صفحات مورد نظر داده شود، این تغییرات را پیدا می‌کند. در این حالت عنوان صفحه، کپی بدنه‌ی متن و المان‌های دیگر نقش اساسی ایفا می‌کنند. تصور کنید تمامی مراحل جستجو در پارسی‌جو، در کسری از ثانیه انجام می‌شود.

۲- فهرست تکمیل دستی( Human-Powered Directories )

در این روش، موتورهای جستجو به سراغ دایرکتوری‌های دست‌ساز یا فهرست دستی می‌روند که به عنوان نمونه می‌توان به Open Directory مثل Dzom اشاره کرد. این دایرکتوری‌ها براساس ورودی‌های افراد، فهرست می‌شوند و امکان ارائه‌ی توضیحات مختصر برای هر سایت وارد شده در دایرکتوری وجود دارد. در این حالت، جستجو تنها بر روی توضیحات ارائه‌شده انجام می‌گیرد. تغییراتی که در صفحات وب انجام می‌شود، روی فهرست‌بندی نتایج تاثیری ندارد. معمولا مواردی که برای انجام جستجوی بهتر و فهرست‌بندی دقیق‌تر نتایج در جستجوی مبتنی بر خزش مفید واقع می‌شود، تاثیر مثبتی روی جستجوی دایرکتوری‌ها ندارد. تنها تفاوت اینجاست که یک سایت خوب با محتوای خوب و مناسب نسبت به یک سایت ضعیف، بهتر ارزیابی می‌شود.

دایرکتوری DMOZ

۳- موتورهای جستجوی هیبریدی یا نتایج ترکیبی

البته اوایل زمانی که دنیای وب و اینترنت مرسوم شده بود، نتایج جستجوها به صورت مجزا، براساس روش خزش یا فهرست‌بندی دایرکتوری‌های شخصی به دست می‌آمد. ولی در دنیای امروز،  از هر دو روش برای ارائه بهتر نتیجه‌ی عبارت جستجو شده استفاده می‌شود که در این صورت موتور جستجو را هیبریدی می‌نامیم.

نحوه دیده شدن صفحات در موتورهای جستجو

اما موتورهای جستجو برای اینکه بتوانند در سریع‌ترین زمان ممکن نتایج جستجو را در اختیار کاربران قرار دهند، از روش‌های مختلفی استفاده می‌کنند. به طور کلی سه روش مهم برای ارائه نتایج کاربردی در سریع‌ترین زمان مورد استفاده قرار می‌گیرد:

  1. در حالت اول، موتورهای جستجو با استفاده از ربات‌های خود به سراغ عناوین مطالب، کلمات به کار رفته در تیتر یا لینک‌های موجود در متن می‌روند. کلمات مهم به کار رفته، به کلماتی گفته می‌شود که در یک صفحه از مطلب، شاید در حدود ۱۰۰ بار تکرار شده‌اند. البته برخی از موتورهای جستجو برای این کار ممکن است چند خط ابتدایی مطلب را نگاه می‌کنند.
  2. اما در حالت دوم، موتورهای جستجو تمامی کلمات را مورد بررسی قرار می‌دهند و حتی حروف اضافه یا حروف ربط مانند «و، از، در، ...» نیز از دید آنها پنهان نمی‌ماند. البته در این حالت نیز بررسی کلمات کلیدی اهمیت زیادی دارد. از جمله موتورهای جستجو که از این روش بهره می‌گیرند، می‌توان به آلتاویستا ( AltaVista ) اشاره کرد.
  3. در حالت سوم، به اهمیت متاتگ‌ها می‌پردازیم. موتورهای جستجو برای فهرست کردن نتایج جستجو سراغ نکات کلیدی می‌روند. متاتگ‌ها که دربرگیرنده‌ی کلمات مهم و توضیح مختصر درباره‌ی محتوای اصلی صفحه هستند، بسیار مورد توجه موتورهای جستجو قرار می‌گیرند. البته برخی از مدیران یا سازندگان صفحات وب با ترفندهایی تلاش می‌کنند با بهره‌گیری از مطالب کپی شده یا کلمات کلیدی پر کاربرد، مطلب خود را در صفحات اول موتورهای جستجو در رتبه‌های بالا قرار دهند؛ غافل از این‌که موتورهای جستجو با استفاده از روش‌های پیچیده‌ی خود، می‌توانند کلمات پرکاربرد را با محتوای صفحات وب مطابقت دهند.

اینجاست که به اهمیت کلمات کلیدی، متاتگ، توضیحات یا دیسکریپشن، تیتر و در مجموع موضوع سئو پی می‌بریم که تا چه اندازه می‌تواند در نتایج جستجو موثر باشد.

 سئو

موضوع موتورهای جستجو و نحوه کارکرد آنها پیچیدگی‌های بسیار زیادی دارد که بخش‌هایی از آن، نیاز به مباحث تخصصی و طولانی دارد. تلاش کردیم در این مطلب به صورت اجمالی شما را با مفهوم و نحوه عملکرد موتورهای جستجو آشنا کنیم. در بخش بعدی مقاله، سیستم رتبه‌بندی موتورهای جستجوگر را مورد بررسی و بحث قرار خواهیم داد.

هرگونه نظر، پیشنهاد و یا انتقاد خود از این بخش را، از قسمت دیدگاه‌ها با ما در میان بگذارید.

مجموع رتبه (1)
5 از 5 ستاره

ارسال دیدگاه به عنوان مهمان

پیوست ها

امتیاز این آیتم :
0
  • مهمان - سیاوش

    سلام به دوستان پارسی جو
    من توی یک سایت خبری خخوندم مسولین قصد دارن سه تا شبکه اجتماعی داخلی قوی راه اندازی کنن چرا شما پیگیری نمی کنید یکی از شبکه های اجتماعی رو به پارسی جو اضافه کنید مثل گوگل پلاس؟؟؟؟

    دارای رتبه 5 از 5 ستاره
  • سلام دوست عزیز. صدها شبکه اجتماعی تو این چند سال در ایران ساخته شده اما هنوز کار ارزشمندی که بتونه هموطنانمون را برای مهاجرت از شبکه های اجتماعی خارجی به داخلی راضی کنه انجام نگرفته. ضمنا توجه فرمایید که پارسی جو یه شرکت خصوصی است و بر روی ایده های و پروژه های خود تمرکز داره.

خبرهای یک هفته گذشته

هیچ مطلبی پیدا نشد!