دانلود مقاله طرز عمل موتور جستجو
موتور جست و جوی وب از سه بخش تشکیل می شود:
۱-یک دنبالگرد crawler که صفحات وب را پیدا می کند تا داخل مجموعه صفحات وب آن موتور قرار گیرد،
۲- یک شاخص گذار indexer که شاخص معکوس inverted index (نیز موسوم به شاخصindex )را که ساختمان اصلی داده های مورد استفاده ی آن موتور جست وجو است و صفحات وب دنبال گشته crawled را ارائه می کند ،
۳-یک پاسخ دهنده که پرس و جو های کاربر را با استفاده از شاخصها پاسخ می دهد .
موتورهای جستجو چگونه کار می کنند؟
هیچ تا به حال از خودتان پرسیده اید که وقتی با یک موتورجستجوی قوی مثل گوگل ( google) کار میکنیدو یا وارد کردن یک یا چند لغت عجیب و غریب ،گوگل کلی نتایج جالب ومرتبط ،تقدیمتان می کند، چه اتفاقی می افتد ؟
اگر تا به حال به دنبال پاسخ این پرسش نرفته اید یا پاسخ مناسبی برای آن پیدا نکرده اید،پیشنهاد می کنیم تا آخر این مقاله همراه ما باشید .اگرچه الگوریتم دقیق و چگونگی کار وگوگل یا خیلی از موتورهای جستجو ،کاملا معلوم نیست.
اماکلیاتی در کار بسیاری از موتورهای جستجو مشترک ومشابه است که دانستن آنها خالی از لطف نیست.
پیش پردازش دادها
یکی از راههایی که موتورهای جستجو ، برای کاهش زمان جستجو به کار می برند ، پیش پرداش محتوای وب سایت هاست .به این ترتیب که وقتی کاربر درخواست یک پرس و جو را می دهد .به جای این که این پرس وجو به میلیون ها وب سایت فرستاده شود، با داده از پیش پردازش شده در یک سایت مقایسه می شود و مطابقت صورت می پذیرد. پیش پردازش به کمک برنامه نرم افزاری به نام crawlerانجام می گیرد.
Crawler ، به وسیله نگهدارنده ها و به روزکنندگان بانک های اطلاعاتی فرستاده می شود تا فهرست صفحات وب را جمع آوری کند. یک برنامه ویژه رایانه ای، صفحات بازیافتی را پیمایش می کند تا کلمات را استخراج نماید و بعد این کلمات همراه با لینکی به صفحه مربوط ،در فایل شاخص (index)ذخیره می شود. پرس و جو های کاربران با همین فایل شاخص مقایسه و مطابقت داده می شود ونه با دیگر وب سایت ها.
الویت بندی نتایج
Url یا لینیک هایی که به عنوان نتایج جستجو تولید می شوند معمولا خیلی زیاد هستند ،اما همه این نتایج به درد بخور نیستند و حتی ممکن است عواملی مثل ابهام زبان باعث شود نتایج مناسبی به کاربر داده نشود .برای فراهم کردن دسترسی سریع و در عین حال صفحات مناسب و این که صفحات با موضوعیت بیشتر در الویت بالاتری قرار بگیرتد ،الگوریتم های جستجو استراتژی های رتبه بندی مختلفی رابه کار می برند .
یکی از این روش ها که بسیار معمول است ، tfidf(term frequency inverse document trequncy) است. در این روش چگونگی توزیع کلمات و تکرار آنها بررسی می شود و برای کلمات، وزن عددی تولیدمی شود . این وزن به معنی درجه اهمیت و اعتبار آنها در اسناد مختلف است.به این کار وزن دهی واژه(term weighting)گفته می شود.وزن یک واژه به ۲ عامل بستگی دارد: یکی دفعات تکرار واژه که هر چه بیشتر با شد اهمیت واژه بیشتر است و دیگری تواتر اسناد که به معنی تعداد اسنادی است که شامل آن واژه است و هر چه این مقدار بیشتر باشد ،اهمیت واژه در تمایز اسناد کمتر خواهد بود .به این ترتیب کلماتی که تکرار بیشتری دارند مثل or , to,withو…نسبت به کلماتی که از نظرمعنایی مناسب ترند و از طرف دیگر در متنهای کمتری ظاهر می شوند ،وزن کمتری خواهند داشت ؛البته عوامل دیگری می توانند بر وزن (اهمیت)یک واژه موثر باشند .محل وقوع واژه نمادهای خاص مثل (font) و برچسب(tag) مربوط به واژه از آن جمله اند. معمولا کلمه ای که در عنوان یک سند باشد مهمتر از واژه های خود متن است. همچنین واژ ه های خود متن است.همچنین واژه های نوشته شده با قلم خاص مهمتر از کلماتی است که بدون این ویژگی ها باشند.
علاوه بر وزن دهی واژه ها ،صفحات وب با استراتژی های دیگری هم وزن می شود؛مثلا در روش تحلیل لینک(Link analysis) ماهیت هر صفحه با توجه به ارتباط آن با دیگر صفحات در نظر گرفته می شود.به این ترتیب وزن دهی یک صفحه با توجه به تعداد صفحاتی که به آن صفحه اشاره می کنند یا بعکس،تعداد صفحاتی که آن صفحه به آنها اشاره می کند،صورت میپذیرد.گوگل از این روش برای بالا بردن نتایج جستجو استفاده می کند.
فرمت فایل: word
تعداد صفحات: 18
مطالب مرتبط