آشنایی با Googlebot یکی از مباحث مهمی است که تمام وبمستران (توسعه دهندگان، مدیران وب سایت و ...) باید از آن اطلاع داشته باشند. در این مقاله می خواهیم در رابطه با همین موضوع صحبت کنیم.
یک webcrawler (در فارسی بعضا با عنوان «خزنده ی وب» به آن اشاره می شود) است. webcrawler ها در واقع ربات هایی هستند که شبانه روز و به طور سیستماتیک و برنامه ریزی شده در فضای وب گشت و گذار می کنند و اکثرا برای index کردن صفحات وب از آن ها استفاده می شود. index در لغت به معنی فهرست است. برای واضح شدن مطلب یک کتاب را تصور کنید؛ هر کتابی قسمتی به نام فهرست (index) دارد و این فهرست برای هر مبحثی، عددی ارائه می کند که همان شماره ی صفحه است. index کردن صفحات وب نیز به معنی فهرست کردن آن ها در موتورهای جست و جو است. زمانی که شما در گوگل مطلبی را سرچ می کنید با فهرستی از URL ها (صفحات مختلف وب) مواجه می شوید که قبلا توسط یک webcrawler ایندکس (یا صفحه بندی) شده اند.
به زبان ساده تر می توان گفت webcrawler ها نرم افزار هایی هستند که برای دنبال کردن لینک ها، جمع آوری اطلاعات و فرستادن اطلاعات به مکانی مشخص طراحی شده اند. برای اطلاعات بیشتر در مورد webcrawler می توانید به مقاله ی ویکی پدیای آن مراجعه کنید.
نکته: موتور جست و جویی با نام WebCrawler وجود دارد که به گفته ی بسیاری، قدیمی ترین موتور جست و جوی دنیا است. نام این وب سایت را با مبحث امروز ما اشتباه نگیرید.
بنابراین Googlebot در اصل یک webcrawler است که توسط گوگل ساخته شده است و گوگل نامش را Googlebot گذاشته است. اطلاعاتی که Googlebot به گوگل تحویل می دهد برای بروزرسانی ایندکس صفحات در گوگل استفاده می شود. این ربات از میلیاردها صفحه ی وب در سراسر جهان بازدید می کند.
گوگل بات اطلاعات موجود در صفحات را دریافت کرده (یعنی کلمات موجود در صفحه، سورس کد، منابع تشکیل دهنده ی صفحه مانند عکس و فیلم و ...) و اگر محتوای سایت لینکی داشته باشد، آن را به خاطر می سپارد. سپس اطلاعات جمع آوری شده را به گوگل ارسال می کند.
همانطور که گفتیم اطلاعاتی که Googlebot به کامپیوترهای گوگل ارسال می کند، ایندکس (صفحه بندی) گوگل را بروزرسانی می کند. به طور فنی تر می توان گفت ایندکس گوگل جایی است که صفحات وب مقایسه و رتبه بندی می شوند. اما دو نکته باقی می ماند:
اما چطور؟ در ادامه برای شما توضیح خواهیم داد.
ممکن است تا این جای کار از خودتان بپرسید با این تفاسیر تفاوت بین Googlebot و Google Index چیست؟ قبلا گفتیم که Googlebot تنها اطلاعات را دریافت می کند بنابراین به هیچ عنوان توانایی بررسی، رتبه دهی و تفاوت قائل شدن بین صفحات را ندارد. تنها سوالاتی که گوگل بات از خود می پرسد عبارت اند از:
این در حالی است که Google Index اطلاعات را از گوگل بات دریافت می کند و سپس داده ها را تحلیل کرده و صفحات را رتبه بندی می کند.
بنابراین واضح است که اگر گوگل بات نتواند به وب سایت شما و محتوای آن دسترسی داشته باشد، وب سایت شما در نتایج گوگل به نمایش در نخواهد آمد.
سوال: اگر وب سایت های ما در نتایج گوگل وجود نداشته باشد، عملا سرور های ما خاک خواهند خورد! چرا چنین گزینه ای برای ما وجود دارد؟
پاسخ: در ادامه به صورت کامل به پاسخ این سوال خواهیم پرداخت اما فعلا به طور خلاصه میگویم که قرار نیست هست و نیست ما در نتایج گوگل باشد! بله اکثر وب سایت ها باید در گوگل نمایش داده شوند اما وب سایت های خصوصی چطور؟ برخی از شرکت های کوچک از وب سایت هایی استفاده می کنند که تنها مخصوص کارکنان آن شرکت است و معنی ندارد به صورت عمومی و برای همه به نمایش در بیاید. حالت بدتری را تجسم کنید؛ سرورهای سرویس های اطلاعاتی کشورهای مختلف مانند CIA و MI6 و ... نباید به هیچ عنوان در دسترس افرادی به غیر از افسران اطلاعاتی قرار بگیرند چه برسد به اینکه به صورت عمومی و در گوگل نمایش داده شوند!! در واقع دسته بندی جالبی در همین مورد موجود است که میخواهم آن را توضیح دهم...
اطلاعات دنیای وب، از نظر دسترسی، معمولا به سه دسته تقسیم می شوند:
به طور مثال وب سایت معروف wikileaks که فاش کننده ی اطلاعات محرمانه ی دولت ها و سازمان های خصوصی است و یا اطلاعات دولت ها به طور کلی در قسمت Deep Web قرار می گیرد. یادتان باشد که Dark Web تنها قسمتی از Deep Web است.
تصویر زیر این بحث را به صورت خوبی نمایش می دهد:
حالا چه کار کنیم که وب سایت ما حتما توسط گوگل شناخته شود؟ باید سه مسئله ی اصلی را رعایت کنید:
در قسمت بعد در این مورد این سه مسئله مفصلا بحث خواهیم کرد.
در این قسمت، به پرسشهای تخصصی شما دربارهی محتوای مقاله پاسخ داده نمیشود. سوالات خود را اینجا بپرسید.