robots.txt فایلی شامل دستورالعملهای مربوط به دسترسی و یا عدم دسترسی رباتهای موتورهای جستجو از جمله رباتهای گوگل به قسمتهای مختلف وب سایت میباشد. این فایل درشاخه اصلی (root) سایت قرار میگیرد .
چرا از robots.txt استفاده میشود؟
از robots.txt برای جلوگیری از هدر رفتن ترافیک سایت برای جلوگیری از خزیدن رباتها در صفحات بی اهمیت استفاده میشود. مخفی کردن یک صفحه برای عدم خزیدن رباتهای خزنده (crawler) به این معنی نیست که این صفحه از نتایج جستجوی گوگل حذف میشود، زیرا ممکن است صفحات دیگر به صفحهی مورد نظر شما لینک شوند و این باعث میشود صفحهی شما ایندکس شود. برای اینکه یک صفحه در نتایج جستجو نمایش داده نشود نیاز است از متاتگ noindex استفاده کنید و یا دسترسی به صفحه ی خود را از طریق گذرواژه محدودکنید.
برخی تصاویر، استایلها و اسکریپتها نیز در بارگزاری سایت تاثیرگذار نیستند و همچنین کار را برای درک بهتر رباتهای خزنده از سایت شما سخت نمیکند، می توانید با استفاده از robots.txt از دسترسی رباتهای خزنده به آنها جلوگیری کنید.
توجه:قبل از ساختن فایل robots.txt حتما باید از اتفاقات ناشی از مسدود کردن قسمتهای مختلف سایت را در نظر داشته باشید.
عملکرد دستور العملهای robots.txt
ممکن است برخی رباتهای خزنده نتوانند دستور العملهای robots.txt اجرا کنند و یا برای این فایل اهمیتی قائل نشوند. اما رباتهای گوگل و دیگر رباتهای خزندهی مربوط به موتورهای جستجوی معتبر این فایل را بررسی و دستورات آن را اجرا میکنند. بنابراین اگر میخواهید از اطلاعات خود در مقابل رباتهای خزندهی دیگر محافظت کنید، بهتر است از راه های دیگر مانند محدودکردن دسترسی با استفاده از گذرواژه بر روی سرور استفاده کنید.
درک متفاوت ربات های خزنده از دستورات
اگر چه رباتهای خزندهی مربوط به موتورهای جستجوی معتبر فایل robots.txt را بررسی میکنند، اما ممکن است هر کدام از آنها تفسیر متفاوتی از دستورالعملها داشته باشند و یا برخی از رباتها دستور العملها را متوجه نشوند.
جلوگیری از لینک شدن دیگر سایتها
در برخی مواقع رباتهای گوگل با توجه به دستورات robots.txt نمیخواهند محتوای مسدود شده را ایندکس کند اما ممکن است محتوای مسدود شدهی خود را در جاهای مختلف وب بیابید. برای حذف کامل نتایج یک صفحهی خاص میتوانید آن صفحه را در سرور با استفاده از گذرواژه محدود کنید و یا از متاتگ noindex استفاده کنید.
آموزش ساخت robots.txt
برای ساخت فایل robots.txt یک فایل با نام robots و پسوند .txt ایجاد کنید، سپس دستورات دلخواه خود را در داخل این فایل بنویسید و بر روی شاخهی اصلی سایت بارگزاری کنید.
دستورالعملهای robots.txt
دستور العملهای فایل robots.txt از دو دستور العمل اصلی User-agent و Disallow تشکیل میشود. منظور از User-agent رباتهای موتورهای جستجو (و یا نرم افزار های خزنده) میباشند. که لیستی از آنها را در اینجا می توانید بیابید. دستور Disallow نیز برای محدود کردن رباتها برای دسترسی به یک لینک خاص می باشد. اگر می خواهید دسترسی به تمام فرزندان یک لینک خاص را محدود کنید و یک لینک از فرزندان آن را محدود نکنید می توانید از دستوری به نام allow استفاده کنید.
گوگل از چندین User-agent مختلف استفاده می کند . مانند Googlebot برای جستجوی گوگل و Googlebot-Image برای جستجوی تصاویر گوگل. بیشتر این رباتها مانند Googlebot عمل میکنند. ولی شما می توانید این را با استفاده از دستور العملهای robots.txt رفتار ربات های مختلف را تغییر دهید .
نحوهی نوشته شدن برخی از دستورالعمل ها به شرح زیر است:
User-agent: [نام ربات هایی که می خواهید فراخوانی کنید]
Disallow: [آدرس لینکی که می خواهید مسدود شود]
Allow: [آدرس لینکی که اجازه ی دسترسی دارد]
شما می توانید با استفاده از دو خط از دستورات User-agent در یک خط و Disallow در خط بعدی ربات مورد نظر و لینکی که مجاز به دسترسی به آن نیست را انتخاب کنید.
برای واضح تر شدن به مثال های زیر توجه کنید :
عدم دسترسی به ...
|
کد |
کل وب سایت
|
Disallow: /
|
یک پوشه از وب سایت با یک/ انتها و ابتدا
|
Disallow: /sample-directory/ |
یک صفحه از وب سایت
|
Disallow: /private_file.html
|
ربات جستجوی تصاویر گوگل به یک تصویر
|
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
|
کل تصاویر سایت |
User-agent: Googlebot-Image
Disallow: /
|
تصاویر با فرمت gif
|
User-agent: Googlebot
Disallow: /*.gif$
|
اگر بخواهید در وب سایت خود از گوگل AdSense استفاده کنید، نباید هیچ کدام از خزنده های به جز Mediapartners-Google این کد تمام صفحات شما را از نتایج جستجو مخفی می کند، به جز خزندهی Mediapartners-Google این خزنده می تواند وب سایت شما را تجزیه و تحلیل کند تا تبلیغات مناسب را به کاربران نمایش دهد.
|
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /
|
نکته: این دستورات به بزرگی و کوچکی حروف حساس می باشد، همچنین ربات گوگل فضای خالی را نادیده می گیرد .
الگو برای کد نویسی robots.txt
الگو |
کد
|
عدم دسترسی به کلیه ی پوشه هایی که با یک کارکتر خاص شروع می شوند ، به عنوان مثال "private"
|
User-agent: Googlebot
Disallow: /private*/
|
عدم دسترسی به پوشه هایی از سایت که با یک علامت خاص آغاز می شوند . مانند : علامت سوال(؟)
|
User-agent: Googlebot
Disallow: /*?
|
عدم دسترسی به فایل ها با فرمت خاص .
برای این کار از $ بعد از فرمت استفاده می کنیم
|
User-agent: Googlebot
Disallow: /*.xls$
|
دسترسی همه ی ربات ها به صفحات یا پوشه هایی که نام آن ها با علامت سوال (؟) به پایان می رسد . و عدم دسترسی یه تمامی صفحات و پوشه های شامل علامت سوال (؟)
|
User-agent: *
Allow: /*?$
Disallow: /*?
|
robots.txt خود را بررسی کنید!
برای تست فایل robots.txt خود میتوانید به ابزار بررسی robots.txt گوگل مراجعه کنید. با استفاده از این ابزار بررسی میتوانید دسترسیها و عدم دسترسیهای رباتهای مختلف گوگل، عکسها و دایرکتوریهای مسدود شده را مشاهده کنید.
نحوه ی بررسی robots.txt
- در صفحهی ابزار بررسی robots.txt با حرکت موس به پایین میتوانید خطاهای نوشتاری و... را در زیر ویرایشگر مشاهده کنید.
- در پایین صفحه قسمتی وجود دارد که می توانید یک آدرس از وب سایت خود را وارد کنید.
- سپس ربات مورد نظر خود را برای بررسی برای دسترسی و عدم دسترسی به صفحه مورد نظر را انتخاب کنید.
- بر روی دکمه ی test کلیک کنید.
- اکنون می توانید مشاهده کنید که ربات مورد نظر به این صفحه دسترسی دارد یا خیر.
- در صورت نیاز می توانید تغیرات لازم را در فایل خود انجام دهید و در ابزار بررسی نتایج را بررسی کنید.
- درصورتی که نتایج با انتظارات شما مطابقت داشت می توانید فایل را دوباره بر روی هاست خود بارگزاری کنید.
محدودیت های ابزار بررسی
-
تغییرات شما در ویرایشگر ابزار بررسی robots.txt به صورت خودکار در سایت شما تغییر نمی کند و نیاز به بارگزاری مجدد بر روی هاست شما می باشد.
- ابزار بررسی robots.txt گوگل فقط فایل robots.txt شما را برای رباتهای گوگل بررسی می کند و برای رباتهای دیگر کاربرد ندارد.
بروز رسانی فایل robots.txt در گوگل
- برای بروز رسانی سریعتر فایل robots.txt می توانید مراحل زیر را دنبال کنید :
- بر روی گزینه ی submit در قسمت پایینی ویرایشگر robots.txt کلیک کنید .
- با کلیک بر روی گزینه ی download کد های موجود در ویراشگر ابزار بررسی robots.txt را دانلود کنید .
- فایل دانلود شده را بر روی شاخه ی اصلی(root) سایت خود آپلود کنید .
- روی گزینهی Verify live version برای نمایش robots.txt سایت خود کلیک کنید .
- بر روی گزینه ی Submit live version کلیک کنید . با این کار به گوگل اطلاع می دهید که robots.txt شما به روز رسانی شده است .
- مرورگر خود را رفرش کنید ، سپس روی گزینه latest version کلیک کنید تا آخرین ورژن robots.txt را مشاهده کنید .