robots.txt فایلی شامل دستورالعمل های مربوط به دسترسی و یا عدم دسترسی رباتهای خزنده از جمله رباتهای گوگل به قسمت های مختلف وب سایت می باشد. این فایل درشاخه اصلی (root) سایت قرار می گیرد .
چرا از robots.txt استفاده می شود ؟
فایل های غیر تصویری
برای فایل های غیر تصویری از robots.txt برای جلوگیری از هدر رفتن ترافیک سایت برای جلوگیری از خزیدن رباتها در صفحات بی اهمیت استفاده می شود . مخفی کردن یک صفحه برای عدم خزیدن رباتهای خزنده استفاده از robots.txt به این معنی نیست که این صفحه از نتایج جستجوی گوگل
حذف می شود ، زیرا ممکن است صفحات دیگر به صفحه ی مورد نظر شما لینک شوند و این باعث می شود صفحه ی شما ایندکس شود . برای اینکه یک صفحه در نتایج جستجو نمایش داده نشود نیاز است از متاتگ noindex استفاده کنید و یا دسترسی به صفحه ی خود را از طریق گذرواژه محدودکنید.
فایل های تصویری
با استفاده از robots.txt می توانید از نمایش تصاویر وب سایت خود در جستجوی گوگل جلوگیری کنید .( با این حال این کار از لینک دهی دیگر صفحات به تصاویر شما جلوگیری نمی کند . )
منابع فایل
در صورتی که برخی تصاویر ، استایل ها و اسکریپت ها در بارگزاری سایت تاثیرگذار نیستند و همچنین کار را برای درک بهتر رباتهای خزنده ی از سایت شما سخت نمی کند ، می توانید با استفاده از robots.txt از دسترسی رباتهای خزنده به آنها جلوگیری کنید.
*قبل از ساختن فایل robots.txt حتما باید اتفاقات ناشی از مسدود کردن قسمت های مختلف سایت را در نظر داشته باشید .
عملکرد دستور العمل های robots.txt
ممکن است برخی رباتهای خزنده نتوانند دستور العملهای robots.txt اجرا کنند و یا برای این فایل اهمیتی قائل نشوند . اما رباتهای گوگل و دیگر رباتهای خزنده ی محترم این فایل را بررسی می کنند و دستورات آن را اجرا می کنند . بنابراین اگر می خواهید از اطلاعات خود در مقابل
رباتهای خزنده ی دیگر محافظت کنید ، بهتر است از راه های دیگر مانند محدودکردن دسترسی با استفاده از گذرواژه بر روی سرور استفاده کنید .
درک متفاوت ربات های خزنده از دستورات
اگر چه رباتهای خزنده ی محترم فایل robots.txt را بررسی می کنند ، اما ممکن است هر کدام از آن ها تفسیر متفاوتی از دستورالعمل ها داشته باشند و یا برخی از رباتها دستور العمل ها را متوجه نشوند.
جلوگیری از لینک شدن دیگر سایت ها
در برخی مواقع ربات گوگل با توجه به دستورات robots.txt نمیخواهد محتوای مسدود شده را ایندکس کند اما ممکن است محتوای مسدود شده ی خود را در مکان های مختلف وب بیابید .
برای حذف کامل نتایج یک صفحه ی خاص میتوانید آن صفحه را در سرور با استفاده از گذرواژه محدود کنید و یا از متاتگ noindex استفاده کنید .
آموزش ساخت robots.txt
در ابتدا کار برای ساخت فایل robots.txt شما نیاز به دسترسی به شاخه ی اصلی (root) سایت دارید. اگر از دسترسی به شاخه ی اصلی (root) وب سایت خود مطمئن نیستید با سرویس میزبانی وب خود تماس بگیرید .
دستورالعمل های robots.txt
دستور العمل های فایل robots.txt از دو دستور العمل اصلی User-agent و Disallow تشکیل می شود. منظور از User-agent رباتهای موتورهای جستجو ( و یا نرم افزار های خزنده ) می باشند . که لیستی از آنها را در اینجا می توانید بیابید . دستور Disallow نیز برای
محدود کردن کاربران برای دسترسی به یک لینک خاص می باشد . اگر می خواهید دسترسی به تمام فرزندان یک لینک خاص را محدود کنید و یک لینک از فرزندان آن را محدود نکنید می توانید از دستوری به نام allow استفاده کنید.
گوگل از چندین User-agent مختلف استفاده می کند . مانند Googlebot برای جستجوی گوگل و Googlebot-Image برای جستجوی تصاویر گوگل . بیشتر این ربات ها مانند Googlebot عمل می کنند. ولی شما می توانید این را با استفاده از دستور العمل هایrobots.txt می توانید رفتار
ربات های مختلف را تغییر دهید .
نحوه ی نوشته شدن برخی از دستورالعمل ها به شرح زیر است :
User-agent: [نام ربات هایی که می خواهید فراخوانی کنید]
Disallow: [آدرس لینکی که می خواهید مسدود شود]
Allow: [آدرس لینکی که اجازه ی دسترسی دارد]
شما می توانید با استفاده از دو خط از دستورات User-agent در یک خط و Disallow در خط بعدی ربات مورد نظر و لینکی که مجاز به دسترسی به آن نیست را انتخاب کنید .
برای واضح تر شدن مطلب به مثال های زیر توجه کنید :
نکته : این دستورات به بزرگی و کوچکی حروف حساس می باشد، همچنین ربات گوگل فضای خالی را نادیده می گیرد .
الگو برای کد نویسی robots.txt
ذخیره ی فایل robots.txt
چند نکته برای ذخیره ی فایل robots.txt وجود دارد که باید به آنها توجه داشته باشید .
• فرمت فایل حتما باید txt . باشد .
• فایل robots.txt باید در صفحه ی root سایت قرار بگیرد .
• نام فایل حتما باید robots.txt باشد با رعایت حروف بزرگ و کوچک .
به عنوان مثال فایل robots.txt در سایت http://radcom.ir باید در آدرس http://radcom.ir/robots.txt قرار دارد .
robots.txt خود را بررسی کنید!
برای تست فایل robots.txt خود می توانید به ابزار بررسی robots.txt گوگل مراجعه کنید . با استفاده از این ابزار بررسی می توانید دسترسی ها و عدم دسترسی های رباتهای مختلف گوگل ، عکس ها و دایرکتوری های مسدود شده را می توانید مشاهده کنید .
نحوه ی بررسی robots.txt
1. در صفحه ی ابزار بررسی robots.txt با حرکت موس به پایین می توانید خطاهای نوشتاری و ... را در زیر ویرایشگر مشاهده کنید .
2. در پایین صفحه قسمتی وجود دارد که می توانید یک آدرس از وب سایت خود را وارد کنید .
3. سپس ربات مورد نظر خود را برای بررسی برای دسترسی و عدم دسترسی به صفحه مورد نظر را انتخاب کنید .
4. بر روی دکمه ی test کلیک کنید .
5. اکنون می توانید مشاهده کنید که ربات مورد نظر به این صفحه دسترسی دارد یا خیر .
6. در صورت نیاز می توانید تغیرات لازم را در فایل خود انجام دهید و در ابزار بررسی نتایج را بررسی کنید .
7. درصورتی که نتایج با انتظارات شما مطابقت داشت می توانید فایل را دوباره بر روی هاست خود بارگزاری کنید .
محدودیت های ابزار بررسی
• تغییرات شما در ویرایشگر ابزار بررسی robots.txt به صورت خودکار در سایت شما تغییر نمی کند و نیاز به بارگزاری مجدد بر روی هاست شما می باشد .
• ابزار بررسی robots.txt گوگل فقط فایل robots.txt شما را برای رباتهای گوگل بررسی می کند و برای رباتهای دیگر کاربرد ندارد .
بروز رسانی فایل robots.txt در گوگل
برای بروز رسانی سریعتر فایل robots.txt می توانید مراحل زیر را دنبال کنید :
1. بر روی گزینه ی submit در قسمت پایینی ویرایشگر robots.txt کلیک کنید .
2. با کلیک بر روی گزینه ی download کد های موجود در ویراشگر ابزار بررسی robots.txt را دانلود کنید .
3. فایل دانلود شده را بر روی شاخه ی اصلی(root) سایت خود آپلود کنید .
4. روی گزینه یVerify live version برای نمایش robots.txt سایت خود کلیک کنید .
5. بر روی گزینه ی Submit live version کلیک کنید . با این کار به گوگل اطلاع می دهید که robots.txt شما به روز رسانی شده است .
6. مرورگر خود را رفرش کنید ، سپس روی گزینه latest version کلیک کنید تا آخرین ورژن robots.txt را مشاهده کنید .