شبکه دی
بازدید: 5031
کد: 58
زمان انتشار: شنبه 10 فروردین 1392

همه چیز درباره فایل متنی robots.txt

همه چیز درباره فایل متنی robots.txt

robots.txt فایل روبوت متنی چیست؟

همه چیز درباره robots.txt

صاحبان وب سایت از این فایل برای انجام تنظیمات مربوط به روباتهای جستجوگر اینترنت استفاده میکنند،و به پروتوکل استثناهای روباتهای وب معروف است.

تنطیمات روبات وب بسیار ساده است. روباتها برای فهرست بندی و ایندکس گذاری به سایت مراجعه می کنند و در هنگام مراجعه به سایت قبل از هر آدرسی مثلا http://YourSite.com/gallery.html فایل http://YourSite.com/robots.txt را می خوانند تا فیلترهای مشخص شده وب سایت را بدانند و بر اساس آن اقدام به فهرست بندی کنند.

به طور معمول در این فایل محتوای زیادی قرار ندارد و چند کلمه کوتاه در 2 خط تکلیف روبات را مشخص میکند ولی اگر به اشتباه و بدون دقت از اولین سایت آموزشی دو خط در متن نادرست کپی کنیم ممکن است به روباتها گفته باشید این سایت را نبین. البته روباتهای بد یا اسپمر ها به قوانین این فایل اهمیت نمی دهند و این قانون برای روباتهای معتبر تا حدود زیادی موثر است.


چگونه یک فایل robots.txt بسازیم؟

ابتدا یک فایل به نام robots.txt در notepad یا هر ویرایشگر ساده دیگری ایجاد نمایید سپس دستورالعملی که به آن نیاز دارید را در فایل قرار دهید و فایل را به سایت منتقل نمایید.

محل فایل روبات کجاست؟

فایل روبات robots.txt در ریشه وب سایت قرار می گیرد که آدرس ریشه معمولا در وب سایتها پوشه www یا public_html می باشد و این همان محلی است که فایل صفحه اصلی یا index در آن قرار داده می شود.

همانطور که در مثال های پایین ملاحظه می کنید در خط اول user-agent روبات را مشخص میکند و کاراکتر ستاره * مشخص میکند که مخاطب دستور همه روباتها بدون مشخص شدن نمونه خاصی است.
خط دوم شامل دو بخش است، Allow که از ترجمه آن پیداست اجازه می دهده به مسیری که در اینجا روت یا ریشه سایت است و با علامت / مشخص شده دسترسی برای اصطلاحا خزنده های وب یا روباتها آزاد باشد:

User-agent: *
Allow: /


مخاطب دستور زیر همه روباتهای وب، دستور: (از هیچ صفحه ای در این سایت بازدید نکن)

User-agent: *
Disallow: /


برای درک بهتر کاربرد این فایل، نمونه هایی برای جلوگیری از نمایش عکس و تصاویر سایت در بخش تصاویر گوگل را مثال می زنیم، که این مثالها به روبات جستجوگر تصایر گوگل می گویند از چه بخشهایی بازدید نکند. مثال زیر در خط اول مخاطب را روبات جستجوگر تصاویر گوگل مشخص نموده و در خط دوم Disallow عدم اجازه به مسیر : /images


User-agent: Googlebot-Image
Disallow: /images


اگر عکس خاصی در پوشه فرضی images مورد نظر باشد به شکل زیر آدرس دهی می شود:

User-agent: Googlebot-Image
Disallow: /images/tasvir1.jpg

جلوگیری از نمایش تمام عکسها و تصاویر در گوگل:


User-agent: Googlebot-Image
Disallow: /

موتور گوگل این امکان را میدهد که فیلتر و محدودیتهای دقیقتری نیز تعریف شود، برای مثال تمام فایلهای عکس به جز gif فیلتر شود. در مثال زیر علامت $ نشان دهنده محل پایان نام فایل است.


User-agent: Googlebot-Image
Disallow: /*.gif$


جلوگیری از نمایش در تمام گوگل و نه فقط بخش عکس:

User-agent: Googlebot
Disallow: /


جلوگیری از نمایش فایل اکسل در گوگل:

User-agent: Googlebot
Disallow: /*.xls$



در صورت عدم دسترسی به ساخت فایل robots.txt یا آپلود آیا می توانم از فیلتر دسترسی روباتها استفاده کنم؟

در صورتی که امکان ساخت یا آپلود فایل به هر دلیل وجود نداشته باشد می توانید از متا تگها HTML meta tags برای بلوکه کردن دسترسی روباتهای وب استفاده نمایید، در مثال زیر در بدنه فایل HTML به روبات گوگل گفته شده این صفحه را در فهرست خود قرار نده.


<meta name="googlebot" content="noindex">



دانلود یا مشاهده نمونه فایل robots.txt:

http://day.ir/robots.txt

لیست روباتهای وب Web Robots List:

در ادامه مطلب لیست روباتهای وب که از بانک اطلاعاتی وب روبوتس استخراج شده قابل مشاهده است:


ABCdatos BotLink
Acme.Spider
Ahoy! The Homepage Finder
Alkaline
Anthill
Walhello appie
Arachnophilia
Arale
Araneo
AraybOt
ArchitextSpider
Aretha
ARIADNE
arks
AskJeeves
ASpider (Associative Spider)
ATN Worldwide
Atomz.com Search Robot
AURESYS
BackRub
Bay Spider
Big Brother
Bjaaland
BlackWidow
Die Blinde Kuh
Bloodhound
Borg-Bot
BoxSeaBot
bright.net caching robot
BSpider
CACTVS Chemistry Spider
Calif
Cassandra
Digimarc Marcspider/CGI
Checkbot
ChristCrawler.com
churl
cIeNcIaFiCcIoN.nEt
CMC/0.01
Collective
Combine System
Conceptbot
ConfuzzledBot
CoolBot
Web Core / Roots
XYLEME Robot
Internet Cruiser Robot
Cusco
CyberSpyder Link Test
CydralSpider
Desert Realm Spider
DeWeb(c) Katalog/Index
DienstSpider
Digger
Digital Integrity Robot
Direct Hit Grabber
DNAbot
DownLoad Express
DragonBot
DWCP (Dridus' Web Cataloging Project)
e-collector
EbiNess
EIT Link Verifier Robot
ELFINBOT
Emacs-w3 Search Engine
ananzi
esculapio
Esther
Evliya Celebi
FastCrawler
Fluid Dynamics Search Engine robot
Felix IDE
Wild Ferret Web Hopper #1, #2, #3
FetchRover
fido
Hämähäkki
KIT-Fireball
Fish search
Fouineur
Robot Francoroute
Freecrawl
FunnelWeb
gammaSpider, FocusedCrawler
gazz
GCreep
GetBot
GetURL
Golem
Googlebot
Grapnel/0.01 Experiment
Griffon
Gromit
Northern Light Gulliver
Gulper Bot
HamBot
Harvest
havIndex
HI (HTML Index) Search
Hometown Spider Pro
ht://Dig
HTMLgobble
Hyper-Decontextualizer
iajaBot
IBM_Planetwide
Popular Iconoclast
Ingrid
Imagelock
IncyWincy
Informant
InfoSeek Robot 1.0
Infoseek Sidewinder
InfoSpiders
Inspector Web
IntelliAgent
I, Robot
Iron33
JavaBee
JBot Java Web Robot
JCrawler
Jeeves
JoBo Java Web Robot
Jobot
JoeBot
The Jubii Indexing Robot
JumpStation
image.kapsi.net
Katipo
KDD-Explorer
Kilroy
KO_Yappo_Robot
LabelGrabber
larbin
legs
Link Validator
LinkScan
LinkWalker
Lockon
logo.gif Crawler
Lycos
Mac WWWWorm
Magpie
marvin/infoseek
Mattie
MediaFox
MerzScope
NEC-MeshExplorer
MindCrawler
mnoGoSearch search engine software
moget
MOMspider
Monster
Motor
MSNBot
Muncher
Muninn
Muscat Ferret
Mwd.Search
Internet Shinchakubin
NDSpider
Nederland.zoek
NetCarta WebMap Engine
NetMechanic
NetScoop
newscan-online
NHSE Web Forager
Nomad
The NorthStar Robot
nzexplorer
ObjectsSearch
Occam
HKU WWW Octopus
OntoSpider
Openfind data gatherer
Orb Search
Pack Rat
PageBoy
ParaSite
Patric
pegasus
The Peregrinator
PerlCrawler 1.0
Phantom
PhpDig
PiltdownMan
Pimptrain.com's robot
Pioneer
html_analyzer
Portal Juice Spider
PGP Key Agent
PlumtreeWebAccessor
Poppi
PortalB Spider
psbot
GetterroboPlus Puu
The Python Robot
Raven Search
RBSE Spider
Resume Robot
RoadHouse Crawling System
RixBot
Road Runner: The ImageScape Robot
Robbie the Robot
ComputingSite Robi/1.0
RoboCrawl Spider
RoboFox
Robozilla
Roverbot
RuLeS
SafetyNet Robot
Scooter
Sleek
Search.Aus-AU.COM
SearchProcess
Senrigan
SG-Scout
ShagSeeker
Shai'Hulud
Sift
Simmany Robot Ver1.0
Site Valet
Open Text Index Robot
SiteTech-Rover
Skymob.com
SLCraw ler
Inktomi Slurp
Smart Spider
Snooper
Solbot
Spanner
Speedy Spider
spider_monkey
SpiderBot
Spiderline Crawler
SpiderMan
SpiderView(tm)
Spry Wizard Robot
Site Searcher
Suke
suntek search engine
Sven
Sygol
TACH Black Widow
Tarantula
tarspider
Tcl W3 Robot
TechBOT
Templeton
TeomaTechnologies
TITAN
TitIn
The TkWWW Robot
TLSpider
UCSD Crawl
UdmSearch
UptimeBot
URL Check
URL Spider Pro
Valkyrie
Verticrawl
Victoria
vision-search
void-bot
Voyager
VWbot
The NWI Robot
W3M2
WallPaper (alias crawlpaper)
the World Wide Web Wanderer
w@pSpider by wap4.com
WebBandit Web Spider
WebCatcher
WebCopy
webfetcher
The Webfoot Robot
Webinator
weblayers
WebLinker
WebMirror
The Web Moose
WebQuest
Digimarc MarcSpider
WebReaper
webs
Websnarf
WebSpider
WebVac
webwalk
WebWalker
WebWatch
Wget
whatUseek Winona
WhoWhere Robot
Wired Digital
Weblog Monitor
w3mir
WebStolperer
The Web Wombat
The World Wide Web Worm
WWWC Ver 0.2.5
WebZinger
XGET



مطالب مرتبط:
الکسا چیست؟
سئو چیست؟
متا تگهای مهم در سئو

نویسنده: A.Javidan
ویراستار: Admin
حق نشر برای شبکه دی محفوظ است 1392
Day Telecom © 2013


برای نمایش مقالات شما به نام خودتان در دانشنامه دی لطفا مطالب را به webmaster [at] day.ir ارسال بفرمایید.
منبع: Web Robots
آدرس منبع: http://www.robotstxt.org
آخرین بروزرسانی: سه‌شنبه 31 شهریور 1394 23:05:54
خانه | خدمات | محصولات | تماس با ما | درباره ما

تمامی حقوق مادی و معنوی این وب سایت برای شبکه دی محفوظ است.
© 2013 All Right Reserved DAY Telecom Group