본문 바로가기

Web Programming/General

robots.txt

robots.txt는 웹 크롤러같은 로봇들의 접근을 제어하기 위한 규약이다. 한마디로 검색엔진봇이 접근하지 말아야하는 경로같은것을 의미한다.

참고로 robots.txt는 권고사항임으로 지키지 않는 봇이 나타날 순 있다. robots.txt는 웹사이트의 루트경로에 있어야한다. (a.com/robots.txt)

디텍토리의 뒤에는 반드시 /을 붙여야하는데, 아래와같이 사용할 수 있다.

1
2
3
4
5
6
7
8
9
10
11
12
User-agent: abc
Allow: /abc/def/ 
 
User-agent: abc
Disallow: /abc/def/
 
User-agent: *
Allow: /
 
User-agent: *
Disallow: /
 
cs

첫번째는 User-agent가 abc인 봇이 /abc/def/에 접근하는것을 허용한다는 뜻이고,

두번째는 User-agent가 abc인 봇이 /abc/def/에 접근하는것을 불허한다는 뜻이다.

세번째는 모든 봇에대해 모든 경로를 허용하는 것이고,

네번째는 모든 봇에게 모든 경로를 불허하는 것이다. (즉, 사이트 크롤링 금지)

반응형

'Web Programming > General' 카테고리의 다른 글

Chrome DevTools 다크 테마(Dark Theme)  (0) 2019.02.10