이 프로토콜은 웹 사이트 관리자가 세계 다른 곳에서 액세스하지 않을 섹션이나 파일이있을 때 사용됩니다. 직원 목록 또는 내부적으로 회람하는 파일을 포함 할 수 있습니다. 예를 들어, 백악관 웹 사이트에서는 robots.txt를 사용하여 부통령의 연설문, 영부인의 사진 에세이 및 911 명의 희생자들의 프로필을 차단합니다.
프로토콜은 어떻게 작동합니까? 스캔해서는 안되는 파일을 나열하고 웹 사이트의 최상위 디렉토리에 배치합니다. robots.txt 프로토콜은 1994 년 6 월에 로봇 메일 링리스트 ([email protected])의 구성원이 합의하여 만들어졌습니다. 프로토콜에 대한 공식 표준 기관이나 RFC가 없으므로 프로토콜 준수 여부를 입법화하거나 위임하기가 어렵습니다. 실제로 파일은 엄격한 권고로 취급되며 해당 내용을 읽을 수 없다는 절대적인 보장은 없습니다.
robots.txt 파일을 다운로드 하시겠습니까? Просто о сложном
사실, robot.txt는 웹 스파이더와 리더에 의한 협력이 필요합니다. 인터넷에 업로드 된 모든 것이 공개적으로 사용 가능하기 때문입니다. 당신은 그 페이지에서 그들을 잠그지 않고 있습니다, 당신은 단지 그들이 들어가기가 더 어려워지고 있습니다. 그러나 그들이이 지시들을 무시하는 것은 거의 필요하지 않습니다. 컴퓨터 해커는 파일을 쉽게 보급하고 정보를 검색 할 수 있습니다. 엄지 손가락의 규칙은 그것이 민감하기 때문에 처음에는 귀하의 웹 사이트에 있지 않아야합니다..
그러나 Robots.txt 프로토콜이 웹 사이트의 다른 영역에서 웹 사이트 로봇을 차단하지 않도록주의해야합니다. 크롤러가 키워드를 계산하고 메타 태그, 제목 및 크로스 헤드를 검토하고 하이퍼 링크를 등록하기 위해 로봇에 의존하기 때문에 검색 엔진 순위에 큰 영향을 미칩니다.
잘못 배치 된 하이픈 또는 대시는 치명적인 결과를 초래할 수 있습니다. 예를 들어 robots.txt 패턴은 간단한 하위 문자열 비교와 일치하므로 디렉토리와 일치하는 패턴에 마지막 ';/';문자가 추가되도록주의해야합니다. 그렇지 않으면 해당 하위 문자열로 시작하는 이름을 가진 모든 파일이 일치합니다. 디렉토리에있는 것만.
이러한 문제를 피하려면 사이트를 검색 엔진 로봇 시뮬레이터라고도하는 검색 엔진 스파이더 시뮬레이터에 제출하는 것이 좋습니다. 이 시뮬레이터는 인터넷에서 구입하거나 다운로드 할 수 있습니까? 다른 검색 엔진의 동일한 프로세스와 전략을 사용하고 당신에게 마른 실행을 제공합니까? 그들이 귀하의 사이트를 읽는 방법을 알려줍니다. 그들은 건너 뛴 페이지, 무시되는 링크 및 어떤 오류가 발생했는지 알려줍니다. 시뮬레이터는 봇이 하이퍼 링크를 따라갈 방법을 재현하기 때문에 robot.txt 프로토콜이 검색 엔진의 모든 필요한 페이지를 읽을 수있는 기능을 방해하는지 알 수 있습니다.
또한 robot.txt 파일을 검토하는 것이 중요합니다. 그러면 문제를 발견하고 실제 검색 엔진에 제출하기 전에 문제를 해결할 수 있습니다. 로봇 Txt하는 방법 때때로 우리는 특정 keyphrase에 대한 하나의 엔진에서 잘 순위를 매기고 모든 검색 엔진이 우리 페이지를 좋아할 것이라고 추정하고, 따라서 우리는 많은 엔진에서 그 keyphrase를 잘 평가할 것입니다. 불행히도 이것은 드문 경우입니다. 모든 주요 검색 엔진이 다소 다르기 때문에 한 엔진에서 높은 순위를 얻은 것이 실제로 다른 엔진에서의 순위를 낮추는 데 도움이 될 수 있습니다.
그것은 몇몇 사람들이 각각의 특정 검색 엔진을 위해 페이지를 최적화하는 것을 좋아하는 이유입니다. 일반적으로이 페이지는 조금씩 다를 뿐이지 만이 약간의 차이는 순위를 올릴 때 모든 차이를 만들 수 있습니다..
그러나 검색 엔진 스파이더는 찾을 수있는 모든 페이지의 색인을 생성하는 사이트를 크롤링하기 때문에 검색 엔진 관련 페이지를 최적화 할 수 있으며 매우 유사하기 때문에 스파이더는 자신이 스팸으로 판단하고 두 가지 중 하나를 수행 할 것이라고 생각할 수 있습니다. 사이트 전체가 심각하게 낮은 순위의 형태로 귀하를 처벌합니다..
해결책은 특정 검색 엔진 스파이더가 일부 웹 페이지의 색인을 생성하지 못하게하는 것입니다. 이 작업은 웹 공간에있는 robots.txt 파일을 사용하여 수행됩니다..
Robots.txt 파일은 다른 검색 엔진에 대해 서로 다른 페이지를 디자인하면 검색 엔진에 의해 금지되거나 처벌되는 것을 막는 웹 마스터의 중요한 부분입니다..
robots.txt 파일은 파일 확장명에서 알 수 있듯이 간단한 텍스트 파일입니다. 메모장이나 워드 패드와 같은 간단한 텍스트 편집기를 사용하여 만들어 졌으므로 Microsoft Word와 같은 복잡한 워드 프로세서는 파일 만 손상시킵니다..
이 텍스트 파일에 특정 코드를 삽입하여 작동되도록 할 수 있습니다. 이것이 어떻게 이루어질 수 있는지입니다..
사용자 에이전트 : (스파이더 이름)
Disallow : (파일 이름)
User-Agent는 검색 엔진 스파이더의 이름이고 Disallow는 스파이더가 색인을 생성하지 않게하려는 파일의 이름입니다.
각 엔진에 대해 새로운 코드 배치를 시작해야하지만, 거부 할 수있는 파일을 여러 개 나열하려면 하나씩 배치 할 수 있습니다. 예를 들어
사용자 에이전트 : Slurp (Inktomi의 거미)
Disallow : xyz-gg.html
Disallow : xyz-al.html
Disallow : xxyyzz-gg.html
Disallow : xxyyzz-al.html
위의 코드는 Inktomi가 Google (gg)에 최적화 된 두 페이지와 AltaVista (al)에 최적화 된 두 페이지를 거미는 것을 허용하지 않습니다. Inktomi가 Inktomi를 위해 특별히 제작 된 페이지뿐만 아니라이 페이지를 거미로 허용 된 경우, 귀하는 금지되거나 처벌 될 위험이 있습니다. 따라서 robots.txt 파일을 사용하는 것이 좋습니다..
robots.txt 파일은 웹 공간에 있지만 어디에서 웹 공간에 있습니까? 루트 디렉토리! 파일을 하위 디렉토리에 업로드하면 작동하지 않습니다. 모든 엔진이 파일 색인을 생성하지 못하도록하려면 엔진 이름이 일반적으로 :*:문자를 사용하면됩니다. 그러나 :*:문자는 Disallow 행에서 작동하지 않습니다..
다음은 몇 가지 큰 엔진의 이름입니다.
excite - ArchitextSpider
AltaVista - 스쿠터
라이코스 - 라이코스 _ 스파이더 (T-Rex)
Google - Googlebot
Alltheweb - FAST-WebCrawler
업로드하기 전에 파일을 확인하십시오. 간단한 실수를 한 것일 수 있습니다. 즉, 색인을 생성하지 않으려는 엔진에 의해 페이지 색인이 생성되거나 색인이 생성되지 않을 수도 있습니다..