Python 을 사용하여 사람들이 웹사이트를 방문하는 것을 어떻게 시뮬레이션할 수 있습니까?
개인적으로 python 모방자를 사용하여 웹 사이트를 방문하는 것은 주로 다음과 같은 측면을 포함한다고 생각합니다.
요청 헤더, 액세스가 전송된 후 서버가 받는 가장 직접적인 느낌은 요청 헤더입니다. 따라서 먼저 요청 헤더는 브라우저의 요청과 동일해야 합니다. 현재 요청 빈도는 주로 사용자 에이전트, 호스트, Referer 등입니다. 기계의 액세스 속도는 인간의 요청 속도보다 훨씬 빨라야 한다. 1 초에 수십 개의 요청이 있다면, 당신이 파충류라는 것을 구분하기가 어렵지 않을 것이며, 프로그램을 좀 쉬게 할 수 있을 것입니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 성공명언)
쿠키, 사용자가 웹 사이트를 방문할 때 로그인 정보 등을 저장하는 쿠키가 함께 제공됩니다. , 이 작업은 세션을 사용하여 수행 할 수 있습니다.
자원 요청, 페이지를 방문할 때 일반적으로 html 파일뿐 아니라 CSS, jpg, JSON 등과 같은 자원 요청도 함께 제공됩니다. 크롤링 프로그램은 일반적으로 이러한 모든 리소스를 요청하지 않습니다. 물론 브라우저 자동화 제어 모듈 (selenium 등) 을 사용할 수 있습니다. ) 를 사용하여 브라우저 요청을 제어할 수 있습니다.
인증코드 등. , 일부 페이지에는 방문자가 사람인지 기계인지 확인하는 인증 코드가 함께 제공되지만, 일반적인 인증 코드는 우리에게 어렵지 않습니다.
Python 파충류와 브라우저 차이에 대한 제 개인적인 견해입니다. 완전히 요약할 수는 없습니다. 나는 네가 나에게 건의를 해 주길 바란다.