본문 바로가기

Data Analysis/개인 프로젝트

[호텔 리뷰 분석 - 웹 스크래핑] 3. Process(2)

 

지난 포스팅에는 호텔 리뷰 분석 process 1번을 진행했었다.

[Data Analysis/개인 프로젝트] - [호텔 리뷰 분석] 2. Process(1)

 

[호텔 리뷰 분석] 2. Process(1)

지난 포스팅에서는 호텔 리뷰 분석에 어떤 데이터가 필요한지를 소개했었다. [Data Analysis/개인 프로젝트] - [호텔 리뷰 분석] 1. 어떤 데이터를 어떻게 분석할 것인가? [호텔 리뷰 분석] 1. 어떤 데

k-wien1589.tistory.com

 

 

 

이번 포스팅에선 process 2를 진행한다.

 

Process 2. 

리뷰 페이지에 부여된 url마다 반복되는 패턴이 있을 것이다. 그 패턴을 이용해서

   1) 첫 페이지 ~ 마지막 페이지까지 접근

   2) 리뷰 고유번호가 html 문서에서 어떤 클래스를 갖는지 확인 후, 해당 클래스를 이용해서 리뷰 고유번호 수집

 

 

url에 들어가서 html 문서를 확인해보자.

리뷰 고유번호는 div 안에 있는 data-reviewid를 찾으면 될 것 같다.

 

 

 

코드에 대해 잠깐 설명하자면, review_divs는 html 문서에서 data-reviewid 속성이 비어있지 않은(True) 모든 div를 가져오는 것이고, for문으로 data-reviewid 속성의 값(리뷰 고유번호)을 추출해낸 것이다.

 

 

위 작업을 모든 페이지에 대해 해 주면 된다. 

 

이렇게 전체 리뷰 페이지의 리뷰 고유번호를 수집했다.