지난 포스팅에는 호텔 리뷰 분석 process 1번을 진행했었다.
[Data Analysis/개인 프로젝트] - [호텔 리뷰 분석] 2. Process(1)
이번 포스팅에선 process 2를 진행한다.
Process 2.
리뷰 페이지에 부여된 url마다 반복되는 패턴이 있을 것이다. 그 패턴을 이용해서
1) 첫 페이지 ~ 마지막 페이지까지 접근
2) 리뷰 고유번호가 html 문서에서 어떤 클래스를 갖는지 확인 후, 해당 클래스를 이용해서 리뷰 고유번호 수집
url에 들어가서 html 문서를 확인해보자.
리뷰 고유번호는 div 안에 있는 data-reviewid를 찾으면 될 것 같다.
코드에 대해 잠깐 설명하자면, review_divs는 html 문서에서 data-reviewid 속성이 비어있지 않은(True) 모든 div를 가져오는 것이고, for문으로 data-reviewid 속성의 값(리뷰 고유번호)을 추출해낸 것이다.
위 작업을 모든 페이지에 대해 해 주면 된다.
이렇게 전체 리뷰 페이지의 리뷰 고유번호를 수집했다.
'Data Analysis > 개인 프로젝트' 카테고리의 다른 글
[호텔 리뷰 분석 - 웹 스크래핑] 4. Process(3) (0) | 2024.03.21 |
---|---|
[호텔 리뷰 분석 - 웹 스크래핑] 2. Process(1) (0) | 2024.03.21 |
[호텔 리뷰 분석 - 웹 스크래핑] 1. 어떤 데이터를 어떻게 가져올 것인가? (0) | 2024.03.21 |
[개인 데이터 분석 프로젝트] (0) | 2024.02.11 |