호텔 리뷰를 분석하는 프로젝트를 진행해보려 한다.
분석할 리뷰는, 트립어드바이저(링크)에 등록된 그랜드하얏트 제주 호텔의 리뷰.
따로 데이터를 제공하지 않으니, 스크래핑으로 분석에 필요한 데이터를 추출해서 가져올 것이다.
필요한 데이터는 이렇다.
- 리뷰의 (고유번호 / 작성자 id / 제목 / 게시 날짜 / 내용)
- (가격 / 장소 / 객실 / 청결도 / 서비스 / 침대 퀄리티 / 종합) 평점
- 숙박 날짜
- 여행 유형
총 14종류의 데이터를 스크래핑으로 수집할 예정이다.
전체적인 프로세스는 다음과 같다.
Process 1. 리뷰가 있는 메인 페이지의 url에 접근해서
1) 총 리뷰 개수 구하고
2) 총 페이지의 수를 구한다.
Process 2. 리뷰 페이지에 부여된 url마다 반복되는 패턴이 있을 것이다. 그 패턴을 이용해서
1) 첫 페이지 ~ 마지막 페이지까지 접근
2) 리뷰 고유번호가 html 문서에서 어떤 클래스를 갖는지 확인 후, 해당 클래스를 이용해서 리뷰 고유번호 수집
Process 3. 수집한 리뷰 고유 번호를 이용해서 목표 데이터 수집
본격적인 진행은 다음 포스팅부터!
'Data Analysis > 개인 프로젝트' 카테고리의 다른 글
[호텔 리뷰 분석 - 웹 스크래핑] 4. Process(3) (0) | 2024.03.21 |
---|---|
[호텔 리뷰 분석 - 웹 스크래핑] 3. Process(2) (0) | 2024.03.21 |
[호텔 리뷰 분석 - 웹 스크래핑] 2. Process(1) (0) | 2024.03.21 |
[개인 데이터 분석 프로젝트] (0) | 2024.02.11 |