데이터분석 (6) 썸네일형 리스트형 [visualization] 지도 시각화 - folium 소개 및 간단 사용법 파이썬에선 다양한 방법으로 데이터를 시각화 할 수 있다. 대표적으로 Matplotlib, Seaborn등의 라이브러리가 있으며, 보다 interactive한 시각화를 할 수 있는 Plotly도 있다. 하지만 이런건 보통 그래프나, 뭐 시각화 개체 등을 표현할 때 사용하는 라이브러리들이다. 그런데 만약 지도 위에 뭔가 표시하고 싶다, 즉 지도를 보여주고 싶다면? 이럴 때 사용하는 것이 folium이라는 라이브러리다. folium이란? folium은 leaflet.js 기반으로 만들어진 Python 지도 시각화 라이브러리다. (공식 문서) folium을 사용하면 interactive한 지도를 생성하고 마커를 추가하여 시각화하거나 원으로 범위를 표기하고 html 파일로 내보내기 등을 수행할 수 있다. 역시 백.. Ad - Hoc 분석 이 글은 24.02.08에 본인 벨로그에 적은 글을 옮겨온 것이다. Ad Hoc Ad hoc이란? 일반적으로 특정한 목적이나 계획에 따라 미리 정의된 쿼리나 분석이 아니라, 필요에 따라 임시로 데이터를 분석하거나 나타내는 것을 의미한다. 특징 비구조적 : 데이터 미리 정의 없이 활용 가능한 분석 즉각적인 요구 : 긴급 문제 해결 및 특별 질문에 활용 유연성 : 유연한 데이터 접근과 빠른 분석 가능 일회성 : 일회성 작업, 결과물을 재사용하는 경우는 많지 않음. 즉, 주기적으로 들어오는 데이터로 시각화하여 모니터링하는 것과는 다르게 데이터 요청에 따라서 일회성으로 지표를 보는 것. 해야하는 이유 Ad Hoc 분석은 데이터를 통한 의사결정의 핵심 Ad Hoc 분석은 결과 해석과 전략 도출 역량을 향상 예시 .. [호텔 리뷰 분석 - 웹 스크래핑] 4. Process(3) 지난 포스팅에는 호텔 리뷰 분석 process 2번을 진행했었다. [Data Analysis/개인 프로젝트] - [호텔 리뷰 분석 - 웹 스크래핑] 3. Process(2) [호텔 리뷰 분석 - 웹 스크래핑] 3. Process(2) 지난 포스팅에는 호텔 리뷰 분석 process 1번을 진행했었다. [Data Analysis/개인 프로젝트] - [호텔 리뷰 분석] 2. Process(1) [호텔 리뷰 분석] 2. Process(1) 지난 포스팅에서는 호텔 리뷰 분석에 어떤 데이터 k-wien1589.tistory.com 이번 포스팅에선 마지막 process를 진행하려 한다. Process 3. 수집한 리뷰 고유 번호를 이용해서 목표 데이터 수집 - 리뷰의 (고유번호 / 작성자 id / 제목 / 게시 날짜.. [호텔 리뷰 분석 - 웹 스크래핑] 2. Process(1) 지난 포스팅에서는 호텔 리뷰 분석에 어떤 데이터가 필요한지를 소개했었다. [Data Analysis/개인 프로젝트] - [호텔 리뷰 분석] 1. 어떤 데이터를 어떻게 분석할 것인가? [호텔 리뷰 분석] 1. 어떤 데이터를 어떻게 분석할 것인가? 호텔 리뷰를 분석하는 프로젝트를 진행해보려 한다. 분석할 리뷰는, 트립어드바이저(링크)에 등록된 그랜드하얏트 제주 호텔의 리뷰. 따로 데이터를 제공하지 않으니, 스크래핑으로 분석에 필 k-wien1589.tistory.com 이제 본격적으로 진행해보자. Process 1. 리뷰가 있는 메인 페이지의 url에 접근해서 1) 총 리뷰 개수 구하고 2) 총 페이지의 수를 구한다. * 구글 코랩 환경에서 진행한다. 스크래핑에 필요한 라이브러리를 import 한다. 필요한.. [visualization] 결측치 시각화 - missingno 보통 데이터 EDA를 할 때엔, 결측치가 있는지 없는지를 먼저 살펴보는것이 일반적이다. 이는 isna()나 isnull()을 통해 수치로 확인할 수 있지만 시각화도 해볼 수 있다. 어떻게 ? missingno라는 라이브러리의 matrix(), bar() 함를 이용한다. (포켓몬의 미싱노가 생각난다...) 간단하게 데이터를 만들고 직접 사용해보도록 하자. 1. 데이터 생성 2.1 matrix() 위의 df 출력결과와 비교해서 보면 알겠지만, 결측치는 흰색으로, 그 외는 검은색으로 표시되어 있다. 즉 컬럼별 결측치의 위치를 나타낸다. 2.2 bar() 각 결측치의 위치를 표시했던 matrix()와는 달리, 각 컬럼별로 결측치가 얼마나 있는지를 보여주고 있다. 데이터가 많다면, bar()의 파라미터에 log=.. [Pandas] describe() 특정 데이터(DataFrame)를 EDA 할 때에, 거의 반드시라고 해도 좋을 정도로 꼭 해주어야 하는 것 중 하나가 feature들의 기술통계량을 확인하는 것이다. 이 때, describe()을 사용한다. 바로 예시를 한번 보자. 아래와 같은 데이터가 있다. 9개의 컬럼을 가지며, 각 컬럼의 데이터 타입은 object, datetime, float, int형 등등이다. 그리고, 수치형 feature들의 데이터에 대해 평균값이 얼마일지, 최소값이나 최대값은 얼마일지 등등의 정보를 보고 싶다고 하자. 1. describe() 이럴 때 쓸 수 있는 것이 describe()다. 사용법은 간단하다. 이렇게 코드 한 줄로 간단하게 확인할 수 있다. 그러나 위에서도 확인할 수 있듯 기술통계량이기 때문에 기본적으로 .. 이전 1 다음