Python (33) 썸네일형 리스트형 [visualization] 지도 시각화 - folium 소개 및 간단 사용법 파이썬에선 다양한 방법으로 데이터를 시각화 할 수 있다. 대표적으로 Matplotlib, Seaborn등의 라이브러리가 있으며, 보다 interactive한 시각화를 할 수 있는 Plotly도 있다. 하지만 이런건 보통 그래프나, 뭐 시각화 개체 등을 표현할 때 사용하는 라이브러리들이다. 그런데 만약 지도 위에 뭔가 표시하고 싶다, 즉 지도를 보여주고 싶다면? 이럴 때 사용하는 것이 folium이라는 라이브러리다. folium이란? folium은 leaflet.js 기반으로 만들어진 Python 지도 시각화 라이브러리다. (공식 문서) folium을 사용하면 interactive한 지도를 생성하고 마커를 추가하여 시각화하거나 원으로 범위를 표기하고 html 파일로 내보내기 등을 수행할 수 있다. 역시 백.. Project 7. 주류 판매 데이터 분석 (2) 이 글은 24.03.05에 본인 벨로그에 작성했던 글을 옮겨 온 것이다. Project 7. 주류 판매 데이터 분석 주류 산업의 데이터 분석 컨설턴트가 된 본인. 데이터 처리부터, 대시보드로 비즈니스 인사이트를 전달하기까지의 과정을 직접 처리해 보자! 지난 시간엔 아래와 같은 내용에 대해 실습해보았다. 주류 산업의 데이터 분석 컨설턴트가 된 본인이 아래와 같은 업무를 맡았다고 가정한다. 해당 지역(여기서는, 데이터가 수집된 미국 아이오와 주를 의미함)의 주류 판매 시장의 동향은 어떤지 알려달라. 어느 지역에 어떤 상품을 주력으로 팔아야 할 지, 관련 인사이트를 제공해 달라. 이번 시간엔, 지난 시간에 PySpark로 전처리 했던 데이터를 가지고 MySQL을 활용해 조금 더 세부적인 분석을 진행하고자 한다.. Project 7. 주류 판매 데이터 분석 (1) 이 글은 24.03.04에 본인 벨로그에 작성했던 글을 옮겨 온 것이다. Project 7. 주류 판매 데이터 분석 주류 산업의 데이터 분석 컨설턴트가 된 본인. 데이터 처리부터, 대시보드로 비즈니스 인사이트를 전달하기까지의 과정을 직접 처리해 보자! 데이터 소개 캐글에서 가져온 데이터를 활용한다 https://www.kaggle.com/datasets/wethanielaw/iowa-liquor-sales-20230401 현업 데이터 분석가의 실무는? 즉, 데이터 분석가는 raw 데이터 처리, 데이터 분석, 리포팅까지의 모든 업무를 할 수 있어야 한다! 이번 프로젝트에서는 위에서 언급했던 것과 같이 주류 산업의 데이터 분석 컨설턴트가 된 본인이 아래와 같은 업무를 맡았다고 가정한다. 해당 지역(여기서는,.. Project 4. HR 데이터를 통한 채용 기획하기 (1) 이 글은 24.02.14에 본인 벨로그에 작성했던 글을 옮겨 온 것이다. Project 4. HR 데이터를 통한 채용 기획하기 시나리오 HR팀의 신입 데이터 분석가가 된 본인... 아래와 같은 업무를 맡게 되다! Python 데이터 훑어보기 데이터 불러오기 데이터 출처 : https://www.kaggle.com/datasets/rishikeshkonapure/hr-analytics-prediction Data import 1) import pandas as pd : DataFrame을 읽을 pandas import 2) from google.colab import drive drive.mount('content/drive') : colab과 내 google drive 연결 3) %cd '파일경로' : .. Project 3. 고객행동 분석을 통한 서비스 헬스체크 이 글은 24.02.12에 본인 벨로그에 작성했던 글을 옮겨 온 것이다. Project 3. 고객행동 분석을 통한 서비스 헬스체크 주제 선정 이유 데이터셋 소개 고객 행동 데이터는 하나의 행이 하나의 행동을 나타낸다. 고객 행동 지표 AARRR 프레임워크 유입(Acquisition) 활성화(Activation) 유지(Retention) 추천(Referral) 수익(Revenue) 대시보드 제작(Tableau) 개요 활성유저 수 확인 - active user(DAU, WAU) 1) 활성 사용자가 몇이나 되는지 나타내보자. user id는 중복되면 안 된다. 2) 아래와 같이 계산된 필드를 만들자. COUNTD() => COUNT(DISTINCT )와 같다. 3) event time을 열에 올리고, 연/월/.. Project 2. 이커머스 데이터를 통한 사업 동향 파악 (3) 이 글은 24.02.09에 본인 벨로그에 작성했던 글을 옮겨 온 것이다. Project 2. 이커머스 데이터를 통한 사업 동향 파악 Tableau로 나타내기 전년 대비 성장률 보기 전년 대비 성장률이 중요한 이유? => 분석 시에는 비교 시점을 설정하는것이 중요하다. => 각 연도별로 성수기/비수기가 있을 것이다. 성수기는 성수기, 비수기는 비수기끼리 비교해야 성장률이 어느 정도인지 정확하게 알 수 있기 때문이다. 자주 쓰이는 용어들 - YoY(Year of Year) : 전년 비교 - MoM(Month of Month) : 전월 비교 - WoW(Week of Week) : 전주 비교 태블로로 나타내보자. 연도별, 월별 매출 테이블(YTD 총계에서 YTD값만 제거하면 된다)에서 시작. 1) 마크의 합계 .. Project 2. 이커머스 데이터를 통한 사업 동향 파악 (2) 이 글은 24.02.08에 본인 벨로그에 작성했던 글을 옮겨 온 것이다. Project 2. 이커머스 데이터를 통한 사업 동향 파악 Ad hoc Ad hoc이란? 일반적으로 특정한 목적이나 계획에 따라 미리 정의된 쿼리나 분석이 아니라, 필요에 따라 임시로 데이터를 분석하거나 나타내는 것을 의미한다. 특징 비구조적 : 데이터 미리 정의 없이 활용 가능한 분석 즉각적인 요구 : 긴급 문제 해결 및 특별 질문에 활용 유연성 : 유연한 데이터 접근과 빠른 분석 가능 일회성 : 일회성 작업, 결과물을 재사용하는 경우는 많지 않음. 즉, 주기적으로 들어오는 데이터로 시각화하여 모니터링하는 것과는 다르게 데이터 요청에 따라서 일회성으로 지표를 보는 것 Big Query Ad hoc 분석 1. 가장 고객이 많은 지역.. Project 2. 이커머스 데이터를 통한 사업 동향 파악 (1) 이 글은 24.02.06에 본인 벨로그에 작성했던 글을 옮겨 온 것이다. Project 2. 이커머스 데이터를 통한 사업 동향 파악 주제 선정 이유 비즈니스는? 측정되어야 한다. => 분석가들은 지표와 친해야 한다! => 지표와 친하다?? -> 지표를 접근 가능한 단위로 쪼개자! => 근본적인 문제가 어떤 지표에 있는지 최대한 자세하게 알기 위함이다 사용할 데이터셋 https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce Big Query 준비 빅쿼리 검색 후 링크 접속(GCP 제품이므로 설치할 필요 없음) 새 프로젝트 만들기 => 빅쿼리에서는 "프로젝트-> 데이터셋 -> 테이블"의 계층 구조로 데이터셋을 관리할 수 있음 프로젝트 만든 후, SQL 쿼리 .. 이전 1 2 3 4 5 다음