데이터 분석 (8) 썸네일형 리스트형 Project 2. 이커머스 데이터를 통한 사업 동향 파악 (1) 이 글은 24.02.06에 본인 벨로그에 작성했던 글을 옮겨 온 것이다. Project 2. 이커머스 데이터를 통한 사업 동향 파악 주제 선정 이유 비즈니스는? 측정되어야 한다. => 분석가들은 지표와 친해야 한다! => 지표와 친하다?? -> 지표를 접근 가능한 단위로 쪼개자! => 근본적인 문제가 어떤 지표에 있는지 최대한 자세하게 알기 위함이다 사용할 데이터셋 https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce Big Query 준비 빅쿼리 검색 후 링크 접속(GCP 제품이므로 설치할 필요 없음) 새 프로젝트 만들기 => 빅쿼리에서는 "프로젝트-> 데이터셋 -> 테이블"의 계층 구조로 데이터셋을 관리할 수 있음 프로젝트 만든 후, SQL 쿼리 .. Project 1. 공공 데이터를 통한 시장 동향 이해 (3) 이 글은 24.02.05에 본인 벨로그에 작성했던 글을 옮겨 온 것이다. Looker studio 루커 스튜디오의 장점 1) 쉽고 빠르게 데이터 소스를 연결할 수 있다(특히 구글제품의 경우) 2) 공유와 공동작업이 편하다 3) 리포팅도 편하다 4) 무엇보다, 공짜다! 환경 세팅하기 구글 클라우드 플랫폼에 속하는 제품이라, 별도의 설치 없이 웹에서 바로 사용 가능 https://lookerstudio.google.com/navigation/reporting 만들기를 누르면 다음과 같이 정보를 입력하는 창이 뜬다. 적당히 입력해주자(회사명을 비워두라고 되어 있지만, 비우면 아래의 계속 버튼이 비활성화되어 다음 단계로 넘어갈 수 없다) 정보를 입력하고 나면 아래와 같이 굉장히 여러 데이터 소스에 연결할 수 있.. Project 1. 공공 데이터를 통한 시장 동향 이해 (2) 이 글은 24.02.01에 본인 벨로그에 작성했던 글을 옮겨 온 것이다. Project 1. 공공 데이터를 통한 시장 동향 이해(대시보드 제작) 1.4 대시보드 설계 원칙 1.4.1 Tableau 전처리를 마친 3개의 csv파일을 모두 구글 스프레드시트에 올려주자. 태블로와 스프레드 시트 연결 후 워크시트 열기 상품군 별 거래액 하이라이트 테이블 만들기 => '상품군별' 차원을 행에 올리기(혹은 더블클릭) => 'Sales' 값을 텍스트 마크에 올리기(혹은 더블클릭) => 'Sales' 값을 색상 마크에 올리고 '자동'으로 되어 있는 마크 값을 사각형으로 바꾸기 Project 1. 공공 데이터를 통한 시장 동향 이해 (1) 이 글은 24.01.31에 본인 벨로그에 작성했던 글을 옮겨 온 것이다. 데이터 분석가가 하는 일? 데이터 분석을 통해 사업적 의사 결정을 지원하는 일. Project 1. 공공 데이터를 통한 시장 동향 이해 1-1. 왜 "시장"에서 출발하는가? 1-2. 사용할 데이터 소개 1-3. 데이터 전처리(파이썬) 데이터 재구조화(1) - pd.melt() 본인이 사용할 데이터셋은 여러 문제가 있다. 1. 이미 구조화가 되어 있어, 분석을 하기가 어려운 형태다. 2. 중간 집계값이 있다. 3. 가전, 전자, 통신기기 카테고리가 세분화되어있다 4. 날짜 컬럼 양식이 제멋대로다. 1번을 해결해보자. => 구조화 전의 상태로 되돌린다(재 구조화) => 구조화에는 pd.pivot()을, 재 구조화에는 pd.melt()를.. [Data Preprocessing] - Min Max 정규화 Min Max 정규화는 데이터 전처리 과정 중 Feature scaling 단계를 실행하는 방법 중 하나다. feature scaling이 무엇이며 왜 하는지에 대해서도 작성하고 싶은데, 이는 구글링 해 보면 굉장히 많은 자료가 나오기도 하고, 솔직히 조금 귀찮기 때문에 따로 작성하지는 않을 것이다(나중에 추가로 작성해서 넣을지도??) Min - Max 정규화가 뭔가요? Min-max noramlization는 독립변수들의 값이 0~1 사이에 위치하도록 변경시켜 주는 feature scaling 방법이다. 좀 풀어서 설명해보자면, 최대값과 최소값의 범위 내에서 정규화 할 값이 어느 정도의 위치를 갖는지를 0~1사이의 값으로 바꿔 주는 것이다. 공식은 이렇다. $$\frac{x - x_{min}}{x_{m.. [Pandas] 데이터 그룹별 집계 - NamedAgg 데이터를 그룹별로 집계할 때에 보통 groupby()를 쓰곤 한다. 아래와 같은 데이터프레임이 있다고 하자. 특정 호텔 리뷰 관련 데이터를 웹 스크래핑으로 가져온 것이다(여기 참고). 작성자ID별 리뷰가 몇개인지 알고 싶다거나, 숙박 날짜별 리뷰가 몇개인지 알고 싶다거나 할 때 groupby를 쓰곤 한다. 이런 식으로! groupby와 평균, 개수, 최대, 최소 등등의 집계함수를 사용해 목적에 맞게끔 데이터를 그룹화 할 수 있는데, 동일한 컬럼에 대해 여러 집계 함수를 사용하거나 한 번에 여러 종류의 집계를 하고 싶을 때가 있다. 이럴 때 사용할 수 있는 것이 Pandas의 NamedAgg() 메서드다. 사용법... 이랄 건 딱히 없고 groupby, 집계함수를 사용하는 것과 비슷하다. 집계함수를 어떤 .. [호텔 리뷰 분석 - 웹 스크래핑] 3. Process(2) 지난 포스팅에는 호텔 리뷰 분석 process 1번을 진행했었다. [Data Analysis/개인 프로젝트] - [호텔 리뷰 분석] 2. Process(1) [호텔 리뷰 분석] 2. Process(1) 지난 포스팅에서는 호텔 리뷰 분석에 어떤 데이터가 필요한지를 소개했었다. [Data Analysis/개인 프로젝트] - [호텔 리뷰 분석] 1. 어떤 데이터를 어떻게 분석할 것인가? [호텔 리뷰 분석] 1. 어떤 데 k-wien1589.tistory.com 이번 포스팅에선 process 2를 진행한다. Process 2. 리뷰 페이지에 부여된 url마다 반복되는 패턴이 있을 것이다. 그 패턴을 이용해서 1) 첫 페이지 ~ 마지막 페이지까지 접근 2) 리뷰 고유번호가 html 문서에서 어떤 클래스를 갖는지 .. [호텔 리뷰 분석 - 웹 스크래핑] 1. 어떤 데이터를 어떻게 가져올 것인가? 호텔 리뷰를 분석하는 프로젝트를 진행해보려 한다. 분석할 리뷰는, 트립어드바이저(링크)에 등록된 그랜드하얏트 제주 호텔의 리뷰. 따로 데이터를 제공하지 않으니, 스크래핑으로 분석에 필요한 데이터를 추출해서 가져올 것이다. 필요한 데이터는 이렇다. - 리뷰의 (고유번호 / 작성자 id / 제목 / 게시 날짜 / 내용) - (가격 / 장소 / 객실 / 청결도 / 서비스 / 침대 퀄리티 / 종합) 평점 - 숙박 날짜 - 여행 유형 총 14종류의 데이터를 스크래핑으로 수집할 예정이다. 전체적인 프로세스는 다음과 같다. Process 1. 리뷰가 있는 메인 페이지의 url에 접근해서 1) 총 리뷰 개수 구하고 2) 총 페이지의 수를 구한다. Process 2. 리뷰 페이지에 부여된 url마다 반복되는 패턴이 있을.. 이전 1 다음