분류 전체보기 (184) 썸네일형 리스트형 Project 1. 공공 데이터를 통한 시장 동향 이해 (1) 이 글은 24.01.31에 본인 벨로그에 작성했던 글을 옮겨 온 것이다. 데이터 분석가가 하는 일? 데이터 분석을 통해 사업적 의사 결정을 지원하는 일. Project 1. 공공 데이터를 통한 시장 동향 이해 1-1. 왜 "시장"에서 출발하는가? 1-2. 사용할 데이터 소개 1-3. 데이터 전처리(파이썬) 데이터 재구조화(1) - pd.melt() 본인이 사용할 데이터셋은 여러 문제가 있다. 1. 이미 구조화가 되어 있어, 분석을 하기가 어려운 형태다. 2. 중간 집계값이 있다. 3. 가전, 전자, 통신기기 카테고리가 세분화되어있다 4. 날짜 컬럼 양식이 제멋대로다. 1번을 해결해보자. => 구조화 전의 상태로 되돌린다(재 구조화) => 구조화에는 pd.pivot()을, 재 구조화에는 pd.melt()를.. 연도별 대장균 크기의 편차 구하기 프로그래머스 문제 https://school.programmers.co.kr/learn/courses/30/lessons/299310 풀이 https://school.programmers.co.kr/questions/74723 # 풀이 쿼리 SELECT YEAR(DIFFERENTIATION_DATE) AS YEAR , MAX(SIZE_OF_COLONY) OVER(PARTITION BY YEAR(DIFFERENTIATION_DATE)) - SIZE_OF_COLONY AS YEAR_DEV , ID FROM ECOLI_DATA ORDER BY YEAR, YEAR_DEV 윈도우 함수만 잘 사용하면 굳이 JOIN이나 서브쿼리, CTE 등을 사용할 필요가 없는 쉬운 문제다. 우유와 요거트가 담긴 장바구니 프로그래머스 문제 https://school.programmers.co.kr/learn/courses/30/lessons/62284#qna 풀이 https://school.programmers.co.kr/questions/74722 # 풀이 쿼리 SELECT DISTINCT CART_ID FROM CART_PRODUCTS WHERE NAME ='Yogurt' AND CART_ID IN ( SELECT CART_ID FROM CART_PRODUCTS WHERE NAME = 'MILK') ORDER BY CART_ID 조금만 생각해보면 간단한 문제다. 요거트(혹은 우유)가 담긴 장바구니의 ID 중 우유(혹은 요거트)가 담긴 장바구니의 ID를 찾으면 되는 것이다. 서브쿼리 하나만 사용하면 된다. JOIN이나 .. 특정 조건을 만족하는 물고기별 수와 최대 길이 구하기 프로그래머스 문제 https://school.programmers.co.kr/learn/courses/30/lessons/298519 풀이 https://school.programmers.co.kr/questions/74349 -- 풀이 쿼리 SELECT COUNT(FISH_TYPE) AS FISH_COUNT , MAX(LENGTH) AS MAX_LENGTH , FISH_TYPE FROM FISH_INFO GROUP BY FISH_TYPE HAVING AVG(IFNULL(LENGTH, 10)) >= 33 ORDER BY FISH_TYPE 크게 어려울 것은 없는 문제였지만, 한가지 주의할 점이 있다(본인만 주의하면 될 듯...ㅎ) 그건 바로 WHERE절엔 집계함수를 쓸 수 없다는 것. 여러번 이 때문에 헤.. [Data Preprocessing] - Min Max 정규화 Min Max 정규화는 데이터 전처리 과정 중 Feature scaling 단계를 실행하는 방법 중 하나다. feature scaling이 무엇이며 왜 하는지에 대해서도 작성하고 싶은데, 이는 구글링 해 보면 굉장히 많은 자료가 나오기도 하고, 솔직히 조금 귀찮기 때문에 따로 작성하지는 않을 것이다(나중에 추가로 작성해서 넣을지도??) Min - Max 정규화가 뭔가요? Min-max noramlization는 독립변수들의 값이 0~1 사이에 위치하도록 변경시켜 주는 feature scaling 방법이다. 좀 풀어서 설명해보자면, 최대값과 최소값의 범위 내에서 정규화 할 값이 어느 정도의 위치를 갖는지를 0~1사이의 값으로 바꿔 주는 것이다. 공식은 이렇다. $$\frac{x - x_{min}}{x_{m.. [Pandas] 데이터 그룹별 집계 - NamedAgg 데이터를 그룹별로 집계할 때에 보통 groupby()를 쓰곤 한다. 아래와 같은 데이터프레임이 있다고 하자. 특정 호텔 리뷰 관련 데이터를 웹 스크래핑으로 가져온 것이다(여기 참고). 작성자ID별 리뷰가 몇개인지 알고 싶다거나, 숙박 날짜별 리뷰가 몇개인지 알고 싶다거나 할 때 groupby를 쓰곤 한다. 이런 식으로! groupby와 평균, 개수, 최대, 최소 등등의 집계함수를 사용해 목적에 맞게끔 데이터를 그룹화 할 수 있는데, 동일한 컬럼에 대해 여러 집계 함수를 사용하거나 한 번에 여러 종류의 집계를 하고 싶을 때가 있다. 이럴 때 사용할 수 있는 것이 Pandas의 NamedAgg() 메서드다. 사용법... 이랄 건 딱히 없고 groupby, 집계함수를 사용하는 것과 비슷하다. 집계함수를 어떤 .. SQL 고득점 kit(JOIN) - 상품을 구매한 회원 비율 구하기 프로그래머스 문제 https://school.programmers.co.kr/learn/courses/30/lessons/131534#qna 풀이 https://school.programmers.co.kr/questions/74261 -- 풀이 쿼리 -- 2021년 가입 회원 중 구매기록이 있는 회원 수와 -- 2021년에 가입한 전체 회원 중 해당 회원들(=2021년 가입 회원 구매기록이 있는 회원들)의 비율을 -- 년, 월별로 출력. -- 비율은 소수점 첫째자리까지만 -- 전체 결과는 연 기준 오름차순, 월 기준 오름차순 정렬 WITH N AS ( SELECT COUNT(DISTINCT USER_ID) AS N_CUSTOMERS FROM USER_INFO WHERE YEAR(JOINED) = '202.. 순고객추천지수NPS(Net Promoter Score) 순고객추천지수NPS(Net Promoter Score) NPS란 고객들의 직접적인 피드백을 통해 고객의 전반적인 충성도, 만족도 및 열정을 보여주는 주요 고객 만족도 지표 중 하나로, 고객이 만족할 만한 성과를 거두었는지를 나타낸다. 즉 간단히 말해 브랜드에 대한 고객 충성도를 알 수 있는 지표다. 2003년에 베인앤컴퍼니(Bain & Company)라는 컨설팅 기업에서 만들어낸 개념으로, 지금은 글로벌 기업들이 고객 충성도를 평가하는 가장 표준화된 지표로 자리 잡았다. NPS 피드백 문항은 이런 구성으로 되어 있다. " 우리 서비스를 주변에 얼마나 추천하고 싶으신가요? " NPS 문항은 11점 척도로 구성되고, 총 3개 그룹으로 나뉘며 데이터를 해석하고 활용하는 방법도 조금 다르다. Promoters .. 이전 1 2 3 4 5 6 7 8 ··· 23 다음