본문 바로가기

Data Analysis/Data Analysis

Project 1. 공공 데이터를 통한 시장 동향 이해 (1)

 

이 글은 24.01.31에 본인 벨로그에 작성했던 글을 옮겨 온 것이다.

 

 

데이터 분석가가 하는 일?

  • 데이터 분석을 통해 사업적 의사 결정을 지원하는 일.



Project 1. 공공 데이터를 통한 시장 동향 이해

1-1. 왜 "시장"에서 출발하는가?

1-2. 사용할 데이터 소개

 

1-3. 데이터 전처리(파이썬)

데이터 재구조화(1) - pd.melt()

  • 본인이 사용할 데이터셋은 여러 문제가 있다.
    1. 이미 구조화가 되어 있어, 분석을 하기가 어려운 형태다.
    2. 중간 집계값이 있다.
    3. 가전, 전자, 통신기기 카테고리가 세분화되어있다
    4. 날짜 컬럼 양식이 제멋대로다.

    1번을 해결해보자.
    => 구조화 전의 상태로 되돌린다(재 구조화)
    => 구조화에는 pd.pivot()을, 재 구조화에는 pd.melt()를 사용한다

 

데이터 재구조화(2) - pd.pivot_table()

  • 구조를 적당히 바꾸었기 때문에 pivot을 할 필요는 없지만, melt를 알아본 김에 pivot도 알아보자.

 

데이터 재구조화(3)

  • 문제 2, 3번
    => 데이터셋에 필요 없는 값과 컬럼을 빼주자.

 

데이터 재구조화(4)

  • 문제 4번
    => date에 붙어있는 p) 제거 및 날짜의 .을 /로 변경

 

결과 저장

 

단순 반복작업(ex. 전처리 과정) 자동화

  • 전처리 할 파일이 하나라면 상관 없겠으나, 동일한 전처리 과정을 거쳐야 하는 파일이 10개, 100개, ...라면? 하나하나 다 하고 있을 것인가? 아니다!
    반복문을 통해 자동화하도록 하자.
    전처리 전 데이터들은 'data'라는 폴더에 위치하고 있다.
  1. 전처리 데이터가 담길 폴더 생성
  2. 데이터의 처음 위치, 전처리 된 데이터가 담길 위치 경로 지정
  3. os.path.join() 사용
    => 경로를 반환하는 함수.
  4. 반복문에 전처리 코드 넣어서 완성!
    잘 되었다!