본문 바로가기

STUDY

(98)
[Pandas] describe() 특정 데이터(DataFrame)를 EDA 할 때에, 거의 반드시라고 해도 좋을 정도로 꼭 해주어야 하는 것 중 하나가 feature들의 기술통계량을 확인하는 것이다. 이 때, describe()을 사용한다. 바로 예시를 한번 보자. 아래와 같은 데이터가 있다. 9개의 컬럼을 가지며, 각 컬럼의 데이터 타입은 object, datetime, float, int형 등등이다. 그리고, 수치형 feature들의 데이터에 대해 평균값이 얼마일지, 최소값이나 최대값은 얼마일지 등등의 정보를 보고 싶다고 하자. 1. describe() 이럴 때 쓸 수 있는 것이 describe()다. 사용법은 간단하다. 이렇게 코드 한 줄로 간단하게 확인할 수 있다. 그러나 위에서도 확인할 수 있듯 기술통계량이기 때문에 기본적으로 ..
[AI 엔지니어 기초 다지기] 2일차 [24.01.16] 1주차 - 2차시 [EDA] EDA란? EDA(탐색적 데이터 분석Exploratory Data Analysis) : 데이터를 탐색하고 가설을 세워 증명하는 과정. => 다양한 시각을 통해 데이터를 이해하고, 특징을 찾아내는 과정 => 이런 특징들을 시각화 하거나 통계량으로 표현함 => ...으로써 데이터의 문제들을 직관적으로 이해할 수 있음. 1) 데이터에 대한 가설 / 의문을 가짐 2) 시각화, 통계량 출력, 모델링 등을 통해 가설을 검정함 3) 위의 결론을 통해 새로운 가설을 세우거나, 문제를 해결함. 도메인 별로 데이터의 형태나 종류 등이 다르기 때문에 일반화가 어려우며, 정답은 없다. 그러나, 아무리 정답이 없다 한들 권장되는(추천되는) 시작은 있다. 바로, 개별 변수들(범주형..
[AI 엔지니어 기초 다지기] 1일차 [24.01.15] 1주차 - (1) 정형 데이터란? 정형 데이터 : 엑셀 파일 형식이나 RDBMS의 테이블에 담을 수 있는 데이터로, 행Row과 열Columns으로 표현 가능한 데이터. 하나의 행은 하나의 데이터 속성을 나타내고, 각 열은 데이터의 feature를 나타낸다. 비정형 데이터 : 이미지, 영상, 음성, 자연어 등, 정제되지 않은 데이터를 의미한다. 정형 데이터의 중요성 : 비정형 데이터가 떠오르고는 있으나, 아직까지 많은 사람, 기업, 현상, 사회의 많은 부분들이 정형데이터로 기록되기 때문. 즉 정형 데이터는 가장 기본적인 데이터이며, 분야 막론 굉장히 많은 정형 데이터가 존재한다. 정형 데이터의 분석 능력은 데이터에 대한 상상력, 통찰력, 다양한 경험을 통해 데이터의 종류에 국한되지 않고..
[AI 엔지니어 기초 다지기] - 오늘부터 시작! 오늘부터, 네이버 부스트코스에서 제공하는 부스트클래스 을 수강하게 됐다. 평소에도 부스트코스에서 굉장히 많은 도움을 받고 있는데 이런 좋은 기회를 우연히 알게 되어, 콱 잡았다 ! 양질의 무료강의가 넘쳐나는 부스트코스...! 사랑해여 수강 기간은 1/15(월) ~ 2/27(화) 까지로, 대략 한달이 조금 넘는다. 1. 해당 과정의 학습 목표 정형데이터의 특성을 이해하고, 머신러닝 모델을 만들기 위한 데이터 전처리를 할 수 있습니다. 머신러닝 모델의 기본적인 활용에서 더 나아가 모델을 개선하고 발전시킬 수 있습니다. 딥러닝 모델을 구성하는 기초 수학과 통계 이론을 습득하고, 코드를 작성할 수 있습니다. 인공지능 모델 개발의 설계 및 학습, 평가까지 인공지능 실무 프로젝트의 전체적인 흐름을 경험할 수 있습니..
[데벨챌 2기 - 컨버티드] 1주차 SQL 강의를 수강했던 데이터리안에서 한달여간 진행되는 데벨챌 2기를 열었고, 참여했다. 컴퓨터 화면이 아닌 종이 위에 쓰인 글씨를 읽는 게 얼마만인지... 데벨챌이 뭔가요? 데이터 넥스트 레벨 챌린지의 준말로, 각 기수마다 정해진 챌린지 도서를 읽고 3주간 주어진 미션을 수행하는 챌린지다. 챌린지 도서는 당연히 아무 도서나 선정되는 것은 아니고 데이터 분석 관련 도서가 선정된다. 이번 데벨챌 기수 도서로 선정된 책은, 바로 이것. 『컨버티드: 마음을 훔치는 데이터분석의 기술』 간단하게 책 소개를 하자면 구글에서 최고 데이터분석 전략가CMS(Chief Measurement Strategist)로 있었던 닐 호인Neil Hoyen이 집필한 책으로, 데이터 기반 디지털 마케팅에 관한 내용을 담고 있다. 나는..
[MySQL] 대용량 csv 파일을 workbench에 업로드하기(Window OS) 지난 12월, workbench에 데이터를 업로드 할 때 무슨무슨 에러가 떠서... 이렇게 저렇게 했더니 해결되었다... 라는 글을 포스팅했었다. [STUDY/SQL] - [MySQL] - Row import failed with error: ("Data truncated for column at row 1 1265") [MySQL] - Row import failed with error: ("Data truncated for column at row 1 1265") SQL로 개인 프로젝트를 시작해보고자, 캐글에서 한 영국 온라인 쇼핑몰의 데이터를 다운받아 Workbench에 업로드했다 https://www.kaggle.com/datasets/mashlyn/online-retail-ii-uci Onlin..
[Github] Repository에 파일, 프로젝트 올리기 지난번 Github에 New Repository를 만드는 과정에 대해 포스팅했었다. [프로그래밍/Git] - [Github] New Repository 만들기 [Github] New Repository 만들기 아래 블로그 글을 많이 참고했다. https://angelplayer.tistory.com/222 [Github] Github 저장소(Repository) 생성 & 초기 설정 Repository(저장소) 생성하기 github에 접속하여, Repositories 탭으로 이동하면 [New] 버튼이 있 k-wien1589.tistory.com 그리고, 다음번에 포스팅 하기로 한 파일, 프로젝트 올리는 법을 오늘 정리해보려 한다. commit 삭제하는 법, 여러가지 에러 처리하는 법 등은, 아직까지 파일을..
[Pandas] idxmax(), idxmin() idxmax()와 idxmin()은 행 별/열 별로 최대값/최소값의 인덱스(행 인덱스, 열 인덱스)를 반환하는 메서드다. idxmax(), idxmin()은 다음 파라미터들을 갖는다. - axis : 0 / 'index' or 1 / 'columns' (기본값 : 0) 0(행 방향) : 열(column)별 최대(최소)값의 행 인덱스 값 반환 1(열 방향) : 행(row)별 최대(최소)값의 열 인덱스 값 반환 - skipna : True or False (기본값 : True) True : 결측치는 고려하지 않는다. False : 결측치가 있으면 해당 행/열의 인덱스 대신 NaN을 출력한다. - numeric_only :True or False (기본값 : False) => int, float형 데이터만 출..