본문 바로가기

STUDY/부스트코스 - AI 엔지니어 기초 다지기

(20)
[AI 엔지니어 기초 다지기] 3일차 [24.01.17] 1주차 3차시 - 데이터 전처리 데이터 전처리Data Preprocessing 1. ML, DL 모델에 데이터를 입력하기 위해 데이터를 처리하는 과정. => EDA, 모델, 분석/모델링 목적, 에 따라 데이터 전처리는 달라진다. 2. EDA와는 마찬가지로 정답은 없으나... => 연속형/범주형 데이터 처리, 결측치 처리, 이상치 처리 등의 과정을 포함한다. 연속형 데이터 전처리 1. Scaling : 데이터 단위 혹은 데이터 분포를 변경하는 작업. 선형 모델(선형회귀, 딥러닝...)의 경우 변수 사이의 scale을 맞추는 것이 필수다. 아래 3개의 스케일링 기법이 주로 쓰인다. 2. Scaling + Distribution : 스케일링 + 데이터의 분포를 바꾸는 작업. 이렇듯 분포까지..
[AI 엔지니어 기초 다지기] 2일차 [24.01.16] 1주차 - 2차시 [EDA] EDA란? EDA(탐색적 데이터 분석Exploratory Data Analysis) : 데이터를 탐색하고 가설을 세워 증명하는 과정. => 다양한 시각을 통해 데이터를 이해하고, 특징을 찾아내는 과정 => 이런 특징들을 시각화 하거나 통계량으로 표현함 => ...으로써 데이터의 문제들을 직관적으로 이해할 수 있음. 1) 데이터에 대한 가설 / 의문을 가짐 2) 시각화, 통계량 출력, 모델링 등을 통해 가설을 검정함 3) 위의 결론을 통해 새로운 가설을 세우거나, 문제를 해결함. 도메인 별로 데이터의 형태나 종류 등이 다르기 때문에 일반화가 어려우며, 정답은 없다. 그러나, 아무리 정답이 없다 한들 권장되는(추천되는) 시작은 있다. 바로, 개별 변수들(범주형..
[AI 엔지니어 기초 다지기] 1일차 [24.01.15] 1주차 - (1) 정형 데이터란? 정형 데이터 : 엑셀 파일 형식이나 RDBMS의 테이블에 담을 수 있는 데이터로, 행Row과 열Columns으로 표현 가능한 데이터. 하나의 행은 하나의 데이터 속성을 나타내고, 각 열은 데이터의 feature를 나타낸다. 비정형 데이터 : 이미지, 영상, 음성, 자연어 등, 정제되지 않은 데이터를 의미한다. 정형 데이터의 중요성 : 비정형 데이터가 떠오르고는 있으나, 아직까지 많은 사람, 기업, 현상, 사회의 많은 부분들이 정형데이터로 기록되기 때문. 즉 정형 데이터는 가장 기본적인 데이터이며, 분야 막론 굉장히 많은 정형 데이터가 존재한다. 정형 데이터의 분석 능력은 데이터에 대한 상상력, 통찰력, 다양한 경험을 통해 데이터의 종류에 국한되지 않고..
[AI 엔지니어 기초 다지기] - 오늘부터 시작! 오늘부터, 네이버 부스트코스에서 제공하는 부스트클래스 을 수강하게 됐다. 평소에도 부스트코스에서 굉장히 많은 도움을 받고 있는데 이런 좋은 기회를 우연히 알게 되어, 콱 잡았다 ! 양질의 무료강의가 넘쳐나는 부스트코스...! 사랑해여 수강 기간은 1/15(월) ~ 2/27(화) 까지로, 대략 한달이 조금 넘는다. 1. 해당 과정의 학습 목표 정형데이터의 특성을 이해하고, 머신러닝 모델을 만들기 위한 데이터 전처리를 할 수 있습니다. 머신러닝 모델의 기본적인 활용에서 더 나아가 모델을 개선하고 발전시킬 수 있습니다. 딥러닝 모델을 구성하는 기초 수학과 통계 이론을 습득하고, 코드를 작성할 수 있습니다. 인공지능 모델 개발의 설계 및 학습, 평가까지 인공지능 실무 프로젝트의 전체적인 흐름을 경험할 수 있습니..