본문 바로가기

분류 전체보기

(184)
[AI 엔지니어 기초 다지기] 4일차 [24.01.18] 1주차 4차시 - 머신러닝 기본 개념 1. Underfitting / Overfitting fit 이란?? => 모델이 얼마나 데이터를 "잘" 설명할 수 있는가, 를 의미함. Well fitting : 모델이 데이터를 잘 설명할 수 있게 되었다! 1.1 Underfitting : 모델이 데이터를 잘 설명하지 못함. Why? 학습이 충분히 되지 않았거나, 데이터가 부족하거나 등등... 1.2 Overfitting : 모델이 데이터를 과하게 잘 설명함. Why? 학습 데이터에 대해서 너무 과하게 학습함. Overfitting이 문제가 되나? 학습을 많이 하면 할 수록 좋은 거 아니야?? 라는 생각은 => 경기도 오산임... 왜냐? 우리가 학습 데이터로 사용하는 데이터는 전체 데이터의 일부..
1174. Immediate Food Delivery II Table: Delivery +-----------------------------+---------+ | Column Name | Type | +-----------------------------+---------+ | delivery_id | int | | customer_id | int | | order_date | date | | customer_pref_delivery_date | date | +-----------------------------+---------+ delivery_id is the column of unique values of this table. The table holds information about food delivery to customers that make..
[AI 엔지니어 기초 다지기] 3일차 [24.01.17] 1주차 3차시 - 데이터 전처리 데이터 전처리Data Preprocessing 1. ML, DL 모델에 데이터를 입력하기 위해 데이터를 처리하는 과정. => EDA, 모델, 분석/모델링 목적, 에 따라 데이터 전처리는 달라진다. 2. EDA와는 마찬가지로 정답은 없으나... => 연속형/범주형 데이터 처리, 결측치 처리, 이상치 처리 등의 과정을 포함한다. 연속형 데이터 전처리 1. Scaling : 데이터 단위 혹은 데이터 분포를 변경하는 작업. 선형 모델(선형회귀, 딥러닝...)의 경우 변수 사이의 scale을 맞추는 것이 필수다. 아래 3개의 스케일링 기법이 주로 쓰인다. 2. Scaling + Distribution : 스케일링 + 데이터의 분포를 바꾸는 작업. 이렇듯 분포까지..
[Pandas] concat()과 merge()의 차이 두 함수 모두, 여러개의 DataFrame(이하 df)을 하나로 합칠 때 사용하는, pandas에서 제공하는 함수다. 두 함수의 목적은 비슷해보일지 모르나, 중요한 차이점이 있다. 꼭 알고 사용하도록 하자. 1. concat([df1, df2, ...] axis) concat()은, 데이터프레임을 "합친다" 보다는 "이어 붙인다"에 좀 더 가깝다. 백문이 불여일견, 직접 보도록 하자. 아래와 같이, df1과 df2라는 2개의 데이터프레임이 있다. concat()을 사용해서 가로 방향으로 합쳐보자. ** axis 파라미터에는 1과 0이 들어갈 수 있다. 0은 행을 의미한다. 좀 더 자세히는, 행이 전개되는 방향, 즉 위/아래 방향(세로)을 의미한다. 1은 열을 의미한다. 좀 더 자세히는, 열이 전개되는 방..
[Pandas] describe() 특정 데이터(DataFrame)를 EDA 할 때에, 거의 반드시라고 해도 좋을 정도로 꼭 해주어야 하는 것 중 하나가 feature들의 기술통계량을 확인하는 것이다. 이 때, describe()을 사용한다. 바로 예시를 한번 보자. 아래와 같은 데이터가 있다. 9개의 컬럼을 가지며, 각 컬럼의 데이터 타입은 object, datetime, float, int형 등등이다. 그리고, 수치형 feature들의 데이터에 대해 평균값이 얼마일지, 최소값이나 최대값은 얼마일지 등등의 정보를 보고 싶다고 하자. 1. describe() 이럴 때 쓸 수 있는 것이 describe()다. 사용법은 간단하다. 이렇게 코드 한 줄로 간단하게 확인할 수 있다. 그러나 위에서도 확인할 수 있듯 기술통계량이기 때문에 기본적으로 ..
[AI 엔지니어 기초 다지기] 2일차 [24.01.16] 1주차 - 2차시 [EDA] EDA란? EDA(탐색적 데이터 분석Exploratory Data Analysis) : 데이터를 탐색하고 가설을 세워 증명하는 과정. => 다양한 시각을 통해 데이터를 이해하고, 특징을 찾아내는 과정 => 이런 특징들을 시각화 하거나 통계량으로 표현함 => ...으로써 데이터의 문제들을 직관적으로 이해할 수 있음. 1) 데이터에 대한 가설 / 의문을 가짐 2) 시각화, 통계량 출력, 모델링 등을 통해 가설을 검정함 3) 위의 결론을 통해 새로운 가설을 세우거나, 문제를 해결함. 도메인 별로 데이터의 형태나 종류 등이 다르기 때문에 일반화가 어려우며, 정답은 없다. 그러나, 아무리 정답이 없다 한들 권장되는(추천되는) 시작은 있다. 바로, 개별 변수들(범주형..
1158. Market Analysis I Table: Users +----------------+---------+ | Column Name | Type | +----------------+---------+ | user_id | int | | join_date | date | | favorite_brand | varchar | +----------------+---------+ user_id is the primary key (column with unique values) of this table. This table has the info of the users of an online shopping website where users can sell and buy items. Table: Orders +---------------+---..
[AI 엔지니어 기초 다지기] 1일차 [24.01.15] 1주차 - (1) 정형 데이터란? 정형 데이터 : 엑셀 파일 형식이나 RDBMS의 테이블에 담을 수 있는 데이터로, 행Row과 열Columns으로 표현 가능한 데이터. 하나의 행은 하나의 데이터 속성을 나타내고, 각 열은 데이터의 feature를 나타낸다. 비정형 데이터 : 이미지, 영상, 음성, 자연어 등, 정제되지 않은 데이터를 의미한다. 정형 데이터의 중요성 : 비정형 데이터가 떠오르고는 있으나, 아직까지 많은 사람, 기업, 현상, 사회의 많은 부분들이 정형데이터로 기록되기 때문. 즉 정형 데이터는 가장 기본적인 데이터이며, 분야 막론 굉장히 많은 정형 데이터가 존재한다. 정형 데이터의 분석 능력은 데이터에 대한 상상력, 통찰력, 다양한 경험을 통해 데이터의 종류에 국한되지 않고..