본문 바로가기

분류 전체보기

(184)
[AI 엔지니어 기초 다지기] 9일차 [24.01.25] 2주차 11차시 - 앙상블 1. Ensemble : 특정한 알고리즘이 모든 문제에서 항상 제일 나은 성능을 보이지 않는다는 연구결과 => 더 나은 모델 성능을 위해 여러 개의 알고리즘을 조합해서 사용하는 것. 1.1 Ensemble Learning - 여러개의 Decision Tree를 결합하여 하나의 D.T보다 더 좋은 성능을 내는 ML 기법. - 앙상블 학습의 핵심은, 여러개의 약한 분류기Weak Classifier를 결합해서 하나의 강한 분류기Strong Classifier를 만드는 것이라 할 수 있다. 마치 집단지성. 1.2 Ensemble Learning 기법 1) Bagging(Boostrap Aggregation) - 장점 : Overfitting에 효과적이다. - 대표 ..
1193. Monthly Transactions I 간만에 풀어본 SQL문제.. 요새 이래저래 바빠서 문제를 좀 못 풀었는데, 머리를 좀 식히고 싶기도 하고 SQL 감도 잃지 않기 위해 풀었다. 세상에... 머리 식히려고 SQL 문제를 푸는 날이 오게 될 줄이야... Table: Transactions +---------------+---------+ | Column Name | Type | +---------------+---------+ | id | int | | country | varchar | | state | enum | | amount | int | | trans_date | date | +---------------+---------+ id is the primary key of this table. The table has informat..
[AI 엔지니어 기초 다지기] 8일차 [24.01.24] 2주차 10차시 - 하이퍼 파라미터 튜닝 1. 하이퍼 파라미터Hyper Parameter : 모델 학습 전, 사용자가 직접 설정해주어야 하는 모델의 파라미터. 하이퍼파라미터 튜닝은, 이들을 최적화 하는 작업이라 보면 된다. 1.1 하이퍼 파라미터 튜닝 방 1) Manual Search : 자동화 툴을 쓰지 않고, 직접 튜닝할 하이퍼 파라미터 셋을 정하고 하나씩 바꿔가며 튜닝하는 방식. 2) Grid Search : 사용 가능한 모든 하이퍼 파라미터 조합을 모두 하나하나 테스트하며, 어떤 조합이 가장 성능이 좋은지 기록하는 방식으로, 하이퍼파라미터의 수가 많다면 비효율적이다. 오래 걸리니까. 3) Random Search : 사용 가능한 모든 하이퍼파라미터의 조합 중에서 무작위로 값을 ..
[AI 엔지니어 기초 다지기] 7일차 [24.01.23] 2주차 9차시 - 피처 중요도 1. 피처 중요도Feature Importance란? - 타겟 변수를 예측하는데에 사용된 각각의 feature들이 예측에 얼마나 유용하게 사용되었는지를, 각 feature들에 점수로 할당해서 중요도를 측정하는 방법. 2가지 방법이 있다. 1.1 Model specific vs Model agnostic : ML모델 자체에서 중요도를 계산하는 방법을 Model specific, 모델 학습 후에 모델의 중요도 계산 기능이 아닌 다른 방법으로 중요도를 계산하는 방법을 Model agnistic이라 한다. 2. Boosting Tree Feature Importance( Model specific ) 2.1 LightGBM Feature Importance - ..
[데벨챌 2기 - 컨버티드] 2주차 데벨챌 2주차가 돌아왔다. 지난 주엔 Part1을 읽었었다. [STUDY/데이터리안 - SQL 데이터 분석 캠프] - [데벨챌 2기 - 컨버티드] 1주차 [데벨챌 2기 - 컨버티드] 1주차 SQL 강의를 수강했던 데이터리안에서 한달여간 진행되는 데벨챌 2기를 열었고, 참여했다. 컴퓨터 화면이 아닌 종이 위에 쓰인 글씨를 읽는 게 얼마만인지... 데벨챌이 뭔가요? 데이터 넥스트 레벨 k-wien1589.tistory.com 이번 주차에 읽을 부분은 Part2로, 고객과의 관계Relationships 를 이야기한다. 부제는... 어떻게 인간의 욕망을 움직일 것인가 욕망이라니, 참 탐스러운 단어다. 읽어보자. 해당 파트의 요지는, 결국 고객도 사람이므로 고객과의 관계를 중요시 해야 한다는 것이다. 개인적으로는..
[AI 엔지니어 기초 다지기] 6일차 [24.01.22] 2주차 8차시 - 피처 엔지니어링 1. 피처 엔지니어링 원본 데이터로부터 도메인 지식 등을 바탕으로 문제를 해결하는데 도움이 되는 Feature 를 생성 / 변환하고 이를 머신러닝 모델에 적합한 형식으로 변환하는 작업 딥러닝이 아닌 머신러닝에서 모델의 성능을 높이는 가장 핵심적인 단계 양질의 데이터라면 성능의 80 - 90% 는 피처 엔지니어링에 의해 결정됨 나머지는 하이퍼 파라미터 튜닝 등 딥러닝 : end-to-end learning, 딥러닝 모델의 구조를 통해 데이터의 feature 를 모델이 알아서 찾아냄 머신러닝 : 사람이 직접 데이터에 대해 이해해서 feature 를 만들어 줘야함 1) Pandas Group By Aggregation 을 이용한 Feature Enginee..
[visualization] 결측치 시각화 - missingno 보통 데이터 EDA를 할 때엔, 결측치가 있는지 없는지를 먼저 살펴보는것이 일반적이다. 이는 isna()나 isnull()을 통해 수치로 확인할 수 있지만 시각화도 해볼 수 있다. 어떻게 ? missingno라는 라이브러리의 matrix(), bar() 함를 이용한다. (포켓몬의 미싱노가 생각난다...) 간단하게 데이터를 만들고 직접 사용해보도록 하자. 1. 데이터 생성 2.1 matrix() 위의 df 출력결과와 비교해서 보면 알겠지만, 결측치는 흰색으로, 그 외는 검은색으로 표시되어 있다. 즉 컬럼별 결측치의 위치를 나타낸다. 2.2 bar() 각 결측치의 위치를 표시했던 matrix()와는 달리, 각 컬럼별로 결측치가 얼마나 있는지를 보여주고 있다. 데이터가 많다면, bar()의 파라미터에 log=..
[AI 엔지니어 기초 다지기] 5일차 [24.01.19] 1주차 5차시 - 트리 모델 1. What is Tree model? 1.1 의사결정나무 Decision Tree - Tree model 중 가장 기본적인 모델이다. - 컬럼(feature) 값들을 특정 기준으로 나누어, 목적에 맞는 의사결정을 만드는 방법. - 특정 기준에 yes or no 로 decision을 만듦. 스무고개라 생각하면 비슷하다. 1.2 Tree model의 발전형 : Random Forest, Ada Boost, GBM, XGBoost, LightGBM, CatBoost 등이 있다. 1.3 Bagging & Boosting 1) Bagging(Bootstrap + Aggregation) - 데이터셋을 샘플링(=Bootstrap)해서 모델을 만들어나가는 것. - 샘..