일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 키워드 기반 뉴스 조회
- plot_model
- CRISP-DM
- CIFAR-10
- pandas
- MaxPooling2D
- 머신러닝
- NewsWhale
- 데이터분석
- bias
- 인공지능
- Neural Network
- explained AI
- 데이터
- kt에이블스쿨
- 뉴스웨일
- 데이터처리
- AWS 입문자를 위한 강의
- CNN 실습
- learning_rate
- OneHotEncoding
- fashion mnist
- AI
- Convolution Neural Network
- Pooling Layer
- 크롤링
- 데이터크롤링
- 모델평가
- CNN
- 딥러닝
- Today
- Total
목록kt에이블스쿨 (22)
jjinyeok 성장일지

1. 선형 모델 : 변수 선택법 Linear Regression, Logistic Regression과 같은 선형 모델은 어떤 feature를 선택했느냐에 따라 성능에 차이가 발생한다. Data Understanding 과정에서 EDA & CDA 과정을 통해 target과 관련이 높은 feature를 알 수 있었다. 선형 모델의 성능을 튜닝할 때 이러한상관도가 높은 feature들만을 사용하며 성능을 높일 수 있다. 이때 단순히 관련도가 아닌 AIC(Akaike Information Criterion)라는 지표를사용해 feature를 선택하는 방법이 존재한다. 2. AIC(Akaike Information Criterion) 모델은 Train Set을 잘 설명하면서도 Overfitting이 되지 않도록 ..

1. Decision Tree Decision Tree (의사 결정 나무) 알고리즘은 특정 feature에 대한 의사 결정의 규칙(decision rule)을 통해 나무의 가지가 뻗는 형태로 분류해 나가는 분석 기법이다. 특히나 분석 과정이 직관적이고 이해하기 쉽고 계산 비용이 낮아 빠르게 데이터 연산이 가능하는 장점이 있으며 분석 과정을 실제 눈으로 관측할 수 있는 대표적인 화이트 박스 모델이다. 2. 분할 과정 target y를 기준으로 전체 데이터를 유사한 값을 가진 segment로 분할한다. 어떤 feature X가 target y에 중요한 정보를 담고 있는지를 찾아 그 feature X를 기준으로 segment로 분할하는 과정을 반복하며 트리를 만들어 나간다. 이때 feature X를 선택하는 ..

1. K-Nearest Neighbors KNN (K-Nearest Neighbors) 알고리즘은 regression 문제와 classification 문제 모두 사용 가능하다. 오늘의 강의에서는 KNN 알고리즘을 사용하여 regression 문제를 해결하는 방법을 중심으로 KNN을 설명해주셨다. KNN 알고리즘은 거리를 계산하여 y를 추정하는 기본 알고리즘이다. KNN 알고리즘은 Nonparametric Method로 데이터를 학습한다는 컨셉의 모델이 아닌 데이터 자체를 그대로 사용하는 모델로 모든 데이터를 저장한다는 특징을 가지고 있다. KNN 알고리즘은 Instance-Based Learnig (사례 기반 학습)이라고 할 수도 있는데 새로운 데이터를 지난 데이터를 통해 예측하는 알고리즘이기 때문이다..

지난 1주일동안 미니 프로젝트 2개를 진행하고 머신러닝을 배우게 되었다. 나는 학교에서 배운 머신러닝 이론을 실무에서 어떻게 적용하는지 에이블스쿨을 수강하기 이전부터 궁금했다. 드디어 실무의 머신러닝을 배우게 된다고 생각하니 너무 기대가 되었다. 역시나 강의는 훌륭했으며 잊어버리기 전에 정리를 통해 배운 지식을 내 것으로 만들고자 한다. 1. 모델링 모델이란 데이터로부터 패턴을 찾아 정리한 수학식이다. 모델링은 오차를 줄이는 방향으로 모델을 만드는 과정을 의미한다. 여기서 패턴이란 feature X와 target y의 관계를 의미한다. 따라서 패턴을 찾아 정리한 수학식인 모델은 y = a * X + b와 같은 수식이 될 수 있다. (이것은 간단한 예시이고 실제로는 모델을 이렇게 간단한 수학식으로 적어내기..

1. 개별 변수 분석하기 (단변량 분석) EDA & CDA를 통해 데이터를 분석하는 과정에서 개별 변수를 분석하는 과정을 정리한다. 개별적인 모든 변수들은 (feature와 target 모두) 숫자형 데이터와 범주형 데이터로 나눌 수 있다. 또한 데이터를 분석하는 방법으로 기초 통계량을 사용하는 방법과 그래프를 사용하는 방법이 있다. 따라서 방법은 다음과 같이 나눌 수 있다. 기초통계량 그래프 시각화 숫자형 데이터 mean median mode 4분위 수 ... 히스토그램 밀도함수 그래프 박스플롯 ... 범주형 데이터 범주형 빈도수 범주형 비율 ... barchart ... 2. 숫자형 데이터 단변량 기초통계량으로 분석하기 기초통계량이라는 것은 자료를 대표하는 값이다. 숫자형 데이터에서 기초통계량을 통해..

수 많은 데이터를 한 눈에 파악하는 방법은 그래프와 통계량이다. 그래프와 통계량을 통해 데이터를 분석하고 의미를 찾는 과정을 배웠고 이제 정리하고자 한다. 먼저 우리가 다루는 데이터는 비즈니스를 담고 있다. 따라서 그래프와 통계량을 통한 데이터 시각화 목적은 아름다운 그래프를 만드는 것이 아니라 비즈니스 인사이트를 한눈에 파악할 수 있도록 하는 것이다. 시각화는 데이터를 요약하기 때문에 데이터를 한 눈에 파악하기 쉽다는 장점이 있다. 그러나 요약은 관점에 따라 결과가 달라지고 정보의 손실이 발생한다는 것을 유의해두자. 1. matplotlib matplotlib의 pyplot은 파이썬에서 그래프를 그릴 때 기본이 되는 라이브러리이다. 강의에서는 matplotlib에 대해 오래 다루었고 실습 또한 많이 진..