썸네일 머신러닝 | 군집화 알고리즘 | K-평균 군집화 알고리즘 (K-Means Clustering) 이론 | 군집 평가 지표 (실루엣 계수) | 비지도 학습 1. 비지도 학습 ▶ 지도학습 vs. 비지도학습 회귀와 분류는 대표적인 지도학습 지도학습은 문제(X)와 정답(y)이 주어진 상태에서 모델이 학습하고, 이후 문제(X)가 주어였을 때 정답(y)을 맞추는 학습 비지도 학습이란, 답(y)를 알려주지 않고 데이터 간 유사성을 이용해서 답(y)을 찾는 방법 데이터를 기반으로 레이블링 하는 작업 정답이 없는 문제라 지도학습보다 어렵고, 주관적인 판단이 개입하게 됨 비지도 학습 예시 고객 특성에 따른 그룹화 ex. 헤비유저, 일반유저 구매 내역 별로 데이터 그룹화 ex. 생필품 구매 2. K-평균 군집화 알고리즘 (K-Means Clusturing) ▶ K-Means Clustering : 분석가가 선정한 K개의 군집 수를 기준으로 데이터들을 군집화함 ▶ K-Mean..
썸네일 머신러닝 | 부스팅 (Boosting) 알고리즘 | 지도학습 | 회귀, 분류 분석 1. 부스팅(Boosting) 알고리즘 ▶ 부스팅 알고리즘 : 여러 개의 약한 학습기(weak learner)를 순차적으로 학습하면서 잘못 예측한 데이터에 가중치를 부여하여 오류를 개선해나가는 학습 방식 빨간 점과 초록 점을 분류하는 문제 여러 개의 선(learner)를 그려봐서 빨간 점과 초록 점을 가장 잘 구분하는 선을 그리기 여러 개의 learner를 합친 ensemble을 통해 성능을 올리는 것 ▶ 부스팅 알고리즘의 종류 ■ Gradient Boosting Model 특징 가중치 업데이트를 경사하강법을 통해 진행 Python 라이브러리 sklearn.ensemble.GradientBoostingClassifier sklearn.ensemble.GradientBoostingRegressor ■ XG..
썸네일 머신러닝 | 최근접 이웃(KNN, K-Nearest Neighbor) 알고리즘 | 지도학습 | 회귀, 분류 분석 1. KNN (K-Nearest Neighbor) 알고리즘 ▶ 최근접 이웃 알고리즘 : 거리를 기준으로 근접해 있는 데이터들의 양상을 보고 내가 알고싶은 데이터의 종류를 예측하는 방식 : 주변 데이터 K개를 선정한 후에 그 K개의 데이터 내에 가장 많은 부분을 차지하는 데이터로 예측함 K=3일 때, 주변에 별은 1개, 세모는 2개이므로 세모로 예측될 것 K=7일 때, 주변에 별은 4개, 세모는 3개이므로 별로 예측될 것 ▶ K는 하이퍼 파라미터 * 파라미터와 하이퍼파라미터 파라미터(Parameter) 모델 내부에서 결정되는 값 머신러닝 모델 학습 과정에서 추정하는 내부 변수이며 자동으로 결정되는 값 ex. 선형회귀에서의 가중치와 편향 cf. 파이썬 함수 정의에서는 함수가 받는 인자(입력 값)를 말함 하이..
썸네일 머신러닝 | 의사결정나무와 랜덤 포레스트 | Decision Tree, DT | Random Forest, RF | Ensemble (앙상블) | Bagging(배깅) = Bootstrapping + Aggregating | 타이타닉 데이터 실습 예시 | 지도학습 | 회귀, 분류 분석 1. 의사결정나무 (Decision Tree, DT) ▶ 의사결정나무 : 의사결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법 : 의사결정 '분류' 나무가 있고, 의사결정 '회귀' 나무가 있음 : 의사결정나무의 가지가 끝까지 자라게 되면 해당 데이터에 대한 과적합으로 이어질 수 있음 ▶ 의사결정나무 실습 * 타이타닉 데이터셋 : 성별 기준으로 생존 여부 구분하기 [타이타닉 데이터셋 다운로드] https://www.kaggle.com/c/titanic/data Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com # 라이브러리 가져오기 import pandas as pd # 타이타닉 데이터 ..
썸네일 머신러닝 | 로지스틱 회귀 (Logistic Regression) 실습 | titanic 데이터 | Kaggle(캐글) 타이타닉 데이터로 생존율 예측하기 | 캐글 제출 타이타닉 생존 분류 문제 1. 타이타닉 데이터 다운받기 ▶ Kaggle 타이타닉 예측 대회 데이터 주제 : 탑승한 승객 정보를 바탕으로 탑승객의 생존 유무 분류하기 X(독립변수) : 티켓 등급, 성별, 요금 등 Y(종속변수) : 사망(0), 생존(1) https://www.kaggle.com/c/titanic/data Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 2. 라이브러리 가져오기 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns 3. titanic 데이터셋 구경하기 ▶ titanic 데이터셋 안의 데이터들은 어떻..
썸네일 머신러닝 | 로지스틱 회귀(Logistic Regression) 모델 | 모델 평가지표 (Accuracy, F1-score) | 지도학습 | 분류분석(Y변수가 범주형 데이터일 때 사용 1. 선형회귀와 로지스틱 회귀 비교 ▶ 선형회귀와 로지스틱 회귀의 공통점 모델 생성이 쉬움 가중치(혹은 회귀계수)를 통한 해석이 쉬운 장점이 있음 X변수에 범주형, 수치형 변수 둘 다 사용 가능 ▶ 선형회귀와 로지스틱 회귀의 차이점 선형회귀(회귀) 로지스틱 회귀(분류) Y(종속변수) 수치형 범주형 평가척도 Mean Squared Error R square(선형회귀의 경우만) Accuracy F1-score sklearn 모델 클래스 sklearn.linear_model.linearRegression sklearn.linear_model.LogistricRegression sklearn 평가 클래스 sklearn.metrics.mean_squared_error skelarn.metrics.r2_score ..
썸네일 머신러닝 | 선형회귀 (Linear Regression) 실습 | tips 데이터 | 범주형 데이터 인코딩 (Encoding) 하는 방법 1. 라이브러리 가져오기 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns 2. tips 데이터셋 구경하기 ▶ tips 데이터셋 안의 데이터들은 어떻게 생겼는지 살펴보기 tips_df = sns.load_dataset('tips') tips_df.head() total_bill : 전체 결제 가격 tip : 팁 sex : 성별 smoker : 흡연 여부 day : 요일 time : 식사 시간대 size : 동반자 수 ▶ tips 데이터의 간략한 정보 살펴보기 tips_df.info() 결측치(null값)가 없는 각 244개의 데이터 수치형 데이터 : total_bill, tip, size 범주형 데이터 : sex, smok..
썸네일 머신러닝 | 다중선형회귀 | 범주형 데이터 인코딩(Encoding) 방법 [참고 게시글] [데이터분석 과정/머신러닝] - 머신러닝 | 선형회귀 (Linear Regression) 직선 구하는 방법 | 회귀분석 평가지표 (MSE, R Square) | 회귀분석 | 지도학습 머신러닝 | 선형회귀 (Linear Regression) 직선 구하는 방법 | 회귀분석 평가지표 (MSE, R Square) | 회귀분 1. 선형회귀 이론 ▶ 선형회귀 용어 정리 X는 독립변수, 원인변수, 설명변수 Y는 종속변수, 결과변수 ▶ 통계학에서 사용하는 선형회귀 식 β0 : 편향(Bias) β1 : 회귀 계수 ε : 오차(에러), 모델이 설 nasena.tistory.com 1. 다중선형회귀 ▶ 다중선형회귀 이전 게시글에서는 X와 Y간의 데이터를 단순 선형회귀 분석 했음 하지만 실제의 데이터들은 비선..
썸네일 머신러닝 | 선형회귀 (Linear Regression) | 모델 평가지표 (MSE, R Square) | 지도학습 | 회귀분석(Y변수가 수치형 데이터일 때 사용) 1. 선형회귀 이론 ▶ 선형회귀 용어 정리 X는 독립변수, 원인변수, 설명변수 Y는 종속변수, 결과변수 ▶ 통계학에서 사용하는 선형회귀 식 β0 : 편향(Bias) β1 : 회귀 계수 ε : 오차(에러), 모델이 설명하지 못하는 Y의 변동성 >> 수식 계산 방법 : 각 변수는 사실 행렬로 이루어진 값이라서 행렬 계산함 ▶ 머신러닝 / 딥러닝에서 사용하는 선형회귀 식 ω : 가중치 b : 편향(Bias) ▶ 두 수식의 의미 일차방정식 Y = aX+b 산재되어 있는 데이터 값들을 가장 잘 나타내주는 하나의 '직선'을 그리는 것 회귀 계수(혹은 가중치)의 값을 알면 X가 주어졌을 때 Y를 알 수 있음 2. 최적의 직선을 그리는 법 2-1) X와 Y 간의 상관관계 찾아내기 조사하고 싶은 X와 Y 결정하기 키(X..