키자드에 등록된 winddori2002의 네이버 블로그 포스트 목록

winddori2002의 등록된 링크

winddori2002로 등록된 네이버 블로그 포스트 수는 56건입니다.

[바람돌이/딥러닝] Speech - 음성 데이터 이론 및 이해 [내부링크]

안녕하세요. 오늘은 음성 데이터를 공부하면서 정리하고 세미나에 공유한 내용을 공유하고자 합니다. 기존에 다른 블로그에서 정리했던 내용들과 논문을 참고하여 정리하였습니다. Introduction to Sound data.pdf 파일로 정리 내용 공유합니다. 수정이 필요하거나 질문 있으시면 댓글 부탁드립니다. 첨부파일 Introduction to Sound data.pdf 파일 다운로드 PDF Contents References [1] https://pyy0715.github.io/Audio/ [2] https://ratsgo.github.io/speechbook/docs/phonetics/acoustic [3] https://www.scienceall.com/%EC%86%8C%EB%A6%AC%EC%9D%98-3%EC%9A%94%EC%86%8Cthree-elements-of-sound/ [4] https://tech.kakaoenterprise.com/66 [5] https://dark

[바람돌이/딥러닝] GAN(4) - Improved Techniques for Training GANs 논문 이론 및 리뷰 [내부링크]

안녕하세요. 오늘은 GAN 논문 정리의 네 번째로 Improved Techniques for Training GANs 논문 내용 정리 및 리뷰를 하려고 합니다. 해당 논문은 2016년도에 나온 논문이며 GAN을 학습하는 데 있어서 다양한 기술과 insight를 포함하고 있습니다. 1. Introduction GAN은 게임 이론을 기반으로 한 생성 모델 중 하나입니다. GAN의 목적은 생성자가 랜덤 노이즈 Z로부터 실제 데이터 분포, pdata(x)에서 샘플을 생성할 수 있도록 하는 것입니다. 생성자의 학습은 실제 데이터와 pmodel(x)를 구별할 수 있는 판별자에 의해 이루어집니다. 내시 균형은 게임 이론에서 경쟁자 대응에 따라 최선의 선택을 하면 서로가 자신의 선택을 바꾸지 않는 균형상태를 의미합니다. GAN은 생성자와 판별자의 적대적인 학습을 통해 이러한 내시 균형을 이루는 것이 목표입니다. 하지만 GAN은 내시 균형을 이루고자 할 때 수렴에 실패하곤 했습니다. 본 논문에서는

[바람돌이/딥러닝] GAN(3) - DCGAN(Deep Convolutional Generative Adversarial Networks) 논문 이론 및 리뷰 [내부링크]

안녕하세요. 오늘은 GAN 포스팅 3번째로 DCGAN에 대해 정리하려고 합니다. DCGAN은 기존에 나...

[바람돌이/딥러닝] GAN(2) - CGAN(Conditional Generative Adversarial Nets 논문 이론 및 리뷰 [내부링크]

안녕하세요. 오늘은 이전 포스팅에서 다뤘던 GAN에 conditional 정보를 추가하여 개선한 CGAN에 대...

[바람돌이/딥러닝] GAN(1) - Generative Adversarial Nets 논문 이론 및 리뷰 [내부링크]

안녕하세요. 오늘은 생성 모델 중 많이 쓰이는 모델 중 하나인 Generative Adversarial Network에 대해 ...

[바람돌이/딥러닝] GCN 논문 및 코드 리뷰 (Semi-Supervised Classification with Graph Convolutional Networks) [내부링크]

안녕하세요. 오늘은 graph-structured data를 활용하여 semi-supervised learning을 적용한 GCN 논문 내...

[바람돌이/딥러닝] Temporal Ensemble for Semi-Supervised Learning 논문 및 코드 리뷰 [내부링크]

안녕하세요. 오늘은 Temporal Ensemble for Semi-Supervised Learning 논문의 이론 정리와 코드 리뷰...

[바람돌이/딥러닝] Deep SVDD 논문 및 코드 리뷰 [내부링크]

안녕하세요 오늘은 anomaly detection 논문 중 하나인 Deep One-Class Classification에 대해 정리하고...

[바람돌이/딥러닝] UNet 이론 및 코드 리뷰 [내부링크]

안녕하세요. 오늘은 Image Segmentation에 강점을 가지고 있는 U-Net에 대한 이론과 pytorch로 구현한 ...

[바람돌이/딥러닝] CNN-SVM 논문 및 코드 리뷰 [내부링크]

안녕하세요. 오늘은 An Architecture Combining Convolutional Neural Network (CNN) and Suppor...

[바람돌이/딥러닝] CNN(2) - GoogLeNet, VGGNet 이론 및 정리 [내부링크]

안녕하세요. 저번 포스팅에 이어 오늘은 GoogLeNet, VGGNet에 대해 간단하게 정리하려고 합니다.Go...

[바람돌이/딥러닝] U-Net 이론 및 정리 [내부링크]

안녕하세요. 오늘은 Image Segmentation에 강점을 가지고 있는 U-Net에 대해 간단하게 정리하려고 합니...

[바람돌이/딥러닝] CNN(6) - BAM / CBAM 이론 및 정리 [내부링크]

안녕하세요. 오늘은 CNN에 attention을 적용한 모듈 중 BAM, CBAM에 대해 간단하게 정리하려고 ...

[바람돌이/딥러닝] CNN(5) - Residual Attention이론 및 정리 [내부링크]

안녕하세요. 오늘은 CNN에 attention을 적용한 Residual Attention에 대해 간단히 정리하겠습니다....

[바람돌이/딥러닝] CNN(4) - DenseNet 이론 및 정리 [내부링크]

안녕하세요. 저번 포스팅에선 ResNet과 관련 모델들에 대해서 정리했습니다. 오늘 포스팅에선 DenseNet...

[바람돌이/딥러닝] CNN(3) - ResNet, ResNext, WideRestNet 이론 및 정리 [내부링크]

안녕하세요. 오늘은 ResNet, ResNext, WideResNet에 대해서 간단하게 정리하려고 합니다. 각 논문의...

[바람돌이/딥러닝] CNN(1) - LeNet, AlexNet 이론 및 정리 [내부링크]

안녕하세요. 오늘부터 다양한 CNN Architecture에 대해 정리할 예정입니다. 기본이 되는 CNN의 이론...

[바람돌이/딥러닝] CNN(Convolutional Neural Network) 합성곱 신경망 이론 및 개념 [내부링크]

안녕하세요. 오늘은 이미지 분야에서 가장 많이 사용되는 CNN(Convolutional Neural Network), 합성...

[바람돌이/딥러닝] BERT 논문 리뷰(Pre-training of Deep Bidirectional Transformers for Language Understanding) [내부링크]

안녕하세요. 오늘은 저번 Transformer, Attention is all you need 논문 리뷰 이후 나온 BERT 논문 ...

[바람돌이/딥러닝] LSTM, GRU 이론 및 개념(Long Short Term Memory, Gated Recurrent Unit) [내부링크]

안녕하세요. 저번 포스팅에선 RNN(Recurrent Neural Network)의 이론을 정리했습니다. 이번 포스팅에...

[바람돌이/딥러닝] seq2seq 이론 및 개념 (sequence to sequence) [내부링크]

안녕하세요. 오늘은 RNN을 응용한 seq2seq에 대해 정리하려고 합니다. seq2seq은 NLP 분야에서 기계...

[바람돌이/딥러닝] Attention Mechanism 이론 및 개념(RNN, LSTM, GRU, seq2seq) [내부링크]

안녕하세요. 저번 포스팅에선 기계번역에서 유용하게 사용되는 seq2seq 모델에 대해 정리했습니다. 오늘 포...

[바람돌이/딥러닝] RNN(Reccurent Neural Network) - 순환 신경망 이론 및 개념 [내부링크]

안녕하세요. 오늘은 sequence 데이터 처리에 강점을 가진 RNN(Reccurent Neural Network)에 대해 정...

[바람돌이/딥러닝] 딥러닝(Deep Learning)(1) - 개념, 용어, 정의 [내부링크]

안녕하세요. 이전 포스팅까지 머신러닝에 대해서 정리했었습니다. 오늘은 딥러닝에 대한 간단한 개념과 용...

[바람돌이/딥러닝] 딥러닝(Deep Learning)(2) - 딥러닝(인공신경망) 이론 및 편향/활성화함수 종류와 필요성 [내부링크]

안녕하세요. 저번 포스팅에서 딥러닝의 간단한 정의와 용어들에 대해서 정리했습니다. 오늘은 저번 포스팅...

[바람돌이/딥러닝] 딥러닝(Deep Learning) 학습기술(2) - 가중치 초기화, 배치 정규화, 과적합 방지, 하이퍼파라미터 종류 및 튜닝 [내부링크]

안녕하세요 오늘은 저번 포스팅에 이어 딥러닝 학습기술들 중 가중치 초기화, 배치 정규화, 과정합 방지 기...

[바람돌이/딥러닝] 딥러닝(Deep Learning) 학습기술(1) - 최적화(Optimizer), 손실함수(loss function) 종류 및 이론 [내부링크]

안녕하세요. 오늘은 신경망 학습에서 사용되는 다양한 기법들에 대해서 정리하려고 합니다. 총 두개의 파트...

[바람돌이/딥러닝] 딥러닝(Deep Learning)(3) - 오차역전파(Backpropagation) 이론 및 개념 [내부링크]

안녕하세요. 오늘은 딥러닝의 핵심 개념 중 오차역전파에 대해 정리하려고 합니다. 오차역전파는 신경망 학...

[파이썬/머신러닝] 회귀분석(Regression)(4) - 다항회귀분석(Polynomial Regression) 이론 [내부링크]

안녕하세요. 오늘은 저번 다중회귀분석 포스팅에 이어서 다항회귀에 대해서 다룰 예정입니다. 기본적인 회...

[파이썬/머신러닝] 회귀분석(Regression)(3) - 다중 선형 회귀분석 이론 [내부링크]

안녕하세요. 오늘은 단순 선형 회귀분석에 이어서 다중 선형 회귀분석에 대해서 다루도록 하겠습니다. 저번...

[파이썬/머신러닝] 회귀분석(Regression)(2) - 단순선형 회귀분석 이론 [내부링크]

안녕하세요. 저번 포스팅에서는 회귀분석의 개념과 종류를 중점적으로 살펴 보았습니다. 오늘 포스팅에서는...

[바람돌이/머신러닝] 군집분석(Clustering)(2) - Hierarchical clustering(계층적 군집분석) 이론 [내부링크]

안녕하세요. 오늘은 군집분석 기법 중 하나인 계층적 군집분석에 대해서 정리하려고 합니다.계층적 군집분석 계층적 군집분석은 계층적으로 각 데이터를 유사한 군집으로 묶어가며 군집분석을 진행하는 알고리즘입니다. 아래의 그림과 같이 각 데이터 군집의 계층을 Dendrogram으로 표현할 수 있습니다. 계층적 군집분석의 장점은 이처럼 각 군집의 계층을 확인할 수 있다는 점입니다. 그렇기 때문에 다른 군집분석과 다르게 초기에 군집의 개수를 설정하지 않아도 진행할 수 있으며 사용자가 Dendrogram을 보면서 군집의 개수를 설정할 수 있습니다. 하지만 모든 데이터를 하나의 군집으로 보기 때문에 자료의 크기가 너무 크면 분석하기 어.......

[바람돌이/머신러닝] 군집분석(Clustering)(3) - K-Means Clustering(Prototype-Based Clustering) 이론 [내부링크]

안녕하세요. 저번 포스팅에서는 계층적 군집분석에 대해서 정리했습니다. 오늘은 비계층적 군집분석 중 Prototype-based의 대표적인 K-means clusetring과 K-Medoids clustering에 대해 정리하려고 합니다.Protoype-based Clustering Prototype-based Clustering은 Centroid-based Clustering이라고도 불리우며 각 군집 별로 해당 군집을 대표하는 데이터가 존재한다는 가정을 기반으로 분석하는 기법입니다. 다시 말해, 어떤 군집을 대표하는 한 데이터를 기준으로 유사한 데이터를 묶어서 군집을 형성하는 것이죠. 이처럼 한 군집의 대표, Prototpye이 mean, medoids 등으로 활용될 수 있으며 어떤 중심값이 활용되냐에 따라 알고리즘이.......

[바롬돌이/머신러닝] 회귀분석(Regression)(7) - Spline Regression 이론 [내부링크]

안녕하세요. 오늘은 이전 포스팅에서 다루지 못했던 spline regression에 대해서 정리하려고 합니다. 사실 회귀 말고도 다양하게 사용되는 것으로 알고 있지만 regression에 대해 중점적으로 보고 보간법에 대해 간단하게 정리하겠습니다.Spline이란 Spline 곡선은 복수의 제어점을 통과하는 곡선으로, 인접한 두 점 사이의 구간마다 별도의 다항식을 이용해 정의한 곡선입니다.(위키백과) 간단하게 말하자면 전체 데이터를 하나의 다항식이 아닌 구간별 다항식으로 표현한 것이죠. n차 스플라인은 n차 다항식으로 표현한 것입니다. 대표적으로 보간법에 많이 사용되는데 간단하게 정리하고 넘어가겠습니다.Spline Interpolation(보간법).......

[바람돌이/머신러닝] 앙상블(Ensemble Learning)(4) - 부스팅(Boosting), XGBoost, CatBoost, LightGBM 이론 [내부링크]

안녕하세요. 오늘은 저번 앙상블 포스팅에서 다루지 못했던 XGBOOST, CATBOOST, LIGHTGBM에 대해 정리하려고 합니다. 위 3개의 부스팅 모델은 굉장히 많이 사용되는 모델들입니다. 각 논문마다 굉장히 많은 내용을 담고 있어서 간단하게 흐름을 정리하려고 합니다. 수학적인 원리보다는 알고리즘 접근 방향성에 대해서 보겠습니다. 각 논문의 abstract를 정리한 거라고 생각하면 될 것 같습니다.GMB(Gradient Boosting Machine) 기존 앙상블 포스팅에서 gbm에 대해 정리했었습니다. 간단하게 정리하면 초기 예측을 하고 예측에 대한 loss function에 미분으로 gradient을 구합니다. 그리고 그 값을 전달하여 오차를 줄이는 학습 방식이었습니.......

[바람돌이/머신러닝] 군집분석(Clustering)(1) - clustering 종류, 거리(유사도) 척도, 군집 평가 기준 [내부링크]

안녕하세요. 오늘은 군집분석의 종류와 군집분석에 필요한 유사도 척도, 군집 평가기준 개념을 정리하려고 합니다.군집분석이란 군집분석은 대표적인 비지도학습의 일종으로써 데이터의 특성에 따라 비슷한 군집(그룹)으로 할당하는 기법입니다. 비지도학습에 대해서는 이전 포스팅에서 다뤘기 때문에 넘어가도록 하겠습니다. 예를 들자면 현재 7개의 관측치가 있고 키와 평균 머리카락 길이에 대해서 알고 있습니다. 군집분석을 시행한다면 원으로 친 두 개의 군집이 생길 것을 알 수 있습니다. 또한, 우리는 각 군집이 남성과 여성의 군집이라는 특성도 파악할 수 있겠죠. 이처럼 군집분석은 단순히 비슷한 군집으로 할당하는 것이 아.......

[바람돌이/머신러닝] KNN(K-Nearest Neighbor) - K-최근접이웃 알고리즘 이론 [내부링크]

안녕하세요. 오늘은 KNN 알고리즘에 대해서 정리하려고 합니다. KNN은 간단하면서도 머신러닝 알고리즘에 종종 활용되는 기법입니다. KNN(K-Nearest Neighbor) KNN 알고리즘은 이름에서부터 알 수 있듯이 굉장히 직관적인 알고리즘입니다. 분류 혹은 회귀 문제를 적용하는 데에 있어서 K개의 가까운 이웃을 고려한다고 생각할 수 있습니다. 다시 말해 K개의 가까운 이웃에 따라 의사결정을 진행합니다. 아래의 그림으로 쉽게 이해할 수 있습니다. 현재 빨간색, 파란색 점으로 각 클래스 0,1로 분류되어 있는 상황입니다. 이때 새로운 데이터 X가 들어왔을 때 우리는 클래스 0과 1로 분류하고자 합니다. KNN알고리즘에 따라 가까운 데이터.......

[바람돌이/머신러닝] 하이퍼 파라미터 튜닝(2) - Bayesian Optimization for Hyperparameter Tuning [내부링크]

안녕하세요. 오늘은 하이퍼 파라미터 튜닝에 사용되는 Bayesian Optimization에 대해 정리하려고 합니다. 베이지안 최적화가 하이퍼파라미터를 튜닝하기 위한 작동 원리에 대해서 포커스를 맞추겠습니다.Bayesian Optimization for Hyperparameter Tuning 기존에 튜닝 방법으로 일반적인 Grid Search와 Random Search에 대해서 정리했습니다. 하지만 Grid Search는 정해진 값의 조합 내에서 계속해서 반복해야 하며 Random Search 또한 불필요한 반복이 계속 될 수 있습니다. 이처럼 기존 튜닝 방법은 공통적으로 먼저 시행한 값의 조합에 대한 정보가 다음 시행할 때 반영되지 않기 때문입니다. 반면 Bayesian Optimization은 앞서 나온 결.......

[바람돌이/머신러닝] 하이퍼 파라미터 튜닝(1) - ManualSearch, GridSearch, RandomSearch [내부링크]

안녕하세요. 오늘은 하이퍼 파라미터 튜닝 기법에 대해서 정리하려고 합니다. 파라미터, 하이퍼 파라미터 차이 우선 파라미터와 하이퍼 파라미터에 대한 차이를 보겠습니다. 편의상 하이퍼 파라미터를 파라미터라고 칭하기도 하지만 둘의 개념은 조금 다릅니다. 파라미터는 매개변수로써 모델 내부에서 결정되는 값입니다. 간단한 예시를 들자면 딥러닝에서 가중치를 파라미터라고 생각할 수 있습니다. 딥러닝의 가중치처럼 데이터를 보고 학습하면서 모델이 성능을 높이기 위해 모델 스스로 결정하는 값입니다. 반면 하이퍼 파라미터는 초매개변수로써 모델을 만들 때 사용자가 직접 정해주는 값입니다. 예를 들어 트리 모델들의 나.......

[바람돌이/머신러닝] 교차검증(CV), Cross Validation, K-fold, TimeSeries 등 CV 종류 및 이론 [내부링크]

안녕하세요. 오늘은 머신러닝에서 정말 많이 사용되는 교차검증(Cross Validation)에 대해서 정리하겠습니다. 기존 포스팅에서도 간단히 몇 번 정리한 적이 있었는데 오늘은 CV의 종류와 개념에 대해서 자세히 정리하려고 합니다.교차검증(CV)의 필요성 결론부터 말씀드리면 교차검증을 하는 이유는 과적합을 피하면서 파라미터를 튜닝하고 일반적인 모델을 만들고 더 신뢰성 있는 모델 평가를 진행하기 위해서입니다. 교차검증에 앞서 validation set의 필요성을 먼저 말할 필요가 있습니다. 우리는 일반적으로 전체 데이터를 7:3으로 나누고 train set을 학습하여 test set으로 평가합니다. 이 경우 문제점은 우리가 학습한 모델이 제대로.......

[바람돌이/머신러닝] 앙상블(Ensemble Learning)(3) - 스태킹(Stacking) 이론 [내부링크]

안녕하세요. 오늘은 앙상블 기법 중 스태킹(Stacking)에 대해서 정리하겠습니다. 스태킹은 기존 부스팅처럼 어떤 알고리즘의 방식보다는 학습의 구조라고 생각할 수 있을 것 같습니다.스태킹(Stacking) 스태킹은 meta-level learning이라고 불리우는데 스태킹을 가장 간단하게 정리하자면 예측값으로 실제값을 다시 예측하는 기법입니다. 스태킹의 경우 일반 알고리즘과 다르게 2단계로 학습을 진행하는데요. 위의 개념들이 어떤 식으로 적용되고 기존의 방법과 어떻게 다른지 아래 그림을 보겠습니다. 우선 일반적인 배깅 기법인 랜덤포레스트를 적용한다면 위와 같이 표현할 수 있습니다. 그 안에 많은 과정이 있겠지만 생략하고 X_train, .......

[파이썬/머신러닝] 회귀분석(Regression)(6) - 정규화(Regularized Regression/Regularization) 이론 [내부링크]

안녕하세요. 오늘은 회귀분석 정규화/규제화(Regularization)에 대해서 알아볼 예정입니다. 정규화는 다중공선성 방지, 차원 축소, 과적합 방지 등 다양한 목적으로 사용될 수 있는데요. 필요성부터 천천히 보도록 하겠습니다.Regularization의 필요성 정규화는 회귀계수에 제약을 가함으로써 overfitting을 방지하고 모델의 일반화 성능을 높이는 기법입니다. 다른 말로 표현하면 bias를 조금 허용하고 variance를 줄이는 것이라고 생각할 수 있겠습니다. 우선 overfitting에 대해서 다시 정리하겠습니다. 일반적으로 모델을 학습할 때 Train set, Test set으로 분리하고 우리는 한 번도 사용하지 않은 Test set으로 모델을 평가합니다. Ove.......

[파이썬/머신러닝] 회귀분석(Regression)(5) - 로지스틱 회귀분석(Logistic Regression) 이론 [내부링크]

안녕하세요. 오늘은 회귀분석의 대표적인 모형인 로지스틱 회귀분석에 대해서 설명하려고 합니다. 이제까지 다루었던 회귀분석과는 다르게 로지스틱 회귀분석의 경우 분류기법에서 주로 사용되는 모델입니다. 일반화 선형모형(GLM : Generalized Linear Model) 로지스틱 회귀분석을 다루기에 앞서서 GLM에 대한 개념을 간단하게 다시 한 번 정리하겠습니다. GLM은 앞선 회귀분석 내용에서 다뤘었는데요. 우리는 기본적으로 회귀분석의 가정을 독립성, 정규성, 등분산성, 선형성을 말하고 있었는데 이러한 기본 가정을 지키지 못할 때 사용할 수 있는 것이 GLM입니다. 대표적으로 종속변수가 정규분포를 따르지 못할 때, 연속형이 아닌 범주.......

[파이썬/머신러닝] 회귀분석(Regression)(1) - 회귀분석 기초/종류/이론 [내부링크]

안녕하세요. 오늘부터 당분간은 회귀분석에 대해서 다루도록 하겠습니다. 회귀분석은 지도학습의 한 종류로써 회귀분석만 하더라도 굉장히 많은 내용들이 있습니다. 단순, 다중, 다항회귀, 규제화 등 많은 내용들이 있기 때문에 천천히 다뤄보도록 하겠습니다. 오늘은 회귀분석의 개념과 종류에 대해서 다루겠습니다.회귀분석이란? 회귀분석은 X라는 독립변수와 Y라는 종속변수 간의 인과관계를 찾기 위한 기법입니다. 회귀분석의 가장 유명한 예시를 통해서 설명을 돕도록 하겠습니다. 회귀분석을 활용하여 아버지 키(X)와 아들 키(Y)의 관계를 찾은 예시입니다. 해당 연구는 아버지 키와 아들 키의 관계를 찾은 연구인데 결론부터 말씀드.......

[바람돌이/머신러닝] 지도학습(supervised learning), 비지도학습(unsupervised learning) - 이론 [내부링크]

안녕하세요. 오늘은 지도학습과 비지도학습에 대해서 알아보겠습니다. 쉬운 개념이지만 데이터마이닝 공부를 한다면 한 번씩은 꼭 다루는 중요한 개념입니다. 지도학습과 비지도학습을 나누는 가장 큰 기준은 정답 레이블이 있냐입니다. 여기서 말하는 정답 레이블은 y값, 종속변수라고 볼 수 있습니다. 이러한 개념을 숙지한 뒤, 지도학습과 비지도학습을 하나씩 보도록 하겠습니다. 지도학습(supervised learning) 지도학습은 데이터에 정답 레이블이 있는 경우입니다. 다시 말해서 우리의 목표가 명확한 것입니다. 대표적으로 분류와 회귀분석이 있습니다. 아래의 데이터셋을 통해서 이해를 돕겠습니다. 해당 데이터에서는 키, 머리카락.......

[파이썬/머신러닝] Decision Tree(의사결정나무) 분류 - 분석/예제 [내부링크]

안녕하세요. 저번 포스트에서 Deicision Tree 이론에 대해서 알아보았고 Decision Tree 분류기법을 파이썬에서 학습, 검증, 파라미터 튜닝과 시각화에 대해서 살펴보겠습니다.데이터셋 이번에 사용할 데이터셋은 파이썬의 sklearn 패키지에 있는 breast_cancer이라는 데이터셋입니다. 현재 데이터셋을 확인하면 569개의 row, 31개의 columns으로 이루어졌고 타겟변수의 클래스는 [0, 1]로 나뉘어졌습니다. 데이터셋에 대한 간략한 설명을 하자면 유방암진단을 위한 데이터셋이며 30개의 독립변수를 통해 유방암 진단을 결정하는 상황입니다.Decision Tree 학습 위의 코드는 학습과 테스트를 위한 데이터 셋으로 나눈 후 분류를 위한 Decision.......

[바람돌이/머신러닝] 군집분석(Clustering)(4) - DBSCAN(Density-Based Clustering) 이론 [내부링크]

안녕하세요. 저번 포스팅에선 prototype-based clustering에 대해서 정리했습니다. 오늘은 Density-based clustering 중 가장 대표적인 DBSCAN에 대해서 정리하려고 합니다.밀도기반 군집분석(Density-based Clustering) 저번 포스팅에선 prototype-based clustering에 대해서 정리했었는데요. 중심기반 군집분석의 경우 한 군집을 대표하는 중심점이 있다는 가정을 하고 진행한 기법이었습니다. 반면 밀도기반 군집분석은 어떤 동일한 군집에 있는 데이터들은 서로 비슷한 위치에 있을 것이다, 즉 밀도가 높을 것이라는 가정을 하여 분석하는 기법입니다. DBSCAN(Density-Based Spatial Clustering of Applications with Noise) DB.......

[바람돌이/머신러닝] 군집분석(Clustering)(5) - GMM(Gaussian Mixture Model) 이론 [내부링크]

안녕하세요. 오늘은 분포기반 군집분석 중 GMM에 대해 정리하려고 합니다.분포기반 군집분석 기존에 프로토타입 기반 군집분석, 밀도기반 군집분석에 대해 정리했습니다. 각 분석의 기본 가정은 '군집은 대표하는 프로토타입, 밀도에 따라 형성된다'였습니다. 비슷한 맥락으로 분포기반 군집분석에서는 각 군집은 '어떠한 확률 분포에 따라 형성된다'라는 가정을 합니다.GMM(Gaussian Mixture Model) 분포기반 군집분석에서 가장 대표적인 GMM, 즉 가우시안 혼합모델에 대해 정리하겠습니다. GMM은 전체 데이터를 몇 개의 가우시안 분포로 표현할 수 있다고 가정하여 각 분포에 속할 확률이 높은 데이터로 군집을 형.......

데이터 처리 및 EDA 공유 [내부링크]

안녕하세요. 데이터 전처리 및 EDA 방법론 정리하려고 합니다.워낙 많은 기법들이 있고 다양한 팁들이 있어서 생각나거나 새로 배울 때마다 사용할 수 있는 목록에 대해서 작성하려고 합니다. 계속해서 수정할 예정이고 본인만의 노하우나 아직 작성하지 않은 상황별 처리기법에 대해 댓글 남기시면 수정하겠습니다.1. 불균형 데이터- over sampling- under2. Scaling3.

[파이썬/머신러닝] 앙상블(Ensemble Learning)(1) - 보팅, 배깅(Voting, Bagging) 이론 [내부링크]

안녕하세요. 오늘은 머신러닝에서 정말 많이 사용되는 앙상블에 대해 정리하려고 합니다. 앙상블은 프랑스어로 '함께', '동시에'라는 의미에서 진화하여 '조화'의 의미를 갖는 음악 용어로 사용되고 있습니다. 머신러닝에서 사용되는 앙상블 기법 또한 이런 어원에서 출발했다고 볼 수 있는데요. 간단히 정리하자면 앙상블은 여러개의 (weak) 모델들을 활용하여 더 강력한 성능의 모델을 만드는 기법입니다. 앙상블에는 여러가지 개념과 통해 보팅, 배깅, 부스팅, 스태킹 등의 기법들을 활용하고 있습니다. 오늘은 앙상블에서 사용되는 개념들과 배깅에 대해서 정리하겠습니다.보팅(Voting Classifier) 가장.......

[바람돌이/머신러닝] 앙상블(Ensemble Learning)(2) - 부스팅(Boosting), AdaBoost, Gradient Boosting(GBM) 이론 [내부링크]

안녕하세요. 오늘은 저번은 저번 포스팅에 이어서 앙상블 기법 중 부스팅 알고리즘에 대해서 정리하려고 합니다. 부스팅 알고리즘은 캐글에서도 굉장히 많이 사용되고 좋은 성능을 내는 머신러닝 알고리즘 중 하나입니다. 먼저 부스팅 알고리즘의 개념을 정리하고 부스팅 기법 좀 몇 개를 정리하겠습니다.부스팅(Boosting) 저번 포스팅에서 앙상블 기법 중 투표 기반 분류기와 배깅에 대해 정리했었습니다. 앞선 앙상블 기법들이 단일 모델을 복수개, 혹은 여러 모델들을 결합하여 병렬적으로 사용한다고 한다면 부스팅은 단일 모델을 순차적으로 활용한다는 면에서 차이점이 있습니다. 부스팅 또한 복원 랜덤 샘플링을 활용해서 다수의 샘.......

[파이썬/머신러닝] SVM(Support Vector Machine) 분류 - 분석/예제 [내부링크]

안녕하세요. 오늘은 파이썬에서 SVM을 활용하여 분류 문제를 풀어보도록 하겠습니다. 이론적인 내용은 저번 포스트 SVM 이론에서 모두 설명드렸기 때문에 코드 활용하는 법에서만 포스팅하겠습니다. 데이터셋은 Decision Tree 때와 동일한 유방암 분류 데이터 셋입니다. 데이터셋 현재 데이터셋을 확인하면 569개의 row, 31개의 columns으로 이루어졌고 타겟변수의 클래스는 [0, 1]로 나뉘어졌습니다. 데이터셋에 대한 간략한 설명을 하자면 유방암 진단을 위한 데이터셋이며 30개의 독립변수를 통해 유방암 진단을 결정하는 상황입니다. 1. SVM 선형분리 학습 이제 SVM을 활용하여 학습을 진행하도록 하겠습니다. 우선 선형분리와, 비선형.......

[파이썬] 빅데이터 분석 [내부링크]

#파이썬 #빅데이터 #분석 #머신러닝 #코딩 #딥러닝 #기초 #데이터사이언스 안녕하세요. 파이썬을 활용한 빅데이터 분석 개념과 자료를 공유하는 블로그입니다.저도 기초부터 배우는 입장이기 때문에 같이 공유하면서 배우고 토론하고 싶어서 블로그를 운영하게 되었습니다.빅데이터 분석 기초부터 다룰 예정이고 이론과 예제도 같이 다룰 예정입니다. 피드백과 질문 환영합니다.

빅데이터 분석 프로세스 [내부링크]

빅데이터 분석 프로세스 데이터 분석 프로세스는 크게 5개의 단계로 살펴볼 수 있습니다. 이미 알고 계시겠지만 저 또한, 각 단계에서의 중요성을 간과한 적이 많습니다. 그래서 각 단계에 대해서 세부적으로 어떤 역할을 하고 무엇이 중요한지에 대해서 간략하게 설명하고 합니다.문제정의 문제 정의 단계는 데이터 분석 프로젝트만이 아니라 모든 프로젝트를 수행할 때 가장 중요한 단계입니다. 많은 공모전을 하면서 주제가 반 이상을 먹는다라는 말이 있는 것처럼 얼마나 가치 있는 주제를 선정하고 수행하는지가 정말 중요하다고 생각합니다. 굉장히 어려운 부분인 만큼 저 또한, 이렇게 하는 것이 좋다라고 쉽사리 말하기가 어렵.......

[바람돌이/머신러닝]Decision Tree(의사결정나무) 분류 - 이론 [내부링크]

안녕하세요. 이번 포스팅에서 알려드릴 머신러닝 기법은 Decision Tree(의사결정나무)입니다.Decision Tree는 상대적으로 굉장히 쉬우면서도 많은 앙상블 기법의 기반이 되기 때문에 가장 먼저 다루려고 합니다.Decision Tree란 Decision Tree를 설명할 때 가장 많이 사용하는 비유는 '스무고개'입니다. 스무고개처럼 하나의 질문을 던져 답에 맞춰 분류를 진행하여 원하는 정답을 맞추는 거에요. 위의 예시에서 '()' 안에 있는 숫자는 데이터의 수이고, '결혼상태'라는 동그라미는 root node, 네모상자는 leaf node라고 명명합니다. 예시에 대한 설명을 돕자면 초기에 14개의 데이터가 있었고 결혼상태에 따.......

[파이썬/머신러닝] SVM(Support Vector Machine) 분류 - 이론 [내부링크]

안녕하세요. 이번 포스팅에서는 SVM(Support Vector Machine) 이론에 대해서 다루려고 합니다. SVM은 고전적인 machine learning 기법 중 하나이기 때문에 어떤 강의를 들어도 항상 다루었던 거 같습니다. SVM이란 SVM은 전통적인 이진 분류를 위한 기법 중 하나입니다. 우선 SVM은 N차원을 공간을 (N-1)차원으로 나눌 수 있는 초평면을 찾는 분류 기법입니다. 말이 굉장히 낯선 느낌입니다. 하나씩 이야기 해보겠습니다. 현재 다음과 같이 클래스 0, 1로 구분되는 10개의 데이터가 있습니다. 우리의 목적은 클래스 0과 1을 정확히 분류하는 거겠죠? SVM은 2개의 클래스를 분류할 수 있는 최적의 경계를 찾고자 합니다. 먼저 SVM에서 말.......