jy990812의 등록된 링크

 jy990812로 등록된 네이버 블로그 포스트 수는 36건입니다.

Functional data objects [내부링크]

1. Adding Coefficients to Bases to Define Functions 2. Smoothing Using Regression Analysis 3. Linear Differential Operator 4. Bivariate Functional Data Objects 5. fd, Lfd class 정리 앞에서는 basis function을 정의하는 방법을 알아보았다. 이 basis function과 coefficients의 linear combination으로 functional data object X(t)를 정의할 수 있다. 이번에는 이런 오브젝트 X(t)를 정의해 보자. [Adding Coefficients to Bases to Define Functions] 일단 basis function을 정의하고 나면, 적절한 coefficients만 구하면 functional data 형태의 object를 만들 수 있다. K개의 basis function이 있으면 각

Compute curve from noisy data [내부링크]

1. Regression Splines : Smoothing 2. Data Smoothing with Roughness Penalties - Roughness Penalty choice - Roughness Penalty Matrix R - Degree of Freedom - Choosing parameter λ 3. Constrained Function - Positive / Negative smoothing - Monotone smoothing - Probability Density Function smoothing 4. Assesing the Fit to Data [Regression Splines : Smoothing] 보통 regression 모델을 fit할 때는 sum of squared errors(residuals)를 최소로 하는 계수를 찾는다. functional data의 경우 회귀식은 아래 식 (1)과 같이 쓸 수 있다. data("growth", package=

Descriptions of Functional data [내부링크]

1. Functional Descriptive Statistics - Bivariate Covariance Function - Residual Covariance-Variance Function - Functional Probes 2. Confidecne Intervals for Curves and Derivatives [Functional Descriptive Statistics] Mean, Variance 등은 다른 많은 통계 분석에서처럼 데이터를 설명하는 통계량으로 사용할 수 있다. 여기에 더해 bivariate covariance function과 residual variance-covariance matrix, functional probes에 대해 알아보자. [Bivariate Covariance Function] 만약 두 functional obejct xi(s)와 xi(t)가 같은 측도(예를 들어 둘 다 mg 단위라든지, 둘 다 kg단위라든지)를 갖는다면, 굳이 상관계

Functional PCA/CCA [내부링크]

1. An Overview of fPCA 2. fPCA In R 3. fPCA Features 4. Canonical Correlation Analysis PCA는 기술통계량을 계산하거나 플롯을 그린 뒤에 할 수 있는 첫 단계가 될 수 있다. 여기서는 데이터 안에 있는 variation의 주요 형태가 무엇인지, 그리고 얼마나 의미가 있는지를 알아볼 수 있다. 다변량 통계에서 bivariate 분산ㅑ-공분산 함수 v(s,t)의 eigenvalue들이 주성분의 중요도를 알려주는 지표가 되는데, 이런 고윳값을 플롯으로 그려보는 것은 데이터를 합리적으로 표현할 때 필요한 주성분의 개수를 결정하는 방법이 된다. functional PCA에서는 각 eigenvalue에 대응되는 eigenfunction이라는 것이 존재한다. eigenfunction은 변동 요소를 설명해 줘서 중요하다. 이 함수를 이용하면 종종 functional data에 대해 어떤 지배적인 경향성을 보기 쉽게 그려낼 수 있다

Registration [내부링크]

1. Time-Warping Funcitons 2. Landmark Regstration 3. Continuous Registration 4. Decomposition Functional data는 여러 function이 데이터로 늘어지는데, 수많은 함수의 mean function을 구하려고 할 때 variation 측면에서 문제가 생길 수 있다. 예를 들어, 각 functional observation들이 2차원 평면 상에 그려졌을 때 x축 방향으로 서로 차이가 크게 날 수도 있고(phase variation), x축은 비슷한데 y축 방향으로 크게 차이가 날 수도 있다(amplitude variation). phase variation이 존재하는 경우 실제 observation들과 mean function은 마치 주기가 다른 사인 곡선처럼 서로 닮지 않은 모습을 보이고, amplitude variation이 존재하는 경우 mean funciton은 observation들과 개형은

다범주 로짓모형 [내부링크]

1. 명목형 반응변수 로짓모형(기준범주 로짓모형) 2. 순서형 반응변수 로짓모형(비례 오즈 모형) 반응변수가 3가지 이상의 범주를 가질 때 활용하는 로짓 모형을 다범주 로짓모형(mulicategory logit models)이라고 한다. 반응변수가 명목형인 경우와 순서형인 경우에 로짓모형을 어떻게 적용하는지를 살펴보자. [명목형 반응변수 로짓모형] 명목형 반응변수 Y가 범주 1부터 k까지 총 k개의 범주를 갖는다고 하자. 따라서 π1 + ... + πk = 1이다. 만약 n개의 데이터를 관측했다면 이 n개를 k개의 범주에 할당시키는 표본모형은 다항분포를 따르게 된다. [기준범주 로짓모형] 기준범주 로짓모형(basline-category logits model)이란 k개의 범주 중에서 어떤 1개의 변수를 기준으로 잡고 나머지 범주 각각을 비교하는 모형이다. 기본적인 형태는 식 (1)과 같다. 여기서 기준범주는 뭘로 잡아도 상관없다. 왜냐하면 k개의 범주 중 마지막 범주를 K라고 부른다

로그선형모형 [내부링크]

1. 로그 선형 모형 개요 2. 이원 분할표의 로그 선형 모형 3. 삼원 분할표의 로그 선형 모형(동질적 선형 모형, 조건부 독립 모형, 결합 독립 모형, 주변 독립 모형, 상호 독립 모형) 4. 사원 분할표의 로그 선형 모형 이원 분할표의 로그 선형 모형을 알아보고 삼원분할표, 사원분할표로 확대해보자. 이전 글들을 참고해보면, 이원분할표에서 설명변수 X와 반응변수 Y가 독립일 때 칸 확률은 πi,j = πi· * π·j 로 표현할 수 있었다. 그래서 일반적으로 칸 도수는 마치 다항분포를 따르는 것처럼 나타낼 수 있었다. 여기서 표의 전체 도수를 n이라고 하면, 각 칸의 기대도수 μi,j = n * πi,j = n * πi· * π·j 로 나타낼 수 있다. 독립이라고 가정했을 때의 얘기다. 이 식의 양변에 로그를 취하면 식 (1)과 같아지는데, 이런 모형을 독립성의 로그 선형 모형이라고 부른다. [이원분할표의 로그 선형 모형] λ1X + λ1X = λ1Y + λ1Y = 0 이라는 제

서포트 벡터 머신 [내부링크]

1. 개요 2. Maximal Margin Classifier 3. Support Vector Classifier ( Soft Margin Classifier ) 4. Support Vector Machine [개요] 서포트 벡터 머신(SVM ; Support Vector Machine)은 여타 다른 분석 기법들과는 다르게 컴퓨터 공학에서 처음 개발되어 통계학으로 전파된 분석 기법이다. 서포트 벡터 머신은 기본적으로 2가지 범주를 논한다. 즉, 전체 데이터 분포에 대하여 2가지로 나누는 것이다. 만약 범주가 2개 이상, 예를 들어 a, b, c, d 4가지 범주가 있으면 'a'와 'other group'으로 나누는 식의 분류 작업을 진행할 수 있다. 서포트 벡터 머신은 범주들을 딱 나누는 하나의 선(plane)을 긋는 것을 목적으로 한다. 많은 책에서 일반적으로 Maximal margin classifier, Support vector classifier(soft margin cla

2022 읽은 책들 [내부링크]

https://www.yna.co.kr/view/AKR20220114069200005 지난해 국민 독서량 '뚝'…2년 전보다 성인 3권·학생 6.6권↓ | 연합뉴스 (서울=연합뉴스) 이은정 기자 = 지난해 우리나라 성인과 학생의 독서량이 모두 감소한 것으로 나타났다. www.yna.co.kr 여러 기사에 따르면 최근 성인 1명의 1년 독서량은 4~5권 정도로, 그리고 특히 52.5%의 성인이 1권도 읽지 않는다고 한다. 대충 계산하면 나머지 47.5%의 사람들이 10권 이상씩 읽는가 보다. 책을 많이 읽는다고 해서 훌륭한 사람이고, 책을 안 읽는다고 해서 나쁜 사람일 수는 없다. 하지만 잘난 사람들 중에서 독서를 좋아하는 사람의 비율은 압도적으로 높다. 그래서 나도 시간이 나면 한 페이지씩 넘겨보려고 노력했고, 노력하다 보니 이제는 그냥 내가 알고 싶은 게 있으면 책을 먼저 찾아보게 되었다. 시간이 비면 그런 책들을 꺼내 읽곤 한다. 프로그래밍에서 관심 있는 라이브러리를 설치해놓고

Basis function [내부링크]

1. Fourier series system 2. Splines system 3. Constant, Monomial, other bases Functional data analysis에서 함수를 설계하려면 두 가지 단계를 거친다. (1) basis function을 정의한다. (2) basis function의 선형 결합으로 여러 coefficient들의 벡터, 매트릭스, 배열로 함수를 설계한다. 이 중에서 (1) 단계에 대해 먼저 알아보자. 각종 데이터들은 복잡하고 예측 불가능한 구조를 많이 갖기 때문에 분석가는 추정하기 쉽고, 거의 대부분의 형태를 포괄적으로 보여줄 수 있는 파라미터들로 함수를 설계하는 전략을 추구해야 한다. 그러면서도 필요 이상의 파라미터는 연산량을 높이고 분석 결과를 괜히 어렵게 만들기 때문에 적당하게 사용해야만 한다. 따라서 basis function을 사용하게 되는데, 이러한 basis function들의 선형 결합으로 실제 함수 x(t)를 다음 식 (1)

판별분석 개요 [내부링크]

1. 판별 분석의 개요 2. 판별 분석의 분류 규칙 - TPM - ECM - 베이즈 판별 분석(Discriminant Analysis ; DA)은 객체를 범주로 분류하고, 나아가 범주를 가장 잘 구분하는 변수를 찾고 범주 간의 차이를 가장 잘 표현하는 새로운 함수를 찾는 등 다양한 목적으로 활용된다. 그중 분류 목적의 판별 분석에서는 범주들을 가장 잘 구별하는 함수(선형, 비선형)를 도출하여 규칙을 제시한다. 판별 분석은 분류 분석과 개념적으로는 차이가 있지만, 일반적으로 함께 이루어지므로 대개 구분되지 않고 소개된다. 예를 들어, 고객의 등급이 우수, 보통, 불량 3가지로 나눠진다면, 이를 판별 기준으로 새로운 고객의 대출 여부를 결정하는 경우 등에 활용된다. 판별 분석에서 가장 잘 알려진 것이 선형 함수(Linear function)로, 피셔의 선형 판별 함수가 있다. 그리고 0과 1 사이의 값을 갖는 이항변수나 범주형 변수가 포함된 경우는 선형 로지스틱 판별 함수가 고려되고,

이원분할표 [내부링크]

1. 분할표의 구조 2. 이원분할표 비율 비교(비율 차이, 상대 위험, 오즈비) 3. 오즈비 4. 독립성 검정(피어슨 카이제곱검정, 우도비검정) 5. 순서형 자료 독립성 검정 6. 소표본 정확검정 [분할표의 구조] 인종 내세의 믿음 예 아니오 백인 621 239 흑인 89 42 범주형은 형태에 따라 나뉘긴 하지만, 일반적으로 빈도수를 나타낸 하나의 표로 표현할 수 있다. 위의 표는 1991년의 사회조사 결과를 표로 나타낸 것이다. 이와 같은 표를 분할표(Contingency table)라고 부른다. 여기서는 '인종'과 '내세의 믿음'이라는 2가지 변수로 구분해 이원표라고 부르지만, 변수의 개수에 따라 삼원표 등으로 부르기도 한다. 통계적인 관점으로 보면 이 표의 결과 자체는 표본으로 볼 수 있다. 그리고 우리가 알고 싶은 특징은 모집단이라고 하자. 즉, 이 표는 백인과 흑인에 따른 모든 사람들(모집단) 중에서 내세의 믿음을 믿는 사람과 믿지 않는 사람에 대한 비율(모비율)의 추정치(

독립성 검정과 동질성 검정 [내부링크]

1. 개념(부분표, 주변표, 조건부연관성, 주변연관성, 심슨의 역설) 2. 독립성 검정(동질적 연관성) 3. 동질성 검정(코크란-맨틀-핸첼 검정, 브레슬로-데이 검정) 다변량 범주형 자료에서 변수는 꼭 2개가 아니라 3개, 4개, 그 이상이 될 수도 있다. 앞에서는 2개인 경우(이원표)를 알아보았으므로, 이번에는 3개인 경우(삼원표) 변수 간의 연관성 테스트를 알아볼 차례다. 그래서 일단 기본 개념부터 잡자면, 이원분할표 이상은 일반적으로 2 x 2 x α 테이블로 나타낼 수 있다. 무슨 말인고 하면, 아래 표와 마찬가지로 삼원분할표를 그리고자 하면 기존의 이원분할표에 새로운 변수 Z에 따라 범주를 다시 나누는 것이다. 희생자 인종 (Z) 피의자 인종(X) 사형판결여부(Y) 계 사형판결 비율 예 아니오 백인 백인 53 414 467 11.3 흑인 11 37 48 22.9 흑인 백인 0 16 16 0 흑인 4 139 143 2.8 계 백인 53 430 483 11.0 흑인 15 176

일반화선형모형 [내부링크]

1. GLM의 개요 - 3가지 성분 2. 이항 반응 모형 - 항등 연결 - 로짓 연결 - 프로빗 연결 3. 포아송 회귀 모형 - 율자료 포아송 회귀 4. 모형 추론 및 검토 - Wald 검정, 우도비 검정, 스코어 검정 - 적합도 검정 - 모형 잔차 앞서 보았던 분할표를 활용한 범주형 자료의 분석 방법도 설명변수의 효과를 조사하는데 큰 도움이 된다. 그러나 꼭 분할표를 작성하지 않더라도, 모형을 만들어 분석하는 방법 역시 존재한다. 잘 적합된 모형은 설명변수의 영ㄹ향을 평가함은 물론, 강도 및 중요성을 동시에 평가할 수 있다. 모형을 활용할 거면, 어떤 모형을 사용할 것인지, 그리고 모형마다의 모수를 어떻게 추정할 것인지가 중요해진다. 어떤 모형을 선택할 것인지에 대해서는 정말 많은 공부가 필요하다. 그리고 여기서는 대부분 모형들을 포함하는 일반화 선형 모형(Generalized linear model)을 가장 먼저 소개한다. [성분] 먼저 GLM이 뭔지를 알아보자. GLM을 구성하

천 개의 파랑 독서 리뷰 [내부링크]

마케팅에서 기계학습은 고객 패턴인식에 활용된다. 아침의 나와 저녁의 나는 같은 사람인가? 수요일 오후 회사에서 나와 일요일 여행지에서 일출을 맞이하는 나는 같은 사람인가? 한 명의 고객은 한 명이 아니다. 육하원칙이라는 조합에 따라 다른 색을 보이는 물감이다. 컴퓨터는 그림을 그려 개인마다 적재적소에 맞는 아이템을 추천해 준다. 이 책에서 저자가 강조하는 것은 느림을 통해 발현되는 연대다. 작품 초반, 콜리가 낙마하는 3초라는 시간은 평소보다 몇 곱절은 더 천천히 흘러갔고, 3초라는 여유로운 시간 사이에 등장인물들의 복잡하게 얽힌 실타래를 풀어내기 때문이다. 이러한 관점에서 볼 때, ‘천 개의 파랑’의 제목과 표지는 그동안 파란색이라고만 생각했던 하늘을 잠시 올려다보며 사실은 파랑이 천 개의 색으로 이루어져 있음을 깨닫기 바라는 작가의 의도로 볼 수 있다. 천 개는 콜리가 알고 있는 모든 단어의 개수이기 때문에, 숫자 1000을 뜻하기보다는 ‘모든’을 뜻한다고 보아야 한다. 따라서

부산대 가을 [내부링크]

한동안 이런저런 일들이 많아서 카메라를 손에 쥐지 못했다. 오랜만에 집 주변이나 찍어볼까 하고 집어들었는데, 때마침 엽록소가 파괴된 나뭇잎들이 바닥에 흩뿌려져 있는 모습에 감탄을 금치 못했다. 오늘 스케줄도 없는데, 오랜만에 사진 찍으러 나가야겠다고 마음을 먹었다. 집 앞 놀이터 휴대폰에 들어있는 노래들을 셔플로 돌린 다음 갤럭시 버즈 프로를 귀에 꼽고 집에서 출발했다. 목적지는 부산대학교. 특별한 의미가 있는 건 아니고, 내가 자주 가는 곳을 새로운 시각으로 바라보고 싶었다. 아는 사람은 알겠지만 이 학교는 금정산에 위치하기 때문에, 맨 위로 올라가려면 손에 초코바 하나 정도는 가지고 가야 한다. 난 오늘 돈이 없으니 지하철에서 버스로 환승해 타고 올라가기로 한다. 꼭대기에 이르러 경암체육관, 미술관, 예술관, 학생회관 등등이 하나둘 보였다. 비슷한 높이에 있는 기숙사에 살지 않는다면 체대 예대 학생분들은 정말 학교 다니기 어려울 거 같다. 특히 여름에는... 어우 끔찍해 사진 찍

로지스틱 회귀 [내부링크]

1. 개요(로지스틱 회귀) 2. 로지스틱 회귀모형의 해석 3. 로지스틱 회귀모형의 추론(신뢰구간, 유의성 검정) 4. 모형 검토(적합도 검정) 5. 다중 로지스틱 회귀모형 6. 모형 선택(전진선택, 후진제거) [개요] 설명변수 X와 이항반응 Y가 대응할 때, π(x)를 성공 확률이라고 보면 로지스틱 회귀모형은 식 (1)과 같다. 이 식을 성공확률 π에 대해 정리하면 식 (2)와 같다. 따라서 π는 S자 곡선 형태를 띠고 있으며, 이때 모수 β는 곡선의 증감을 결정한다. β의 부호는 증가와 감소 형태를 결정짓고, β의 크기는 곡선의 변화율을 나타낸다. 식 (2)를 β에 관해 미분하면 β*π(x)*(1 - π(x) ) 가 접선의 기울기로 도출되는데, 이는 x값이 1단위 변할 때 확률값의 변화에 대한 근사치로 해석할 수 있다. 따라서 S자 곡선이 가장 가파른 지점은 π(x) = 0.5인 지점이며, 이 때 x = -α/β 여야 한다. 한편, 오즈는 π(x) / (1 - π(x) ) 로 계산

비선형방정식의 해법 -2- [내부링크]

1. 뉴턴 알고리즘 2. 가우스-뉴턴 알고리즘 3. 뉴턴-랩슨 알고리즘 앞에서 테일러급수를 알아보았다. 이제 정말 비선형방정식의 해를 구해보자. 비선형방정식의 해를 구할 때는 주로 뉴턴 알고리즘을 사용하는데, 뉴턴 알고리즘을 이해하기 위해 테일러급수 개념을 도입한다. [뉴턴 알고리즘] 미분 가능한 함수 f(x)가 있다고 하자. 그리고 f(x)의 해 a가 있다고 하면, f(a)를 테일러급수 전개하면 다음 식 (1)과 같이 전개된다. 전개는 일차까지만 하자. 이때, 만약 a가 식 (2)와 같으면 0이 되므로 식 (2)를 순환 공식으로 삼으면 식 (3)과 같은 순환 공식이 만들어진다. 당연하게도 초깃값 x0는 적절히 지정해 줘야 한다. 만약 n이 무한대로 발산함에 따라 xn+1과 g(x)의 값이 동일하다면, 극한값을 갖고 이 값을 방정식의 해로 생각한다. 즉, 반복 중단 조건은 식 (4)와 같다. 뉴턴 알고리즘은 수렴 속도는 빠르다. 그러나 단점이 몇 가지 있어서 주의를 요한다. 먼저,

군집해 평가 및 해석 [내부링크]

1. 군집해의 평가 - 외부 평가 지수 (랜드 지수, 수정 랜드 지수) - 내부 평가 지수 (DI 지수, CH 지수, BI 지수, 실루엣) 2. 군집해의 해석 분류 분석과 달리 군집분석은 이미 알려진 학습 표본이 없다. 그래서 내가 나눈 군집이 잘 나눴는지 성능을 알아보기가 조금 곤란하다. 그나마 2차원이나 3차원이면 좌표상 공간에 도식화하는 방법을 고려해 볼 수 있겠지만, 그 이상이라면 도식화도 불가능하다. 그래서 사실 군집해의 평가에는 분야별 전문가의 견해가 필요해질 수 있다. 군집해의 정량적인 평가 척도에 관련해서는 계속해서 연구 중이다. 이번 글에서는 크게 외부 평가 지수(External Index)와 내부 평가 지수(Internal Index)로 나누어 평가 척도를 설명하고자 한다. [외부 평가 지수] 외부 평가 지수란, 이미 알려진 외부의 군집해와 지금 내가 가진 군집해를 비교하는 평가 척도를 말한다. 다시 말해, 어떤 객체들에 대해 이상적인 군집이 {1,2}, {3,4,

부트스트랩 알고리즘 [내부링크]

1. 부트스트랩 알고리즘 2. 재크나이프 기법 나에게 데이터가 주어져 있다. 그런데 만약 데이터 표본을 가지고 모집단의 확률분포를 추정하고 싶다면 어떻게 해야 할까? 하나의 방법은 부트스트랩 알고리즘을 이용하는 것이다. 먼저 경험 분포 함수가 뭔지 정의를 해보자. 경험 분포 함수는 입력값보다 같거나 작은 표본 수의 비율을 뜻한다. 즉, 식 (1)로 표현할 수 있다. 경험 분포 함수의 정의에 따라 n*Fn(x) 는 이항분포 B(n, F(x))을 따른다고 볼 수 있다. 이때 기댓값과 분산을 구해보면, Fn(x)는 F(x)의 불편추정량이며 분산은 F(x)(1-F(x))/n 임을 알 수 있다. [부트스트랩 알고리즘] 부트스트랩(Bootstrap)은 일반적으로 Parametric bootstrap과 non-parametric bootstrap으로 나뉜다. parametric은 재표본 과정에서 미지의 모수에 의한 확률분포를 가정하는 부트스트랩 알고리즘이고, non-parametric은 CDF를

아웃라이어 탐색 -1- [내부링크]

아웃라이어 탐색(Outlier detection) 또는 비정상 감지(Anormaly detection) 등 여러 이름으로 불리는 이상치 분석은 예상에서 크게 벗어난 오브젝트를 찾는 과정을 말한다. 이때 많이 벗어난 데이터를 아웃라이어 또는 비정상 데이터라고 부른다. 아웃라이어 탐색은 신용 카드 회사의 사기 적발, 의료, 공안과 보안, 재해 감지 등 다양한 분야에서 중요하게 적용되는 분야이다. 한편, 아웃라이어 탐색은 데이터의 패턴을 찾는 클러스터링(군집)과 밀접한 관련이 있다. 데이터 패턴을 알아냈을 때 비교적 멀리 떨어진 예외적인 경우를 적발해 내면 그것이 아웃라이어가 되기 때문이다. 아웃라이어란 내가 가진 데이터에서 자기 혼자 다르게 행동하는 것처럼 보이는 데이터 오브젝트를 생각하면 된다. 아웃라이어는 데이터의 노이즈와는 다른 개념인데, 노이즈는 임의로 발생하는 오차나 측정 편차를 이야기하기 때문이다. 아웃라이어 탐색에서도 노이즈는 제거되어야 마땅하다. 아웃라이어 탐색은 내가 찾

아웃라이어 탐색 -2- [내부링크]

1. 아웃라이어 탐색방법(지도/준지도/비지도, 통계/인접성/클러스터링) 2. 통계적 아웃라이어 탐색법 - 파라미터 방식 - 단변수(MLE, Grubb's test) - 다변수(마할라노비스 거리, 카이제곱 통계량) - 혼합분포(EM 알고리즘) - 비파라미터 방식(히스토그램, 커널 밀도 추정법) 이론적, 시질적으로 다양한 아웃라이어 탐색 방법이 있다. 쉽게 나누자면, 전문가가 데이터에 매긴 라벨을 바탕으로 아웃라이어 탐색을 하는 모델, 가설에 따라 그룹핑하는 모델 2가지가 있다. [지도/준지도/비지도 방법] 전문가가 라벨을 매긴 데이터가 있으면, 주어진 데이터를 이용해 탐색 모델을 만들 수 있다. 그 대표적인 예시가 지도/준지도/비지도 탐색법이다. 지도 방식은 전문가의 견해에 따라 정상과 비정상의 모델을 만들고 분류 기법을 활용해 학습한다. 사실상 분류 문제와 비슷하다. 그러나 문제는 '보통'과 '아웃라이어'의 2개 클래스의 균형을 찾기 힘들다는 점이다. 샘플이 부족하면 아웃라이어가 발

EM 알고리즘 [내부링크]

모수 값을 추정할 때 관측된 자료만으로는 추정이 어려운 경우가 있다. 이때 관측치를 완전하지 않은 자료(incomplete data)로, 어떤 관측되지 않은 잠재치(latent value)를 더한 것을 완전한 자료(complete data)로 볼 수 있다. 다시 말해 관측치에 어떤 잠재치를 더해 완전한 자료(완비 자료)가 될 때, EM-알고리즘을 활용할 상황이 만들어진다. EM 알고리즘에서 관측치는 불완전하다. 이 점을 기억하자. 기본 전제로, 우리는 주어진 PDF와 관측값으로 만들어지는 로그-가능도 함수를 구한 뒤 이를 최대화하는 값을 모수의 추정값으로 활용할 것이다. 하지만 관측값이 불완전해서 직접적인 추정이 어려운 상황이라면, 어떤 완비 자료로 만들어지는 로그-가능도 함수를 사용한 반복 알고리즘으로 추정값을 찾아갈 수 있다. 이러한 기법 중 하나가 EM 알고리즘이다. EM 알고리즘의 목적은 완비 자료의 로그-가능도 함수의 기댓값을 최대로 하는 값을 찾아가며, 결국엔 incomp

MCMC 알고리즘 [내부링크]

1. 깁스 샘플러(Gibbs sampler) 알고리즘 2. 메트로폴리스(Metropolis) 알고리즘 3. 메트로폴리스-헤이스팅스(Metropolis-Hastings) 알고리즘 MCMC 알고리즘이란, Markov Chain Monte Carlo의 약어로 마르코프 체인 원리를 이용한 몬테카를로 적분 방법을 말한다. 이를 깁스 샘플러(Gibbs sampler)라고 부르기도 한다. 주로 통계 문제에서 베이지안적 해법을 찾을 때 적용된다. [깁스 샘플러(Gibbs sampler)] 베이지안 통계학에서 다른 변수는 다 상수 취급해 버리고 파라미터 하나씩 볼 때 PDF를 Full-conditional distribuion이라고 부른다. 예를 들어, 식 (1)은 θ에 대한 full conditional distribution이고, 식 (2)는 σ2에 대한 full conditional distribution이다. 베이지안 통계학에서 | 기호는 조건부 확률에 더해, '주어져 있을 때'로 해석해야

계층적 군집방법 [내부링크]

1. Agglomerative Method - 군집 간 거리척도(Single, Complete, Average, Centroid, Ward) - 계층적 군집분석의 알고리즘 2. Divisive Method - DIANA 알고리즘 3. 군집 수의 결정(RMSSTD, SPR, 군집 간 거리, R2) 군집분석 개요에서 간략히 설명한 바와 같이 계층적 군집방법(Hierarchical Clustering)에는 Agglomerative method와 Divisive method가 있다. 이번 글에서는 이 둘에 대해 설명할 것이다. [Agglomerative Method] [군집 간 거리척도] 지난 군집분석 개요 글에서는 객체 간 유사도를 측정하는 척도를 여럿 제시했었다. Agglomerative method는 유사도가 큰 개체끼리 하나씩 묶어나가는 방식이다. 그런데 실제로 묶어나가다 보면 순식간에 문제가 생길 것이다. 개체 1과 2가 A군집으로 묶였다고 하자. 그리고 개체 3과 4가 있을 때,

초코-치즈 브라우니 만들기 [내부링크]

누군가에게는 한 주의 일과를 끝내는 설레는 날이고, 누군가에게는 일주일 중에서 가장 바쁜 날인 금요일! 나는 평일이나 주말이나 비슷한 스케줄을 소화하고 있어서, 그리고 사실 주말에는 집에 사람이 북적여서 오히려 월, 수, 금이 주말이라고 생각하는 누군가이다. 오늘은 불타는 금요일을 맞아 우리 집 오래된 오븐에도 불을 붙여봤다. 빨갛게 열을 내다가 까맣게 시들어가는 모습이 인상적이었다. 오븐은 10년 전인가? 그보다 오래전에 누나가 쿠키를 만들겠다고 작은 몸집에 큰 것을 한가득 안고 들였다. 명절에 제과가 취미셨던 이모님의 영향을 크게 받았을 거다. 친했으니까. 하지만 친하다고 취미도 공유할 수 있는 건 아니라는 걸 그때 깨달았다. 겨우 며칠이었을 걸로 기억난다. 오븐은 창고에 들어갔다. 어쨌든 오늘 인터넷에서 맛있어 보이는 브라우니를 발견했고, 따라 만들어보기로 결심했다. 친구들한테 말하니 카페 아르바이트도 하면서 제빵도 하니 나중에 카페류 가게 사장님이 될 것이냐고 나한테 물어보더

몬테카를로 적분 [내부링크]

1. 몬테카를로의 의미 2. 몬테카를로 적분법 - Hit or Miss - 표본평균법 - 주표본기법 수학을 좋아하는가? 나는 크게 좋아하지도, 잘하는 편도 아니었다. 특히 정적분이니 부정적분이니 공식을 외우는 게 싫었던 기억이 있다. 실제로 정적분 계산할 때, 보기엔 간단해 보이는 형태의 함수의 부정적분 형태를 구하기가 까다로웠던 경험은 모두 있을 것이다. 그때는 새로운 변수 z를 소환하고, 이중적분을 하면서 문제를 해결했었다. 이번에 소개할 내용은 통계적 분포를 이용해 확률적 실험의 근사해를 구하는 몬테카를로 방법(Monte Carlo Method)이다. 과녁판에 다트를 던졌다고 하자. 과녁판 위 모든 위치에 꼽힐 확률은 동일하다고 할 때, 10점이 나올 확률은 얼마나 될까? 해석학적으로는 코사인이니 사인이니.. 인테그럴(integral) 기호를 막 사용하며 수치적 계산을 할 것이다. 몬테카를로 방법은 다음 아이디어에서 출발한다. 수없이 많이 다트를 던졌다고 생각해 보자. 수없이

비선형방정식의 해법 -1- [내부링크]

1. 순환 공식에 따른 비선형방정식 해법 알고리즘 2. 멱급수와 테일러급수 지금 어떤 방정식 f(x) = 0의 해를 구하고자 한다. 그런데 f(x)라는 함수가 너무 어려워서 해석학적으로 구하기가 매우 어려운 경우가 있다. 이럴 때, 정확한 해를 구하기보다 근사치를 구하는 계산 알고리즘으로 해를 찾아가는 방법이 있다. 반복 알고리즘으로 수치를 변화시켜야 하므로 순환 공식(Recursive formula)을 사용한다. 즉, xn+1 = g(xn)이 있다고 하자. 순환 공식에 의한 기본 알고리즘은 아래와 같다. <단계 1> 순환 함수 g(x), 초기치 x0, 허용오차 ε를 설정한다. <단계 2> 순환 공식 알고리즘을 돌리고, 만약 |xn+1 - xn| / |xn| < ε 이면 마지막 xn+1을 해로 추정한다. 그런데 만약 생성되는 수열이 수렴하지 않아버리면 위 알고리즘은 의미가 없다. 따라서 위의 알고리즘을 사용할 때는 수열이 극한값을 가진다고 가정한다. 그리고 극한값이 ξ라고 할 때,

비계층적 군집방법 -1- [내부링크]

1. K-means 알고리즘 2. K-medoids 알고리즘 - PAM - CLARA - CLARANS - K-means-like 비계층적 군집분석(Nonhierarchichal clustering)은 군집의 수 K를 미리 정해두고 각 객체를 군집에 배정하는 방법이다. 분할 방법(Partitioning)이라고도 부른다. 다르게 보면 n 개의 객체를 K 개의 군집에 할당하는 최적화 문제로 볼 수도 있다. K-means 알고리즘, K-medoids 알고리즘, 퍼지 K-means 알고리즘, 모형 기반 군집 방법 4가지를 소개할 텐데, 이번 글에서는 앞의 2가지 알고리즘에 대해서만 설명하겠다. [K-means 알고리즘] 가장 익숙하면서, 가장 널리 사용되는 K-means 방법이다. K 개의 군집 중심 좌표를 고려하여 각 객체를 가장 가까운 군집에 배정하는 방식이다. 알고리즘은 아래와 같다. 일반적으로, 거리 산출 방법으로는 유클리드 거리를 활용한다. <단계 1> K 개의 개체 좌표를 초기

비계층적 군집방법 -2- [내부링크]

1. 퍼지 K-means 알고리즘 2. 모형기반 군집방법 [퍼지 K-means 알고리즘] 퍼지(fuzzy)는 영어사전에서 흐릿하다는 뜻을 가진다. 군집분석에서 퍼지는 하나의 객체가 하나의 군집에만 속하지 않는다. 하나의 객체는 모든 군집에 속할 가능성이 있으며, 퍼지 K-means는 이 확률을 최적화하는 문제로 정의된다. 그리고 최적화 방식으로 K-means 방법과 동일한 방법을 사용한다. 이것이 끝이다. Pij를 객체 i가 군집 j에 속할 확률이라고 하고, Z를 각 확률과 거리 곱의 총합이라고 할 때, 알고리즘은 아래와 같다. <단계 1> 군집 수 K, 퍼지 상수(fuzziness index) m, 수렴 조건을 정한다. <단계 2> K 개의 초기 군집을 임의로 정한다. <단계 3> 각 군집의 중심 좌표를 식 (1)에 따라 계산한다. <단계 4> Pij를 식 (2)에 따라 계산한다. <단계 5> 객체 i를 Pij가 가장 큰 군집 j에 할당한다. 추가로 설명하자면, cj는 군집 j의

로지스틱 회귀분석 -1- [내부링크]

1. 이분 로지스틱 회귀모형 - 로지스틱 함수와 로지스틱 회귀모형의 정의 - 로짓 변환 - 회귀계수 추정 - 베르누이 분포 vs 이항 분포 - 분류 규칙(비용의 고려여부) - 기타 변환(곰핏 모형, 프로빗 모형, 노밋 모형) 로지스틱 회귀분석은 통상 종속변수가 2개의 범주일 때를 다루나, 3개 이상의 범주를 다루는 경우도 있다. 3개 이상의 범주를 다룰 때는 데이터 종류가 서열형(ordinal data)이냐 명목형(nominal data)냐에 따라 다른 모형을 사용한다. 이러한 로지스틱모형들은 분류분석 외에서도 사용되며, 범주형 종속변수를 갖는 회귀분석에도 사용되기도 한다. [이분 로지스틱 회귀모형] 종속변수가 2가지 변수를 취하는 경우에는 이분 로지스틱 회귀모형을 사용한다. 예를 들면 원하는 결과값이 제품의 불량 여부(O/X), 제품에 대한 선호 여부(선호/불호) 등의 경우이다. 따라서 이때 종속변수를 확률변수 Y로 표현하면 Y는 0 또는 1의 값을 갖는 베르누이분포(Bernoul

로지스틱 회귀분석 -2- [내부링크]

1. 명목 로지스틱 회귀모형(다범주 회귀모형, 기준범주 로짓모형) 2. 서열 로지스틱 회귀모형(누적 로짓모형, 인근범주 로짓모형) [명목 로지스틱 회귀모형] 종속변수가 셋 이상의 범주를 갖고 있는 경우 다범주회귀모형(multicategory regression model)을 사용한다. 예를 들어, 과거의 판촉활동이나 판매 경험의 결과를 놓고 미래의 판매 수를 예측하는 문제, 연봉을 예측하는 문제, 3가지 이상의 불량 종류를 모형화하는 문제 등에 활용된다. 그중, 종속변수가 셋 이상의 범주를 갖고 있으나, 순서는 없는 경우를 고려해 보자. multicategory regression model 중 대표적인 방법으로 기준범주 로짓모형(baseline-category logit model)을 알아보자. 기준범주 로짓모형이란, 특정 범주를 기준(baseline)으로 간주하여 범주별로 회귀 모형을 사용하는 방법이다. Y가 각 범주에 들어갈 확률을 Pj = P{ Y = j } , j= 1, .

군집분석 개요 [내부링크]

1. 군집분석의 개요 2. 유사도와 비유사도 척도 - 명목 속성의 유사도 측정(단순 매칭, 분할표) - 수치형 속성의 유사도 측정(민코브스키 거리, 유클리드 거리, 맨해탄 거리, 마할라노비스 거리, 상관계수) - 서열 속성의 유사도 측정(직접적 방법, 연속형 변환) - 혼합 유형의 유사도 측정(개별 합, 혼합속성접근법) - 코사인 유사도 측정(타니모토 계수) 군집분석은 유사한 속성을 갖는 객체들을 묶어 전체의 객체들을 몇 개의 그룹 또는 군집(Cluster)으로 나누는 방법이다. 예를 들어, 기업의 고객 데이터에서 구매 행태에 따라 비슷한 고객을 그룹핑하는 전략이 있다. 매장 주인은 비슷한 고객 군을 찾아 마케팅에 활용해 매출을 늘리고 싶을 것이다. 분류 분석은 이전의 데이터를 가지고 새로운 객체가 어느 범주에 속할지를 물었다면, 군집분석은 '이전의 데이터'가 없는 상황에서 집단만 만들어내는 것이다. 어느 범주에 객체를 넣을까를 고민하는 것이 아니라, 성격을 얼마나 정확히 구별할 수

확률분포의 생성 -1- [내부링크]

1. 난수 생성자(정의, 성질, 선형합동법) 2. 적합도 검정(피어슨 카이제곱 검정, 콜모고로프-스미르노프 검정) 3. 독립성 검정(런 검정) - Up and down - Above and below the mean 확률 분포란 확률변수가 갖는 값들에 확률이 대응되어 있는 것을 말한다. 여기서 확률변수는 사건과 확률공간을 대응시켜주는 함수로 정의된다. 확률분포는 포아송, 기하, 이항 등과 같은 이산형 확률분포와 정규분포, t-분포, 카이제곱 분포 등과 같은 연속형 확률분포가 존재한다. 확률변수가 갖는 성질에 따라 어떤 분포를 따르느냐가 결정되고, 어떤 분포를 따르느냐는 통계실험에서 중요한 요소이다. 최적화 알고리즘과 통계적 모의실험, 추정 알고리즘을 공부하고 내가 원하는 시스템의 현상을 분석하기 위해서는 먼저 확률분포의 생성과정을 알아야 한다. 이번 글에서는 통계적 실험을 위한 확률분포를 생성하는 알고리즘을 몇 가지 소개하고자 한다. [난수 생성자] 요즘 R과 파이썬 등 다양한 분석

확률분포의 생성 -2- [내부링크]

1. 난수 생성을 활용해 내가 원하는 확률분포 생성하기 - 역변환법 - 변수변환법(단일변량, 다변량) - 거절법 - 합성법 1편에서 난수생성자를 알아보았고 이제는 원하는 확률분포의 생성을 알아볼 차례다. 사실 난수생성자로 만들어진 난수 자체로 분포를 알아낼 수도 있다. 예를 들어, 반복 횟수가 n이고 모비율이 p인 이항분포를 따르는 확률변수 값 50개를 생성하고 싶다고 하자. 알고리즘은 아래와 같다. <단계 1> X를 0으로 초기화한다. <단계 2> U(0,1)을 따르는 난수 Ui를 생성한 후, Ui ≤ p 이면 X값을 X+1로 바꾼다. 이때, i = 1 , ... , n이다. 결과 : 단계 2의 n번 반복이 끝난 후 X값이 구하고자 하는 확률변수 값이 된다. 그런데 위의 방법은 효율적이지 못하다. 우리는 50개를 생성하고자 하므로, 총 '50 x n' 번의 계산을 반복해야 한다. 만약 50개가 아니라 1000개라면? n이 100 이상이라면? 모의실험을 위한 생성 수 n은 원하는 정

분류분석 개요 [내부링크]

Classification Analysis는 다수의 속성 또는 변수를 갖는 객체를 미리 정해진 그룹 또는 범주중 하나에 할당하는 것이다. 쉽게 말해서 이미 수많은 시도로 정답이 알려져있는 데이터에 대해 새로운 데이터가 어디에 속할지를 판단하는 것이다. 군집분석과 헷갈리지 말자. 따라서 이 기법에서 핵심은 각각의 데이터를 수집한 후 효율적인 분류규칙(Classification Rule)을 만드는 것이다. [분류문제 및 분류기법] 위에서 설명했듯, 분류문제는 새로운 객체를 수많은 범주 중 하나로 분류하기 위해, 학습표본을 바탕으로 규칙을 만드는 것이다. 그리고 이 규칙은 변수의 함수형태로 도출되므로 어떤 함수 r(x)라고 생각해보자. r(x)는 분류기(Classifier)라고 부르기도 한다. 그러나 수많은 전공서적에서 알려주는 이론 하나하나가 세상을 모두 설명해주지는 못하듯, 분류기 하나를 만들었다고 해서 모든 데이터를 올바르게 분류해내기를 바라는건 무리다. 그래서 발생하는 실제범주와