ssuout의 등록된 링크

 ssuout로 등록된 네이버 블로그 포스트 수는 58건입니다.

모비율 Wald 신뢰구간 R: binom.confint 함수 [내부링크]

이전 글들에서 모비율과 관련하여 몇 가지 개념들을 살펴보았고 R에서 prop.test()함수의 경우 기본적으로 Wilson 신뢰구간을 제공한다고 확인하였다. 이전 글들의 관련하여 하나의 링크는 아래와 같다: R을 이용한 모비율 검정: prop.test() 이전 글들에서 Stata를 활용하여 단일집단의 모비율에 대한 검정과 관련 개념들에 대하여 살펴보았다. 이... blog.naver.com 이번에는 R에서 Wald 신뢰구간을 확인해 보도록 한다. R에서 binom패키지의 binom.confint()함수를 이용한다. 먼저 예제 자료를 아래와 같이 불러오도록 한다. 본 글에서는 Wooldridge의 책에서 나온 여성의 노동활동참여에 관한 자료이다. library(foreign) example<-read.dta("http://fmwww.bc.edu/ec-p/data/wooldridge/mroz.dta") 이제 관심변수인 inlf에 관한 간단한 특성을 확인해 보도록 한다. 아래를 입력하면

회귀분석과 t검정의 비교: 금융자산 예제 [내부링크]

이번 글에서는 Stata를 활용하여 아무런 설명변수도 모형에 포함시키지 않고 선형회귀분석을 적합시킨 것이 무슨 의미인지 살펴보고 일표본 t검정과 결과를 비교해도록 하겠다. 이번 예제에서는 Stata의 명령어 중 regress, ttest를 중심으로 살펴보도록 한다. 본 글에서 예제 자료의 경우 Wooldridge 책의 예제 8.6의 금융자산(Financial wealth) 방정식과 관련하여 사용된 자료 중에서 종속변수로 활용된 순 금융자산인 nettfa를 이용하도록 한다. 먼저 Stata에 예제 자료를 불러오도록 한 후 관심변수를 간략하게 살펴보도록 한다. <그림 1>과 같은 결과를 얻기 위해서는 아래와 같이 입력한다. use http://fmwww.bc.edu/ec-p/data/wooldridge/401ksubs sum nettfa <그림 1> 먼저 Stata의 선형회귀 관련 명령어는 regress를 이용하여 nettfa를 종속변수로 하여 아무런 독립변수도 모형에 투입하지 않고 모

연관성분석 논문통계 파이계수 SPSS이용 [내부링크]

이번에는 두 명목형 변수가 있을 때 사용할 수 있는 연관성분석의 한 방법에 대하여 SPSS를 활용하여 살펴보도록 하겠습니다. 논문통계에서 보조분석이나 상황에 따라서는 주요분석으로도 활용됩니다. 이전에 이와 관련하여 살펴보았는데 특히 2*2의 표로 표현할 수 있는 상황 즉, 두 개의 명목형 변수가 모두 두 개의 값을 취할 수 있는 상황에서 사용할 수 있는 연관성의 강도와 관련한 측도 중 파이계수에 대하여 살펴보도록 하겠습니다. 특히 파이계수의 경우 SPSS의 메뉴얼이나 일반적인 통계학책에서 살펴볼 수 있는 식이 이용되지 않는다는 점을 확인해 보도록 하겠습니다. 기본적으로 SPSS의 메뉴얼에는 파이계수를 계산하는데 <식 1>을 이용한다고 언급되어 있다. <식 1> 이제 SPSS에 Stata의 예제 자료를 불러와서 파이계수를 계산해 보도록 한다. 예제 자료의 경우 Wooldridge의 교과서에서 사용된 자료이다. 아래와 같이 SPSS에 입력하면 <그림 1>과 같이 자료를 불러올 수 있다.

논문 통계 R활용 상대위험도의 계산 [내부링크]

이번에는 논문 통계 파트에서 2*2 분할표가 제시되어 있는 상황에서 R을 활용하여 상대위험도(Relative risk, risk ratio)를 계산해 보는 방법을 확인해 보도록 하겠습니다. 논문에 제시되어 있는 분석이 적절히 진행되었는지도 확인해 볼 수 있고 분할표가 제시되어 있는데 상대위험도를 계산하지 않았다면 이를 계산해 볼 수 있는 방법입니다. 지난 글들에서 확인하였듯이 상대위험도를 계산하기 위해서는 연구에서 사용된 표본추출 방법이 중요하다고 하였습니다. 자료가 어떻게 수집되었는지 통계패키지는 기본적으로 알지 못하기 때문에 연구자가 논문 통계를 등을 활용하여 이를 계산할 경우 적절한 상황인지 파악해야 할 것입니다. 본 예제에서는 R의 epitools패키지를 활용해 보도록 하겠습니다. 먼저 아래 <표 1>과 같은 자료가 있다고 하자. <표 1> 이제 상대위험도를 계산해 보도록 한다. PA (Physical activity) 참여집단과 참여하지 않은 집단의 Good health 비

논문통계 SPSS이용 가중치의 적용 [내부링크]

이번에는 SPSS를 활용하여 논문통계나 보고서를 작성할 때 이용할 수 있는 가중치 (weights)를 적용하여 상대위험도를 계산하는 방법에 대하여 살펴보도록 하겠습니다. 여러가지 가중치 중에서도 본 글에서는 빈도 가중치 (Frequency weights)를 이용해 보도록 하겠습니다. 자료의 경우 이전글에서 사용한 가상의 자료를 활용할 것 입니다. 두 개의 값을 취하는 두 개의 변수가 있는 상황이며 본 예제에서는 상대위험도도 계산할 것이기 때문에 논의의 편의를 위하여 전향적인 코호트 설계에 의한 자료라고 가정하겠습니다. 자료는 아래 <표 1>에 제시하였습니다. Health PA Good Poor Yes 60 40 No 45 55 <표 1> SPSS를 실행한 뒤에 <표 1>을 데이터 입력기를 통하여 입력해 보도록 한다. 결과는 <그림 1>에 제시하였다. <그림 1> <그림 1>에서 변수 PA의 경우 1의 값을 취하면 "Yes"이고 2의 값을 취하면 "No"라고 할당하였으며 Health의

자모비 jamovi 논문통계분석 위한 설치 [내부링크]

이번에는 논문통계분석에 활용할 수 있는 무료통계패키지 중에 하나인 자모비(jamovi)의 설치 방법에 대하여 간략하게 살펴보도록 하겠습니다. 자모비를 설치하기 위해서는 구글에서 jamovi를 입력하거나 혹은 관련 웹사이트에 직접 접속하면 됩니다. 아래 jamovi를 다운로드 할 수 있는 웹사이트의 링크를 첨부하였습니다: jamovi - Stats. Open. Now. free and open statistical software to bridge the gap between researcher and statistician beta jamovi Cloud Use jamovi in the cloud directly from your browser jamovi Desktop Download and install jamovi onto your computer stats made simple jamovi is a new “3rd generation” statistical spreadshee

자모비 자료 불러오기 및 기술통계 URL이용 [내부링크]

이번에는 자모비로 URL에 있는 자료를 불러와서 기술통계를 살펴보도록 하겠습니다. Stata 파일 형식의 자료를 jamovi로 불러오도록 할 것입니다. 자료는 Wooldridge의 교과서에서 사용된 자료입니다. 먼저 자모비를 실행한 뒤에 불러올 파일의 위치를 입력하기 위하여 아래 <그림 1>의 빨간색 상자부분을 클릭 합니다. <그림 1> 그 뒤에 [Open] -> [This PC]를 선택한다. 그러면 아래 <그림 2>와 같은 화면이 나온다. <그림 2> 위 <그림 2>의 빨간색 상자로 표시한 search box 부분에 자모비로 불러오려는 자료를 주소를 입력하면 된다. 본 글에서는 아래와 같은 주소를 이용한다. 주소를 입력할 때는 아래 제시한 것처럼 파일의 확장자까지 입력해야 한다. 그 후 <그림 3>의 화면에서 Online data set을 클릭하면 자모비로 자료를 불러오게 된다. http://fmwww.bc.edu/ec-p/data/wooldridge/ceosal1.dta <그림

자모비 이용 논문통계 산점도 및 회귀직선 [내부링크]

이번에는 자모비 (jamovi)를 활용하여 논문통계에서 활용할 수 있는 산점도(Scatterplot)을 그려보도록 하겠습니다. 자료의 경우 인터넷 상에 존재하는 Stata 형태의 자료를 이용하도록 하겠습니다. 본 글에서 사용할 자료는 Wooldridge의 교과서에서 이용된 자료로 득표율과 선거경비지출의 관계에 관한 자료입니다. 먼저 자모비에 자료를 불러오도록 하겠습니다. 자모비를 실행한 뒤에 아래 주소를 <그림 1>과 같이 자모비에 입력하면 됩니다. http://fmwww.bc.edu/ec-p/data/wooldridge/vote1.dta <그림 1> 자료가 jamovi로 잘 불러와졌다면 <그림 2>와 같은 화면을 볼 수 있다. 결과를 살펴보면 state변수의 경우 아무것도 입력이 되어 있지 않은데 Stata로 불러와도 결측치로 처리되어 있으며 본 예제에서는 아무런 문제가 되지 않는다. <그림 2> 본 예제에서는 논문통계를 진행하면서 결과 중의 하나로 제시하거나 혹은 예비분석으로 사

오즈비 승산비 계산을 위한 몇 가지 방법과 신뢰구간 R활용 [내부링크]

이번에는 R을 활용하여 오즈비 (Odds ratio: OR)/승산비를 수동대신 함수를 이용하여 구해보도록 한다. 분석에 사용할 자료의 경우 인테넛에서 다운 받을 수 있는 Stata의 예제 자료를 이용하도록 한다. 먼저 R에서 Stata의 예제 자료를 불러오기 위하여 readstata13패키지의 read.dta13()함수를 이용해 보도록 한다. 아래와 같이 입력하면 <그림 1>과 같이 R에 예제 자료를 불러 온 것을 확인해 볼 수 있다. library(readstata13) lbw<-read.dta13("http://www.stata-press.com/data/r15/lbw.dta") str(lbw) <그림 1> 본 예제에서 사용할 변수는 low와 smoke변수이다. 두 변수 모두 취할 수 있는 값이 두 개이다. 아래와 같이 입력하면 이를 확인할 수 있습니다. > table(lbw$low) 0 1 130 59 > table(lbw$smoke) nonsmoker smoker 115 74

상대위험도 Relative risk R 활용 [내부링크]

이번에는 상대위험도 (Relative risk/Risk ratio)에 대하여 살펴 보도록 하겠습니다. 기본적으로 종속변수와 독립변수가 있으며 두 변수 모두 2 개의 값을 취하는 상황을 가정합니다. 분야에 따라서는 이러한 상황에서 독립변수를 위험인자(Risk factor) 혹은 노출(Exposure)라고 지칭하기도 합니다. 먼저 위험도 차이(Risk difference 혹은 Absolute risk difference)를 살펴보자면 위험에 노출된 집단과 노출되지 않은 집단의 종속변수의 발생률의 차이를 의미한다. 예를 들어, 운동집단과 비운동집단의 비만률의 차이를 들 수 있다. 즉, 두 집단에서 종속변수가 발생할 확률 혹은 비율의 차이를 의미한다. 아래 <표 1>을 살펴보자. 2*2 분할표이다. <표 1> 흡연자 중에서 우울증을 경험하는 비율 혹은 확률은 아래와 같다. > 50/80 [1] 0.625 비흡연자 중에서 우울증을 경험하는 비율 혹은 확률은 아래와 같다: > 40/80 [1]

논문통계분석 Stata활용 승산비/오즈비 계산하기 [내부링크]

이번에는 Stata를 활용하여 논문통계분석에서 자주 사용하는 로지스틱회귀분석류의 해석할 때 빈번하게 사용되는 승산비/오즈비 (Odds ratio)를 계산해보도록 하겠습니다. 먼저 수동으로 이를 계산해본 뒤에 Stata의 명령어 중 tabodds를 활용하여 이를 확인해 보도록 하겠습니다. 본 글에서는 Wooldridge의 교과서 중 Econometric Analysis of Cross Section and Panel Data에 사용된 자료를 이용해 보도록 한다. 이제 자료를 Stata에 불러온 뒤에 간단하게 형태를 파악해 보도록 한다. 논문통계분석을 진행할 때는 간단하게라도 자료를 파악해 볼 필요가 있다. 아래와 같이 입력하면 <그림 1>과 같은 결과를 확인할 수 있습니다. . use mroz . su <그림 1> 본 예제에서 이용할 변수는 inlf와 city이다. 두 변수 모두 0과 1의 두 개의 값을 취하는 변수이다. 아래와 같이 입력하여 이를 확인해 보도록 한다. 결과는 <그림

논문통계 분석 R활용 상자그림 [내부링크]

이번에는 R을 활용하여 상자그림을 그리기 위한 몇 가지 방법을 살펴보도록 한다. 본 예제에서는 인터넷 상에 존재하는 Stata의 자료를 RStudio를 불러와서 논문통계 분석을 실시해 보도록 한다. 먼저 R에 예제파일을 불러오도록 해보자. Stata의 자료파일을 불러오기 위해서는 readstata13 패키지의 read.dta13() 함수를 이용한다. 다음과 같이 입력하면 R에 예제 파일을 불러와지며 간단하게 자료파악이 가능합니다. library(readstata13) eg<-read.dta13("http://www.stata-press.com/data/r15/systolic.dta") str(eg) <그림 1> 본 예제에서 논문통계 분석을 위한 상자 그림에 사용할 변수는 disease와 systolic 이다. 상자그림을 그리기 위해서 R의 boxplot()함수를 활용한다. 아래 <그림 2>와 같은 결과를 얻기 위해서는 아래와 같이 입력하면 됩니다. boxplot(systolic~di

논문통계그래프 평균과 표준편차 R의 plotrix패키지 활용 [내부링크]

이번에는 R을 활용하여 논문통계그래프로 제시해 볼 수 있는 평균과 +,- 1표준편차 정보가 들어간 plot을 만들어 보도록 하겠다. 분석에 사용될 변수의 형태는 연속형 변수 1개와 범주형 변수 1개이다. 먼저 R에서 Wooldridge의 교과서에 사용된 Stata 형태의 자료를 불러오도록 하겠다. R에서 Stata의 자료를 불러오기 위해서 foreign패키지의 read.dta() 함수를 이용한다. 자료를 불러온 뒤에 간단하게 자료를 확인하도록 하자. 아래와 같이 입력하면 <그림 1>과 같은 결과를 확인할 수 있다. library(foreign) ana<-read.dta("http://fmwww.bc.edu/ec-p/data/wooldridge/wage1.dta") str(ana) <그림 1> 본 예제에서 이용할 변수는 wage와 numdep이다. 먼저 car패키지의 Tapply()함수를 이용하여 numdep의 값에 따른 wage의 평균을 계산하여 객체로 저장해 보도록 한다. 아래와

논문통계분석 산점도: 명목변수에 따른 두 연속형 변수의 관계 R활용 scatterplot함수 [내부링크]

이번에는 R을 활용하여 산점도를 만들어보도록 한다. 기본적으로 두 연속형 변수의 관계를 살펴보기 위하여 산점도를 이용해 볼 수 있다. 본 글에서는 추가적으로 두 연속형 변수의 산점도를 살펴보면서 추가적으로 명목형 변수의 값에 따라 이러한 두 변수의 관계가 어떻게 변화하는지를 살펴 보도록 할 것이다. 논문통계를 살펴보면 이러한 그래프를 자주 살펴볼 수 있다. 예제 자료의 경우 Woolridge의 교과서에서 이용된 자료이며 Stata 파일 형태의 자료를 R로 불러오도록 한다. 이를 위해서 foreign패키지와 read.dta()함수를 이용해 봅니다. 아래와 같이 입력하면 <그림 1>과 같은 결과를 확인할 수 있다. library(foreign) example<-read.dta("http://fmwww.bc.edu/ec-p/data/wooldridge/wage1.dta") str(example) <그림 1> 이제 plot()함수와 abline()함수를 이용하여 산점도를 그린 후 회귀직선을

로지스틱회귀분석 승산, 승산비, 오즈(Odds) 오즈비(Odds ratio) [내부링크]

이번에는 논문통계분석에서 종속변수가 두 개의 값을 취할 수 있을 때 사용할 수 있는 다양한 학문분야에서 로지스틱회귀분석에서 자주 사용하는 개념인 승산, 승산비 혹은 오즈 (Odds), 오즈비 (Odds ratio)에 대해서 표를 이용하여 살펴보도록 하겠다. 본 예제에서 독립변수가 취할 수 있는 값의 수도 두 개인 상황이다. 어떤 사건이 발생할 확률을 p라고 할 경우 이러한 사건이 발생하지 않을 확률은 1-p이다. 투표를 할 확률, 우승할 확률, 통과할 확률, 투자할 확률 등 실생활이나 연구를 진행하면서 이처럼 두 개의 값을 취할 수 있는 상황은 다양하다. 여기서 승산의 경우 어떠한 사건이 발생할 확률인 p가 이러한 사건이 발생할지 확률의 1-p의 확률에 몇 배인지를 표현하는 개념이다. 승산 자체에 곱의 개념이 들어가며 승산 혹은 오즈가 4일 경우 특정 사건이 발생할 확률이 이런 사건이 발생하지 않을 확률이 4배 임을 의미한다. 승산이 1/4인 경우 특정한 사건이 발생하지 않을 확률이

논문통계 집단에 따른 산점도 Stata활용 [내부링크]

이번에는 논문통계를 진행할 때 활용해 볼 수 있는 두 변수의 관계를 파악하기 위한 산점도를 만들 때 집단에 따라 살펴볼 수 있는 방법을 Stata를 활용하여 진행해 보도록 한다. 본 예제에서 활용할 자료는 Wooldridge의 교과서에서 활용된 자료이다. 분석에 사용할 연속형 변수는 wage와 IQ이다. 먼저 예제 자료를 불러온 뒤에 아래와 같이 기본적인 자료의 형태를 파악해 보도록 한다. <그림 1>과 같은 결과를 확인하기 위해서는 아래와 같이 입력한다. . use http://fmwww.bc.edu/ec-p/data/wooldridge/wage2 . su <그림 1> 이제 wage와 IQ 변수를 활용하여 산점도를 그려보도록 한다. Stata의 scatter명령어를 이용하며 <그림 2>와 같은 결과를 확인하기 위해서는 아래와 같이 입력하면 된다. . scatter wage IQ <그림 2> 몇 가지 옵션을 적용하여 <그림 2>를 변경해 보도록 하자. <그림 3>과 같은 결과를 얻기

로지스틱회귀 오즈와 오즈비 R활용 [내부링크]

이전에 논문통계에서 자주사용하는 로지스틱회귀(Logistic regression)에서 계수 해석을 위하여 자주 사용하는 승산과 승산비 혹은 오즈(Odds) 와 오즈비 (Odds ratio)에 대하여 분할표를 이용하여 계산하는 방법에 대하여 알아 보았었다. 승산은 어떠한 사건이 발생할 확률이 발생하지 않을 확률에 몇 배인가를 의미한다. 승산비의 경우 두 개의 승산을 비교한 수치이다. 간단하게 두 개의 값을 취할 수 있는 하나의 종속변수가 있고 독립변수로 활용할 수 있는 두 개의 값을 취할 수 있는 변수 한 개가 있을 때 독립변수의 각 집단에 대하여 구한 승산의 비를 의미한다. 기본적으로 승산은 p/(1-p) 이다(여기서 p는 성공할 확률을 의미). 이제 두 개의 값을 취하는 다른 변수가 있다면 이 변수의 각각에 대하여 승산을 구한 후 그 비를 계산한 것이 승산비이다. <식 1>에서 OR은 odds ratio, 승산비를 의미하고 odds1, odds2은 각 집단에서 승산을 구한 것이다.

상자그림 박스플롯 그리기 Stata [내부링크]

이번에는 Stata를 활용하여 상자그림(Box plot)의 몇 가지 옵션 사용법에 대하여 살펴보도록 하겠습니다. 본 예제에 사용할 자료는 Wooldridge에 교과서에서 사용된 자료이다. 먼저 Stata로 자료를 불러온 뒤에 자료를 대략 적으로 살펴보도록 한다. 아래와 같이 Stata에 입력하면 <그림 1>과 같은 결과를 얻을 수 있다. . use http://fmwww.bc.edu/ec-p/data/wooldridge/wage1 . su <그림 1> 본 예제에서 이용할 변수는 wage와 female 변수이다. 먼저 기본적으로 female변수에 따른 wage 변수에 대한 상자그림을 그려보도록 한다. 기본적인 방법을 적용하여 이를 그리기 위해 아래와 같이 입력하면 <그림 2>와 같은 결과를 얻을 수 있다. . graph box wage, over(female) <그림 2> 이제 박스플롯의 밖에 있는 점을 그래프에서 제거해 보도록 한다. 아래와 같이 입력하면 <그림 3>과 같은 결과를

Stata 및 SPSS에서 파이계수 [내부링크]

이전 글에서 파이계수, Cramer의 V계수와 분할계수 등에 대하여 SPSS를 통하여 살펴볼 수 있는 방법에 대하여 살펴보았다: SPSS 명목변수 간의 연관성 정도 이번에는 SPSS를 활용하여 변수 간의 연관성 정도를 살펴 보도록 하겠다. 두 변수 모두 명목형 변수(N... blog.naver.com 그런데 SPSS 메뉴얼의 파이계수와 관련된 계산 방법을 살펴보면 제곱근을 취하기 때문에 그 값이 음의 값을 취해서는 안된다는 것을 알 수 있다. 본 예제에서는 SPSS를 이용하여 파이계수를 계산하였을 때 음수가 나오는 상황에 대하여 예제를 통하여 살펴보도록 한다. 추가적으로 Stata를 활용하여서도 결과를 확인해 보도록 한다. 먼저 이전 글과 동일한 자료를 SPSS로 불러오도록 한다. 그 뒤에 본 예제에서는 다른 변수를 사용해 보도록 한다. 먼저 SPSS를 활용하여 Wooldridge 교과서에 사용된 자료를 불러오도록 한다. 아래와 같이 입력하면 <그림 1>처럼 Stata의 자료를 SP

카이제곱검정 표준화잔차 Stata [내부링크]

이전 그들에서 논문통계에서 자주 활용되는 카이제곱검정을 활용 두 변수의 연관성에 대하여 살펴보았다. 가설검정을 통해 두 변수의 독립여부를 판단할 수 있었다. 그런데 상황에 따라서는 각 셀의 기대값과 실제값의 비교를 해볼 수 있고 이로 인하여 변수 간의 관계를 더욱 명확히 살펴볼 수도 있다. 특히 이는 변수들이 취하는 값이 많을 때 더욱 명확하게 파악할 수 있게 해준다. 즉, 카이제곱검정을 실시할 때 어떠한 셀의 영향력이 강한지 혹은 약한지 판단할 때 이용할 수 있는 것이다. 이를 위해서 잔차를 이용한 분석을 할 수 있다. 카이제곱검정과 관련한 잔차분석에는 몇 가지가 있는데 본 예제에서는 표준화잔차(Standardized residual) 혹은 피어슨 잔차(Pearson residual)이라고 불리우는 잔차 분해 봅에 대하여 살펴보도록 한다. 본 분석에는 Stata를 활용하며 예제 자료의 경우 Wooldridge의 교과서에서 사용된 자료를 활용하도록 한다. 분석에 활용한 변수는 eng

다원교차표 논문통계분석 Stata활용 [내부링크]

그동안 교차표(Cross-tabulation)을 만들어 볼 때 변수가 2개인 경우만을 고려하였다. 그러나 교차표는 변수가 3개 이상인 경우에도 활용해 볼 수 있다. 논문통계분석이나 보고서 통계분석에서 자주 활용되는 것을 알 수 있다. 본 예제에서는 다원교차표를 Stata를 활용해야 만들어 보도록 한다. 특히 3원 교차표를 고려해 보도록 한다. 먼저 다원교차표를 만들기 위하여 Stata의 예제 자료를 불러온 뒤에 간단하게 자료를 살펴보도록 한다. 아래와 같이 Stata에 입력하면 <그림 1>과 같은 결과를 확인할 수 있다. webuse sysdsn1 sum <그림 1> 본 예제에서 이용할 변수는 male, insure, site로 모두 명목형 변수이다. 먼저 table명령어를 이용하여 다원교차표를 만들어 보도록한다. 아래와 같이 입력하면 <그림 2>와 같은 결과를 확인할 수 있다. table male insure site, contents(freq) <그림 2> <그림 2>의 결과를

단순회귀분석 파이썬활용 [내부링크]

이번 글에서는 파이썬을 활용하여 단순회귀분석 (Simple regression analysis)을 수행해 보도록 한다. 단순회귀분석의 경우 연속형 종속변수와 독립변수가 1개일 때 적용해 볼 수 있다. 본 예제에서는 Wooldridge의 교과서인 Introductory Econometrics: A Modern Approach에 사용된 예제 자료를 활용하여 분석해 보도록 한다. 자료의 경우 인터넷에 있는 Stata 자료파일을 활용하도록 한다. 먼저 파이썬을 실행시킨 뒤에 아래와 같이 입력하여 자료를 불러오도록 한다. 아래와 같이 입력하면 <그림 1>과 같이 Python에 예제 자료파일이 불러와진 것을 확인할 수 있다. import pandas as pd url='http://fmwww.bc.edu/ec-p/data/wooldridge/wage1.dta' data=pd.read_stata(url) <그림 1> 위 <그림 1>의 data객체를 더블클릭하면 <그림 2>와 같이 자료를 확인해

다차원분할표 R활용 [내부링크]

이번 글에서는 R을 활용하여 다차원분할표를 만들어 보도록 한다. 먼저 R에서 인터넷 상에 존재하는 Stata 자료 형태 파일을 불러오도록 한다. 아래와 같이 입력하면 R에 Stata 파일을 불러올 수 있으며 <그림 1>과 같이 기본적이 자표를 파악해 볼 수 있다. library(readstata13) example<-read.dta13("http://www.stata-press.com/data/r15/sysdsn1.dta") str(example) <그림 1> 본 예제에서는 명목형 변수 (Categorical variable)인 male, insure, stie를 이용하여 다차원 교차표를 만들어 보도록 한다. 먼저 간단하게 table()함수를 이용하여 각 변수에 대한 빈도표를 작성해 보도록 한다. > table(example$male) 0 1 477 167 > table(example$insure) Indemnity Prepaid Uninsure 294 277 45 > table(e

논문통계 두 변수에 대한 교차표와 평균 [내부링크]

이번에는 R을 활용하여, 논문통계나 보고서 등에서 자주 활용되는 두 개의 명목형 변수가 있고 이러한 변수에 각 값에 따라 혹은 교차 테이블의 각셀에 다른 연속형 변수의 평균을 구하는 작업을 해보도록 한다. 예제 자료의 경우 인터넷에서 Stata 자료를 받아서 이용하도록 한다. R에 Stata의 자료를 불러오기 위하여 먼저 readstata13 패키지의 read.dta13() 함수를 이용해 보도록 한다. 자료를 불러온 뒤에는 간단하게 자료의 정보를 str()함수를 이용하여 살펴보도록 한다. <그림 1>과 같은 결과를 확인하기 위해서 R에 아래와 같이 입력하면 된다. library(readstata13) article<-read.dta13("http://www.stata-press.com/data/r15/systolic.dta") str(article) <그림 1> 본 자료 파일에는 3개의 변수가 있는데 본 예제에서는 모두 활용하도록 한다. 여기서 명목형 변수는 drug과 disease

논문통계분석 분할표와 평균 R활용 [내부링크]

이번에는 R을 활용하여 R의 xtabs()함수 및 aggregate()함수를 조합하여 분할표와 각 셀에 대응하는 제3의 변수의 평균을 활용해 보도록한다. 논문통계분석이나 보고서 등에 자주 사용된다. 본 글에서 예제자료는 인터넷에서 제공되는 Stata파일을 이용한다. RStudio에 자료를 불러오기 위해서는 아래와 같이 입력하면 된다. <그림 1>과 같은 결과를 확인할 수 있다. 자료를 불러온 뒤에 기본적인 자료를 파악해보도록 한다. library(readstata13) example<-read.dta13("http://www.stata-press.com/data/r15/sysdsn1.dta") str(example) <그림 1> 본 예제에서 사용할 명목형 변수는 male와 nonwhite이다. 두 변수 모두 0과 1의 값을 취하는 변수이다. 다음과 같이 두 변수에 대하여 교차표를 만든뒤에 각셀에 절대 빈도를 확인해 보도록 하자. > table(example$male, example$

등분산성 검정 Levene 검정 Stata [내부링크]

이번에는 집단의 분산이 동일한지 검정하는 방법 중의 하나인 Levene 검정을 Stata를 활용하여 살펴보도록 하겠다. 집단의 분산이 동일한지 여부를 검정하는 방법은 여러가지가 존재하지만 Levene 검정의 경우 정규분포 가정을 만족시키지 못한 상황에서도 일반적으로 F 검정과 비교하여 상대적으로 강건한 결과를 제공한다고 알려져 있다. 본 예제에서는 Wooldridge의 교과서에서 제시된 자료를 이용할 것이다. 먼저 Stata의 분석 자료를 불러오기 위하여 아래와 같이 입력하자. <그림 1>과 같은 결과를 확인할 수 있다. use http://fmwww.bc.edu/ec-p/data/wooldridge/wage1 su <그림 1> 본 예제에서 이용할 변수는 wage와 married이다. 즉 married의 값에 따라 wage의 분산에 차이가 존재하는지 가설검정을 하는 것이다. 이제 married 별로 wage의 분산을 구해보도록 한다. 두 가지 방법을 활용해 보도록 한다. 먼저 bys

연관성분석 범주형 자료: Stata활용 논문통계 [내부링크]

이번에는 연관성분석에 대하여 살펴보도록 한다. 이용할 자료의 경우 범주형 변수(Categorical variable)이다. 분석을 위한 통계 패키지는 Stata이다. 통상적으로 연속형 변수의 경우 피어슨 상관계수를 통한 분석을 주로 이용하지만 연속형 변수가 아닌 범주형 변수인 경우 두 변수가 연관성이 있는지 다른 분석 방법을 적용해 볼 수 있다. 논문통계 및 특히 보고서 등에서 이러한 범주형 자료에 관한 연관성분석이 자주사용된다. 기본적으로 범주형 변수에 대한 연관성분석의 경우 두 변수가 확률적으로 독립인지를 판단하는 것에 목적이 있다. 넓게는 범주형 변수의 경우 명목형과 서열형 변수로 구분해 볼 수 있는데 본 예제에서는 범주형 변수에 관한 연관성분석을 실시해보도록 한다. 일단 <그림 1>과 같이 Stata에 예제 자료를 불러오도록한다. 예제 자료의 경우 Hill 등의 책에서 사용된 자료를 이용한다. 아래와 같이 입력하면 <그림 1>을 확인할 수 있다. use http://www.s

논문통계 피셔의 정확검정 [내부링크]

연관성 분석에 대하여 살펴보았다. 실제 논문통계를 진행하면서 연관성 분석을 실시할 때 각 셀의 기대빈도수가 작은 경우가 발생할 수 있다. 이러한 상황에서 피셔(Fisher)의 정확검정을 적용해 볼 수 있다. 일반적으로 기대빈도가 5보다 작은 경우 연관성 분석을 위해 카이제곱 검정 뿐만 아니라 피셔의 정확검정을 함께 실시해 볼 수 있다. 이를 통하여 결과의 강건성을 확인해 볼 수 있는 것이다. 본 예제에서는 Stata의 예제 자료를 통하여 피셔의 정확검정을 실시해보도록 한다. 예제 자료의 경우 UCLA 통계 컨설팅 사이트에서 제공하는 자료를 이용해 보도록 한다. 다음과 같이 자료를 Stata에 불러온 뒤에 전체 자료를 살펴보도록 한다. <그림 1>과 같은 결과를 확인하기 위하여 아래와 같이 입력하도록 한다. use https://stats.idre.ucla.edu/stat/stata/notes/hsb2 su <그림 1> 본 예제에서는 race와 prog변수의 연관성을 살펴보도록 할 것

연관성검정 R활용 [내부링크]

이전에 Stata를 활용하여 연관성검정을 진행해 보았다. 이번 글에서는 R을 활용하여 연관성검정을 실시해보도록 한다. 통상적으로 둘 이상의 명목형 변수들의 관계를 살펴볼 때 본 글에서 살펴보는 검정을 이용할 수 있다. 연관성검정의 경우 논문통계 뿐만 아니라 보고서 등에서도 변수의 특성에 따라서 자주 사용되는 방법이다. 예제 자료의 경우 UCLA의 통계 컨설팅 사이트에서 제공하는 Stata 파일을 활용할 것이다. 먼저 R에 Stata의 자료를 불러온 뒤에 간단하게 불러온 자료를 str()함수를 이용하여 살펴 보도록 하자. 아래와 같이 입력하면 <그림 1>과 같은 결과를 확인할 수 있다. library(foreign) example<-read.dta("https://stats.idre.ucla.edu/stat/stata/notes/hsb2.dta") str(example) <그림 1> 본 예제에서는 변수 prog와 변수 schtyp를 이용해 보도록 한다. 두 변수 모두 명목형 변수이다.

연관성강도 카이제곱 검정 [내부링크]

그동안 변수 간의 연관성의 관계를 가설검정을 통하여 확인하는 방법에 대하여 살펴보았다. 기본적으로 두 명목변수가 독립인지 여부를 카이제곱 검정을 통하여 살펴볼 수 있으며 특히 교차표를 생성하였을 때 각 셀의 기대빈도수가 5보다 작을 경우 피셔의 정확검정을 이용해 볼 수 있다. 이러한 카이제곱 검정의 경우 다른 통계검정 방법과 마찬가지로 논문통계를 진행할 때 연구자가 필요로하는 정보를 다 제공하지는 못한다. 기본적으로 통계적으로 두 변수간의 연관성이 존재하는지 여부를 가설검정하는 것 이외에도 두 변수간의 연관성강도에 대하여 판단해 볼 필요가 있는 경우도 존재한다. 카이제곱 값의 경우 기본적으로 다른 요소가 동일할 때 표본의 크기가 증가하면 그 값도 증가하는 성질이 존재한다. 이로 인하여 두 변수간의 연관성강도가 약한 상황에서도 표본 크기가 클 경우 통계적으로 유의미한 결과를 발견할 가능성이 존재한다. 이번에는 이러한 가설검정 이외에 두 변수간의 연관성강도를 나타내는 통계량에 대하여 R

피셔정확검정 R활용 [내부링크]

이번에는 R을 활용하여 피셔정확검정 (Fisher's exact test)에 대하여 살펴보도록 하겠다. 기본적으로 변수들의 연관성 검정을 할 때 셀의 기대빈도가 5보다 작을 경우 결과의 강건성을 확인하기 위하여 피셔정확검정을 이용해 볼 수 있다. 논문이나 보고서 등에서 빈번하게 사용된다. 본 예제에서는 Stata의 자료 파일을 R로 불러와서 분석을 실시해보도록 한다. 이용할 자료는 Wooldridge에 제시되어 있는 자료이다. 자료를 불러온 뒤에 간단하게 자료의 형태를 파악해보도록 한다. 아래와 같이 입력하면 <그림 1>과 같은 결과를 확인할 수 있다. library(foreign) dt<-read.dta("http://fmwww.bc.edu/ec-p/data/wooldridge/gpa1.dta") str(dt) <그림 1> 본 예제에서 사용해볼 변수는 PC와 clubs이다. 먼저 교차표를 R의 xtabs()함수를 이용하여 제작해 보도록 한다. 아래와 같이 입력하면 <그림 2>와 같

SPSS논문통계 카이제곱검정 [내부링크]

이번 글에서는 SPSS를 활용해보도록 한다. SPSS논문통계 카이제곱검정을 실시해보도록 한다. 카이제곱검정의 경우 SPSS논문통계를 활용하여 두 개 이상의 명목형 변수의 연관성을 살펴보려고 할 때 활용해 볼 수 있다. 본 예제의 자료의 경우 인터넷에 올라와 있는 Stata의 자료파일을 이용하도록 한다. 아래와 같이 SPSS신택스를 이용하여 입력하면 <그림 1>과 같이 인터넷 상의 Stata 예제 파일을 SPSS로 불러올 수 있다. SPSSINC GETURI DATA URI="http://fmwww.bc.edu/ec-p/data/wooldridge/gpa1.dta" FILETYPE=Stata. <그림 1> 본 예제에서 활용할 변수는 campus변수와 business변수를 활용해 보도록 한다. 두 변수 모두 0과 1의 값을 취하는 변수이다. 먼저 두 변수에 대하여 교차표를 만들어 보도록 한다. SPSS에서 crosstabs명령어를 활용하면 된다. 다음과 같이 입력하면 <그림 2>와 같은

SPSS 명목변수 간의 연관성 정도 [내부링크]

이번에는 SPSS를 활용하여 변수 간의 연관성 정도를 살펴 보도록 하겠다. 두 변수 모두 명목형 변수(Nominal variable)인 상황이다. 예제 자료는 인터넷에서 받을 수 있는 Wooldridge의 교과서에 제시된 자료를 활용하도록 한다. 먼저 SPSS에 Stata의 예제 자료를 불러온 뒤에 다음과 같이 간략하게 자료를 살펴보도록 하자. 본 예제에 이용할 변수는 walk와 PC이다. 아래와 같이 입력하면 <그림 1>과 같은 결과를 확인할 수 있다. SPSSINC GETURI DATA URI="http://fmwww.bc.edu/ec-p/data/wooldridge/gpa1.dta" FILETYPE=Stata. <그림 1> 이제 변수 walk와 PC에 대한 교차표를 만들어 보도록 한다. 아래와 같이 SPSS에 입력하면 <그림 2>와 같은 결과를 확인할 수 있다. crosstabs walk BY PC. <그림 2> 이제 두 변수의 연관성 강도에 대하여 살펴보도록 한다. 추가적으로

웰치 t검정 Welch's t-test [내부링크]

이번에는 R을 활용하여 웰치 t 검정(Welch's t-test)를 시행해보도록 한다. 독립표본t검정의 경우 두 집단의 분산이 동일하다는 동분산 가정을 하는데 만약 이러한 두 집단의 분산이 동일하다는 가정이 의심된다면 웰치 t 검정 등을 이용하여 결과를 비교해 볼 수 있다. 본 분석의 예제 자료의 경우 Wooldridge의 자료를 활용하고 분석에 사용할 독립변수의 경우 finance이며 종속변수의 경우 salary이다. 먼저 R에 Stata의 예제 자료를 불러오도록 한다. 패키지의 경우 foreign을 활용해 보도록 할 것이다. 아래와 같이 R에 입력하면 <그림 1>과 같은 결과를 확인할 수 있다. library(foreign) example<-read.dta("http://fmwww.bc.edu/ec-p/data/wooldridge/ceosal1.dta") str(example) <그림 1> 이제 finance변수의 값에 따른 salary의 평균 등에 대하여 살펴보도록 한다. 이를

등분산 검정 두 모집단의 분산 F검정 [내부링크]

이번에는 R의 활용하여 두 모집단의 분산이 동일한지 등분산 검정과 관련한 가설검정을 해보도록 한다. F 검정을 활용해 보도록 한다. 예제 자료의 경우 Wooldridge의 자료를 이용하며 F검정과 관련하여 R에서는 var.test()함수를 이용하도록 한다. 이러한 검정은 그 자체로도 논문통계의 주요 목적일 수 있으며 경우에 따라서는 특정 검정에서 분산이 동일하지 여부에 따라 적용방법이 다르기 때문에 이를 확인하기 위하여 사용해 볼 수도 있다(예, 독립표본t검정). 주요 종속변수는 salary이고 독립변수는 finance이다. 먼저 아래와 같이 R에 입력하여 예제 자료를 불러온 뒤에 기본적인 자료 형태를 살펴보도록 한다. 결과는 <그림 1>에 제시하였다. library(foreign) ex<-read.dta("http://fmwww.bc.edu/ec-p/data/wooldridge/ceosal1.dta") str(ex) <그림 1> 이제 독립변수인 finance의 값에 따른 salar

바틀렛검정 동분산 검정 [내부링크]

이번에는 R의 활용하여 집단의 동분산을 검정하는 방법 중에 하나인 바틀렛 검정(Bartlett's test)에 대하여 살펴 보도록 한다. 집단 간의 분산의 동일한지 가설검정을 하는 것이 주요목적인 연구에도 사용할 수 있으며 이러한 가정을 요구하는 분석의 결과가 적절한지 판단하기 위하여 사용할 수도 있다. 본 글에서는 Wooldridge의 책에 제시된 자료를 활용한다. 먼저 예제 자료를 불러오도록 한다. 먼저 다음과 같이 예제 자료를 불러온 뒤에 head()함수를 이용하여 자료를 간략하게 파악해 보도록 한다. <그림 1>의 결과를 확인하기 위해서는 아래와 같이 입력하면 된다. library(foreign) ceo<-read.dta("http://fmwww.bc.edu/ec-p/data/wooldridge/ceosal1.dta") head(ceo) <그림 1> 본 예제에서는 0과 1의 값을 취하는 utility에 따라 lsales 분산에 차이가 있는 살펴보도록 한다. 아래와 같이 uti

레벤검정 Levene's Test 등분산 검정 [내부링크]

논문통계 분석을 진행할 때 다양한 분석 방법에서 분산의 동질성 가정을 요구하고 있다. 이와 관련하여 특정 분석 방법을 시행한 뒤에 이러한 동질성 가정을 충족시키지 못하였다고 판단될 경우 이에 강건한 추정법을 적용할 수도 있지만 먼저 사전에 등분산성/ 동분산성 가정을 확인해 볼 수 있다. 이후 등분산을 가정하지 않은 방법을 적용해 볼 수도 있다. 집단간 분산이 동일한지 여부를 가설검정하기 위해 다양한 방법이 고안되었다. 이번에는 레벤검정(Levene's test)에 대하여 살펴보도록 한다. 다른 등분산 검정 방법과 비교하여 레벤검정의 경우 정규성 가정에 강건한 것으로 알려져 있다. 즉, 정규성 가정을 축족시키지 못한 상황에서도 다른 검정들과 비교하여 결과를 신뢰할 수 있다는 것을 의미한다. 본 예제에서는 R을 사용해 보도록 한다. R에서 레벤검정을 실시하기 위해서는 leveneTest()함수를 이용해 볼 수 있다. 이 함수를 이용하기 위해서는 car패키지를 설치해야 한다. 먼저 R에

파이썬 아나콘다 설치하기- Python Anaconda Spyder [내부링크]

파이썬(Python) 아나콘다(Anaconda)를 설치해 보도록 한다. 처음 프로그램을 설치할 때면 어려움이 따르는데 파이썬 역시 이러한 프로그램에 익숙하지 않은 사람들이 설치를 시도하면 상당히 많은 시간이 소요될 수 있다. 학기 반이 지나도 설치 못하는 혹은 안하는 상황도 발생할 수 있다. 빠른 속도로 파이썬의 기능을 이용해 보려한다면 본 글을 따라 해보면 된다. 먼저 아래 링크로 들어간다: https://www.anaconda.com/products/distribution Anaconda | Anaconda Distribution Anaconda's open-source Distribution is the easiest way to perform Python/R data science and machine learning on a single machine. www.anaconda.com 위 링크를 클릭하여 들어가면 아래 <그림 1>과 같은 화면이 나오는데 여기서 빨간 상자의 D

파이썬에서 Stata 파일 불러오기: 판다스 이용 [내부링크]

이번에는 파이썬(Python)에서 Stata의 자료 파일을 불러오는 방법에 대하여 살펴보도록 한다. 본 글에서는 컴퓨터에 내려받은 파일이 아닌 인터넷 상에 존재하는 Stata 자료를 이용하는 방법을 살펴보도록 할 것이다. 먼저 파이썬 Spyder를 실행한다. 예제 자료의 경우 Wooldridge의 교과서에서 다루고 있는 CEO 급여와 자기자본 수익률의 관계에 관한 자료이다. 파이썬에서 Stata의 자료 파일을 불러오는 패키지는 몇 가지가 있는데 인터넷 상에 존재하는 자료를 불러오기 위해서 사용해 볼 수 있는 것이 판다스(Pandas) 패키지이다. 먼저 아래와 같이 입력하여 패키지를 불러와 보도록 한다. 그 후 자료가 있는 url을 생성한 뒤에 read_stata()를 이용하여 파이썬에 이러한 자료 파일을 불러오도록 한다. 여기서 객체는 최종적으로 example이라고 명명하였다. import pandas as pd url='http://fmwww.bc.edu/ec-p/data/wool

파이썬산점도 그리기: 임금과 교육 [내부링크]

파이썬(Python)을 활용하여 파이썬산점도를 그려보도록 한다. 이전에 살펴본 Python에서 Stata 자료를 불러오는 방법을 이용하여 자료를 불러온 뒤에 이 자료를 이용하여 파이썬산점도(Scatterplot)을 그려보도록 한다. 예제 자료는 Wooldridge의 자료를 활용하도록 한다. 분석에는 임금과 교육의 관계에 관한 모형을 이용하도록 한다. 먼저 아래와 같이 입력하여 파이썬에 Stata 자료를 불러오도록 한다. 여기서 .head()를 이용하면 <그림 1>과 같은 결과를 확인할 수 있다. import pandas as pd url='http://fmwww.bc.edu/ec-p/data/wooldridge/wage1.dta' example=pd.read_stata(url) example.head() <그림 1> 본 예제에서 종속변수는 wage, 독립변수는 educ로 설정해 보도록 한다. 이제 파이썬산점도를 그리기 위하여 .plot.scatter()를 이용해 보도록 한다. 아래와

독립표본 t검정 SPSS [내부링크]

이번에는 SPSS를 활용하여 논문 통계 분석에 자주 이용되는 독립표본 t검정(Indepdent samples t-test)에 대하여 살펴보도록 한다. 예제 자료의 경우 Wooldridge의 책에 제공된 것을 이용한다. 간단하게 독립표본 t검정은 단일 집단에 대하여 두 번 반복 측정하였거나 혹은 쌍둥이 혹은 동일가구에 속한 가구원 등 상관이 존재한다고 판단될 때 이용하는 종속표본 t검정 혹은 반복측정 t검정과 달리 두 집단이 서로 다르다고 가정한 상황이다. 간단한 예로는 정책 프로그램에 참여한 집단과 참여하지 않은 집단의 운동능력 비교하거나 수술을 받은 집단과 받지 않은 집단의 건강 상태 비교(연속형으로 측정 가능한), CCTV 설치한 지역과 그렇지 않은 지역의 범죄 비교 등에 사용할 수 있다. 먼저 SPSS에 예제 자료를 불러오도록 한다. 아래와 같이 SPSS에 입력하면 <그림 1>과 같이 예제 자료를 SPSS로 불러온 결과를 확인할 수 있다. SPSSINC GETURI DATA U

독립표본t검정 두 모집단의 평균 비교 R [내부링크]

이번에는 R을 활용하여 독립표본t검정 (Independent samples t-test)을 실시해보도록 한다. 독립표본 t검정의 경우 두 개의 독립적인 표본을 활용하여 모평균에 차이가 있는지 검정할 때 사용해 볼 수 있으며 논문통계에서도 여러 분야에서 빈번하게 사용되고 있다. 예제에 사용되는 자료는 Wooldridge의 책에 사용된 자료이며 분석에 이용할 종속변수는 wage이고 독립변수는 married 이다. 독립표본t검정은 기본적으로 하나의 독립변수가 있고 이러한 독립변수가 취하는 값이 두 가지인 상황에서 사용할 수 있다. 먼저 RStudio에 자료를 불러온 뒤에 기본적으로 str()함수를 이용하여 자료를 살펴보도록 한다. 다음과 같이 입력하면 <그림 1>과 같은 결과를 확인할 수 있다. library(foreign) example<-read.dta("http://fmwww.bc.edu/ec-p/data/wooldridge/wage1.dta") str(example) <그림 1>

독립인 두 표본 모평균 차이 t값과 분산 [내부링크]

이번에는 논문통계에서 독립인 두 표본의 모평균 차이를 가설검정 할 때 사용하는 독립표본 t검정에서 t값과 두 모집단의 분산이 동일하다고 가정할 때 이용할 수 있는 공통분산 추정량에 대하여 살펴보도록 한다. 분석에는 Stata를 이용해 보도록 한다. 먼저 t값은 다음과 같은 식으로 계산할 수 있다. <그림 1> 위 <그림 1>의 식에서 n1과 n2는 각각 각 집단의 수를 의미한다. Sp의 경우 합동분산추정량을 이용하여 구한 표준편차를 의미한다. 아래첨자의 숫자는 각 집단을 식별하는 것이다. 여기서 자유도는 n1+n2-2 이다. 합동분산추정량은 아래와 같다: <그림 2> 위 <그림 2>에서 S2는 표본 분산(Sample variance)를 의미한다. 이제 Stata에 예제 파일을 불러온 뒤에 이를 계산해보도록 한다. 분석에는 Wooldridge의 자료를 이용한다. 아래와 같이 입력하면 <그림 3>의 결과를 확인할 수 있다. use http://fmwww.bc.edu/ec-p/data/w

논문통계 독립표본t검정 등분산성 Stata [내부링크]

이전 글들에서 독립표본t검정에 대해서 살펴보았다. 논문통계 독립표본t검정을 이용할 때는 다른 통계분석들과 마찬가지로 충족시켜야 하는 가정들이 있는데 그 중에 하나가 등분산성이다. 이번에는 Stata를 활용하여 독립표본t검정을 실시해야 하는 상황에서 두 모집단의 분산이 동일하다는 가정이 의심되는 상황에서 적용해볼 수 있는 방법 중에 하나를 살펴보도록 한다. 예제 자료의 경우 Hill 외의 Principles of Econometrics의 예제 자료를 사용하도록 한다. 관심 독립변수는 utown이며 종속변수의 경우 price이다. 먼저 아래와 같이 입력하면 Stata에 예제 자료를 불러와 <그림 1>과 같은 결과를 확인할 수 있다. 예제 자료를 불러온 뒤에 간단하게 자료를 살펴본 결과이다. use http://www.stata.com/data/s4poe5/data/utown su <그림 1> 이제 utwon값에 따른 price 변수의 평균 및 표준편차 등에 대하여 살펴보도록 한다. 아래

논문통계 독립표본t검정 t값 등분산 가정 [내부링크]

이번에는 독립표본 t검정 (Independent samples t-test)과 관련하여 등분산/동분산 가정이 성립하지 않을 때 t값의 계산식에 대하여 살펴보고 수동으로 계산해 보도록 한다. 예제를 위한 분석은 Stata를 이용하도록 한다. 먼저 아래와 같이 예제 자료를 Stata로 불러오도록 한다. 예제 자료는 Hill 등의 Principles of Econometrics의 책에 나온 것이다. 자료를 Stata로 불러온 뒤에 간단하게 자료를 살펴보도록 하자. use http://www.stata.com/data/s4poe5/data/utown sum <그림 1> 본 예제에서는 종속변수로 price로 독립변수로는 pool을 이용하도록 하자. 다음과 같이 pool에 따른 price의 평균과 표준편차 (Standard deviation) 등을 살펴보도록 한다. 아래와 같이 입력하면 <그림 2>와 같은 결과를 확인할 수 있다. bys pool: sum price <그림 2> 이제 Stata

두 집단 평균 비교: 독립표본t검정 자유도 계산하기 [내부링크]

그동안 독립표본 t검정(Independent samples t-test)와 관련한 개념들을 몇 가지 살펴보았다. 독립표본 t검정의 경우에도 다른 통계분석과 마찬가지로 충족 시켜야 하는 가정들이 있다고 하였다. 그 중 하나가 두 모집단의 분산이 동일하다는 등분산 가정이다. 이러한 등분산 가정을 만족시키지 못하거나 혹은 이러한 등분산 가정이 의심이 들 경우 합통분산 추정량을 사용하지 않는다고 하였으며 이러한 상황에서 t값을 구하는 방법에 대하여 이전 글에서 살펴보았다. 이처럼 등분산 가정을 만족시키지 못하는 상황에서는 t값 뿐만 아니라 자유도와 관련 하여서도 다른 방법을 사용한다. 등분산을 가정하는 상황에서는 n1+n2-2 를 사용하지만 등분산이 아닌 경우에는 이와 다른 방법을 이용하여 계산할 수 있으며 몇 가지 방법이 존재하는데 그 중에서 이번에는 Smith-Satterthwaite의 방법으로도 알려진 것을 이용하여 수동으로 계산해 보도록 한다. 예제 분석에는 Stata를 활용한다.

두 모분산의 동일성 검정 F검정 [내부링크]

이전 글들에서 집단의 평균을 비교하는 독립표본t검정(Independent samples t-test)에 대하여 살펴보았다. 독립표본t검정이 만족시켜야 하는 가정 중에 하나가 두 집단의 분산이 동일하다는 등분산/동분산 가정이라 하였다. 이러한 등분산 가정을 충족시키 못할 경우 등분산을 가정하지 않은 상태에서 가설검정을 해서 확인해 볼 수 있다고 하였다. 이번에는 이러한 두 모집단의 등분산인지 여부를 가설검정하는 방법 중에 하나를 살펴보도록 한다. 즉, 두 모집단의 분산(Variance)가 동일한지 살펴 보는 것이다. F 검정이라고도 하며 아래 <그림 1>과 같은 식을 이용하여 검정해 볼 수 있다. <그림 1> <그림 1>에서 S2의 경우에는 표본 분산을 의미한다. 또한 여기서 자유도의 경우에는 (n1-1, n2-1) 이다. 두 모집단의 분산이 동일하다는 귀무가설일 경우에는 아래 <그림 2>와 같이 표현해 볼 수 있으며 <그림 2> 결국 <그림 1>의 경우 아래 <그림 3>과 같은 식으

SPSS 논문통계 기술통계 [내부링크]

이번에는 SPSS를 활용하여 논문통계나 분석에서 활용할 수 있는 몇 가지 기술통계치와 히스토그램 등에 대하여 살펴보도록 한다. 본 글에서는 Stata의 예제자료를 활용하며 자료의 경우 Wooldridge의 책의 예제 자료이다. 예제 분석에서는 연속형 변수인 wage를 이용해 볼 것이다. 먼저 SPSS에서 Stata의 예제 자료를 불러오도록 한다. 아래와 같이 입력하면 <그림 1>과 같은 결과를 확인할 수 있다. SPSSINC GETURI DATA URI="http://fmwww.bc.edu/ec-p/data/wooldridge/wage1.dta" FILETYPE=Stata. <그림 1> 보통 경험적연구에서 분석을 할 때는 변수들의 관계에 대하여 살펴보는데 이러한 분석에 앞서서 각 변수들을 파악해 볼 필요가 있다(물론 최종 분석이 이러한 변수를 파악하는 것에 있을 수도 있다). SPSS에서 연속형 변수와 관련하여 활용해 볼 수 있는 Frequencies의 몇 가지 기능에 대하여 살펴보

SPSS 기술통계 Descriptives [내부링크]

SPSS에서 논문통계에 제시하거나 분석 전에 이용할 수 있는 기술통계와 관련하여 이용해 볼수 있는 명령어들이 다양하게 존재하고 있다. 이번에는 Descriptives를 이용해서 SPSS 기술통계에 대하여 살펴보도록 한다. 먼저 아래와 같이 SPSS에 예제 자료를 불러오도록 한다. 본 글에서 이용해 볼 자료는 Wooldridge에서 제공하고 있는 자료이다. SPSS 기술통계를 위하여 아래와 같이 입력하여 실행하면 SPSS로 예제 자료를 불러오며 <그림 1>과 같은 결과를 확인할 수 있다. SPSSINC GETURI DATA URI="http://fmwww.bc.edu/ec-p/data/wooldridge/crime1.dta" FILETYPE=Stata. <그림 1> 이제 예제 자료를 불러왔다면 이번에는 자료에 포함되어 있는 여러가지 변수들 중에 narr86변수에 관하여 기술통계를 살펴보도록 하자. SPSS에 아래와 같이 입력하면 <그림 2>와 같은 결과를 확인할 수 있다. Descri

[R] 기술통계 psych패키지 [내부링크]

이번에는 R을 활용하여 논문 통계에 활용할 수 있는 몇 가지 기술통계에 관련하여 살펴보도록 한다. 이미 여러번 다양한 패키지나 함수를 이용하여 살펴보았다. 특히 이번에 기술통계와 관련하여 이용할 psych 패키지의 경우 이전에corr.test()함수를 이용하여 피어슨 상관계수를 계산할 때 이용해 본 패키지 이기도 하다. 여기서 패키지는 함수의 묶음이라는 것을 다시 확인하자. 하나의 패키지에 여러 개의 함수가 포함된 경우가 일반적인 것이다. 물론 패키지의 이름과 이 패키지에 속한 함수의 이름은 다를 수 있다. 여느 분석과 마찬가지로 처음에 분석을 할 때 너무 많은 정보를 제공하는 명령어의 경우 이와 관련하여 익숙하지 않은 연구자는 그 내용을 파악하는데 어려움이 따를 수 있다. 이번글에서 이용할 psych 패키지의 describe()함수의 경우 적지 않은 양의 정보를 제공한다. 먼저 Stata 파일 형태의 예제 자료를 불러오도록 한다. 본 글에서는 Hill 외의 Principles of

네이버 프리미엄콘텐츠 채널 개설 [내부링크]

네이버 프리미엄콘텐츠 채널을 개설하였습니다. 책을 쓴다는 생각으로 글을 남길 예정입니다. 프리미엄콘텐츠의신규 업데이트 주기가 아직까지 탄력적이지 않은 것 같습니다. 한스 리서치 : 네이버 프리미엄콘텐츠 경험적 연구 리뷰 및 이에 필요한 계량방법에 대하여 공유합니다. contents.premium.naver.com

[R] 논문통계 기술통계 중앙값 절대 편차 [내부링크]

R과 관련하여 논문통계에 제시할 수 있는 다양한 기술통계치와 관련하여 명령어들을 살펴보았다. 이번에는 사용빈도는 떨어지는 중앙값 절대편차(Median absolute deviation)에 대하여 살펴보도록 한다. 중앙값 절대편차를 계산하기 위해서 사용할 수 있는 기본적인 식은 아래와 같다: 위 식에서 MAD는 median absolute deviation을 의미하고 med는 median 즉 중앙값을 의미한다. R에서 이를 계산하기 위한 다양한 패키지가 존재하는데 이전에 이용해 보았던 psych 패키지의 describe() 함수도 이와 관련한 기능을 제공한다. 본 예제에서는 R에서 제공하고 있는 기본 함수를 이용해 보도록 한다. 이용할 함수는 mad()이다. 먼저 R에 아래와 같이 입력하여 예제 자료를 불러오도록 한다. 본 예제에서는 Wooldridge의 예제 자료를 이용한다. library(foreign) data<-read.dta("http://fmwww.bc.edu/ec-p/da

뉴스와 주식시장: 무역전쟁 [내부링크]

이번 글에서는 정치뉴스와 주가의 관계에 대하여 탐색한 경험적 연구에 대하여 살펴보도록 한다. 본 논문이 출판된 저널은 Applied Economics Letters로 짧은 형식의 경험적 연구나 Applied Economics라는 저널에 출판된 논문과 관련해 논한 글 등을 출판한다. 정치적 뉴스의 주가수익률에 대한 영향력과 관련한 연구는 아직 결론에 이르지 못하였다. 연구에 따라서 정치적 사건은 주식 수익률에 양(+) 혹은 부(-)의 영향을 미친다고 보고하였다. 특히 최근 들어서는 정치적 뉴스가 트위터(Twitter) 등을 포함한 다양한 소셜 미디어를 통하여 전파되기도 하는데, 본 연구에서는 도널드 트럼프(Donald Trump)의 tweet으로 인하여 새어 나온 정치적 뉴스의 주식 시장의 영향력에 대하여 살펴보았다. 본 연구에서는 트럼프 전 대통령의 트위터 계정인 @realDonalTrump의 자료를 활용하였다. 트럼프 전 대통령의 트위터에서 China, trade, trade wa

논문통계 독립표본 t검정 효과크기 Stata [내부링크]

이번에는 논문통계분석에서도 자주 사용되는 독립표본 t검정(Independent samples t-test)에 대하여 살펴 보도록 한다. 예제 자료는 Hill 외의 Principles of Econometrics를 이용하며 프로그램은 Stata를 활용한다. 독립표본 t검정은 독립된 두 개의 집단의 평균을 비교할 때 사용한다. 이를 독립변수(Independent variable)와 종속변수(Dependent variable)에 대하여 연결시켜 설명하면 하나의 독립변수가 있으며 이 독립변수가 취할 수 있는 값은 두 개이고 종속변수의 경우 연속형 변수인 상황에 적용해 볼수 있는 것이다. 실험집단과 비실험집단의 건강상태 비교, 정부프로그램 참여자와 비참여자의 소득만족도 비교 등 독립표본 t검정을 사용해 볼 수 있는 상황은 다양한다. 독립표본 t검정 이외에도 두 표본 t검정, 두 집단 t검정 등의 이름으로 불리우기도 한다. Stata에서 독립표본 t검정은 ttest 명령어를 이용할 수 있다.

두 집단 모비율 차이 검정 [내부링크]

이번에는 두 모비율의 차이에 대한 가설검정 방법에 대하여 살펴보도록 한다. 연구자가 이러한 분석을 고려해 볼 수 있는 상황은 예를 들어, 어떤 후보자에 대하여 지지하는 비율의 차이가 성별 혹은 지역에 따라 있는지 살펴보거나 학원을 다니는지 여부 등에 의하여 특정 시험에 통과된 비율의 차이가 있는지에 대하여 살펴 보려고 할 때이다. 본 분석의 적용을 고려해 볼 수 있는 상황은 종속변수와 독립변수 모두 두 개의 값을 취할 수 있는 경우이다. 이번 예제에서는 이러한 두 모비율의 차이에 대한 검정을 Stata를 활용하여 살펴 보도록 한다. Stata의 명령어 중에 prtest를 이용하도록 하겠다. 먼저 아래와 같이 인테넛에서 제공하는 Stata의 예제 자료 파일을 불러오도록 한다. use https://stats.idre.ucla.edu/stat/stata/notes/hsb2 본 예제에서는 성별 (female)에 따라 다니는 학교의 형태(schtyp)에 차이가 있는지 살펴 보도록 한다. 먼

두 모집단 비율의 차이 [내부링크]

이전 글에서 두 집단의 비율에 대한 가설검정을 Stata를 활용하여 실행하는 방법에 대하여 살펴보았다. 관련 글의 링크는 아래와 같다: 두 집단 모비율 차이 검정 이번에는 두 모비율의 차이에 대한 가설검정 방법에 대하여 살펴보도록 한다. 연구자가 이러한 분석을 고려... blog.naver.com 이번에는 이러한 결과와 관련하여 모비율의 차이에 대한 검정통계량 Z에 대하여 살펴보도록 한다. 이전 글과 그대로 반복되니 설명 없이 아래와 같이 Stata에 대하여 예제 자료를 불러온 뒤에 먼저 가설검정을 실시 해보도록 한다. <그림 >1과 같은 결과를 얻기 위해서는 아래와 같이 입력하면 된다. use https://stats.idre.ucla.edu/stat/stata/notes/hsb2 gen private=1 replace private=0 if schtyp==1 prtest private,by(female) <그림 1> 이제 <그림 1>의 결과 값 중에 z값을 수동으로 계산해 보도록

논문통계 회귀분석 잔차란 [내부링크]

이번에는 간략하게 잔차(Residual)은 무엇인 살펴보도록 한다. 예제를 간략하게 하기 위하여 독립변수의 수가 한 개인 단순 선형회귀 모형(Simple linear regression model)에 대하여 살펴보도록 한다. 분석에는 Stata를 활용해 보도록 한다. 연구자는 보통 이론이나 기존 경험적 연구 혹은 본인의 판단으로 어떠한 모집단에서 변수들의 관계를 나타내는 모형을 설정하게 된다. 이러한 모형의 경우 본인이 설명하고자 하는 종속변수를 완벽하게 설명하지 못하고 이로 인하여 모형에서 고려하는 변수들 이외의 기타요소는 오차로 남겨지게 된다. 이러한 오차는 관찰할 수 없는 혹은 무엇인지 알지 못하는 모든 요소를 포함한다. 이렇게 세운 모형을 기초로 연구자는 경험적 연구를 진행할 때 표본자료를 이용하여 이러한 모집단의 성격을 추정해 보는 것이다. 이러한 목적으로 논문통계에서 자주 이용하는 방법중에 하나가 통상적최소제곱법(Ordinary least sqaures: OLS) 이다.

[R] 회귀분석 기울기 그래프로 이해하기 [내부링크]

이번에는 간략하게 회귀분석의 계수를 그래프를 활용하여 이해해 보도록 한다. 본 예제에서는 R을 사용하여 이를 살펴보도록 한다. 자료는 Principles of Econometrics에서 사용된 예제 자료를 이용하도록 한다. 본 예제에서는 단순 선형회귀분석을 실시하며 종속변수의 경우sales이고 독립변수의 경우 price 이다. 먼저 R에 자료를 불러오도록 한다. 먼저 Stata의 예제 자료를 불러온 뒤 이용할 변수의 기초 통계를 살펴보도록 한다. <그림 1>과 같은 결과를 확인하기 위해서는 아래와 같이 R에서 입력하도록 한다. install.packages("readstata13") library(readstata13) ols<-read.dta13("http://www.stata.com/data/s4poe5/data/andy.dta") summary(ols[ , c("sales", "price")]) <그림 1> 이제 두 변수에 대하여 산포도를 그려보도록 한다. <그림 2>와 같은