studyhyo의 등록된 링크

 studyhyo로 등록된 티스토리 포스트 수는 71건입니다.

[빅데이터분석기사][파이썬] 데이터핸들링을 위한 판다스 학습하기 [내부링크]

1. 판다스(pandas) : 정형데이터를 다룰 때 편리한 파이썬 패키지 - csv 파일 형태(c : 콤마)로 콤마로 데이터 구분이 된 데이터를 읽어올 수 있음 - 판다스로 csv파일을 불러오면 DataFrame 형태로 예쁘게 불러올 수 있고, range index가 0부터 붙여지게됨. - 즉, 판다스는 DataFrame 형태로 데이터를 읽어서 핸들링할 수 있는 패키지 2. 라이브러리 및 csv파일 불러와서 변수에 저장하기 ㅇ import pandas as pd ㅇ df = pd.read_csv('파일명.csv') ㅇ df.head() / df.tail() # 판다스 라이브러리 불러오기 import pandas as pd # 데이터 불러와서 변수에 담기 df = pd.read_csv('ㅇㅇㅇ.csv') ..

[빅데이터분석기사][파이썬] 데이터분석을 위한 파이썬 기초학습 [내부링크]

1. 데이터출력, 연산, 자료유형, 형변환, 비교, 조건문 ㅇ 주석 : # - 단축키(Windows) : Ctrl + / ㅇ 데이터 출력 : pirnt() - 숫자 : print(2022) - 문자 : 큰따옴표 or 작음따옴표 print('happy') / print("happy") ㅇ 산술연산자 : +.-,*,/, //(몫), %(나머지), **(제곱) ㅇ 자료유형 확인 : type() - 정수형(int) , 실수형(float), 문자열(str), 참/거짓(bool) ㅇ 변수를 활용하여 값 대입, 연산 가능 ㅇ 형변환 : int(문자변수명) / str(숫자변수명) - 숫자에 " "를 붙이면 문자로 인식 ㅇ 비교연산자 : > , =, ==, != ㅇ 조건문 : if ㅇㅇ: elif else: # 주석입니..

[빅데이터분석기사] 빅데이터분석기사 시험정보 [내부링크]

[자격증 소개] ㅇ 소개 : 빅데이터 이해를 기반으로 빅데이터 분석기획, 빅데이터 수집/저장/처리, 빅데이터 분석 및 시각화를 수행하는 실무자를 빅데이터분석기사라고 정의한다. ㅇ 주관 : 한국데이터산업진흥원 ㅇ 필요성 : 전 세계적으로 빅데이터가 미래성장동력으로 인식돼, 각국 정부에서는 관련 기업투자를 끌어내는 등 국가, 기업의 주요 전략분야로 부상하고 있다. 국가와 기업의 경쟁력 확보를 위해 빅데이터분석 전문가의 수요는 증가하고 있으나, 수요 대비 공급 부족으로 인력 확보에 어려움이 높은 실정이다. 이에 정부차원에서 빅데이터분석 전문가 양성과 함께 체계적으로 역량을 검증할 수 있는 국가기술자격 수요가 높은 편이다. [시험과목] ㅇ 필기 - 객관식 - 과목당 20문항이며, 4과목으로 총 80문항 - 시험..

[경영빅데이터분석사2급] 5과목 빅데이터기술 - 수집, 저장, 처리기술, 주요분석도구 [내부링크]

1. 수집 ㅇ 개념 - 여러 데이터 소스로부터 필요한 데이터를 검색하여 수동 또는 자동으로 수집, 검색/수집/변환을 통해 정제된 데이터를 확보하는 기술까지 포함, 조직 외부의 무한한 데이터 중 필요로 하는 데이터를 찾아내는 것이 중요, 데이터를 저장하고 분석하기 위해 데이터를 변환하거나 통합하는 작업도 중요, 작은 데이터라도 모두 저장하고 실시간으로 저렴하게 데이터를 처리해야 한다. ㅇ 데이터 소스 유형 - 정형 데이터 : 로그 데이터, 시계열데이터 - 비정형 데이터 : 소셜 미디어, 오디오, 비디오, 자유형식 텍스트 - 센서데이터는 비정형데이터로 온도, QR코드 등이 있다. ㅇ 데이터 수집 기술 - 정형 : ETL, FTP, API, ODBC - 비정형 : 크롤링, RSS, API, FTP, Parsi..

[경영빅데이터분석사2급] 4과목 빅데이터 분석 - 데이터 시각화 [내부링크]

5. 데이터 시각화 ㅇ 데이터 시각화 : 같은 범주 안에서 많은 양의 데이터에 의미를 부여함으로써 공간에 배치된 숫자의 패턴을 인지하게 만든 것. 전통적으로 단순한 수치의 그래프나 데이터의 패턴을 파악하는 방법으로 사용되었으나 최근 빅데이터 분석에 따라 다양한 정보전달이나 상황분석을 위한 시각적 도구로 메시지 전달을 위한 시각적 표현으로 많이 사용되고 있다. ㅇ 특성 - 인간의 정보 처리 능력을 확장시켜 정보를 직관적으로 이해할 수 있게 한다. - 많은 데이터를 동시에 차별적으로 보여줄 수 있다. (균일하게 X) - 다른 방식으로는 어려운 지각적 추론을 가능하게 한다. - 보는 이로 하여금 흥미를 유발하며, 주목성이 높아지며 인간의 경험을 풍부하게 한다. - 문자보다 친근하게 정보를 전달하며, 다양한 계..

[경영빅데이터분석사2급] 4과목 빅데이터 분석 - 데이터마이닝 [내부링크]

4. 데이터 마이닝 ㅇ 개념 : 의미 있는 패턴, 규칙, 관계를 찾아내는 것이며 많은 DB로부터 지금까지 잘 알려지지 않고 유용하며 활용이 가능한 정보를 추출하는 과정 ㅇ 특징 : 사용자의 경험이나 편견을 배제하고 전적으로 데이터에 기반으로 하여 지식과 패턴을 추출하기 때문에 영역 전문가가 간과해 버릴 수도 있는 지식과 패턴을 찾아낼 수 있다. 또한 분석가의 경험이 높고 낮음에 따른 차이가 적어 일정범위 안에서는 유사한 결론을 얻을 수 있어 업무 경험을 통한 학습보다 유리하다. ㅇ 활용분야 : 카드사의 사기 발견, 금융권 대출승인, 투자분석, 기업의 마케팅 및 판매데이터 분석, 생산 프로세스 분석, 기타 순수 과학 분야의 자료 분석 등 특별히 제한되는 분야는 없다. ㅇ 기법 - 정형 : 연관관계분석, 의..

[경영빅데이터분석사 2급] 4과목 빅데이터 분석 - 통계분석 [내부링크]

3. 통계분석 : 기초통계, 설문조사, 상관관계, 회귀분석, 시계열분석, 다차원척도법(MDS), 주성분분석, 요인분석, 판별분석 ㅇ정의 : 가설 검증에 있고 많은 전제 조건을 만족시키는 경우 사용 ㅇ분류 - 기술통계학 : 수집된 자료를 정리, 요약하여 집단의 특성을 알기 쉽게 정보화 하는 방법 . 자료 : 질적자료(범주 -성별, 직업, 혈액형 등), 양적자료(키 몸무게 생산량과 같이 숫자로 표시, 이산형 – 고객 수, 차량 수와 같이 셀 수 있는 자료 / 연속형 – 길이, 무게, 온도 등과 같이 세는 것이 불가능한 자료) . 변수 : 관심의 대상이 되는 사물이나 사건의 속성 변수 척도 속성 설명 예시 특성 질적변수 명목척도 범주형 측정 대상이 어느 집단에 속하는지 분류 성별, 고객구분 연산 불가 서열척도..

[경영빅데이터분석사 2급] 4과목 빅데이터 분석 - 빅데이터분석 프로세스 개념, 플랫폼 환경 [내부링크]

1. 빅데이터 분석 프로세스 개념 ㅇ 분석 프로세스 절차 : 데이터 수집(분석 목적 명확화 포함) > 저장 > 처리 > 분석 > 시각화 > 이용 > 폐기 ㅇ 수집 : 수집 대상 데이터 선정 > 수집 세부 계획 수립 > 데이터 수집 실행 - 수집 대상 데이터 선정 : 빅데이터 분석 성공 여부를 결정하는 매우 중요한 단계로 분석 경험이 많은 전문가 의견이 필요하다. 목적을 달성하기 위한 수집 대상의 선정(Performance 측면) 외에도 개인정보 보호 등의 관련 규제를 준수(Compliance 측면)하여야 하며, 수집비용과 같은 원가(Cost Efficiency 측면) 또한 고려하여야 한다. - 수집 세부 계획 수립 : 데이터 소유자, 데이터 유형, 데이터 포맷 등의 데이터 특성을 고려해 계획 수립하며 기..

[경영빅데이터분석사2급] 3과목 빅데이터 기획 - 과제도출 [내부링크]

2. 과제도출 ㅇ 과제는 해결해야 할 이슈로 경영상의 수익을 감소시키거나 시간을 지연시키는 요소로 해결해야 될 문제이며, 이를 해결하는 과정이 분석활동이다. - 문제 : 현실과 기대의 차이에서 발생하는 것 - 분석 : 과제 관련 현상, 원인, 해결방안에 대한 자료를 수집하여 의사결정에 활용하는 일련의 활동 - 분석과제는 분석활동의 대상이 되며, 문제를 해결하기 위해서는 기대상태를 낮추거나 현재상태를 높여야 한다. ㅇ 분석과제 유형에 따른 대처방법 - 개념 문제 : 현상에 대한 이해의 차이로 발생하며, 실용문제는 기대에 대한 충족도 문제로 원인에 대한 파악이 필요하다. 벌어지고 있는 특정한 현상이 어떤 과정을 통해 전개되는지, 어떤 원인을 통해 일어나게 되는지 파악해 현상에 대한 이해를 목적으로 하는 문제..

[경영빅데이터분석사 2급] 3과목 빅데이터 기획 - 기획과 계획 [내부링크]

1. 기획과 계획 ㅇ 기획 : 계획을 도모하는 것으로 문제와 관련된 다수의 요소를 논리적으로 사고하고 불확실한 요소를 미리 예측해서 과학적으로 해결책을 세우는 것, 무엇을(What) 왜(Why) 할 것인가를 결정하는 것, 목표 설정의 역할을 하는 것 ㅇ 계획 : 기획한 목표를 실행하기 위한 구체적인 방법을 모색하는 것, 어떻게(How) 할 것인가 ㅇ 빅데이터 분석 기업 현황 - 다양한 분석이 가능한 솔루션 도입에 치중, 빅데이터 기획 분석 전문가들을 외부에서 채용, 빅데이터 분석시 통찰력을 증대시키려는 노력을 경주하고 있음, 빅데이터에 대한 인식과 이해가 부족한 상태 - 기업이 넘어야 할 제약조건 : 분석대상의 발굴 및 구체화, 다양한 데이터 원천의 활용, 분석 운영관리체제의 정규화, 데이터 기반 의사결..

[경영빅데이터분석사2급] 2과목 경영과 빅데이터 활용 - 빅데이터의 활용(전략/산업별/공공분야 등) [내부링크]

3. 빅데이터의 활용(전략/산업별/공공분야 등) ㅇ 미래상황 : 불확실성, 리스크, 스마트, 융합 - 미래상황 대응 위해 필요한 빅데이터 역할 : 통찰력, 대응력, 경쟁력, 창조력 ㅇ 맥아피와 브린욜프손이 제시한 기업의 빅데이터 성공적 활용을 위한 조건 - 리더십, 역량관리, 기술도입, 의사결정, 기업문화 - 역량형성 접근방법 4단계 . 1단계 : 시험적으로 도입할 사업부문을 선택 . 2단계 : 빅데이터에 기반을 둔 다섯 가지 성공적인 빅데이터 활용의 조건(리더십, 역량관리, 기술도입, 의사결정, 기업문화)을 식별하기 위해 개별 핵심 기능에 도전하는 단계 . 3단계 : 정보기술 혁신 4단계(시험, 측정, 공유, 복제)를 포함하여 혁신 프로세스를 실행하는 단계 . 4단계 : 조이의 법칙 ‘당신이 누구든 가..

[경영빅데이터분석사2급] 2과목 경영과 빅데이터 활용 - 분석기법(마케팅/생산운영/회계/재무/인적자원 애널리틱스) [내부링크]

2. 분석기법(마케팅/생산운영/회계/재무/인적자원 애널리틱스) ㅇ 발전단계 - 분석기법은 사후판단, 통찰, 예측/행동 단계로 발전한다. - 사후판단은 담당부서별 데이터 취합을 주기적으로 리포팅하는 단계를 말한다. - 통찰은 통계기반 지표간 연관관계분석 및 전사적 지표관리의 단계이다. - 예측/행동은 고급분석 기법을 이용한 예측 및 직접적 의사결정의 단계이다. - 기업에서 진정한 비즈니스 가치와 통찰을 부여하는 것은 빅데이터 자체가 아니라 빅 애널리틱스라고 할 수 있다. ㅇ 애널리틱스와 데이터마이닝 - 애널리틱스 : 비즈니스의 당면 이슈를 기업 내외부 데이터의 통계적 수학적인 분석을 이용하여 분석하는 의사결정 분석틀이다. 즉, 전략적, 전술적, 운영적 비즈니스 의사결정 문제를 데이터분석 역량인 통계적, 수..

[경영빅데이터분석사2급] 2과목 경영과 빅데이터 활용 - 비즈니스 프로세스와 의사결정 [내부링크]

1. 비즈니스 프로세스와 의사결정 ㅇ 비즈니스 - 경영의 최종 목표인 가치 창출을 위한 제반 활동 - 고객의 가치 창출을 위해 수행하는 제반 활동 ㅇ 프로세스 : 조직이 한 개 이상의 입력을 통해서 가치를 창출하는 활동 ㅇ 비즈니스 프로세스 구성 : 활동 > 의사결정 > 역할 > 자원 > 저장소 - 활동은 한 가지 형태의 자원과 정보를 다른 형태의 자원과 정보로 변환한다. - 의사결정은 ‘예’ 혹은 ‘아니오’로 답할 수 있는 질문 - 역할은 처리의 집합이다. - 자원은 역할이 지정된 사람, 시설 혹은 컴퓨터 프로그램을 말한다. - 저장소는 비즈니스 기록들의 모음이다. ㅇ 비즈니스 프로세스 관리(BPM) - 비즈니스 프로세스 관리는 활동 순서와 그들 간의 정보흐름을 실행하는 리소스(시스템, 사람)로 부터 ..

[경영빅데이터분석사2급] 1과목 빅데이터 이해 - 분석적 사고와 분석프로세스 [내부링크]

5. 분석적 사고와 분석 프로세스 ㅇ 분석의 중요성 - 빅데이터의 의미는 다양한 유형의 데이터와 실시간성 데이터를 포함한 데이터 그 자체 뿐만 아니라 데이터에 대한 분석을 포함하고 있다. - 빅데이터 분석은 의사결정의 질적 수준을 높여 경영 생산성 향상과 공공부문 효율성 제고가 가능하며, 이러한 이유로 빅데이터의 핵심적 키워드라 할 수 있다. - 분석이 중요한 이유는 현명한 의사결정을 지원하는 유영한 정보를 분석을 통해 제공받을 수 있기 때문이다. - 개인, 기업, 국가가 주어진 상황을 타개하거나 소기의 목적을 달성하기 위한 합리적이고 과학적인 의사결정을 빅데이터 분석이 지원할 수 있다. - 단 한번의 의사결정에 의해 크게 도약하거나 엄청난 시련을 겪는 것이 현실이므로 분석을 통한 합리적인 의사결정이 매..

[경영빅데이터분석사 2급] 1과목 빅데이터 이해 - 빅데이터 비즈니스 모델 [내부링크]

4. 빅데이터 비즈니스 모델 ㅇ 비즈니스 모델 - 기업으로 하여금 수익을 유지하게 하는 일련의 활동, 즉 ‘수익모델’로 정의된다. 만약 인터넷을 이용하는 기업이라면 인터넷을 이용하여 어떻게 수익을 올릴 것인지를 설계하는 인터넷 비즈니스 모델이 있어야 한다. 기업이 가진 비즈니스 모델이 훌륭하다면 이 기업은 이로 인해 경쟁우위를 가지게 되어 많은 수익을 얻을 수 있게 될 것이다. - 수익 : 빅데이터 비즈니스 모델을 판별하는 주요 기준이기도 하며, 일정 기간 동안 사업을 하고 벌어들인 돈을 말한다. 다시 말해서 상품이나 서비스를 판매하고 그 대가로 받은 현금이나 기타 자산을 말한다. 예를 들어 인터넷 쇼핑몰에서 물건을 팔아 고객으로부터 받은 돈이다. ㅇ 성공적인 비즈니스 모델 개발을 위해 고려할 사항 - ..

[경영빅데이터분석사 2급] 1과목 빅데이터 이해 - 빅데이터 가치와 영향 [내부링크]

3. 빅데이터의 가치와 영향 ㅇ 빅데이터 활용을 통해 창출할 가치 - 데이터는 자본이나 노동력과 거의 동등한 레벨의 경제적 투입자본으로 비즈니스의 새로운 원자재 역할을 할 것이다. - 데이터 분석을 잘 활용하는 조직일수록 차별적 경쟁력을 갖추고 높은 성과를 창출 할 것이다. - 데이터의 21세기의 원유이며 미래 경쟁 우위를 결정할 것이다. - 기업은 다가올 데이터 경제시대를 이해하고 정보고립을 경계해야 생존할 수 있다. - 빅데이터는 혁신, 경쟁력, 생산성의 핵심요소이다. ㅇ 빅데이터를 활용해 얻을 수 있는 가치 - 비용절감 - 의사결정의 고도화 - 고객성향의 신속한 파악 (고객정보 파악X) - 미래예측의 정확도 제고 - 의미 있는 패턴의 발견 ㅇ 빅데이터의 사회경제적 의미 - 빅데이터의 사회경제적 의미..

[경영빅데이터분석사 2급] 1과목 빅데이터 이해 - 빅데이터 관리 [내부링크]

2. 빅데이터 관리 ㅇ 데이터 관리 - 서로 관련 있는 데이터를 효율적으로 관리하기 위한 데이터 집합체로 각 데이터는 상호 유기적 관계에 의해 구성되어 있다. - 데이터마트는 데이터웨어하우스를 소규모로 구축한 것으로 분석에 용이하게 사용된다. - 파일 관리에서부터 시작하여 그 편리성을 도모하는 방향에서 데이터베이스로 발전되었다. - 1960년대말 DB라는 용어가 최초로 생겼는데 한 조직의 응용 시스템들을 공용하기 위해 통합, 저장한 운영 데이터의 집합 이란 개념이었다. * 응용시스템은 한 조직의 데이터를 공유하기 위해 통합, 저장한 데이터의 집합 ㅇ데이터 관리방법 - 수작업 문서상의 데이터 관리 . 컴퓨터가 출현하기 전 응용프로그램 역할은 사람이 하였고, 하드디스크는 문서함이 대신하였다. . 컴퓨터가 출..

[경영빅데이터분석사 2급] 1과목 빅데이터 이해 - 빅데이터 개념 [내부링크]

1. 빅데이터 개념 ㅇ 개념 - 기존의 관심 및 분석 체계로는 감당할 수 없을 정도의 거대한 데이터의 집합 - 과거 빅데이터는 천문, 항공, 우주정보, 인간게놈 정보 등 특수 분야에 한정되었다. - 대규모 데이터와 관계된 기술 및 도구도 빅데이터 범주에 포함된다. - 전세계 데이터 중 90%가 과거 3년 이내에 생성된다는 것을 파악한 IBM이 최초로 정의 ㅇ 출현배경 - 기술발전에 따른 데이터 저장 및 처리 비용의 하락 - 소셜 네트워크 서비스의 확대 등으로 막대한 데이터 폭발 - 도로, 건축물 등에 내장된 임베디드 시스템의 증가 - 인터넷의 일상화 - 오답 : 항공 분야 산업 발달, 컴퓨터 생산 기술의 발달, 개인용 컴퓨터의 확산 ㅇ 빅데이터의 구성요소 - 3V : 규모(Volume), 다양성(Vari..

[경영빅데이터분석사] 경영빅데이터분석사 자격증 시험정보 [내부링크]

[자격증 소개] ㅇ 소개 - 빅데이터 경영 업무에 필요한 이론과 실무능력을 검증하는 자격시험제도입니다. 경영 빅데이터 분석사 시험의 기본 목적은 빅데이터 분석 전문가를 양성하려는데 있습니다. 빅데이터 분석 전문가란 빅데이터 이해 및 처리 기술에 대한 기본지식을 바탕으로 빅데이터 분석 기획, 빅데이터 분석, 빅데이터 시각화 업무를 수행하고 이를 통해 프로세스 혁신 및 마케팅 전략 결정 등의 과학적 의사결정을 지원하는 직무를 수행하는 전문가를 말합니다. ㅇ 주관 : 민각 자격으로 한국경제신문, 씨에스랩(주) 공동발급 [필요성] 폭증하는 데이터가 경제적 자산이 되고 가치창출의 원천이 되는 빅데이터 시대에 도래하였습니다. 기업은 치열한 경쟁환경에서 영향력이 강해진 고객을 만족시키기 위하여 고객의 행동 맥락과 감..

[ADsP] (3과목) 데이터분석 - 군집분석과 연관분석 기출문제 [내부링크]

1. 군집분석을 실시하기 위한 여러 거리 측도 중 범주형 데이터 거리를 계산하기 위한 측도는 무엇인가? ① 유클리디안 거리 ② 자카드 거리 ③ 맨하튼 거리 ④ 표준화 거리 ※ 정답 : 2번 2. 아래의 표를 보고 두 데이터 A와 B의 맨하튼 거리와 체비셰프 거리를 바르게 구한 것은? 맨하튼 거리 체비셰프 거리 ① 9 29 ② 4 29 ③ 9 4 ④ 4 4 ※ 정답 : 3번 - 맨하튼 : 차이 값들의 합 =2+3+4 = 9 - 체비셰프 : 최대값인 4 3. 다음 중 계층적 군집분석에 대한 설명으로 부적절한 것은 무엇인가? ① 범주형 데이터에서도 거리 측정이 가능하므로 분석 기법을 적용할 수 있다. ② R에서 최장연결법으로 수행하기 위해서는 complete를 사용한다. ③ 최장연결법은 가장 거리가 먼 데이터..

[ADsP] (3과목) 데이터 분석 - 군집분석과 연관분석 요약 [내부링크]

1.개요 ㅇ 비지도 학습 중 하나로 여러 변수로 표현된 데이터들 사이의 유사성을 측정하고 몇 개의 군집으로 나누어 특징을 파악하는 기법. 생물학에서 종의 분류, 마케팅에서의 시장 세분화 및 고객 성향 분석, 추천 시스템을 위한 협업 필터링 등 서비스의 기반을 제공 2. 종류 ㅇ 계층적 군집분석 : 병합적 방법 ㅇ 비계층적 군집분석 : 계층을 보유하지 않음. K평균 군집 3. 거리측도 ㅇ 연속형 변수 - 유클리디안 거리 : 두 점 사이의 거리를 계산하는 대표적인 방법으로 통계적 개념이 포함되지 않아 변수들의 산포 정도를 고려하지 않음 (가장 가까운 거리) - 맨하튼 거리 : 시가거리라고도 하며 도시에서 최단 거리를 구하듯 각 변수들의 차이의 단순 합으로 계산한 거리 - 체비셰프 거리 : 변수간 거리 차이 ..

[ADsP] (3과목) 데이터 분석 - 데이터마이닝, 분류분석 기출문제 [내부링크]

1. 다음 중 대용량 데이터 속에서 숨겨진 지식 또는 새로운 규칙을 추출해 내는 과정을 일컫는 것은? ① 지식경영 ② 의사결정지원시스템 ③ 데이터웨어하우징 ④ 데이터마이닝 ※ 정답 : 4번 2. 다음 중 기법의 활용 분야가 나머지와 다른 하나를 고르시오. ① 로지스틱 회귀분석 ② 인공신경망 ③ 의사결정나무 ④ SOM ※ 정답 : 4번 3. 다음 중 나머지와 분석 방법이 다른 것은? ① k-means clustering ② single linkage method ③ DBSCAN ④ 주성분분석 ※ 정답 : 4번 - 1~3번은 군집분석 4. 아래의 데이터 마이닝 분석 예제 중 비지도 학습을 수행해야 하는 예제는? (가) 우편물에 인쇄된 우편번호 판별 분석을 통해 우편물을 자동으로 분류 (나) 고객의 과거 거래..

[ADsP] (3과목) 데이터 분석 - 데이터마이닝, 분류분석 요약 [내부링크]

1. 개요 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾고 예측 및 의사결정에 활용가능한 가치를 탐색, 이렇게 발견된 규칙 및 패턴을 컴퓨터가 학습하는 것이 기계학습, 심층학습, 강화학습이라 지칭함. (유튜브, 알파고, 넷플릭스 등) ㅇ 종류 : 정형/비정형 데이터 마이닝 ㅇ 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만, 데이터마이닝은 데이터로부터 의미있는 저보를 찾아내는 방법을 통칭 2. 데이터마이닝 방법에 따른 분류 ㅇ 지도학습 : 정답이 있는 데이터를 활용하여 분석 모델을 구축하는 것 (ex. 회귀분석, 의사결정트리, 인공신경망 모형, 로지스틱회귀분석 등) ㅇ 비지도학습 : 정답이 없는 데이터들 사이의 유사성, 거리를 활용하여 그룹화하거나 규칙을 파악하는 것. (ex. 군집분석,..

[ADsP] (3과목) 데이터 분석 - 통계분석 Part3 기출문제 [내부링크]

1. 다음 중 상관분석에 대한 설명으로 부적절한 것은 무엇인가? ① 양적척도에 대한 상관분석을 수행하기 위해서는 피어슨 상관계수를 사용해야 한다. ② 상관분석의 귀무가설은 ‘두 변수간 상관관계는 존재하지 않는다.’ 이다. ③ 상관분석을 통해 두 변수의 선형관계 여부를 파악할 수 있다. ④ 서열척도에 대해서 상관계수를 구할 때 동일 석차가 존재하면 분석을 수행할 수 없다. ※ 정답 : 4번 2. 다음 중 다차원 척도법에 대하여 잘못 설명한 것은 무엇인가? ① 데이터를 저차원 공간에 배열하는 시각화 기법 중 하나이다. ② STRESS 값이 0인 경우 적합이 매우 잘 된 것이다. ③ 데이터의 변수는 연속형 변수 또는 서열척도여야 한다. ④ 좌표 평면에 나타내었을 때 x축, y축이 데이터 해석에 도움을 줄 수 ..

[ADsP] (3과목) 데이터 분석 - 통계분석 Part3 요약 [내부링크]

1. 상관분석 ㅇ 상관계수를 활용한 분석방법으로 두 변수간 선형적 관계 존재 유무를 파악하기 위함 ㅇ 상관분서 귀무가설은 ‘두 변수간 상관관계는 존재하지 않는다’ 이다. ㅇ 상관계수 r의 범위는 -1~1이며, 0에 가까울수록 상관이 낮다고 말한다. ㅇ 종류 - 피어슨 상관분석 : 두 변수간 양적 척도인 경우, 두 변수 간의 선형관계의 크기 측정, 상관관계가 존재하지 않는 경우 0이다. - 스피어만 상관분석 : 두 변수가 순서 척도인 경우, 두 변수간의 선형/비선형적 관계 나타낼 수 있음 2. 다차원 척도법 (MDS : Multidimensional Scaling) ㅇ 객체(데이터) 간의 근접성을 시각화하는 통계기법으로 군집분석과 유사하며 데이터의 축소를 목적으로 2차원 평면위에 데이터를 표현한다. Str..

[ADsP] (3과목) 데이터 분석 - 통계분석 Part2 기출문제 [내부링크]

1. 다음 중 회귀분석을 수행하기 위한 가정사항이 아닌 것은 무엇인가? ① 선형성 ② 등분산성 ③ 정규성 ④ 공분산성 ※ 정답 : 4번 2. 다음은 무엇에 대한 설명인가? 회귀분석에서 각 독립변수에 대한 회귀계수를 추정하기 위한 방법으로 잔차의 제곱합이 최소가 되는 회귀식을 찾는 방법이다. ( 최소제곱법 ) 3. 다음은 종속변수 y를 추정하기 위해 독립변수 x에 대하여 회귀분석을 수행한 결과이다. 다음 중 결과를 잘못 해석한 것은 무엇인가? ① 유의수준 0.05 이내에서 위 결과는 통계적으로 유의하다. ② 해당 결과는 전체 데이터의 79.29%를 설명하고 있다. ③ x의 회귀계수는 3.6471로 추정된다. ④ F 통계량의 자유도로 보아 9개의 데이터로 회귀분석을 수행하였다. ※ 정답 : 4번 : 10개 ..

[ADsP] (3과목) 데이터 분석 - 통계분석 Part2 요약 [내부링크]

1. 회귀분석과 로지스틱 회귀분석 ㅇ 회귀분석 : 하나 이상의 연속형 독립변수들이 연속형 종속변수에 얼마나 영향을 끼치는지 수치적으로 파악하는 통계기법 - 반응변수(종속변수)/설명변수(독립변수) - 회귀계수의 추정 : 최소제곡법, 최소자승법 ㅇ 로지스틱 회귀분석 : 하나 이상의 연속형 독립변수들인 이산형(범주형) 종속변수에 얼마나 영향을 끼치는지 수치적으로 파악하는 통계기법 2. 회귀분석의 종류 ㅇ 단순회귀 : 1개의 독립변수와 반응변수가 직선(선형) 관계 ㅇ 다중회귀 : 2개 이상의 독립변수와 반응변수의 직선(선형) 관계 ㅇ 다항회귀 : 2개 이상의 독립변수와 반응변수가 2차 함수 이상의 관계 ㅇ 비선형 회귀 : 회귀식이 미지의 모수들과 선형관계가 아닌 경우 (ex. 지수함수,로그함수, 삼각함수 등) ..

[ADsP] (3과목) 데이터 분석 - 통계분석 Part1 기출문제 [내부링크]

1. 아래 보기에 들어갈 A와 B를 바르게 고른 것은 무엇인가? 두 개의 사건에 대하여 두 사건이 서로 공통 부분이 존재하지 않는 경우를 ( A )관계라 하며, 두 개의 사건이 공통인 부분이 존재한다 하더라도 서로가 서로에게 영향을 주지 않는 경우를 ( B )관계에 있다고 한다. A B ① 독립 상관 ② 배반 독립 ③ 배반 상관 ④ 상관 배반 ※ 정답 : 2번 2. 표본조사를 실시하기 위한 표본 추출 방법의 선택은 중요한 과제다. 다음 보기에서 설명하는 표본 추출방법은 무엇인가? 모집단의 구성비율을 반영한 표본집단을 생성하기 위해 모집단을 여러 개의 이질적인 집단으로 나눈 뒤 모집단의 비율과 같은 비율로 각 군집으로부터 표본을 추출하는 방법이다. ① 집락 추출법 ② 비례 층화 추출법 ③ 계통 추출법 ④ ..

[ADsP] (3과목) 데이터 분석 - 통계분석 Part1 요약 [내부링크]

1. 통계와 통계분석 ㅇ 통계 : 분석하고자 하는 집단에 대해 조사하거나 실험을 통해 자료의 요약된 형태의 데이터를 추출, 불확실한 상황에서 효과적인 의사결정을 할 수 있도록 수치자료를 수집하고 분석하는 학문 ㅇ 통계분석 : 목적에 맞게 특정 대상으로부터 데이터를 획득하고, 적절한 통계기법을 활용해 의사결정을 하는 과정 2. 전수조사와 표본조사 ㅇ 전수조사 : 통계 분석을 수행하기 위해 조사 대상이 되는 자료 모두에 대해 데이터 수집을 실시 (ex. 대한민국 성인 남성의 평균키를 조사할 때 2천만명 모두를 조사) ㅇ 표본조사 : 통계분석을 수행하기 위해 조사 대상이 되는 자료의 일부분에 대하여 데이터 수집 실시 (ex. 대한민국 성인 남성 평균키 조사 시 현실적으로 2천만명을 대상으로 전수조사는 불가능하..

[ADsP] (3과목) 데이터 분석 - 데이터 전처리 기출문제 [내부링크]

1. 다음 중 여러 곳에 흩어진 데이터를 수집한 뒤 기업의 의사결정을 위해 공통의 형식으로 변환된 데이터의 집합으로써 특정 목적을 달성하기 위해 추출된 작은 데이터 집합은 무엇인가? ① 데이터베이스 ② 데이터 마트 ③ 데이터 레이크 ④ 데이터 웨어하우스 ※ 정답 : 2번 - 데이터레이크는 목적을 가지고 있지 않은 모든 데이터가 자유롭게 저장된 저장소 - 데이터웨어하우스는 형식을 가지고 데이터가 저장됨 2. 다음 보기에서 설명하는 패키지는 무엇인가? 데이터프레임을 하나 이상의 특정 변수를 기준으로 나누는 함수와 나누어진 데이터를 원하는 구성으로 재결합하는 함수를 제공하며, 유연한 데이터 재구성 및 총계 처리가 가능하도록 도와준다. 대표적인 함수로는 melt와 cast가 있다. ① reshape ② sqld..

[ADsP] (3과목) 데이터 분석 - 데이터 전처리 요약 [내부링크]

1. 데이터 웨어하우스(DW)와 데이터마트(DM) ㅇ 데이터 웨어하우스 : 여러 데이터베이스(RDB, 클라우드, NoSQL 등)로부터 공통의 형식으로 변환되어 사용자의 의사결정에 도움이 되기 위한 일시적인 데이터 집합 ㅇ 데이터 마트 : 특정한 목적 달성을 위해 활용하는 소규모의 데이터웨어하우스 ㅇ 신규 시스템이나 DW에 포함되지 못한 자료의 경우 기존 Legacy시스템이나 스테이징 영역(기존 Legacy에서 임시로 저장된 데이터) 과 ODS(Operational Data Store)에서 데이터를 가져와서 DW에서 가져온 내용과 결합하여 활용할 수 있다. - 운영시스템(Legacy)에 직접 접근해서 데이터를 활용하는 것은 매우 위험한 일이므로 거의 이루어 지지 않고, 가급적 클링징 영역인 ODX에서 데이..

[ADsP] (2과목) 데이터분석 기획 - 분석마스터 플랜 요약 [내부링크]

1. 분석마스터 플랜 ㅇ 하나의 프로젝트를 수행하기 위한 전체 설계도이며, 분석 프로젝트의 체계적인 관리와 더불어 역량 내재화를 통해 중장기적 관점에서 지속적으로 문제를 해결하는 것으로 목표로 함 ㅇ 분석 마스터 플랜은 분석 대상이 되는 과제를 도출하고, 우선순위를 평가하여 단기적인 세부 이행 계획과 중장기적인 로드맵을 작성 ㅇ 분석 로드맵의 과제들이 잘 수행되도록 하기 위해서는 분석 거버넌스 체계 수립이 필요하다. 분석 거버넌스 역량을 높이기 위해 현재 분석 수준이 어떤지 살펴보는 분석 성숙도 측정이 필요하다. 2. 분석 마스터 플랜 수립 프레임워크 ㅇ 발굴된 분석 과제에 대한 우선순위 결정 : 전략적 중요도, 비즈니스 성과, ROI, 실행용이성 ㅇ 발굴된 분석 과제의 적용 범위와 방식을 결정 후 이행..

[ADsP] (2과목) 데이터분석 기획 - 분석마스터 플랜 기출문제 [내부링크]

1. 다음 중 분석 마스터 플랜 수립에서 과제 우선순위 결정과 관련한 내용으로 부적절한 것은? ① ROI 관점에서 투자비용 요소의 3V와 비즈니스 요소의 1V를 활용하여 우선순위를 결정한다. ② 분석 과제 우선순위 결정에 고려할 사항에는 전략적 중요도, ROI, 실행 용이성이 있다. ③ 적용 기술의 안전성 검증요소는 투자 용이성의 평가이다. ④ 전략적 중요도는 전략적 필요성과 시급성의 두 가지 요소로 선별한다. ※ 정답 : 3번 – 기술용이성을 평가하는 것 2. 아래 포트폴리오 사분면에서 시급성을 중시할 때 분석과제 우선순위로 바르게 연결된 것은? ① Ⅲ→Ⅳ→Ⅱ ② Ⅲ→Ⅰ→Ⅱ ③ Ⅰ→Ⅱ→Ⅲ ④ Ⅱ→Ⅳ→Ⅰ ※ 정답 : 1번 3. 다음 중 ROI 관점에서의 과제 우선순위 평가에 대해 잘못 설명하고 있는 것은..

[ADsP] (2과목) 데이터분석 기획 - 데이터분석 기획 Part2 기출문제 [내부링크]

1. 다음 중 상향식 접근법에 대한 설명으로 부적절한 것은 무엇인가? ① 문제가 불명확한 경우 무엇을 분석해야 할지 찾기 위한 접근법이다. ② 프로토타이핑 접근법은 상향식 접근법 중 하나이다. ③ 비즈니스 모델 기반 문제 탐색 시 고객, 업무, 제품, 지원 인프라, 규제 및 감사의 5가지 블록 관점에서 문제를 탐색한다. ④ 무엇을 어떻게 분석해야 할지 모르는 ‘발견’에서 ‘통찰’로 넘어가는 Buttom Up 수행 방법이다. ※ 정답 : 3번 – 하향식 접근법의 1단계 문제탐색 방법 2. 다음 중 지도학습의 예시로 부적절한 것은 무엇인가? ① 강아지사진 100장과 고양이 사진 100장을 통해 규칙을 찾고 새로운 사진이 고양이인지 강아지인지 판별 ② 고객별 장바구니 속 구매 아이템으로부터 새로운 규칙을 발견..

[ADsP] (1과목) 데이터 이해 - 전략 인사이트와 데이터사이언스 기출문제 [내부링크]

1. 다음 중 데이터 사이언스에 대한 설명으로 가장 부적절한 것은? ① 분석적 영역, IT 영역, 비즈니스 영역으로 나누어 볼 수 있다. ② 강력한 호기심은 데이터 사이언티스트의 중요한 특징이다. ③ 과학적 분석과정에서는 가정과 인간의 해석은 개입 되어선 안된다. ④ 데이터 사이언스는 정형 데이터, 비정형 데이터를 막론하고 데이터로부터 가치를 찾는 것을 목표로 한다. ※ 정답 : 3번 – 어떻게 활용할지는 인간의 해석에 따라 상이하므로 인간의 해석은 필수 2. 다음 설명 중 틀린 것은 무엇인가? ① 데이터 사이언티스트의 중요한 핵심요소로는 강력한 호기심을 들 수 있다. ② 시간의 흐름에 따라 단순 세계화에서 복잡 세계화로 변화하였다. ③ 분석을 수행하고 결과를 해석하는데 있어서 인간의 개입은 필수이다. ..

[ADsP] (1과목) 데이터 이해 - 전략 인사이트와 데이터사이언스 요약 [내부링크]

1. 빅데이터 열풍과 전략적 인사이트 ㅇ 빅데이터 분석은 데이터에서 가치, 즉 통찰을 끌어내는 것이 성과 창출 관건 - 데이터 최적화 능력이 최고의 가치를 창출하는 것은 아니고 가치에 적합한 분석이 중요 ㅇ 일차적 분석을 통해 해당부서, 업무영역 효과를 얻을 수 있지만 일차적인 분석은 태생적으로 업계 내부의 문제에만 초점을 두고 있음. 전략적 인사이트, 가치 기반을 위해 인구/경제/고객니즈 변화를 고려해야 함. 즉, 업계 상황에 한정해서 바라보지 말고 더 넓은 시야에서 차별화를 고려해야 함 ㅇ 데이터분석은 대상을 모델범위 외 요인들을 판단하게 되면 분석 모델의 정확성에 위험 동반 2. 데이터사이언스/데이터마이닝/통계학 ㅇ 데이터사이언스 : 데이터로부터 의미있는 정보를 추출 ㅇ 통계학이 정형화된 실험 데이..

[ADsP] (2과목) 데이터분석 기획 - 데이터분석 기획 Part 2 요약 [내부링크]

1. 분석과제 발굴 ㅇ 문제가 주어진 상태에서 답을 구하는 하향식 접근방식이 전통적으로 수행되었던 분석과제발굴 ㅇ 대규모의 다양한 데이터를 생성하고 빠르게 변하는 기업 환경에서는 문제 자체의 변화가 심해 문제를 사전에 정의하는 것이 어려워지고 있다. 데이터를 활용하여 생각하지 못했던 인사이트를 도출하고, 시행착오를 통해서 개선해 가는 상향식 접근방식이 점차 증가하고 있는 추세이다. ㅇ 최적의 의사결정은 두 접근방식이 상호보완 관계에 있을 때 가능하다. 2. 디자인씽킹 ㅇ 넓은 의미에서 디자이너 사고 방식을 의미. 간단하게 말하면 디자이너처럼 생각하자. 디자이너는 시작 단계에서 대상을 자세히 관찰하고, 그 상황이나 대상에 공감함으로써 많은 가능성과 아이디어를 생각한다. 그 이후 많은 아이디어를 내고 다시 ..

[ADsP] (2과목) 데이터분석 기획 - 데이터분석 기획 Part1 기출문제 [내부링크]

1. 다음 중 분석을 수행하기에 앞서 고려해야 할 요소로 부적절한 것은? ① 유사한 분석 케이스 확보 ② 분석 장애 요소 파악 ③ 활용 가능한 데이터의 파악 ④ 요구되는 분석 기법의 파악 ※ 정답 : 4번 - 가용 데이터 여부, use case 탐색, 장애 요소 파악 2. “장기적인 마스터플랜 방식”에 비하여 “과제 중심적인 접근 방식”의 특징으로 가장 적절하지 못한 것은? ① Quick & Win ② Speed & Test ③ Problem Solving ④ Accuracy & Deploy ※ 정답 : 4번 - 장기적 지속적 분석 문화 내재화, 마스터 플랜 3. 다음 중 분석 대상(What)을 알고 분석 방법(How)을 알고 있는 경우 무엇을 목적으로 접근해야 하는가? ① 통찰 ② 발견 ③ 최적화 ④ ..

[ADsP] (2과목) 데이터분석 기획 - 데이터분석 기획 Part 1 요약 [내부링크]

1. 분석주제 유형 ㅇ 분석 대상 및 방법에 따라 구분하며, 분석 주제 및 기법 특성상 아래 4가지 유형은 서로 융합적으로 반복하게 됨. - Optimization : 분석 대상 및 분석 방법을 이해하고 현 문제를 최적화 형태로 수행 - Solution : 분석과제는 수행되고 분석방법을 알지 못할 경우 솔루션을 찾는 방식으로 분석과제 수행 - Insight : 분석 대상이 불분명하고 분석방법을 알고 있는 경우 인사이트 도출 - Discovery : 분석대상, 방법을 모른다면 발견을 통해 분석대상 자체를 새롭게 도출 분석방법 분석대상 Known Un-Kown Known 최적화(Optimization) 통찰력(Insight) Un-Known 해결책(Solution) 발견(Discovery) 2. 목표 시점별..

[ADsP] (1과목) 데이터 이해 - 데이터의 가치와 미래 기출문제 [내부링크]

1. 다음 중 빅데이터의 일반적인 특징 3V와 그 설명이 부적절한 것은 무엇인가? ① VOLUME – 데이터 양의 증가 ② VARIETY – 데이터 유형의 증가 ③ VELOCITY – 데이터 생성 속도 및 처리 속도의 증가 ④ VALUE – 데이터로부터 도출되는 가치의 증가 ※ 정답 : 4번 2. 다음 중 빅데이터분석에 경제성을 제공해 준 결정적인 기술로 가장 적절한 것은? ① 텍스트마이닝 ② 클라우드컴퓨팅 ③ 저장장치 비용의 지속적인 하락 ④ 스마트폰의 급속한 확산 ※ 정답 : 2번 3. 다음 중 빅데이터에 의한 변화로 잘못 연결된 것은 무엇인가? ① 사전처리에서 사후처리로의 변화 ② 표본조사에서 전수조사로의 변화 ③ 데이터의 양보다 질을 중시하는 변화 ④ 인과관계에서 상관관계로의 변화 ※ 정답 : 3..

[ADsP] (1과목) 데이터 이해 - 데이터의 가치와 미래 [내부링크]

1. 빅데이터 특징(3V) ㅇ Volume 크기 : 생성되는 모든 데이터 수집, 데이터양의 증가 ㅇ Variety 다양성 : 정형화된 데이터를 넘어 텍스트, 오디오, 비디오 등 모든 유형 데이터를 분석 ㅇ Velocity 속도 : 데이터의 생성속도 및 처리 속도 증가 2. 빅데이터 출현 배경 ㅇ 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 변화를 의미 - 산업계 :고객 데이터의 증가 및 각종 유형의 사건 데이터 증가, 양질 전환 법칙으로 데이터 양이 많을수록 이익으로 연결된다. - 학계 : 컴퓨터 공학, 인공지능학과 같이 데이터를 다루는 학문 증가 - 기술발전 : 데이터를 다루기 위한 기술 발전으로 클라우드 컴퓨팅 활용, 디지털화, 새로운 데이터 ..

[ADsP] (1과목) 데이터 이해 - 데이터의 이해 기출문제 [내부링크]

1. 다음 중 데이터의 유형이 다른 한가지는 무엇인가? ① CSV 파일 ② HTML 파일 ③ 엑셀 파일 ④ 관계형 데이터베이스 ※ 정답 : 2번 2. 다음 중 지식의 유형이 다른 한가지는 무엇인가? ① ADsP 자격증 시험을 위한 기출문제를 정리한 문제집 ② 축구선수가 공을 멀리 차기 위한 몸놀림 ③ 김치를 맛있게 담그는 어머님의 손맛 ④ 속기사가 1분에 320자를 입력하기 위한 기술 ※ 정답 : 1번(형식지) / 2,3,4(암묵지) 3. 다음 중 암묵지와 형식지의 상호작용과 관련 없는 것은? ① 추상화 ② 공통화 ③ 내면화 ④ 표출화 ※ 정답 : 1번 4. 다음 중 객관적인 사실을 의미하는 데이터로부터 얻을 수 없는 것은? ① 지혜 ② 정보 ③ 지식 ④ 도형 ※ 정답 : 4번 5. 아래 제시된 데이터양..

[ADsP] (1과목) 데이터 이해 - 데이터의 이해 [내부링크]

1. 데이터 정의 ㅇ 존재적 특성 : 가공되지 않은 있는 그대로의 객관적 사실 ㅇ 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거 * 데이터는 다른 객체와 상호관계일 때 가치 있으며, 객관적 사실로 개별 데이터는 중요하지 않다. 2. 데이터 유형 ㅇ 정성적 : 양으로 표현 불가능한 질적 자료로 언어, 문자 등 형태와 형식이 정해져 있지 않고, 비정형 데이터로 저장, 분석에 시간과 비용 필요 (ex. 설문조사 주관식 응답, 문자, 언어, 음성메시지, 그림문자, 트위터, 페이스북 등) ㅇ 정량적 : 양으로 표현이 가능한 양적 데이터로 데이터양이 증가하더라도 저장, 분석 용이 (ex. 수치, 기호, 도형, 온도, 풍속, 강수량 등) 3. 데이터 유형 분류 ㅇ 정형 : 정형화된 구조가 있으며 연산 가능,..

[ADsP] ADsP 데이터분석준전문가 자격증 시험 정보(2023년 기준) [내부링크]

[자격증 소개] ㅇ 소개 : 데이터분석 준전문가(ADsP : Advanced Data Analytics Semi-Professional)란 데이터 이해에 대한 기본지식을 바탕으로 데이터분석 기획 및 데이터분석 등의 직무를 수행하는 실무자를 양성하기 위한 자격제도 ㅇ 주관 : 한국데이터산업진흥원 [필요성] ㅇ 최근 데이터 처리 및 분석을 통한 데이터 활용은 생산성 향상, 고부가가치 및 고용창출 등 국가 경제적 가치 창출의 핵심동력으로 급부상하고 있다. 기업들은 자사의 경영 전략에 데이터분석을 도입하여 수익 증대를 실현할 수 있으며, 데이터 분석을 공공영역에 도입할 경우 사회적 경제적 효과가 높을 것으로 예상된다. 이러한 데이터분석 가능성을 실현하기 위해 데이터의 다각적 분석을 통해 조직 전략방향을 제시하는..

[ADsP][데이터분석준전문가] 요약+기출문제 모음 [내부링크]

[시험개요] [ADsP] ADsP 데이터분석준전문가 자격증 시험 정보(2023년 기준) [자격증 소개] ㅇ 소개 : 데이터분석 준전문가(ADsP : Advanced Data Analytics Semi-Professional)란 데이터 이해에 대한 기본지식을 바탕으로 데이터분석 기획 및 데이터분석 등의 직무를 수행하는 실무자를 inform.workhyo.com [과목별 요약/기출문제] 과목명 이론 기출문제 [1과목] 데이터 이해 ㅇ 데이터와 정보, DB (바로가기) ㅇ 데이터의 가치와 미래 (바로가기) ㅇ 가치창조를 위한 데이터사이언스와 전략인사이트 ㅇ 데이터와 정보, DB (바로가기) ` ㅇ 데이터의 가치와 미래 (바로가기) ㅇ 가치창조를 위한 데이터사이언스와 전략인사이트 [2과목] 데이터분석 기획 ㅇ ..

[빅데이터분석기사][유형2] 문제유형 풀어보기(다항분류) [내부링크]

[문제] 자동차시장 세분화 ㅇ 자동차 회사는 새로운 전략 수립을 위해 4개의 시장으로 세분화 했습니다. 기존 고객 분류 자료를 바탕으로 신규 고객이 어떤 분류에 속할 지 예측해주세요. - 데이터 : X_train, y_train, X_test - 예측값(y) : "Segmentation" (1,2,3,4) - 평가 : Macro f1-score - 제출형식 : ID, Segmentation [풀이] # 다항분류 f1-score 평가 : f1_score(y_val, pred, average='macro') # 사용 라이브러리 import import pandas as pd # x_train.csv, y_train.csv, x_test.csv 읽어오기 X_train = pd.read_csv('X_train...

[빅데이터분석기사][작업형2] 5회 기출문제 풀이(회귀) [내부링크]

* 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제] 중고자동차 가격 예측하기 ㅇ 예측할 값(y): price ㅇ 평가 : RMSE (Root Mean Squared Error) ㅇ data : train.csv, test.csv ㅇ 제출 형식: result.csv파일을 아래와 같은 형식(수치형)으로 제출 ㅇ 답안제출 참고 : pd.read_csv('result.csv') 로 제출 코드 확인 [풀이] ## 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") ## EDA # 데이터 크기 확인 train.shape, test.shape # 샘플 확인 (시험환경에서는 display 대신 prin..

[빅데이터분석기사][작업형2] 4회 기출문제 풀이 (분류, 2개 데이터set) [내부링크]

* 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제] 자동치 시장 세분화 (분류) 자동차 회사는 새로운 전략을 수립하기 위해 4개의 시장으로 세분화하였습니다. 기존 고객 분류 자료를 바탕으로 신규 고객이 어떤 분류에 속할지 예측해주세요. ㅇ 예측할 값 : "Segmentation" (1,2,3,4) ㅇ 평가 : Macro f1-score ㅇ data : train.csv, test.csv ㅇ 제출형식 : ID, 값 1. 라이브러리 및 데이터 읽어오기 # 라이브러리 불러오기 import pandas as pd # 데이터 불러오기 train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") 2. EDA # 데이터 크기 확인 train.shape, tes..

[빅데이터분석기사][작업형1] 5회 기출문제 풀이(기초통계, 정렬) [내부링크]

* 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제1] 종량제 봉투 종류가 '규격봉투'이고, 종량제 봉투 용도가 '음식물쓰레기'인 2L가격 평균을 출력하시오 (단, 가격0 제외, 반올림 후 정수 출력) import pandas as pd df = pd.read_csv("5-1price.csv") # print(df.head(3)) # print(df.info()) # print(df.shape) cond1 = df['종량제봉투종류'] == '규격봉투' cond2 = df['종량제봉투용도'] == '음식물쓰레기' cond3 = df['2ℓ가격'] > 0 df = df[cond1&cond2&cond3] print(round(df['2ℓ가격'].mean())) [문제2] bmi를 계산하고, 수치가 정상인 사..

[재테크][부동산] 백승님의 일본부동산 투자 노하우 강의후기 [내부링크]

[ Intro ] 23.06.10 신세계 아카데미 강남점에서 진행한 백승님의 일본부동산 투자 강의를 다녀왔다. 역시 많은 사람들이 투자, 재테크에 관심을 가지고 있었고, 나 역시 처음에는 수강인원이 Full이었는지 대기 상태로 있다가 신청할 수 있었다. 요즘 일본 엔화가 저렴해서 그런지 사람들이 특히 일본에 투자하는 방법을 찾고 있는 듯 하다. 아직 부동산 한채도 없는 초보 투자자인 나에게는 머나먼 일 인 것 같지만 (한국 부동산 부터....) 언젠가는 나도 해외 부동산에 투자할 일이 생길 것이라 믿고 강의를 듣고 왔다. 어릴 때 빨리 재테크의 중요성을 꺠닫고 빠르게 투자를 실천하는게 역시 최고인 것 같다. 선구자가 되면 시행착오를 통해 고생도 하겠지만 결국 투자는 우상향하면서 수익을 얻게 되고, 이런 ..

[재테크][투자전략] 주식투자를 위한 기업/ETF 분석방법 [내부링크]

* 아래 재테크 지식은 Class101의 재테크는스크루지님의 강의를 참고하여 요약하였고, 제 상황에 맞게 강의에서 들은 내용을 실천하며 기록하였습니다.* [3] 주식투자를 위한 기업/ETF 분석방법 이제 남들이 추천하는 주식이 아니라 기업분석을 통해 장기적으로 내가 투자할 종목을 고르기로 한다. 기업분석에 자신 없다면 그래도 이름있는 대기업을 선택한다면 10년뒤에도 망하지는 않을테니 장기투자를 고려해서 투자사이클을 보고 투자하는게 좋을 것 같다. 1. 국내기업 분석하기 ㅇ 프로세스 : 사업보고서 확인 > 기업의 향후 전망치/재무제표 확인 > 애널리스트 리포트 참고 > 해당 기업에 대한 최신뉴스 확인 > 블로그/유튜브를 통한 다른 사람 분석 참고하기 > 차트 확인하여 매수/매도 기준선 정하기 - 사업보고서..

[재테크][투자전략] 주식 투자를 위한 기본셋팅 하기 [내부링크]

* 아래 재테크 지식은 Class101의 재테크는스크루지님의 강의를 참고하여 요약하였고, 제 상황에 맞게 강의에서 들은 내용을 실천하며 기록하였습니다.* [2] 주식 투자를 위한 기본셋팅하기 미국주식/국내주식/ETF 등 골고루 섞어가면서 그냥 이것저것 유명하다는 주식은 다 사본 것 같다. 종목이 너무 많아서 문제인데 강의를 따라 나의 기준을 잡고 이제부터 주식투자를 하기로 한다. 지금 가지고 있는 주식계좌와 주식 정리를 조금 선행해야될 것 같다. 1. 경제뉴스를 쉽게 볼 수 있도록 자동화하기 주식투자자가 기본적으로 해야 할 일은 경제뉴스 확인하기이다. 경제, 기업, 투식투자는 결국 하나로 연결되어 있기 때문이다. 나 역시 카카오 재테크 오픈채팅 방 등을 통해 이런저런 뉴스와 정보를 보고 있지만 넘쳐나는 ..

[재테크][투자전략] 체계적으로 돈 관리 하기 위한 재테크 시작하기 [내부링크]

* 아래 재테크 지식은 Class101의 재테크는스크루지님의 강의를 참고하여 요약하였고, 제 상황에 맞게 강의에서 들은 내용을 실천하며 기록하였습니다.* Intro 누구나 돈은 많이 벌고 싶고, 자산을 증식하고 싶어 투자 등의 재테크를 하게 된다. 직장생활을 하는 나 역시 이런 생각은 가득했고 어설프게 주식 등에 투자하고 있었지만 잘 알지 못하는 상태였다. 그러던 중 제대로 강의를 들으면서 본격적으로 공부해야 겠다는 생각이 들었고, Class101수강권이 있어 '재테크는스크루지'님의 '[엑셀시트 제공] 7년간 순자산 10배! 돈관리부터 주식 포트폴리오까지 A to Z' 강의를 들으면서 나름대로 요약하고 내 상황에 맞춰서 실천하면서 블로그에 기록하기로 한다. 물론 강의에서 제공하는 첨부파일은 스크루지님의 ..

[빅데이터분석기사][작업형1] 4회 기출문제 풀이(기초통계, 날짜) [내부링크]

* 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제1] age 컬럼의 3사분위수와 1사분위수의 차를 절대값으로 구하고, 소수점 버려서, 정수로 출력 import pandas as pd df = pd.read_csv("basic1.csv") # print(df.head(3)) # print(df.info()) a = df['age'].quantile(.75) b = df['age'].quantile(.25) print(int(abs(a-b))) * 사분위값 : df['컬럼명'].quantile(.25) * 절대값 : abs(값) * 정수형으로 출력 : int(값) [문제2] (loves반응+wows반응)/(reactions반응) 비율이 0.4보다 크고 0.5보다 작으면서, type 컬럼이 'video'인..

[빅데이터분석기사][작업형1] 판다스 문법 활용 요약 [내부링크]

1. 라이브러리 및 데이터 읽어오기 ㅇ 컬럼명 확인할 수 있도록 세팅하기 import pandas as pd df = pd.read_csv('ㅇㅇㅇㅇ.csv') pd.set_option('display.max_columns', None) #컬럼명 전부 확인할 수 있도록 셋팅하기 2. 데이터 탐색(EDA) # print문으로 확인하고, 나중에 주석처리하기 ㅇ 데이터 샘플 확인하기 : df.head() / df.tail(n) ㅇ 데이터프레임 크기(행/열) 확인 : df.shape ㅇ 컬럼별 데이터타입 확인 : df.info() ㅇ 기초통계 확인 : df.describe() ㅇ 데이터 항목 종류 확인 - 컬럼별 종류 수 : 변수명.nunique() - 컬럼별 항목 종류 : 변수명['컬럼명'].unique() ..

[빅데이터분석기사][작업형3] 가설검정 이론 및 프로세스(정리) [내부링크]

* 퇴근후딴짓 님의 강의를 참고하였습니다. * 1. 모집단과 표본 ㅇ 모집단 : 집단 전체 ㅇ 표본 : 모집단을 대표하는 집합 2. 가설검정 ㅇ 모집단에 대한 가설이 적합한지 추출한 표본데이터로부터 판단하는 통계적 추론 - 귀무가설 H0 : 기존에 알려진 가설 - 대립가설 H1 : 새로 밝히려는 가설 -> 귀무가설 채택 : 귀무가설을 기각하지 못한다. -> 대릭가설 채택 : 귀무가설을 기각한다 (통계적으로 유의하다) ㅇ 가설검정의 오류 검정결과 H0 채택 H1 채택 (H0기각) 실제 H0 참 올바른 판단(1-a) 제1종 오류(a) H1 참 제2종 오류(b) 올바른 판단(1-b) ㅇ 가설검정 과정 - 통계적 가설 설정(귀무가설 H0, 대립가설 H1) ex. yd : 치료후 혈압 - 치료전 혈압의 평균일 때..

[빅데이터분석기사][작업형3] 예시문제 (쌍체표본 t-검정) [내부링크]

* 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 주어진 데이터(data/blood_pressure.csv)에는 고혈압 환자 120명의 치료전후의 혈압이 저장되어 있다. 해당 치료가 효과가 있는지 (즉, 치료 후의 혈압이 감소했는지) 쌍체표본 t-검정(paried t-test)를 통해 답하고자 한다. 가설은 아래와 같다. μd : (치료 후 혈압 - 치료전 혈압)의 평균 Η0 : μd >= 0 H1 : μd < 0 - bp_before : 치료 전 혈압 - bp_after : 치료 후 혈압 1) μd의 표본평균을 입력하시오. (반올림하여 소수 둘째자리까지 계산) 2) 위의 가설을 검정하기 위한 검정통계량을 입력하시오. (반올림하여 소수 넷째자리까지 계산) 3) 위의 통계량에 대한 p값을 구하여 ..

[빅데이터분석기사][작업형2] 머신러닝 이론 및 프로세스 요약 [내부링크]

* 퇴근후딴짓 님의 강의를 참고하였습니다. * 1. 머신러닝 ㅇ기존에는 데이터/규칙을 Rule Base로 결과를 도출하였지만, 머신러닝은 데이터와 결과(해답)을 기반으로 학습을 통해 규칙을 도출하고 머신러닝이 만든 규칙을 기반으로 새로운 데이터를 입력했을 때 결과가 도출되게 됨 - 지도학습 : 분류/회귀 > 빅분기 시험 범위 - 비지도학습 - 강화학습 2. 머신러닝 프로세스 ㅇ 문제 정의(Library / Data) > 탐색적 데이터분석(EDA) > 데이터전처리(결측치 : 채우기, 삭제 or 이상치 : 삭제 / 시험문제에서 이상치는 없는 경우가 많음) > 피처 엔지니어링 > Train/Validation(학습용/검증용) 데이터 나누기 > 모델(선택/훈련/평가/최적화) > 예측 3. 시험문제 풀이방법 ㅇ ..

[빅데이터분석기사][작업형2] 문제유형 풀어보기(분류, 2개데이터Set) [내부링크]

* 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 심장마비 확률이 높은 사람 ㅇ 파일 : train.csv, test.csv ㅇ 타겟 : output(1:심장마비 확률 높음, 0:심장마비 확률 낮음) ㅇ 평가 : ROC_AUC, 정확도(Accuracy), F1 ㅇ 데이터 : 성별, 나이, 혈압, 콜레스테롤, 공복혈당, 최대심박수 등의 컬럼이 있음 [ 풀이 ] 1. 라이브러리 데이터 불러오기 2. EDA import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') print(train.shape, test.shape) train.head(2) test.head(2) train.isnull().sum() tes..

[빅데이터분석기사][작업형2] 문제유형 풀어보기(회귀) [내부링크]

* 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 에어비앤비 가격 ㅇ 데이터 : train.csv, test.csv ㅇ 타겟 : price(가격) [ 풀이 ] 1. 라이브러리 및 데이터 불러오기 import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') print(train.shape, test.shape) 2. EDA train.head(3) test.head(2) train.isnull().sum() test.isnull().sum() train['price'].describe() #그림을 그릴 수 없어서 대략적인 분포 확인 train.info() 3. 데이터전처리 및 피처엔지니어링 ㅇ 결측치 처리 t..

[빅데이터분석기사][작업형2] 문제유형 풀어보기 (분류_2개 데이터set) [내부링크]

* 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 신용카드서비스를 떠나는 고객 찾기 ㅇ 데이터 : trian.csv, test.csv ㅇ 나이, 급여, 결혼상태, 신용카드한도 등의 컬럼이 있음 ㅇ 평가 : ROC_AUC, 정확도(Accuracy), F1, 정밀도(Precision), 재현율(Recall) 구하기 ㅇ 타겟데이터 : Attrition_Flag(1:이탈, 0:유지) [ 풀이 ] 1. 라이브리러, 데이터 불러오기 import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') 2. EDA print(train.shape, test.shape) print(train.head(), test.head()) ..

[빅데이터분석기사][작업형2] 3회 기출문제 풀이 (분류_데이터set 2개) [내부링크]

* 퇴근후딴짓 님의 강의를 참고하였습니다.* [ 문제 ] 보험가입 확률을 묻는 문제 ㅇ 제공된 데이터(2개) : train.csv, test,csv ㅇ 예측할 컬럼 : TavelInsurance [ 풀이 ] 1. 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") 2. EDA ㅇ 크기 : shape ㅇ 샘플 : head() ㅇ 타입 : info() ㅇ 결측치 : isnull().sum() ㅇ 기초통계 : describe(), describe(include='object') ㅇ 타겟 레이블 : value_counts() # 크기 확인 train.shape, test.shape # 샘플 확인 t..

[빅데이터분석기사][작업형2] 2회 기출문제 풀이(분류) [내부링크]

* 퇴근후딴짓 님의 강의를 참고하였습니다. * [ 문제 ] 제품 배송시간에 맞춰 배송되었는지 예측모델 만들기 학습용 데이터 (X_train, y_train)을 이용하여 배송 예측 모형을 만든 후, 이를 평가용 데이터(X_test)에 적용하여 얻은 예측(시간에 맞춰 도착하지 않을 확률)값을 다음과 같은 형식의 CSV파일로 생성하시오(제출한 모델의 성능은 ROC-AUC 평가지표에 따라 채점) ㅇ 제공 데이터 : X_train.csv, y_train.csv, X_test.csv ㅇ 0 정시도착, 1 정시도착하지 않음 [ 풀이 ] 1. 라이브러리, 데이터 불러오기 # 데이터 불러오기 import pandas as pd X_test = pd.read_csv("X_test.csv") X_train = pd.read..

[빅데이터분석기사][작업형2] 예시문제 고객성별 예측(분류) [내부링크]

* 퇴근후딴짓 님의 강의를 참고하였습니다.* [ 문제 ] 아래는 백화점 고객의 1년간 구매 데이터이다. (가) 제공데이터 목록 1. y_train.csv : 고객의 성별데이터(학습용), csv형식의 파일 2. X_train.csv, X_test.csv : 고객의 상품구매속성(학습용 및 평가용), csv형식의 파일 (나) 데이터 형식 및 내용 1. y_train.csv (3,500명 데이터) 2. X_train.csv (3,500명 데이터), X_test.csv (2,482명 데이터) 고객 3,500명에 대한 학습용데이터(y_train, X_train)를 이용하여 성별예측모형을 만든 후, 이를 평가용 데이터(X_test)에 적용하여 얻은 2,482명 고객의 성별 예측값(남자일 확률)을 다음과 같은 형식의 ..

[빅데이터분석기사][실기] 시험 응시환경 및 Tip [내부링크]

* 퇴근후딴짓 님의 강의를 참고하였습니다. * 1. 시험 응시환경 ㅇ print()문을 활용해서 출력해야 함 ㅇ 코드 힌트 사용할 수 없음. help(), dir(), __all__ 활용 - dir()을 통해 사용가능한 함수 확인 가능(스펠링 기억 안날 때) : print(dir(pd)) / print(dir(pd.DataFrame)) - help()를 통해 함수 사용방법 확인 ; print(help(pd.DataFrame.drop)) / print(help(pd.get_dummies)) - sklearn에서는 __all__을 활용 : print(sklearn.__all__) / print(sklearn.preprocissing.__all__) / print(help(sklearn.preprocessin..

[빅데이터분석기사][작업형1] 문제유형 풀어보기(기초통계, 그룹통계, 날짜) [내부링크]

* 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제 1] index '2001' 데이터(행)의 평균보다 큰 값의 수와 index'2003' 데이터(행)의 평균보다 작은 값의 수를 더하시오. df = pd.read_csv("data.csv", index_col="Unnamed: 0") # print(df.head(2)) m2001 = df.loc[2001].mean() # print(m2001) cond = df.loc[2001] > m2001 r1 = sum(cond) #True인것만 합해서 구해줌 m2003 = df.loc[2003].mean() cond = df.loc[2003] < m2003 r2 = sum(cond) print(r1+r2) [문제 2] 결측값을 가진 데이터는 바로 뒤에 있는 값으..

[빅데이터분석기사][작업형1] 문제유형 풀어보기(이상치, 기초통계) [내부링크]

* 인프런의 퇴근후딴짓 님의 강의를 참고하였습니다. * [문제1] 주어진 데이터에서 자료형(type)이 object인 컬럼은 삭제하고, 결측치는 0으로 대체한다. 행 단위로 합한 다음 그 값이 3000보다 큰 값의 데이터 수를 구하시오('age', 'f1', 'f2', 'f5', 'views'의 각 행별 합) import pandas as pd df = pd.read_csv{'members.csv') print(df.head()) ㅇ 방법1 : object 컬럼이 포함된 types 삭제 cols = df.select_dtypes(include='object').columns print(cols) df = df.drop(cols, axis=1) print(df.head()) ㅇ 방법2 : object 컬럼..

[빅데이터분석기사][작업형1] 문제유형 풀어보기(결측치) [내부링크]

* 인프런의 '퇴근후딴짓'님의 강의를 참고하였습니다. * [문제1] f1컬럼의 결측치는 중앙값으로 대체하고, 나머지 결측치가 있는 데이터(행)을 모두 제거하고, 앞에서부터 70%데이터 중 views 컬럼의 3사분위 수에서 1사분위 수를 뺀 값을 구하시오.(단, 데이터70%지점은 정수형 변환) # 라이브러리 및 데이터 읽어오기 import pandas as pd df = pd.read_csv('members.csv') # print(df.head()) # f1 컬럼 결측치 확인 및 중앙값 찾아서 대체 # print(df.isnull().sum()) # print(df.shape) m = df['f1'].median() # print(m) df['f1'] = df['f1'].fillna(m) # print(..

[빅데이터분석기사][작업형1] 3회 기출문제 풀이(기초통계, 결측치) [내부링크]

* 인프런의 '퇴근후딴짓' 님의 강의를 참고하였습니다.* [문제1] 결측치 데이터(행)을 제거하고, 앞에서부터 70% 데이터만 활용해 'f1' 컬럼 1사분위 값을 구하시오. # 라이브러리 및 데이터 읽기 # 결측치 데이터(행) 제거 : dropna() # 70% 데이터 활용 # f1 컬럼의 1사분위 값 구하기 # 라이브러리 및 데이터 읽기 import pandas as pd df = pd.read_csv('member.csv') # 결측치 데이터(행) 제거 : dropna() # print(df.isnull().sum()) # print(df.shape) df = df.dropna() # print(df.isnull().sum()) # print(df.shape) # 70% 데이터 활용 # print(i..

[빅데이터분석기사][작업형1] 2회 기출문제 유형풀이(이상치, 기초통계) [내부링크]

* 인프런의 '퇴근후 딴짓' 님의 강의를 참고하였습니다. * [문제1] 주어진 데이터셋의 'views' 컬럼 상위 10개 데이터를 상위 10번째 값으로 대체한 후 'age' 컬럼에서 80이상인 데이터의 'views' 컬럼의 평균 값 구하기 # 라이브러리, 데이터 읽어오기 # views 컬럼 기준으로 내림차순 정렬 후 상위 10번째 값 찾기 # views 컬럼 상위 10개값을 02에서 찾은 값으로 대체하기 # age 컬럼이 80 이상인 데이터의 view 컬럼 평균 값 구하기 #01. 라이브러리, 데이터 읽어오기 import pandas as pd df = pd.read_csv('member.csv') df.head(10) #02. views 컬럼 기준으로 내림차순 정렬 후 상위 10번째 값 찾기 df = ..

[빅데이터분석기사][작업형1] 예시문제 Min-Max Scale 풀이 [내부링크]

[문제] 데이터 셋에서 qsec 컬럼을 Min-Max Scale로 변환 후 0.5보다 큰 값을 가지는 레코드(row) 수는? 1. 데이터 불러오기 import pandas as pd df = pd.read_csv('ㅇㅇㅇㅇ.csv') 2. 스케일링하기 ㅇ 방법1 : MinMaxScaler 활용 # MinMaxScaler 활용 from sklearn.preprocessing import MinMaxScaler data = load_data() scaler = MinMaxScaler() print('MinMax Scale 변환 전: \n',data['qsec'].head()) data['qsec'] = scaler.fit_transform(data[['qsec']]) print('MinMax Scale 변환..