https://cafe.naver.com/invest79/14228 강환국 & systrader79 퀀트 자료 collection vol.3.pdf + systrader79 전자책 공유합니다 (100개 chapter, 991 페이 강환국님의 '할 수 있다 알고 투자' 동영상 슬라이드..
세상에는 여러 가지 자산군이 존재하며 모멘텀이 서로서로 돌고 돕니다. 저도 주식과 토지, 코인 위주로 배분하여 시간 날 때마다 공부하면서 시장에 참여를 하고 있습니다. 근데 어느 특정 자산군에 입문을 할 때..
NLP에서 분류와 생성, 키워드 추출, NER, MRC 등 다양한 Task들이 존재합니다. 하지만 이번에 또 다른 영역인 "Parsing"이라는 영역을 공부하게 되었고 그중 단어 간 관계를 파악하는 것이 목적인 "Dependency Par..
NLP을 활용한다고 하면 Pre-trained Language Model(PLM)은 필수인 시대인데, 온라인 환경에서는 그냥 README.md나 튜토리얼 코드를 그냥 그대로 따라 하면 쉽게 실습을 할 수 있습니다. 하지만 오프라인 환경에서..
주식이나 코인에서 많은 시장 참여자들은 다양한 방법으로 돈을 벌고 잃기도 합니다. 시장 참여자들 중에 또 각자 취향에 맞는 기법들을 공부하고 실전에 적용합니다. 현물/선물 트레이딩에서도 돈을 버는 다양한..
공백 제외 4000자 후기를 작성해보겠습니다. 1. 강의 신청 배경 및 이유 3년 가까이 ML 관련 컨설팅 프로젝트하면서 불편하고 고생했던 점들을 나열하면 상당하다고 자부할 수 있습니다. 석사, 주니어 때(지금도..
강의를 여러 개 들은 것들이 많아서 앞으로 종종 강의를 듣고 생각나는 것 + 정보 공유 차원으로 공유하고자 합니다. 아마 패스트캠퍼스 강의 중심으로 작성될 것 같습니다.(신청한 강의가 꽤 많기 때문에..) 0...
마지막으로 다룰 내용은 MLOps에 대해 미래의 이야기와 개념을 간단하게 정리해보는 글입니다. 아래는 O'REILLY에서 설문조사한 내용입니다. 데이터 부족 문제가 2위(18%)입니다. 그냥 데이터가 아닌, 쓸 수 있는..
이번 글은 이전에 만든 Feature Store를 활용하여 FastAPI를 어떻게 배포하는지에 대해 다루고자 합니다. 1. GCP에서 Project 설정 이전 글과 마찬가지로 동일한 project에서 할 예정이지만 FastAPI를 수행하기 위..
이전 글에서는 GCP와 Colab에서 세팅을 하고 FeatureView를 생성해 배포하였습니다. 이제 모델 훈련과 배포를 해보도록 하겠습니다. 3. 모델 훈련과 배포 훈련 데이터를 추출하는 코드는 다음과 같습니다. from d..
이번 글 시리즈에서는 GCP에서 MLOps환경을 어떻게 구성하는지 그리고 Feast Feature Store에 대해 이야기해보려합니다. https://cloud.google.com 에 접속하여 무료로 시작하기 버튼을 눌러 시작합니다. 1. Colab..
다른 AutoML에 비해서 SageMaker의 autopilot은 전체 프로세스가 완료될 때까지 많은 시간이 소요됩니다. 1. 실험 데이터 Kaggle에서 mnist data를 다운로드합니다. https://www.kaggle.com/oddrationale/mnist-in..
1. AWS 계정 생성 계정을 생성하는 방법은 구글링 해보시면 상당히 많습니다. 유튜브에도 많습니다. https://sujinisacat.tistory.com/12 위 주소를 참고하면 될 것 같습니다. 2. Amazon SageMaker 접속하기 Ama..
이번 글에서는 Python ML backend app이 있다고 가정하고 Jenkins Pipeline을 생성하여 application을 배포해보도록 하겠습니다. jenkins pipeline 하위 폴더에 app폴더를 생성하고 main.py에 아래와 같은 코드..
Jenkins가 각자의 환경에 맞는 곳에 설치가 되어있다고 가정하고 시작하겠습니다. Jenkinsfile의 기본적인 구조를 알아보고 생성하고 Jenkins에서 Pipeline Job을 생성하고 Build 하는 내용을 다룰 예정입니다. 또..
Jenkins에 대해서 짚어보고 설치하는 내용을 다루고자 합니다. 1. Jenkins 개념 우선 Jenkins가 없는 경우에 대한 Workflow를 보겠습니다. 일반적인 Workflow처럼 코드를 수정한 것을 Commit 하고, 이 변경사항을..
이전 글에서는 console, 그리고 오픈소스 CML을 활용하여 모델 metric을 markdown으로 report 형태로 떨구어주는 것을 다루었습니다. 하지만 이부분의 단점으로는 각 commit마다 report가 달리는데 이를 비교하는..
간단한 ML 모델을 수행하고 Metric을 뽑는 python 코드를 Github Actions을 활용해 성능지표를 출력하고 CML을 이용해 Report 형태로 출력하는 내용을 한번 다루어보고자 합니다. 우선 github-actions-cml 새 rep..
이전 글에서 CI 관련된 내용을 알려드렸습니다. Docker Image를 Build 하고, 생성한 Image를 Docker Hub에 Push 하는 내용을 다루겠습니다. 그전에 Dockerhub에 먼저 가입을 따로 하셔서 계정을 생성을 해두시길..
이번 글에서는 Github Actions를 활용하여 Docker Image를 Build 하는 내용을 다루겠습니다. 본인 계정의 Github을 이용하면 되겠습니다. 우선 아래처럼 github new repository를 만듭니다. actions Tab을 가보면..
이번 글은 github을 예를 들어서 Workflow에 대한 개념을 알아보고자 합니다. 1. Github Actions Github Actions는 일반적으로 CI/CD 툴로 인식이 되어있지만 엄밀히 말하자면 개발자들의 Workflow를 자동화하기..
Feast 관련 글은 이 글로 정리하며 끝내려고 합니다. 1. Feast가 없는 경우(As-Is) 보통 아래 그림과 같이 각 단계에서 각각 처리되거나 가공이 되는 Feature들이 바로 모델에 소비되는 시스템입니다. 즉, 어떤 Fe..
이번 글은 Feast Server를 생성하는데, CLI 환경위에서 진행합니다. 1. Local에서 Feast Server 실행하기 feast를 설치하고, init 후 새 dir을 만들어서 apply를 수행합니다. pip install feast feast init featur..
이번 글에서는 Store로 부터 훈련데이터를 추출해보고, Online store를 구축하여 데이터를 적재하고 추론을 위한 Feature Vectore를 가져오는 것을 다루겠습니다. 1. Store로 부터 Train data 추출해보기 보통 추..
이번 글은 Feast Feature Store를 생성해, 각 Feature들을 정의해 Stoer에 배포하는 것까지 진행해보겠습니다. 1. 준비작업 Feature store 작업 경로를 설정하여 이동부터 하겠습니다. mkdir -p mlops/feature_sto..
1. 공식 Documents 큰 사상은 아래 그림과 같습니다. Feast(Feature Store)는 ML 기능을 관리하고 Product 중인 모델에 제공하기 위한 운영 데이터 시스템입니다. Feast는 지연 시간이 짧은 online store(Realti..
feature store에 대한 개념과 필요성을 중점적으로 서술합니다. AS-IS > To-Be로 이어지는 느낌의 글이라고 생각하면 됩니다. 1. 구성 모습 & 정의 Feature Store는 활용 모습에 따라 다양한 구성 요소를 가질 수..
보통 Feature는 많이 ML을 하면서 많이 듣게 되지만, Feature Store라는 단어는 생소합니다. 하지만 해외에서 이미 Product 된 것들을 살펴보면 Feature들을 표준화하면서 잘 관리를 하여 성공한 사례들이 있다고..
1. Katib Experiment - random search Katib Experiment 리소스 yaml 예제를 보면서 각 필드가 어떤 의미를 가지는지 이해를 해보겠습니다. " random-example.yaml " 로 작성하였습니다. spec 윗부분은 meta 정보..
1. Katib 개념 kubeflow 구성 요소 중 AutoML 프로젝트를 담당합니다. 현재 hyperparameter Tuning, Early Stopping, Neural Architecture Search를 지원해줍니다. 아직 Katib는 현재 베타버전에 속하는 편입니다...
1. Example 3 - Passing Data between Components by File 이전 글에 이어서 예제를 계속 이어나갑니다. 이번에는 첫 번째 컴포넌트에서 file에 data를 쓴 뒤, 두 번째 컴포넌트에서는 해당 file로부터 데이터를..
1. 시작하기 전에 개념 잡기 - Pipeline & Component kubeflow를 하기 전에 pipeline과 component에 대한 개념이 제대로 잡혀있어야 합니다. 두 용어에 대한 관계와 정의는 다음과 같습니다. Component : 재사용..
ui의 어느위치에 어떤 기능들이 있는지 한번 알아보겠습니다. 저번 글 처럼 minikube를 실행하고, port forwarding하여 .localhost:8080에 접속하겠습니다 kubectl port-forward svc/istio-ingressgateway -n isti..
1. 개념 Kubenetes 위에서 DS, ML Engineer, 분석가 등 모델 학습, 서빙하는 것이 처음부터는 쉽지가 않습니다. 구글에서 kubeflow라는 프로젝트를 만들었습니다. 이 것은 모듈별로 쪼개져 있는 것이 핵심입니다...
1. 도서 선정 이유 제 마음속에서 멘토이신 분들이 여럿 있습니다. 한 번도 뵙지 못한 멘토분들이 두 분 계신데 그 이유는 유튜버이기 때문입니다. 바로 월가아재와 뉴욕주민이 있니다. 충분히 거액으로 받아도..
Prerequisites는 k8s환경에서 minikube v1.22.0, helm binary는 helm v3 에서 설치할 예정입니다. 1. install minikube부터 실행합니다. minikube start --driver=docker --cpus='4' --memory='4g' 1) 그 이후 kub..
1. Opensource - Prometheus 원래 역사는 2012년 SoundCloud에서 만든 모니터링 & 알람 프로그램에서 시작했습니다. 하지만 점점 완전 독립형 오픈소스 Project로 발전하였습니다. 쿠버네티스에 종속적이지 않고,..
서빙 이후에 Inference가 잘 진행이 되고 있는지, Test data가 가정한 분포에 맞게 잘 들어오고 있는지 등등을 점검하는 부분인 모델 모니터링에 대해 알아보겠습니다. 1. Motivation model을 품은 서버를 잘 배포..
우선적으로 appendix, prerequisite 개념으로 쿠버네티스 관련 사전 지식이 필요합니다. 아래 레퍼런스들을 익히고 보는 것이 좋습니다. 익숙하지 않다면 사용 방식에 대해 익히고 넘어가고, 이전 글에서 flask와..
1. Flask 정의 The python micro framework for building web applications - https://github.com/pallets/flask Micro Service Architecture(MSA)를 위한 Web App Framework입니다. 웹 앱 프레임워크는 말 그대로..
AI를 도입하는 회사는 문제 정의부터 모델 학습까지는 무탈하게 진행할 수 있지만, 돈을 벌기 위한 서비스화하는 부분에서 큰 장벽에 부딪히게 됩니다. 여기에 대해서 논의를 해보겠습니다. 1. ML Model 서비스화..
이전 글에서는 모델과 실험 트래킹 기능에 집중을 해보았습니다. mlflow Tutorial 두 번째 글은 mlflow에 조금 더 친숙해지기 위해 logging 관련된 내용, 그리고 다른 예시 내용입니다. 1. 샘플 코드 살펴보기 - A..
MLflow를 한번 튜토리얼 개념으로 한번 다루어보도록 하겠습니다. 환경은 이전부터 쓰던 python 가상 환경 그대로 사용할 예정입니다. - ubuntu 20.04 - conda - python 3.8.6 - pip3 1. 설치 설치방법은 상당히..
Data Management에 대한 개념과 실습을 짚어보았습니다. 이제는 모델입니다. 1. Motivation 보통 분석가들, ML Engineer, DS 분들은 특정 데이터에 대해 어떤 모델을 계속 발전시키면서 prediction 값을 얻는 과정..
이번 글은 DVC를 한번 해볼 생각입니다. Git이랑 상당히 유사하기 때문에 편하게 이해하실 수 있을 것 같습니다. 환경과 확인 명령어은 다음과 같습니다. - python 3.9.7 (python -V) - git version 2.25.1 (sud..
쿠버네티스의 리소스 시리즈가 끝나고 이제부터 MLOps에서 데이터 관리, 모델 관리, 모델 서빙, 모델 모니터링 관련 오픈소스들을 소개하고자 합니다. 간단히 개념을 짚고 그것과 관련된 오픈소스들 소개 및 실습..
쿠버네티스 리소스 마지막으로 다룰 예정입니다. Service와 PVC인데요. 각각 다루어보겠습니다. 1. Service의 정의 Service는 쿠버네티스에 배포한 application(Pod)를 외부에서 접근하기 쉽게 추상화한 리소스입..
1. 정의 Deployment는 Pod와 Replicaset(복제본)에 대한 관리를 제공하는 단위로 정의 합니다. 여기서 관리의 의미는 self-healing, scaling(뒤에 소개할 예정), Rollout(무중단 업데이트)와 같은 기능을 포함하며..
minikube 1.25.1, kubectl이 개인 환경에 설치되었다고 가정한 이후에 시작합니다. 설치 방법은 여기를 참고하면 좋을 것 같습니다. https://waspro.tistory.com/587 minikube 5분안에 설치하기 본 포스팅에서는 K..
1. Intro YAML(야밀)은 데이터 직렬화(서비스 간에 Data를 전송할 때 쓰이는 포맷으로 변환하는 작업)에 쓰이는 어떠한 포맷 또는 양식 중 하나를 일컫는 말입니다. XML, JSON과 비슷한 포맷의 형태라고 생각하시..
Docker로 생성한 많은 container들을 관리하는 Kubernetes에 대해 이야기를 해보려 합니다. 이후에 작성될 글들은 쿠버네티스를 심도 있게 하나하나 구조를 뜯어보는 글을 다루는 것이 아님을 먼저 말씀드립니다...
이번 시간에는 docker image란 무엇인지, dockerfile를 사용해서 docker image를 만들어 보는 시간 가지겠습니다. docker image는 어떤 application에 대해 단순히 코드뿐만 아니라, 그 application과 dependent한..
오늘은 다른 블로그에도 많이 있지만, Docker의 기본적인 명령어 위주로 다루어 볼 예정입니다. 대다수의 명령어는 --help를 통해 arguments에 대해 공부하시는 것이 좋고, 저는 예시 위주로 작성 예정입니다. 1)..
어떤 OS, 환경에서 동일하게 작동시킬 수 있는 것이 Docker입니다. 한 줄로 표현하면 "Build Once, Run Anywhere"과 같습니다. 딥러닝 코드를 어느 OS, 환경에서든 상관없이 도커 이미지화 시키면 어디서든 동일하..
MLOps에서 크게 작업하는 것들은 다음과 같습니다. - 실행 환경의 일관성 & 독립성 유지(Reproducibility) - 스케줄 관리, 병렬 작업 관리, 유휴 자원 관리(Job Scheduling) - 장애 및 트래픽 대응(Auto-healing &..
MLOps에서 큰 범주로 나누면 데이터, 모델, 서빙으로 나눌 수 있습니다. 이번 글에서는 각 범주에 해당되는 SW/오픈소스 등을 언급만 하고 넘어갈 예정입니다. 제가 찍어만 먹어보거나 사용했던 경험이 있는 부분..
1. Intro 전통적인 IT 프로젝트에서의 Software 개발 방식은 Uni-directional 한 방향으로 진행되었습니다. 간단히 다음과 같이 정리할 수 있다. Code 구현 → Build → Deployment 이러한 방식을 이제 벗어나 Dev..
Udemy에서 강의를 하시고, 유튜브도 하시고 Medium에서 열심히 활동하시는 Data scientist인 Frank Andrade님의 글을 소개하고자 합니다. 글 제목은 위와 같으며 작년 연말 12월 28일에 업로드된 글입니다. 완벽..
저는 2021년 3/4분기부터 공모주 청약을 처음 시작해보았고 소액으로 거의 무조건 이득을 볼 수 있다는 점에 흥미를 가지고 관련 내용을 찾아보았습니다. 강력한 기대수익을 내는, 대박을 노리는 투자자들에게는..
학생 때 ML을 공부할 때에는 간단하게 요약하면 다음과 같이 공부를 했었습니다. - 많이들 들어본 알고리즘(Linear Reg, Logistic Reg, Decision Tree, RF, SVM 등등) 원리, 수식 - 수식 이해가 잘 되지 않았을 때..
세 번째 리뷰할 책은 '돈의 속성' 입니다. 돈의 속성 - YES24 베스트셀러 종합 1위! 경제경영 17주 연속 1위!유튜브 1,100만 명이 시청한 「돈의 속성」 완결판최상위 부자 김승호 회장이 직접 밝히는 돈에 대한..
두 번째 리뷰할 책은 '비트코인, 지혜의 족보'입니다. 비트코인, 지혜의 족보 - YES24 비트코인은 이 시대, 가장 중요한 지적인 현상이다우리 모두는 인문학적 호기심이 얄팍한 사회에 속했다는 이유로 엄청난 대..
암호화폐는 자산배분의 시각에서, 다른 자산군과 상관관계가 작으면서도 수익성 개선에도 기여를 하는 자산군으로 점점 인식이 인정을 받고 있는 추세입니다. 변동성이 심하지만 이를 잘 활용한 젊은 부자들도 많..
집에 있는 많은 책들을 그냥 읽고 내버려두는 것이 아쉬워 도서를 리뷰하는 글을 쓸 예정입니다. 첫 번째 책은 '라오어의 미국주식 무한매수법' 입니다. 라오어의 미국주식 무한매수법 - YES24 이 책을 읽는 순간..
저번 글에서는 단순 이동 평균선을 활용한 마켓타이밍으로 비트코인 매매 승률을 올리는 것에 대해 논의를 해보았습니다. 하지만, 이전 글에서 언급한 것처럼 여전히 이 방법이 '최근'에는 유효한지 확인이 필요한..
이전 글 까지 2가지 종류의 언어 모델을 언급했었습니다. 전통적인 방식의 언어 모델인 이전 단어들을 통해 다음 단어를 예측하는 Auto-regressive Model과 앞과 뒤 단어들을 통해 Masked 된 빈칸을 예측하는 MLM..
BERT를 Robust 하게 최적화하는 방법에 대해서 논의해보려고 합니다. 정말 사랑받는 모델인 BERT이지만, 학습하는데 많은 시간과 돈이 들었는데, 정말 hyperparameter가 잘 최적화가 되었는가에 대한 의문으로부터..
갈라게임즈 주소는 아래와 같습니다. https://app.gala.games/?r=61a4118c69e87107850abdbeister=1 Gala Games Join our community of gamers & NFT enthusiasts on a new type of platform. Buy limited editi..
PLM계열의 Auto-Encoder 계열, 가장 많이 쓰이고 활용되고 있는 BERT 차례입니다. 이전에 글 쓴 GPT 계열은 단방향(Uni-directional) 언어 모델이기 때문에, 문장 앞까지만 보고 추측하는 것이기 때문에 문장 전체..
이전 글에서는 배경과 마켓타이밍, 코인과의 상관성에 대해서 간단하게 점검을 해보았습니다. 이번 글에서 다루는 내용은 마켓타이밍을 실험 설계하고 이에 따라 매매를 하는 것이 좋은지 안 좋은지 성과 공유를..
NLP에서 데이터를 모델에 바로 집어넣는 것이 아닌 tokenization을 반드시 거쳐주어야 합니다. 문장 속 단어들은 여러 단어가 결합되어 나타나기 때문에, 반드시 이 것을 나누어서 컴퓨터가 더 이해하기 쉽게 작..
저번 시간 Transformer에 대해 다루었습니다. 조금 더 기초로 돌아가보는 시간 가지겠습니다. NLP에서 가장 근간이 되는 것은 단연 Language Model 입니다. 매우 간단하게 설명하면 토익 Part 5와 같다고 생각하시..
이전 시간에는 Language Model과 Tokenization(BPE Algorithm)에 대해서 다루었습니다. 본격적으로 PLM을 하나씩 언급해볼 예정입니다. 먼저 PLM의 유형들이 어떤 것이 있는지 알아보면 다음과 같습니다. 1. PLM의..
1. Intro & Background 최근에 비트코인 상승세가 강합니다. 그 이유는 여러 가지 있겠지만 최근 한 달 강하게 견인하고 있는 요소는 비트코인 선물 ETF 승인이 한 몫한 것 같습니다. 마찬가지로 현재 글 작성 시..
저번 시간에는 ETF를 바탕으로 간단하게 전략들을 구성하는 예시들을 보여드렸습니다. 백테스팅은 정해진 전략을 기반으로 과거에 대입하여 매수, 매도하는 시뮬레이션 행위입니다. 이 블로그 자산배분 시리즈에..
저번 시간에 Attention에 대해 다루었습니다. 솔직히 제일 처음에 Transformer를 공부할 때 이해가 되질 않았던 기억이 있습니다. 또한 논문 'Attention is all you need'도 초보자가 읽기에 너무 힘들었던 기억이..
워낙 두분이 다루시는 내용들이 방대하다보니 양이 상당한 것 같습니다! 108개 챕터! https://cafe.naver.com/invest79/12999 강환국 & systrader79 퀀트 자료 collection vol.2.pdf 전자책 공유합니다 (108개 cha..
저번 시간에는 Portfolio Visualizer를 이용하여 개별종목만으로 포트폴리오를 구상할 수 있는 것을 알려드렸습니다. 종목이 10개로 되어있어서 상당히 입력하는 데 조금 불편하신 분들도 있었을 겁니다. 물론 ETF..
Natural Language Generation은 auto-regressive task로 접근합니다. 즉, Language Model은 주어진 단어들을 바탕으로 다음 단어를 예측하는 형태이고 가장 기본이 되는 것이 Sequence to Sequence(seq2seq) 입니..
안녕하세요. 이전에 주식 유튜브 추천의 글을 공유한 적이 있었습니다. https://hotorch.tistory.com/43 (내 수익에 큰 기여를 한)주식 유튜버 추천 저도 주식을 시작한 지 곧 1년이 다되어가지만, 주변에 많은..
이전 글 Word Embedding에서 동시에 출현하는 단어들이 비슷한 Embedding을 갖도록 학습이 되는 것이 목표라고 이야기를 했었습니다. 하지만 Pre-trained 된 Embedding 벡터를 활용하여 썼을 때 end-to-end 방식..
1. Motivation Context Window에 단어가 동시에 나타나는 단어일수록 비슷한 단어를 가진다는 가정에서 출발을 합니다. 따라서 비슷한 단어는 비슷한 벡터 값을 가져야 합니다. 대표적인 방법으로는 Skip-gram이..
Downstream Task는 간단히 말해 구체적으로 내가 풀고 싶은 문제들을 말합니다. 스택오버플로우에서 퍼온 영문 의미는 아래와 같습니다. Downstream tasks is what the field calls those supervised-learning tas..
1. Review 지난 시간에는 Self-supervised Learning을 통해서 좋은 weight parameter를 얻고, Transfer Learning을 통해 본인이 가지고 있는 한정된 데이터셋과 할당된 task에 활용해 더 좋은 성능을 얻는 것이..
1. comparison of Supervised vs. Unsupervised Learning Supervised Learning은 머신러닝 공부할 때 가장 제일 처음 나오는 부류의 학습방법입니다. label y와 data input의 관계를 학습합니다. 반면 Unsupervis..
사전학습 언어모델 PLM 관련 필요한 지식, 알아두면 좋은 것들 등을 위주로 정리할 생각입니다. 분량은 저도 잘 모르겠습니다. 참고로 모든 사람을 이해시킨다는 것이 목적이 아닌, 요약성에 가까운 글들임을 알..
1. Motivations 처음에 전이학습이 나온 분야는 비전입니다. 데이터가 다르더라도 이미지를 활용한 공통된 Feature들이 존재할 것이라고 접근합니다. 꽃은 잎 모양, 길이가 비슷하나 조금씩 다 차이가 있습니다...
저번 글에서 동일 비중으로 우리가 들어본 듯한 회사들을 구성하여 기술주, 은행주, 배당주 10개만 적당히 굴려도 괜찮은 퍼포먼스(연평균 단순 기대수익률 33%, 리스크 21%, Sharpe Ratio는 1.56)가 나오는 결과..
이전 글에 이어서 후기를 이어나가겠습니다. 이전 글은 데이터 모양새와 대회 개요에 대한 내용이었다면, 이번 글은 문제를 푸는 방식에 대해 서술합니다. 6. 문제를 푼 방식 6-1. 전처리 및 결측 처리 - 결측은..
대회 결과는 이전 글을 참고하시길 바랍니다. https://hotorch.tistory.com/59 1. 대회 간단 소개 및 도메인 간단히 이야기하면 국가 연구개발과제를 '기후기술분류체계'에 맞추어 예측하는 모델을 개발하는 것입..
이 글은 투자를 종용하거나 추천하는 글이 아니고 단지 저의 생각과 내용 전달, 정리에 목적이 있음을 알려드립니다. 투자의 책임은 투자자 본인에게 있습니다. 오랜만에 손 매매 관련 이야기를 하고자 합니다...
개인적으로 올해 목표 한 10개 정도 세웠었는데, 9월인데 절반밖에 달성을 못했습니다. 올해 목표 여러 개 중 하나가 올해 데이터 관련 대회에서 나름 유의미한 성적을 내는 것이 목표였습니다. 작년에 운 좋게 1..
Python이라는 도구를 활용해서 직전 글(아래 Reference) 막바지에 소개한 10 종목을 바탕으로 어떻게 포트폴리오를 구성하는지, 이렇게 구성했을 때 어떤 구조를 가지게 되는지 알아보고자 합니다. !pip install y..
2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. 이때만 해도 정말 관심이 없었는데 지금은 차트를 상당히 좋아하는 제 자신이 대비됩니다. 살펴보겠습니다. 우선 업비트 개발자 센터로 접속한다..
웹에 있는 정보들을 긁어오는 행위를 크롤링이라고 간단히 이야길 합니다. 크롤링에 있어 다양한 방식으로 자료를 긁어올 수 있습니다. 다양한 방식 중 파이썬에서 제일 대표적인 것은 BeautifulSoup방법이 대표..
2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. ------------------------------------------------------------------------------------------ 먼저 뽑고 싶은 논문을 찾아보고 pdf로 저장해보..
포트폴리오 구성의 컨셉은 아이디어만 많다면 다양한 방법으로 포트폴리오를 짤 수 있습니다. 또한 공격적 성향, 안정적 성향 등 본인 성향에 따라 구성을 할 수 있습니다. 컨셉기준으로 성장주 위주, 가치주와..
# Load Library > library(tidyverse) > library(httr) > library(rvest) > library(jsonlite) 공공데이터 포털에서 발급받은 인증키를 복사한 다음 R 환경변수에 추가 # usethis::edit_r_environ() ## DATAGOKR_T..
전 세계에는 다양한 유형의 시장 참여자와 금융 상품이 많이 존재합니다. 다양한 시장 참여자들이 존재하는데 국내 주식 시장 한정하여 참여 플레이어들로는 저희와 같은 개인투자자부터 기관, 외국인, 연기금,..
자산을 배분하는 이야기와는 거리가 있는 내용이지만, 저희가 요리를 하려면 재료를 손질을 해야 하듯이 어떤 데이터를 손질할지 다루는 내용을 이번에 이야기하고자 합니다. 처음에는 종목을 부르는 방법을 서술..
2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. 일단 한 페이지 추출 해보기 Load Packages 조회연도 설정 & HTML 요청 실행 응답 결과 확인 Window를 사용하고 있기 때문에 잠시 Locale 변경 HT..
정규표현식에 대한 이해 하는 만큼 실력이 느는 Part, 많이 연습하면 외워지겠지만, 매번 검색해서 찾아보는 것을 추천. 패턴(규칙)을 갖는 문자열의 집합을 표현하는 데 사용하는 언어 복잡한 문자열에서 특정한..
저도 주식을 시작한 지 곧 1년이 다되어가지만, 주변에 많은 사람들이 주식을 시작하는데 무엇부터 해야 할지 모르겠다고 많은 질문을 받습니다. 저도 체계적으로 배운 것은 아니지만, 여가 시간에 책이나 유튜브..
stringr 패키지 소개 stringr 패키지 주요 함수 1 : 패턴 포함 여부 확인 stringr 패키지 주요 함수 2 : 패턴을 한 번 또는 모두 삭제 stringr 패키지 주요 함수 3 : 패턴을 한 번 또는 모두 교체 stringr 패키지..
지난 글에서는 종목들의 비중을 최적화한 이야기를 했었습니다. 하지만 Python 코드를 이용해서 종목 비중을 최적화하기엔 누군가에게는 어려울 수 있기 때문에 간단한 High-Level 툴을 소개하고자 합니다. Portfo..
'현대 포트폴리오 이론'이라는 단어를 들어보셨나요? 구글에 검색하면 많은 자료들이 나옵니다. 나무 위키에서는 이렇게 정의를 합니다. 핵심은 아래와 같습니다. 해리 마코위츠가 1952년 발표한 재무관리 이론...
2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. Selenium 이해 Java JDK 설치 RSelenium 패키지 소개 크롬 드라이버 버전 확인 크롬 드라이버 설정 Rselenium 패키지 주요함수 1 : remote driver..
2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. Contents Contents JavaScript 사용된 파일 찾기 Step 날짜데이터 활용 - 매우 기초 현재 날짜 반환 현재 날짜 속성 확인 현재 날짜를 숫자 값으..
사람들마다 선호하는 투자 스타일이 있습니다. 저도 작년 6월부터 투자 공부를 시작하고 8월부터 투자를 시작했기 때문에 고수가 절대 아닙니다. 아직까지는 저는 운이 좋다고 생각합니다. 사람들마다 투자스타일..
2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. Contents Contents 반복문에서 예외 처리 JavaScript에 대한 이해 AJAX & XHR XML R에서 XML 데이터를 다루는 방법 JSON에 대한 이해 R에서 JSON..
19년 하반기에 강의 했었던 내용을 짧게 일부 발췌하였습니다. 최소한은 이 부분은 알고 가신 다음에 적용하는 것이 좋습니다. 간단 이론! 웹크롤링 전반적인 범위 우리가 인터넷에서 정보를 검색하는 방법 R에서..
NLP를 공부하면서 도움이 되었던 강좌들을 소개하며 몇줄평을 남겨보도록 하겠습니다. 오로지 자연어 관련 강좌만을 언급을 합니다.(2020년 7월 기준) 1. 허민석님 유튜브 → 자연어처리 재생목록입니다. 용어..
Text MIning, NLP를 공부하면서 도움이 되었던 책들과 블로그를 소개하며 몇줄 남겨보도록 하겠습니다.(블로그는 많은 내용을 다루는 곳을 기준으로만 기술 했습니다.) 서적은 자연어 관련 서적 만을 언급을 합..