hotorch의 등록된 링크

 hotorch로 등록된 티스토리 포스트 수는 113건입니다.

[공유] 강환국 systrader79 퀀트 자료 collection vol.3 증정 [내부링크]

https://cafe.naver.com/invest79/14228 강환국 & systrader79 퀀트 자료 collection vol.3.pdf + systrader79 전자책 공유합니다 (100개 chapter, 991 페이 강환국님의 '할 수 있다 알고 투자' 동영상 슬라이드..

NFT 입문하기 전 반드시 갖추어야할 사전지식 [내부링크]

세상에는 여러 가지 자산군이 존재하며 모멘텀이 서로서로 돌고 돕니다. 저도 주식과 토지, 코인 위주로 배분하여 시간 날 때마다 공부하면서 시장에 참여를 하고 있습니다. 근데 어느 특정 자산군에 입문을 할 때..

Dependency Parsing (1) [내부링크]

NLP에서 분류와 생성, 키워드 추출, NER, MRC 등 다양한 Task들이 존재합니다. 하지만 이번에 또 다른 영역인 "Parsing"이라는 영역을 공부하게 되었고 그중 단어 간 관계를 파악하는 것이 목적인 "Dependency Par..

오프라인(인터넷이 안되는)환경에서 Pre-trained Language Model 모델 부르기 with PORORO [내부링크]

NLP을 활용한다고 하면 Pre-trained Language Model(PLM)은 필수인 시대인데, 온라인 환경에서는 그냥 README.md나 튜토리얼 코드를 그냥 그대로 따라 하면 쉽게 실습을 할 수 있습니다. 하지만 오프라인 환경에서..

Mean Reversion(역추세 매매) - RSI 2 (1) [내부링크]

주식이나 코인에서 많은 시장 참여자들은 다양한 방법으로 돈을 벌고 잃기도 합니다. 시장 참여자들 중에 또 각자 취향에 맞는 기법들을 공부하고 실전에 적용합니다. 현물/선물 트레이딩에서도 돈을 버는 다양한..

[패스트캠퍼스 챌린지 최종 미션] 머신러닝서비스구축을위한실전MLOps 강의 후기 [내부링크]

공백 제외 4000자 후기를 작성해보겠습니다. 1. 강의 신청 배경 및 이유 3년 가까이 ML 관련 컨설팅 프로젝트하면서 불편하고 고생했던 점들을 나열하면 상당하다고 자부할 수 있습니다. 석사, 주니어 때(지금도..

[강의후기] 머신러닝 서비스 구축을 위한 실전 MLOps [내부링크]

강의를 여러 개 들은 것들이 많아서 앞으로 종종 강의를 듣고 생각나는 것 + 정보 공유 차원으로 공유하고자 합니다. 아마 패스트캠퍼스 강의 중심으로 작성될 것 같습니다.(신청한 강의가 꽤 많기 때문에..) 0...

[패스트캠퍼스 챌린지 50일차] Future Works in MLOps [내부링크]

마지막으로 다룰 내용은 MLOps에 대해 미래의 이야기와 개념을 간단하게 정리해보는 글입니다. 아래는 O'REILLY에서 설문조사한 내용입니다. 데이터 부족 문제가 2위(18%)입니다. 그냥 데이터가 아닌, 쓸 수 있는..

[패스트캠퍼스 챌린지 49일차] GCP - Feast FastAPI App 배포 [내부링크]

이번 글은 이전에 만든 Feature Store를 활용하여 FastAPI를 어떻게 배포하는지에 대해 다루고자 합니다. 1. GCP에서 Project 설정 이전 글과 마찬가지로 동일한 project에서 할 예정이지만 FastAPI를 수행하기 위..

[패스트캠퍼스 챌린지 48일차] GCP - Feast Feature Store (2) [내부링크]

이전 글에서는 GCP와 Colab에서 세팅을 하고 FeatureView를 생성해 배포하였습니다. 이제 모델 훈련과 배포를 해보도록 하겠습니다. 3. 모델 훈련과 배포 훈련 데이터를 추출하는 코드는 다음과 같습니다. from d..

[패스트캠퍼스 챌린지 47일차] GCP - Feast Feature Store (1) [내부링크]

이번 글 시리즈에서는 GCP에서 MLOps환경을 어떻게 구성하는지 그리고 Feast Feature Store에 대해 이야기해보려합니다. https://cloud.google.com 에 접속하여 무료로 시작하기 버튼을 눌러 시작합니다. 1. Colab..

[패스트캠퍼스 챌린지 46일차] Amazon SageMaker Autopilot 실습 [내부링크]

다른 AutoML에 비해서 SageMaker의 autopilot은 전체 프로세스가 완료될 때까지 많은 시간이 소요됩니다. 1. 실험 데이터 Kaggle에서 mnist data를 다운로드합니다. https://www.kaggle.com/oddrationale/mnist-in..

[패스트캠퍼스 챌린지 45일차] Amazon SageMaker 계정 생성 & Amazon SageMaker Autopilot [내부링크]

1. AWS 계정 생성 계정을 생성하는 방법은 구글링 해보시면 상당히 많습니다. 유튜브에도 많습니다. https://sujinisacat.tistory.com/12 위 주소를 참고하면 될 것 같습니다. 2. Amazon SageMaker 접속하기  Ama..

[패스트캠퍼스 챌린지 44일차] Python 기반 Jenkins CI Pipeline Build [내부링크]

이번 글에서는 Python ML backend app이 있다고 가정하고 Jenkins Pipeline을 생성하여 application을 배포해보도록 하겠습니다.  jenkins pipeline 하위 폴더에 app폴더를 생성하고 main.py에 아래와 같은 코드..

[패스트캠퍼스 챌린지 43일차] Jenkins CI Pipeline Build [내부링크]

Jenkins가 각자의 환경에 맞는 곳에 설치가 되어있다고 가정하고 시작하겠습니다. Jenkinsfile의 기본적인 구조를 알아보고 생성하고 Jenkins에서 Pipeline Job을 생성하고 Build 하는 내용을 다룰 예정입니다. 또..

[패스트캠퍼스 챌린지 42일차] Jenkins [내부링크]

Jenkins에 대해서 짚어보고 설치하는 내용을 다루고자 합니다. 1. Jenkins 개념 우선 Jenkins가 없는 경우에 대한 Workflow를 보겠습니다. 일반적인 Workflow처럼 코드를 수정한 것을 Commit 하고, 이 변경사항을..

[패스트캠퍼스 챌린지 41일차] Model Tracking - DVC [내부링크]

이전 글에서는 console, 그리고 오픈소스 CML을 활용하여 모델 metric을 markdown으로 report 형태로 떨구어주는 것을 다루었습니다. 하지만 이부분의 단점으로는 각 commit마다 report가 달리는데 이를 비교하는..

[패스트캠퍼스 챌린지 40일차] Model Tracking - CML [내부링크]

간단한 ML 모델을 수행하고 Metric을 뽑는 python 코드를 Github Actions을 활용해 성능지표를 출력하고 CML을 이용해 Report 형태로 출력하는 내용을 한번 다루어보고자 합니다. 우선 github-actions-cml 새 rep..

[패스트캠퍼스 챌린지 39일차] Github Actions CICD - Push [내부링크]

이전 글에서 CI 관련된 내용을 알려드렸습니다. Docker Image를 Build 하고, 생성한 Image를 Docker Hub에 Push 하는 내용을 다루겠습니다. 그전에 Dockerhub에 먼저 가입을 따로 하셔서 계정을 생성을 해두시길..

[패스트캠퍼스 챌린지 38일차] Github Actions CICD - Build [내부링크]

이번 글에서는 Github Actions를 활용하여 Docker Image를 Build 하는 내용을 다루겠습니다. 본인 계정의 Github을 이용하면 되겠습니다. 우선 아래처럼 github new repository를 만듭니다. actions Tab을 가보면..

[패스트캠퍼스 챌린지 37일차] ML Workflow [내부링크]

이번 글은 github을 예를 들어서 Workflow에 대한 개념을 알아보고자 합니다. 1. Github Actions Github Actions는 일반적으로 CI/CD 툴로 인식이 되어있지만 엄밀히 말하자면 개발자들의 Workflow를 자동화하기..

[패스트캠퍼스 챌린지 36일차] Feast - ML lifecycle [내부링크]

Feast 관련 글은 이 글로 정리하며 끝내려고 합니다. 1. Feast가 없는 경우(As-Is) 보통 아래 그림과 같이 각 단계에서 각각 처리되거나 가공이 되는 Feature들이 바로 모델에 소비되는 시스템입니다. 즉, 어떤 Fe..

[패스트캠퍼스 챌린지 35일차] Feast Server 생성 [내부링크]

이번 글은 Feast Server를 생성하는데, CLI 환경위에서 진행합니다. 1. Local에서 Feast Server 실행하기 feast를 설치하고, init 후 새 dir을 만들어서 apply를 수행합니다. pip install feast feast init featur..

[패스트캠퍼스 챌린지 34일차] Feast - Feature 추출 & 추론 [내부링크]

이번 글에서는 Store로 부터 훈련데이터를 추출해보고, Online store를 구축하여 데이터를 적재하고 추론을 위한 Feature Vectore를 가져오는 것을 다루겠습니다. 1. Store로 부터 Train data 추출해보기 보통 추..

[패스트캠퍼스 챌린지 33일차] Feast - Store 생성 & 배포 [내부링크]

이번 글은 Feast Feature Store를 생성해, 각 Feature들을 정의해 Stoer에 배포하는 것까지 진행해보겠습니다. 1. 준비작업 Feature store 작업 경로를 설정하여 이동부터 하겠습니다. mkdir -p mlops/feature_sto..

[패스트캠퍼스 챌린지 32일차] Feast 소개 [내부링크]

1. 공식 Documents 큰 사상은 아래 그림과 같습니다. Feast(Feature Store)는 ML 기능을 관리하고 Product 중인 모델에 제공하기 위한 운영 데이터 시스템입니다. Feast는 지연 시간이 짧은 online store(Realti..

[패스트캠퍼스 챌린지 31일차] Feature Store [내부링크]

feature store에 대한 개념과 필요성을 중점적으로 서술합니다. AS-IS > To-Be로 이어지는 느낌의 글이라고 생각하면 됩니다. 1. 구성 모습 & 정의 Feature Store는 활용 모습에 따라 다양한 구성 요소를 가질 수..

[패스트캠퍼스 챌린지 30일차] Feature Engineering & ML Pipeline [내부링크]

보통 Feature는 많이 ML을 하면서 많이 듣게 되지만, Feature Store라는 단어는 생소합니다. 하지만 해외에서 이미 Product 된 것들을 살펴보면 Feature들을 표준화하면서 잘 관리를 하여 성공한 사례들이 있다고..

[패스트캠퍼스 챌린지 29일차] Kubeflow Katib Practice [내부링크]

1. Katib Experiment - random search Katib Experiment 리소스 yaml 예제를 보면서 각 필드가 어떤 의미를 가지는지 이해를 해보겠습니다. " random-example.yaml " 로 작성하였습니다. spec 윗부분은 meta 정보..

[패스트캠퍼스 챌린지 28일차] Kubeflow Katib [내부링크]

1. Katib 개념 kubeflow 구성 요소 중 AutoML 프로젝트를 담당합니다. 현재 hyperparameter Tuning, Early Stopping, Neural Architecture Search를 지원해줍니다. 아직 Katib는 현재 베타버전에 속하는 편입니다...

[패스트캠퍼스 챌린지 27일차] Kubeflow Pipeline (2) [내부링크]

1. Example 3 - Passing Data between Components by File 이전 글에 이어서 예제를 계속 이어나갑니다. 이번에는 첫 번째 컴포넌트에서 file에 data를 쓴 뒤, 두 번째 컴포넌트에서는 해당 file로부터 데이터를..

[패스트캠퍼스 챌린지 26일차] Kubeflow Pipeline (1) [내부링크]

1. 시작하기 전에 개념 잡기 - Pipeline & Component kubeflow를 하기 전에 pipeline과 component에 대한 개념이 제대로 잡혀있어야 합니다. 두 용어에 대한 관계와 정의는 다음과 같습니다. Component : 재사용..

[패스트캠퍼스 챌린지 25일차] Kubeflow 기능 살펴보기 [내부링크]

ui의 어느위치에 어떤 기능들이 있는지 한번 알아보겠습니다. 저번 글 처럼 minikube를 실행하고, port forwarding하여 .localhost:8080에 접속하겠습니다 kubectl port-forward svc/istio-ingressgateway -n isti..

[패스트캠퍼스 챌린지 24일차] Kubeflow [내부링크]

1. 개념 Kubenetes 위에서 DS, ML Engineer, 분석가 등 모델 학습, 서빙하는 것이 처음부터는 쉽지가 않습니다. 구글에서 kubeflow라는 프로젝트를 만들었습니다. 이 것은 모듈별로 쪼개져 있는 것이 핵심입니다...

[도서리뷰] 당신의 삶에, 버려 마땅한 기억은 없다 - 월가아재 [내부링크]

1. 도서 선정 이유 제 마음속에서 멘토이신 분들이 여럿 있습니다. 한 번도 뵙지 못한 멘토분들이 두 분 계신데 그 이유는 유튜버이기 때문입니다. 바로 월가아재와 뉴욕주민이 있니다. 충분히 거액으로 받아도..

[패스트캠퍼스 챌린지 23일차] Prometheus & Grafana Practice [내부링크]

Prerequisites는 k8s환경에서 minikube v1.22.0, helm binary는 helm v3 에서 설치할 예정입니다. 1. install minikube부터 실행합니다. minikube start --driver=docker --cpus='4' --memory='4g' 1) 그 이후 kub..

[패스트캠퍼스 챌린지 22일차] Prometheus & Grafana 개념 [내부링크]

1. Opensource - Prometheus 원래 역사는 2012년 SoundCloud에서 만든 모니터링 & 알람 프로그램에서 시작했습니다. 하지만 점점 완전 독립형 오픈소스 Project로 발전하였습니다. 쿠버네티스에 종속적이지 않고,..

[패스트캠퍼스 챌린지 21일차] Model Monitoring 개념 [내부링크]

서빙 이후에 Inference가 잘 진행이 되고 있는지, Test data가 가정한 분포에 맞게 잘 들어오고 있는지 등등을 점검하는 부분인 모델 모니터링에 대해 알아보겠습니다. 1. Motivation model을 품은 서버를 잘 배포..

[패스트캠퍼스 챌린지 20일차] Seldon Core [내부링크]

우선적으로 appendix, prerequisite 개념으로 쿠버네티스 관련 사전 지식이 필요합니다. 아래 레퍼런스들을 익히고 보는 것이 좋습니다. 익숙하지 않다면 사용 방식에 대해 익히고 넘어가고, 이전 글에서 flask와..

[패스트캠퍼스 챌린지 19일차] Flask [내부링크]

1. Flask 정의 The python micro framework for building web applications - https://github.com/pallets/flask Micro Service Architecture(MSA)를 위한 Web App Framework입니다. 웹 앱 프레임워크는 말 그대로..

[패스트캠퍼스 챌린지 18일차] Model Serving 개념 [내부링크]

AI를 도입하는 회사는 문제 정의부터 모델 학습까지는 무탈하게 진행할 수 있지만, 돈을 벌기 위한 서비스화하는 부분에서 큰 장벽에 부딪히게 됩니다. 여기에 대해서 논의를 해보겠습니다. 1. ML Model 서비스화..

[패스트캠퍼스 챌린지 17일차] MLflow 튜토리얼 (2) [내부링크]

이전 글에서는 모델과 실험 트래킹 기능에 집중을 해보았습니다. mlflow Tutorial 두 번째 글은 mlflow에 조금 더 친숙해지기 위해 logging 관련된 내용, 그리고 다른 예시 내용입니다. 1. 샘플 코드 살펴보기 - A..

[패스트캠퍼스 챌린지 16일차] MLflow 튜토리얼 (1) [내부링크]

MLflow를 한번 튜토리얼 개념으로 한번 다루어보도록 하겠습니다. 환경은 이전부터 쓰던 python 가상 환경 그대로 사용할 예정입니다. - ubuntu 20.04 - conda - python 3.8.6 - pip3 1. 설치 설치방법은 상당히..

[패스트캠퍼스 챌린지 15일차] Model Management 개념 [내부링크]

Data Management에 대한 개념과 실습을 짚어보았습니다. 이제는 모델입니다. 1. Motivation 보통 분석가들, ML Engineer, DS 분들은 특정 데이터에 대해 어떤 모델을 계속 발전시키면서 prediction 값을 얻는 과정..

[패스트캠퍼스 챌린지 14일차] DVC Tutorial [내부링크]

 이번 글은 DVC를 한번 해볼 생각입니다. Git이랑 상당히 유사하기 때문에 편하게 이해하실 수 있을 것 같습니다. 환경과 확인 명령어은 다음과 같습니다. - python 3.9.7 (python -V) - git version 2.25.1 (sud..

[패스트캠퍼스 챌린지 13일차] DataManagement 개념 [내부링크]

쿠버네티스의 리소스 시리즈가 끝나고 이제부터 MLOps에서 데이터 관리, 모델 관리, 모델 서빙, 모델 모니터링 관련 오픈소스들을 소개하고자 합니다. 간단히 개념을 짚고 그것과 관련된 오픈소스들 소개 및 실습..

[패스트캠퍼스 챌린지 12일차] Service & PVC [내부링크]

쿠버네티스 리소스 마지막으로 다룰 예정입니다. Service와 PVC인데요. 각각 다루어보겠습니다. 1. Service의 정의 Service는 쿠버네티스에 배포한 application(Pod)를 외부에서 접근하기 쉽게 추상화한 리소스입..

[패스트캠퍼스 챌린지 11일차] Deployment [내부링크]

1. 정의 Deployment는 Pod와 Replicaset(복제본)에 대한 관리를 제공하는 단위로 정의 합니다. 여기서 관리의 의미는 self-healing, scaling(뒤에 소개할 예정), Rollout(무중단 업데이트)와 같은 기능을 포함하며..

[패스트캠퍼스 챌린지 10일차] POD [내부링크]

minikube 1.25.1, kubectl이 개인 환경에 설치되었다고 가정한 이후에 시작합니다. 설치 방법은 여기를 참고하면 좋을 것 같습니다. https://waspro.tistory.com/587 minikube 5분안에 설치하기 본 포스팅에서는 K..

[패스트캠퍼스 챌린지 9일차] YAML [내부링크]

1. Intro YAML(야밀)은 데이터 직렬화(서비스 간에 Data를 전송할 때 쓰이는 포맷으로 변환하는 작업)에 쓰이는 어떠한 포맷 또는 양식 중 하나를 일컫는 말입니다. XML, JSON과 비슷한 포맷의 형태라고 생각하시..

[패스트캠퍼스 챌린지 8일차] Kubernetes 개념 [내부링크]

Docker로 생성한 많은 container들을 관리하는 Kubernetes에 대해 이야기를 해보려 합니다. 이후에 작성될 글들은 쿠버네티스를 심도 있게 하나하나 구조를 뜯어보는 글을 다루는 것이 아님을 먼저 말씀드립니다...

[패스트캠퍼스 챌린지 7일차] Docker Image [내부링크]

이번 시간에는 docker image란 무엇인지, dockerfile를 사용해서 docker image를 만들어 보는 시간 가지겠습니다. docker image는 어떤 application에 대해 단순히 코드뿐만 아니라, 그 application과 dependent한..

[패스트캠퍼스 챌린지 6일차] Docker 기본 명령어 [내부링크]

오늘은 다른 블로그에도 많이 있지만, Docker의 기본적인 명령어 위주로 다루어 볼 예정입니다. 대다수의 명령어는 --help를 통해 arguments에 대해 공부하시는 것이 좋고, 저는 예시 위주로 작성 예정입니다. 1)..

[패스트캠퍼스 챌린지 5일차] Docker 환경 구성 및 설치 [내부링크]

어떤 OS, 환경에서 동일하게 작동시킬 수 있는 것이 Docker입니다. 한 줄로 표현하면 "Build Once, Run Anywhere"과 같습니다. 딥러닝 코드를 어느 OS, 환경에서든 상관없이 도커 이미지화 시키면 어디서든 동일하..

[패스트캠퍼스 챌린지 4일차] Container Orchestration [내부링크]

MLOps에서 크게 작업하는 것들은 다음과 같습니다. - 실행 환경의 일관성 & 독립성 유지(Reproducibility) - 스케줄 관리, 병렬 작업 관리, 유휴 자원 관리(Job Scheduling) - 장애 및 트래픽 대응(Auto-healing &..

[패스트캠퍼스 챌린지 3일차] MLOps의 구성요소 [내부링크]

MLOps에서 큰 범주로 나누면 데이터, 모델, 서빙으로 나눌 수 있습니다. 이번 글에서는 각 범주에 해당되는 SW/오픈소스 등을 언급만 하고 넘어갈 예정입니다. 제가 찍어만 먹어보거나 사용했던 경험이 있는 부분..

[패스트캠퍼스 챌린지 2일차] MLOps = ML + DevOps [내부링크]

1. Intro 전통적인 IT 프로젝트에서의 Software 개발 방식은 Uni-directional 한 방향으로 진행되었습니다. 간단히 다음과 같이 정리할 수 있다. Code 구현 → Build → Deployment 이러한 방식을 이제 벗어나 Dev..

[번역] 2022년 더 좋은 Data Scientist가 되기 위한 22가지 습관 [내부링크]

Udemy에서 강의를 하시고, 유튜브도 하시고 Medium에서 열심히 활동하시는 Data scientist인 Frank Andrade님의 글을 소개하고자 합니다. 글 제목은 위와 같으며 작년 연말 12월 28일에 업로드된 글입니다. 완벽..

공모주 청약 투자 방법 (꿀팁 주의) [내부링크]

저는 2021년 3/4분기부터 공모주 청약을 처음 시작해보았고 소액으로 거의 무조건 이득을 볼 수 있다는 점에 흥미를 가지고 관련 내용을 찾아보았습니다. 강력한 기대수익을 내는, 대박을 노리는 투자자들에게는..

[패스트캠퍼스 챌린지 1일차] As-Is ML 프로젝트 진행 방식의 한계 [내부링크]

학생 때 ML을 공부할 때에는 간단하게 요약하면 다음과 같이 공부를 했었습니다. - 많이들 들어본 알고리즘(Linear Reg, Logistic Reg, Decision Tree, RF, SVM 등등) 원리, 수식 - 수식 이해가 잘 되지 않았을 때..

[내돈내산 도서리뷰] 돈의 속성 [내부링크]

세 번째 리뷰할 책은 '돈의 속성' 입니다. 돈의 속성 - YES24 베스트셀러 종합 1위! 경제경영 17주 연속 1위!유튜브 1,100만 명이 시청한 「돈의 속성」 완결판최상위 부자 김승호 회장이 직접 밝히는 돈에 대한..

[내돈내산 도서리뷰] 비트코인, 지혜의 족보 [내부링크]

두 번째 리뷰할 책은 '비트코인, 지혜의 족보'입니다. 비트코인, 지혜의 족보 - YES24 비트코인은 이 시대, 가장 중요한 지적인 현상이다우리 모두는 인문학적 호기심이 얄팍한 사회에 속했다는 이유로 엄청난 대..

입문자를 위한 암호화폐 정보 모음 (Collection of cryptocurrency information for beginners) [내부링크]

암호화폐는 자산배분의 시각에서, 다른 자산군과 상관관계가 작으면서도 수익성 개선에도 기여를 하는 자산군으로 점점 인식이 인정을 받고 있는 추세입니다. 변동성이 심하지만 이를 잘 활용한 젊은 부자들도 많..

[내돈내산 도서리뷰] 라오어의 미국주식 무한매수법 (수익 인증을 곁들인) [내부링크]

집에 있는 많은 책들을 그냥 읽고 내버려두는 것이 아쉬워 도서를 리뷰하는 글을 쓸 예정입니다. 첫 번째 책은 '라오어의 미국주식 무한매수법' 입니다. 라오어의 미국주식 무한매수법 - YES24 이 책을 읽는 순간..

비트코인 마켓타이밍 분석 (3) [내부링크]

저번 글에서는 단순 이동 평균선을 활용한 마켓타이밍으로 비트코인 매매 승률을 올리는 것에 대해 논의를 해보았습니다. 하지만, 이전 글에서 언급한 것처럼 여전히 이 방법이 '최근'에는 유효한지 확인이 필요한..

Pretrained Language Model - 14. BART [내부링크]

이전 글 까지 2가지 종류의 언어 모델을 언급했었습니다. 전통적인 방식의 언어 모델인 이전 단어들을 통해 다음 단어를 예측하는 Auto-regressive Model과 앞과 뒤 단어들을 통해 Masked 된 빈칸을 예측하는 MLM..

Pretrained Language Model - 13. RoBERTa [내부링크]

BERT를 Robust 하게 최적화하는 방법에 대해서 논의해보려고 합니다. 정말 사랑받는 모델인 BERT이지만, 학습하는데 많은 시간과 돈이 들었는데, 정말 hyperparameter가 잘 최적화가 되었는가에 대한 의문으로부터..

갈라게임즈 추천인 코드 [내부링크]

갈라게임즈 주소는 아래와 같습니다. https://app.gala.games/?r=61a4118c69e87107850abdbeister=1 Gala Games Join our community of gamers & NFT enthusiasts on a new type of platform. Buy limited editi..

Pretrained Language Model - 12. BERT [내부링크]

PLM계열의 Auto-Encoder 계열, 가장 많이 쓰이고 활용되고 있는 BERT 차례입니다. 이전에 글 쓴 GPT 계열은 단방향(Uni-directional) 언어 모델이기 때문에, 문장 앞까지만 보고 추측하는 것이기 때문에 문장 전체..

비트코인 마켓타이밍 분석 (2) [내부링크]

이전 글에서는 배경과 마켓타이밍, 코인과의 상관성에 대해서 간단하게 점검을 해보았습니다. 이번 글에서 다루는 내용은 마켓타이밍을 실험 설계하고 이에 따라 매매를 하는 것이 좋은지 안 좋은지 성과 공유를..

Pretrained Language Model - 10. Tokenization [내부링크]

NLP에서 데이터를 모델에 바로 집어넣는 것이 아닌 tokenization을 반드시 거쳐주어야 합니다. 문장 속 단어들은 여러 단어가 결합되어 나타나기 때문에, 반드시 이 것을 나누어서 컴퓨터가 더 이해하기 쉽게 작..

Pretrained Language Model - 9. Language Model [내부링크]

저번 시간 Transformer에 대해 다루었습니다. 조금 더 기초로 돌아가보는 시간 가지겠습니다. NLP에서 가장 근간이 되는 것은 단연 Language Model 입니다. 매우 간단하게 설명하면 토익 Part 5와 같다고 생각하시..

Pretrained Language Model - 11. GPT [내부링크]

이전 시간에는 Language Model과 Tokenization(BPE Algorithm)에 대해서 다루었습니다. 본격적으로 PLM을 하나씩 언급해볼 예정입니다. 먼저 PLM의 유형들이 어떤 것이 있는지 알아보면 다음과 같습니다. 1. PLM의..

비트코인 마켓타이밍 분석 (1) [내부링크]

1. Intro & Background 최근에 비트코인 상승세가 강합니다. 그 이유는 여러 가지 있겠지만 최근 한 달 강하게 견인하고 있는 요소는 비트코인 선물 ETF 승인이 한 몫한 것 같습니다. 마찬가지로 현재 글 작성 시..

자산 배분 포트폴리오 - 8. Outro [내부링크]

저번 시간에는 ETF를 바탕으로 간단하게 전략들을 구성하는 예시들을 보여드렸습니다. 백테스팅은 정해진 전략을 기반으로 과거에 대입하여 매수, 매도하는 시뮬레이션 행위입니다. 이 블로그 자산배분 시리즈에..

Pretrained Language Model - 8. Transformer [내부링크]

저번 시간에 Attention에 대해 다루었습니다. 솔직히 제일 처음에 Transformer를 공부할 때 이해가 되질 않았던 기억이 있습니다. 또한 논문 'Attention is all you need'도 초보자가 읽기에 너무 힘들었던 기억이..

[공유] 강환국 systrader79 퀀트 자료 collection Vol.2 증정 [내부링크]

워낙 두분이 다루시는 내용들이 방대하다보니 양이 상당한 것 같습니다! 108개 챕터! https://cafe.naver.com/invest79/12999 강환국 & systrader79 퀀트 자료 collection vol.2.pdf 전자책 공유합니다 (108개 cha..

자산 배분 포트폴리오 - 7. 포트폴리오 전략 예시 [내부링크]

저번 시간에는 Portfolio Visualizer를 이용하여 개별종목만으로 포트폴리오를 구상할 수 있는 것을 알려드렸습니다. 종목이 10개로 되어있어서 상당히 입력하는 데 조금 불편하신 분들도 있었을 겁니다. 물론 ETF..

Pretrained Language Model - 7. Attention [내부링크]

Natural Language Generation은 auto-regressive task로 접근합니다. 즉, Language Model은 주어진 단어들을 바탕으로 다음 단어를 예측하는 형태이고 가장 기본이 되는 것이 Sequence to Sequence(seq2seq) 입니..

[공유] 강환국 systrader79 퀀트 자료 collection Vol.1 증정 [내부링크]

안녕하세요. 이전에 주식 유튜브 추천의 글을 공유한 적이 있었습니다. https://hotorch.tistory.com/43 (내 수익에 큰 기여를 한)주식 유튜버 추천 저도 주식을 시작한 지 곧 1년이 다되어가지만, 주변에 많은..

Pretrained Language Model - 6. ELMo [내부링크]

이전 글 Word Embedding에서 동시에 출현하는 단어들이 비슷한 Embedding을 갖도록 학습이 되는 것이 목표라고 이야기를 했었습니다. 하지만 Pre-trained 된 Embedding 벡터를 활용하여 썼을 때 end-to-end 방식..

Pretrained Language Model - 5. Word Embedding [내부링크]

1. Motivation Context Window에 단어가 동시에 나타나는 단어일수록 비슷한 단어를 가진다는 가정에서 출발을 합니다. 따라서 비슷한 단어는 비슷한 벡터 값을 가져야 합니다. 대표적인 방법으로는 Skip-gram이..

Pretrained Language Model - 4. Downstream Task [내부링크]

Downstream Task는 간단히 말해 구체적으로 내가 풀고 싶은 문제들을 말합니다. 스택오버플로우에서 퍼온 영문 의미는 아래와 같습니다. Downstream tasks is what the field calls those supervised-learning tas..

Pretrained Language Model - 3. PLM [내부링크]

1. Review 지난 시간에는 Self-supervised Learning을 통해서 좋은 weight parameter를 얻고, Transfer Learning을 통해 본인이 가지고 있는 한정된 데이터셋과 할당된 task에 활용해 더 좋은 성능을 얻는 것이..

Pretrained Language Model - 1. Self-supervised Learning [내부링크]

1. comparison of Supervised vs. Unsupervised Learning Supervised Learning은 머신러닝 공부할 때 가장 제일 처음 나오는 부류의 학습방법입니다. label y와 data input의 관계를 학습합니다. 반면 Unsupervis..

Pretrained Language Model - 0. Intro [내부링크]

사전학습 언어모델 PLM 관련 필요한 지식, 알아두면 좋은 것들 등을 위주로 정리할 생각입니다. 분량은 저도 잘 모르겠습니다. 참고로 모든 사람을 이해시킨다는 것이 목적이 아닌, 요약성에 가까운 글들임을 알..

Pretrained Language Model - 2. Transfer Learning [내부링크]

1. Motivations 처음에 전이학습이 나온 분야는 비전입니다. 데이터가 다르더라도 이미지를 활용한 공통된 Feature들이 존재할 것이라고 접근합니다. 꽃은 잎 모양, 길이가 비슷하나 조금씩 다 차이가 있습니다...

자산 배분 포트폴리오 - 5. 비중 최적화 포트폴리오 [내부링크]

저번 글에서 동일 비중으로 우리가 들어본 듯한 회사들을 구성하여 기술주, 은행주, 배당주 10개만 적당히 굴려도 괜찮은 퍼포먼스(연평균 단순 기대수익률 33%, 리스크 21%, Sharpe Ratio는 1.56)가 나오는 결과..

Dacon 자연어 기반 기후기술분류 AI 경진대회 후기 _ 기술 Part (2) [내부링크]

이전 글에 이어서 후기를 이어나가겠습니다. 이전 글은 데이터 모양새와 대회 개요에 대한 내용이었다면, 이번 글은 문제를 푸는 방식에 대해 서술합니다. 6. 문제를 푼 방식 6-1. 전처리 및 결측 처리 - 결측은..

Dacon 자연어 기반 기후기술분류 AI 경진대회 후기 _ 기술 Part (1) [내부링크]

대회 결과는 이전 글을 참고하시길 바랍니다. https://hotorch.tistory.com/59 1. 대회 간단 소개 및 도메인 간단히 이야기하면 국가 연구개발과제를 '기후기술분류체계'에 맞추어 예측하는 모델을 개발하는 것입..

개별종목 지수편입 이벤트 스윙매매 (1) [내부링크]

이 글은 투자를 종용하거나 추천하는 글이 아니고 단지 저의 생각과 내용 전달, 정리에 목적이 있음을 알려드립니다. 투자의 책임은 투자자 본인에게 있습니다. 오랜만에 손 매매 관련 이야기를 하고자 합니다...

Dacon 자연어 기반 기후기술분류 AI 경진대회 후기 (상위 3%) [내부링크]

개인적으로 올해 목표 한 10개 정도 세웠었는데, 9월인데 절반밖에 달성을 못했습니다. 올해 목표 여러 개 중 하나가 올해 데이터 관련 대회에서 나름 유의미한 성적을 내는 것이 목표였습니다. 작년에 운 좋게 1..

자산 배분 포트폴리오 - 4. 동일 비중 포트폴리오 [내부링크]

Python이라는 도구를 활용해서 직전 글(아래 Reference) 막바지에 소개한 10 종목을 바탕으로 어떻게 포트폴리오를 구성하는지, 이렇게 구성했을 때 어떤 구조를 가지게 되는지 알아보고자 합니다. !pip install y..

[Crawling] R을 이용한 가상화폐 거래소 Open API 실시간 가격조회 [내부링크]

2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. 이때만 해도 정말 관심이 없었는데 지금은 차트를 상당히 좋아하는 제 자신이 대비됩니다. 살펴보겠습니다. 우선 업비트 개발자 센터로 접속한다..

Chrome Driver & Selenium 설치 [내부링크]

웹에 있는 정보들을 긁어오는 행위를 크롤링이라고 간단히 이야길 합니다. 크롤링에 있어 다양한 방식으로 자료를 긁어올 수 있습니다. 다양한 방식 중 파이썬에서 제일 대표적인 것은 BeautifulSoup방법이 대표..

[Crawling] PDF파일 R로 간단하게 크롤링해보기 [내부링크]

2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. ------------------------------------------------------------------------------------------ 먼저 뽑고 싶은 논문을 찾아보고 pdf로 저장해보..

자산 배분 포트폴리오 - 3. 포트폴리오 성과 지표 [내부링크]

포트폴리오 구성의 컨셉은 아이디어만 많다면 다양한 방법으로 포트폴리오를 짤 수 있습니다. 또한 공격적 성향, 안정적 성향 등 본인 성향에 따라 구성을 할 수 있습니다. 컨셉기준으로 성장주 위주, 가치주와..

[Crawling] 공공데이터 포털 : 한국환경공단 대기오염정보 open api 수집 [내부링크]

# Load Library > library(tidyverse) > library(httr) > library(rvest) > library(jsonlite) 공공데이터 포털에서 발급받은 인증키를 복사한 다음 R 환경변수에 추가 # usethis::edit_r_environ() ## DATAGOKR_T..

(모두에게 도움이 되는) 손매매의 의사결정 과정 [내부링크]

전 세계에는 다양한 유형의 시장 참여자와 금융 상품이 많이 존재합니다. 다양한 시장 참여자들이 존재하는데 국내 주식 시장 한정하여 참여 플레이어들로는 저희와 같은 개인투자자부터 기관, 외국인, 연기금,..

자산 배분 포트폴리오 - 2. 데이터 수집 [내부링크]

자산을 배분하는 이야기와는 거리가 있는 내용이지만, 저희가 요리를 하려면 재료를 손질을 해야 하듯이 어떤 데이터를 손질할지 다루는 내용을 이번에 이야기하고자 합니다. 처음에는 종목을 부르는 방법을 서술..

[Crawling] KBReport 2019 정규시즌 투수 Stat Crawling [내부링크]

2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. 일단 한 페이지 추출 해보기 Load Packages 조회연도 설정 & HTML 요청 실행 응답 결과 확인 Window를 사용하고 있기 때문에 잠시 Locale 변경 HT..

R 정규표현식 기본문법 [내부링크]

정규표현식에 대한 이해 하는 만큼 실력이 느는 Part, 많이 연습하면 외워지겠지만, 매번 검색해서 찾아보는 것을 추천. 패턴(규칙)을 갖는 문자열의 집합을 표현하는 데 사용하는 언어 복잡한 문자열에서 특정한..

(내 수익에 큰 기여를 한)주식 유튜버 추천 [내부링크]

저도 주식을 시작한 지 곧 1년이 다되어가지만, 주변에 많은 사람들이 주식을 시작하는데 무엇부터 해야 할지 모르겠다고 많은 질문을 받습니다. 저도 체계적으로 배운 것은 아니지만, 여가 시간에 책이나 유튜브..

[Crawling] R stringr 패키지 사용법 [내부링크]

stringr 패키지 소개 stringr 패키지 주요 함수 1 : 패턴 포함 여부 확인 stringr 패키지 주요 함수 2 : 패턴을 한 번 또는 모두 삭제 stringr 패키지 주요 함수 3 : 패턴을 한 번 또는 모두 교체 stringr 패키지..

자산 배분 포트폴리오 - 6. Portfolio Visualizer [내부링크]

지난 글에서는 종목들의 비중을 최적화한 이야기를 했었습니다. 하지만 Python 코드를 이용해서 종목 비중을 최적화하기엔 누군가에게는 어려울 수 있기 때문에 간단한 High-Level 툴을 소개하고자 합니다. Portfo..

자산 배분 포트폴리오 - 1. Modern Portfolio Theory(MPT) [내부링크]

'현대 포트폴리오 이론'이라는 단어를 들어보셨나요? 구글에 검색하면 많은 자료들이 나옵니다. 나무 위키에서는 이렇게 정의를 합니다. 핵심은 아래와 같습니다. 해리 마코위츠가 1952년 발표한 재무관리 이론...

[Crawling] RSelenium [내부링크]

2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. Selenium 이해 Java JDK 설치 RSelenium 패키지 소개 크롬 드라이버 버전 확인 크롬 드라이버 설정 Rselenium 패키지 주요함수 1 : remote driver..

[Crawling] JavaScript가 사용된 Webpage 긁기 [내부링크]

2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. Contents Contents JavaScript 사용된 파일 찾기 Step 날짜데이터 활용 - 매우 기초 현재 날짜 반환 현재 날짜 속성 확인 현재 날짜를 숫자 값으..

자산 배분 포트폴리오 - 0. Intro [내부링크]

사람들마다 선호하는 투자 스타일이 있습니다. 저도 작년 6월부터 투자 공부를 시작하고 8월부터 투자를 시작했기 때문에 고수가 절대 아닙니다. 아직까지는 저는 운이 좋다고 생각합니다. 사람들마다 투자스타일..

[Crawling] XML, JSON in R [내부링크]

2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. Contents Contents 반복문에서 예외 처리 JavaScript에 대한 이해 AJAX & XHR XML R에서 XML 데이터를 다루는 방법 JSON에 대한 이해 R에서 JSON..

[Crawling] 용어 다지기 및 Tutorial [내부링크]

19년 하반기에 강의 했었던 내용을 짧게 일부 발췌하였습니다. 최소한은 이 부분은 알고 가신 다음에 적용하는 것이 좋습니다. 간단 이론! 웹크롤링 전반적인 범위 우리가 인터넷에서 정보를 검색하는 방법 R에서..

자연어 강좌 추천(2020) [내부링크]

NLP를 공부하면서 도움이 되었던 강좌들을 소개하며 몇줄평을 남겨보도록 하겠습니다. 오로지 자연어 관련 강좌만을 언급을 합니다.(2020년 7월 기준) 1. 허민석님 유튜브 → 자연어처리 재생목록입니다. 용어..

자연어 관련 도서 및 블로그 소개(2020) [내부링크]

Text MIning, NLP를 공부하면서 도움이 되었던 책들과 블로그를 소개하며 몇줄 남겨보도록 하겠습니다.(블로그는 많은 내용을 다루는 곳을 기준으로만 기술 했습니다.) 서적은 자연어 관련 서적 만을 언급을 합..