dlwoduq234의 등록된 링크

 dlwoduq234로 등록된 네이버 블로그 포스트 수는 44건입니다.

게임 속으로 들어온 ChatGPT : Generative Agents [내부링크]

지난 4월 7일, 스탠포드 대학 연구진이 재미난 주제의 논문을 발표하였다. "Generative Agents : Interactive Simulacra of Human Behavior'라는 제목의 이 논문은 바로 RPG 형태의 가상시뮬레이션 게임에 ChatGPT를 적용시킨 실험과 그 결과에 대해 작성한 논문이었다. 챗GPT가 발표되었을 때부터 '상황에 따라 다른 대답과 반응을 보이는 NPC를 게임에서 볼 수 있겠구나!'라고 생각한 사람들이 많을 것이다. 그리고 이 논문은 그런 생각이 머지않았음을 보여준다. 좀더 자세히 살펴보자. The Sims. 게임 업계를 휩쓸었으며 현재도 유명한 IP중 하나인 게임이다. 한 사람의 인생을 살아보는 시뮬레이션 게임 시리즈로 유저가 정해진 목표 없이 어떠한 플레이를 하는 것이 가능하다. 플레이어는 직접 게임 세계에 개입하여 세계와 상호작용하고 변화를 줄 수 있는 반면 밖에서 지켜보는 관찰자의 역할을 수행하는 것도 가능하다. 이런 게임의 유형을 '샌드

ChatGPT와 OpenAI [2] [내부링크]

(이번 글부터는 용어를 'ChatGPT'가 아니라 '챗GPT'로 작성하겠다.) ChatGPT와 OpenAI [1] 0. 서론 2022년 11월 30일, OpenAI사는 본인들의 트위터를 통해 그 유명한 ChatGPT의 탄생을 알렸다... blog.naver.com 지난 글에서는 챗GPT의 개념과 장점 및 한계점, 그리고 챗GPT의 등장이 현재 AI시장에 가져온 영향에 대해서 작성했다. 이번 글에서는 실제로 챗GPT를 적용할 수 있을 분야에 대해 알아보자. 4. 챗GPT의 여러가지 활용 사례들 챗GPT의 영향력을 본 MS가 2019년 이미 10억 달러를 투자한데 이어 추가로 100억달러 투자를 논의하고 있다는 소식은 지난 글에서도 작성했다. 또한 MS는 자사의 검색엔진서비스인 빙(Bing)에도 챗GPT의 기능을 탑재시켰다. 이어서 워드, 엑셀, 파워포인트 등 오피스 제품에도 챗GPT를 탑재시키고 있다. 챗GPT를 통해 다양한 문서 작성 작업이 창의적이고 더 빠르게 이루어져 사무업무의

ChatGPT와 OpenAI [1] [내부링크]

0. 서론 2022년 11월 30일, OpenAI사는 본인들의 트위터를 통해 그 유명한 ChatGPT의 탄생을 알렸다. 대화에 최적화된 생성형 AI(Generative AI)인 ChatGPT는 출시되자마자 많은 인원들의 이목을 끌었고 곧 활용되기 시작했다. 젊은 층을 시작으로 생활에 스며들기 시작했고 넓은 활용 범위 덕분에 다양한 분야에서 활용되기 시작했다. 지난 십수년간 검색엔진으로써 부동의 1위 자리를 지키던 구글의 위치가 위협받기 시작했고 ChatGPT를 통해 과제 및 논문을 제출하는 경우가 많아지자 이를 잡기 위한 AI가 개발되기도 했다. ChatGPT는 다음 링크 (https://chat.openai.com/)에 들어가 실행해볼 수 있다. 별다른 회원가입 절차 없이 구글 계정을 그대로 이용해서 사용하는 것도 가능하며 사용 방법도 단순하다. 밑의 메시지 입력창에 내용을 입력하고 엔터를 눌러 전송한다면 ChatGPT는 유저의 메시지를 이해하고 대답을 한다. (참고로 줄을 바꾸기

[22/23 EPL 26R] 리버풀 vs 맨유 리뷰 [내부링크]

요즘 맘에 드는 경기가 영 없었는데 생각지도 못한 큰 승리에 놀랐다...ㅋㅋ 출근도 해야해서 선발라인업만 보고 큰 기대를 하지 않고 잤는데 이게 웬걸... 경기를 다시 보고나서 느낀 점을 간략하게 정리해보았다. 선발라인업 양팀의 선발라인업은 예상과 크게 다르지 않았다. 리버풀은 티아고의 부상으로 인한 제외(와 케이타의 부상의심... 에휴..)를 제외하고는 베스트 라인업이었고 맨유 역시 에릭센의 부상 제외 정도를 제외하고는 베스트 라인업으로 나섰다. 홈에서 레알마드리드에게 2대5 대역전패를 당하는 등 분위기가 좋지 않은 리버풀과 최근 카라바오컵 우승으로 분위기가 극에 달한 맨체스터 유나이티드. 경기 시작 전 스카이스포츠의 프리뷰에서는 수녜스가 승리를 확신하는 발언을 하자 옆에서 듣던 게리 네빌과 로이 킨은 웃음을 참는 모습을 보일만큼, 이번에 맨유의 자신감은 충분했다. 리버풀과 맨유의 전술 변화 리버풀의 전술적 변화의 Key는 파비뉴였다. 올시즌 최악의 폼을 보여주며 유망주 바세티치에

대한축구협회의 100인 사면에 관하여 [내부링크]

지난주 28일 화요일, 우루과이와의 평가전을 얼마 남기지 않은 시각. KFA 홈페이지의 미디어채널에 충격적인 소식 하나가 올라왔다. "대한축구협회, 축구인 100명 사면 단행"이라는 제목으로 올라온 기사에는 대한축구협회 이사회에서 징계중인 축구인 100인에 대한 사면 조치를 의결했다는 내용이었다. 매진된 관중석, 2022 카타르 월드컵부터 이어지고 있는 축구에 대한 뜨거운 열기, 평균관중 10,000명의 시대를 여는가 싶은 K리그의 좋은 분위기 등을 한번에 뒤엎을 수 있는 소식에 축구계가 발칵 뒤집혔다. 바로 많은 유튜버들이 이를 다룬 영상을 올렸고 관련된 기사가 언론에도 보도가 되었다. 사면 대상자에 승부조작에 가담했던 48명도 포함되어 있는 것도 충격적이었다. 우루과이전 이후 김민재의 인터뷰와 SNS 등으로 인해 잠시 관심이 식는 듯 했으나 이와 관련된 내용은 하루만에 끝이 났고 다시 모든 눈과 귀는 대한축구협회를 향했다. 승부조작으로 인해 눈물을 흘렸던 대전의 서포터즈를 시작으

클레임 데이터 분석 (1) : NLP(자연어처리) 분석 [내부링크]

이제부터 쓸 이야기는 처음으로 정규직이 되고나서부터의 이야기이다. 길다면 길었고 짧다면 짧았던 취준생 시절을 마치고 첫 직장에 들어간 순간... 나의 직책은 '빅데이터 분석가'였고 한창 선배들에게 배우고 멋진 분석 결과를 낼 생각에 들떠있었다. ...그런데... 우리 팀은 생긴지 3개월도 안된 신생 조직이었고 (팀의 첫 이름은 Data Innovation 팀이었나..?) 나와 같은 직책을 갖고 계신 분은.. 한분도 안 계셨다. 그렇다. '빅데이터 분석가'라는 직책은 전사를 통틀어 나 하나 뿐이었던 것이다! 뚜어어.. 내가 할 수 있는 일은 아무것도 없었다. 다른 동기들은 선배들에게 배우며 OJT를 열심히 작성하는데... 나는 배울 수 있는 선배도 없고 정해진 업무도 없었다!ㅜㅜ 우선 진행되고 있던 다른 프로젝트(사실상 최종발표만 남았던)에 들어가 그동안 발표했던 시작&중간발표 보고 파일을 보면서 공부를 했다. 전체적인 프로젝트 진행 방법(과제 선택 - 업체 선정 - 프로젝트 진행 -

클레임 예측하기(1) : Pipeline, ARIMA 등.. [내부링크]

입사 2년차가 되었다. 이제 정말 제대로 된(?) 빅데이터 분석을 할 시간이었다. 회사 내 다양한 팀들(생산, R&D, 구매, 품질, 인사...)과 과제 도출을 위한 미팅을 진행했고 그 중 품질 팀과 과제를 진행하게 되었다. 과제는 '클레임 발생 예측'이었다. 과거에 클레임 데이터를 다뤄보기도 했고 정량적으로 수치가 잘 표현되기 때문이었다. 사실 회사에 클레임 예측 시스템이 없는 것은 아니었다. 회사에는 기존 시스템 중에 클레임 발생 예측이 있긴 했지만 클레임이 정규분포를 따라 발생한다는 가정으로 기존 클레임의 평균과 표준편차를 구한 뒤 예측하는, 단순한 수학계산을 통해 예측하는 시스템이었다. 정규분포 그래프 품질 팀에서는 이제는 단순 수학계산보다 통계적 지식에 기반한, 좀더 설명력이 높고 신뢰할 수 있는 클레임 예측 시스템을 만들고 싶어했다. 이 과정에서 내가 프로젝트를 맡게 되었고 나는 시계열 방법론을 적용해 클레임을 예측해보기로 했다. 아, 그리고 처음으로 Python을 이용해

클러스터링(Clustering)에 대해... [내부링크]

인턴 생활을 하면서 프로젝트를 진행했는데 주제가 클러스터링(Clustering)이었다. 자세하게 공부했다고 보기는 힘들지만 간단하게 조사했던 것들을 적어놔야겠다. 1. 클러스터링(Clustering)이란 군집화. 라고도 불리는 클러스터링. 간단하게 요약하면 비슷한 속성을 갖는 데이터들을 하나의 클러스터(군집)로 모으는 것이다. 비지도 학습의 대표적인 예이며 대표적인 알고리즘으로 K-Means, GMM(Gaussian Mixutre Model), DBScan 등이 있다. 2. 분류(Classification)와의 차이점 자칫 분류(Classification)과 헷갈릴 수 있다. 가장 큰 차이점은 주어진 데이터에서 Label, 즉 Y값의 존재유무라 할 수 있다. Classification은 x1, x2... 등의 feature들과 함께 이 feature들을 통해 구해야하는 Y값이 주어진다. 반면 Clustering은 위에서 언급했듯 비지도 학습에 속한다. 여러 feature들을 가지고

2022 리버풀 유망주 (1) : 6년전 그들은 지금.. [내부링크]

6년 전. 2016년. 나는 나의 블로그에 리버풀 유망주와 관련한 글을 썼다. 리버풀 유망주 소개 - 1 리버풀의 유망주를 살펴보자!!! 먼저 내가 생각하는, 가장 주목할만한 5+1인을 뽑아보았다!! 1. 카메론 브... blog.naver.com 리버풀 유망주 소개 - 2 저번에는 내가 제일 주목하는 유망주 5+1명을 소개했다. 이번에는 그 외에 주목하고 있으며 평가가 좋은 유... blog.naver.com 바로 위의 글들인데... 언급된 유망주들 중 일부 선수들에 대해 알아보자. (Stat은 Transfermarkt 참고) 카메론 브래너건 (Cameron Brannagan) 출생 : 1996. 5. 9. 포지션 : CM, DM, AM 리버풀 성인팀 출장기록 : 9경기 정확한 킥 능력을 바탕으로 주로 중앙 자리에서 활약했던 브래너건. 클롭의 칭찬과 함께 바르셀로나 스카우터진이 관찰했단 말도 있었고 리그컵이었나.. 성인팀 경기에서 출전하여 롱패스를 때리는걸 보고 '오... 괜찮은데

그냥... 몇가지 개념 간단정리 (통계 관련) [내부링크]

공부를 하다가 헷갈렸던, 또는 기억이 잘 안 나는.. 그런 개념들을 정리해봤다. 고유값(Eigen Value)과 고유벡터(Eigen Vector) 벡터 x에 행렬 A를 곱하게 되면 보통 벡터의 크기와 방향이 바뀐다. 하지만 고유벡터와 정방행렬을 곱하면 고유벡터의 방향은 바뀌지 않는다. 즉 벡터 x가 행렬 A의 고유벡터라면 값은 그대로인 것이다. 위의 (1) 식은 일반적인 행렬 계산식이고 아래의 (2) 식은 고유벡터를 곱한 결과이다. 고유벡터는 람다(λ)로 표현하며 고유값이라고도 부른다. 여기서 고유값과 고유벡터가 중요한 이유는 행렬의 정보를 담고 있기 때문이다. 고유값과 고유벡터를 통해 데이터가 어떤 식으로 변화되며 중심축은 어디인지와 같은 정보를 알 수 있기 때문이다. 이런 정보를 바탕으로 PCA(주성분 분석)와 같은 알고리즘을 사용할 수 있다. 조건부 확률(Conditional Probability)과 베이즈 정리(Bayes' Rule) 사건 B가 일어났을 때 사건 A가 발생할

[2022 커뮤니티 쉴드] 리버풀 vs 맨시티 리뷰 [내부링크]

21-22 시즌 EPL의 챔피언인 맨시티와 21-22 시즌 FA컵의 우승팀인 리버풀이 만난 2022 커뮤니티 쉴드. 결과는 리버풀의 3대1 승리로 끝났다. 라인업 먼저 경기 선발명단은 아래와 같았다. 리버풀은 알리송과 켈러허의 부상으로 아드리안이 선발출장하였다. 또한 다윈 누녜스는 벤치에서 출발을 시작했다. 맨시티는 영입생 홀란드가 바로 선발로 나섰다. 그리고 이제는 팀을 떠난 페르난지뉴 대신 디아스가 주장완장을 차고 출전하게 되었다. 공격 전개와 그를 방해하는 공격수들 먼저 맨시티는 양 측면의 반댓발 윙어, 그릴리시위와 마레즈가 라인을 높게 올리면서 박스에 좀더 가깝게 위치했다. 그리고 그 아랫공간을 양쪽 풀백인 칸셀루와 워커가 올라가 공격을 지원했다. 데브뤼네는 홀란드에 가까이 위치했고, 남은 두 중원의 자원 베실바와 로드리가 볼의 전개를 책임졌다. 이런 맨시티의 공격 전개를 방해하기 위해 전방 3톱은 바쁘게 움직였다. 그리고 이런 움직임에 방점을 찍는 것은 헨더슨이었다. 수비수

Lending Club : Default 예측하기(Classification) [내부링크]

0. 서론 Kaggle에서 Classification 관련해서 유명한 Dataset 중 하나인 Lending Club의 데이터이다. Lending Club은 미국의 대표적인 P2P 대출 기업으로 2007년부터 사업을 시작했다. 채무자와 채권자를 직접 연결해주는 온라인 서비스를 제공한다. 소비자 대출 및 소기업에 사업자를 대상으로 하며 구글의 투자를 받기도 했고 미국의 인터넷은행을 인수하기도 했다. 그러나 최근 P2P 대출기업들의 연체율 및 부실화에 대한 의문이 끊이지 않고 있고 이러한 의문을 해소하기 위해 대출자들의 부도를 정확하게 예측하는 것이 필요했다. 따라서 Lending Club의 데이터를 통해 부도(Default) 예측 모형을 만드는 것이 목표이다. 1. 데이터 소개 및 준비 데이터는 약 100만여개의 행과 300여개의 컬럼으로 구성되었다. 설명변수는 연속형 변수와 범주형 변수로 구성되었고 종속변수는 0, 1의 값으로 구분되었다. 데이터 EDA를 통해 이상치(Outlier)

2022 리버풀 유망주 (2) : 주목할 선수 [내부링크]

22-23 시즌 개막이 다가온 현재 주목할만한 리버풀의 유망주들을 살펴보자. 우선 1군 스쿼드에 등록되어있거나 작년 시즌이나 이번 프리시즌 1군에서 활약했던 선수들을 먼저 살펴보겠다. 커티스 존스 (Curtis Jones) 출생 : 2001. 1. 30. 포지션 : CM, AM, LM 성인팀 기록 : [리버풀] 75경기 8골 10도움 리버풀에서만 뛴 유스 출신 미드필더. 아놀드의 뒤를 이을 수 있는 성골 유스이다. 만 17세가 되자마자 팀과 성인 계약을 체결했고 2018-19 시즌을 앞두고 프리시즌에 지속적으로 좋은 모습을 보여주며 클롭의 눈도장을 받아 2019년 1월 7일, 울버햄튼과의 FA컵 경기에서 1군 데뷔전을 치를 수 있었다. 이후 2020년 1월 에버튼과의 FA컵 경기에서 이날 경기의 유일한 골이자 결승골을 넣으며 데뷔골을 터뜨렸다. 활약을 인정 받아 7월 장기재계약을 체결했고 이후 아스톤빌라전에서는 리그 데뷔골을 터뜨리기도 했다. 커티스 존스의 가장 큰 장점은 피지컬이라

2022 리버풀 유망주 (3) : 기대할 선수 [내부링크]

2022 리버풀 유망주 (2) : 주목할 선수 22-23 시즌 개막이 다가온 현재 주목할만한 리버풀의 유망주들을 살펴보자. 우선 1군 스쿼드에 등록되어있... blog.naver.com 저번 글에서는 1군에 등록되어있거나 저번시즌 및 프리시즌에 1군 스쿼드에서 활약한 선수들 위주로 봤다. 이번에는 U-23과 아카데미 등에서 활약하고 있는 선수들이다. 하비 데이비스 (Harvey Davies) 출생 : 2003. 9. 3. 포지션 : GK 22-23 시즌을 앞둔 프리시즌에 많은 기회를 받은 골키퍼다. 2021년 FA 유스컵에서 맨유, 레스터와의 원정 경기에서 활약하며 결승 진출에 혁혁한 공을 세웠다. 7월 가능성을 인정받아 새로운 계약을 체결하였으며 아카데미 팀 동료 자렐 퀀사는 "데이비스와 경기하면 모든경기에서 클린시트를 할 것처럼 편하다."라고 말했다. 개인적으로 몇경기 지켜본 바로는 선방 능력은 아직 부족한 점이 있지만 발밑은 나쁘지 않다고 느꼈다. 빌리 쿠메티오 (Billy K

부평에서 먹은 것들... (2) [내부링크]

2편은 프랜차이즈보다 부평 고유의 음식점 중심으로... 먼저 고모네 곱창... 우선 밥 먹기 전에 나오는 생간과 천엽을 참기름장에 찍어먹으면 존맛이다. (이건 호불호가 갈릴 수도 있음..) 그리고 같이 나오는 양배추 절임도 맛있음... 모듬구이 먹으면 정말 맛있고 전골도 평타는 쳤다. 그리고 구이를 먹을 때 같이 나오는 땅콩 소스도 맛있었다. 마지막으로 볶음밥까지 먹으면 위장을 제대로 기름칠할 수 있다. 4.4 / 5.0 고모네곱창 인천광역시 부평구 부평대로71번길 11 다음은 덕화원. 오랜 전통이 있는 중식집으로 한적한 곳에 있다. 찾아가는 교통이 좋은 편은 아니지만 최근 7호선이 연장됨에 따라 그래도 좀 나아진 것 같다. 저녁을 먹으러 갔는데 오후 5시까지 브레이크타임이어서 기다렸다가 바로 들어갔는데.. 기다리는 손님이 생각보다 있어서 꽤나 놀랐다. 맛은 간짜장 하나로 끝난다고 보면 된다. 태어나서 먹은 간짜장 중 가장 맛있었다. 바닥까지 싹싹 긁어먹었으며 친구들과 간짜장만 하

Credit Card : 신용카드 사용자 이탈 예측하기 [내부링크]

0. 서론 다음은 신용카드 사용자 이탈을 예측하는 것이다. 그런데... 사실 데이터셋이 어디서 나왔는지가 기억이 잘 안난다...^^;; (시간이 좀 지나서...) Competition에 참가하건 아니어서 기록도 따로 남아있지 않고... 그래도 Dataset에 대해 얘기하자면 이 Dataset은 신용카드 사용자들의 이탈과 관련된 데이터였다. 종속변수는 유지/이탈의 0/1로 나누어지는 Binary 변수였고 변인변수는 나이, 성별, 결혼 유무, 학력 수준, 소득의 범주형 변수와 가구 구성원 수, 은행과의 거래월 수, 신용카드 한도와 같은 연속형 변수 총 20개 정도 존재했다. 전체 데이터 수는 10,217개로 많지는 않았다. 이 Dataset을 통해 고객이 신용카드 사용을 유지할 것인지 or 그만 사용할것인지를 예측하는 모형을 만드는 것이 프로젝트의 목표다. 1. 데이터 관련 : 결측값(Missing Value) 채우기 먼저 데이터를 살펴보면 결측값이 존재하는 column이 몇몇 보였다.

제주 여행... 1일차 [내부링크]

부모님을 모시고 2박3일 제주 여행을 다녀왔다... 여행 1일차 기록 김포공항 → 제주공항 새벽 6시40분발 티웨이 항공사의 비행기를 타고 김포공항에서 출발하여 제주공항으로 갔다. 비행기에서 바라본 바깥은 마음을 들뜨게 했다. 그러면서도 아침 먹을 시간이 되어서인지 배고픔도 함께 찾아왔다. 1시간 10여분의 비행 끝에 제주공항에 도착! 렌트카를 빌린 후 먼저 동문시장에 들러 옥돔을 택배주문했다. 전화로도 주문할 수 있지만 직접 방문하면 한마리를 더 주신다고 하셨다. 그리고 배고픔을 해결하기 위해 아침을 먹으러 나섰다. 아침 : 제주시 새우리 아침은 김밥과 함께 국물있는 요리가 먹고싶다는 엄니의 의견에 따라 찾은 곳이었다. 메뉴는 딱새우김밥 2개와 새우리해물라면 1개. 딱새우김밥은 일단 눈으로 먹는 것이 즐거웠다. 맛은 새로운 식감과 맛으로 백종원 아저씨의 표현을 빌리면 '재밌는 맛'이 느껴졌다. 해물라면은 새우와 홍합이 들어가있어 시원한 맛이 느껴졌다. 다음에 온다면 컵밥과 모듬튀김

제주 여행... 2&3일차 [내부링크]

2박3일 제주도여행의 2,3일차 기록. 3일차는 넣을 내용이 하나뿐이라 같이 작성한다..^^ 아침 : 으뜨미 아침은 으뜨미식당으로 가서 우럭정식을 먹었다. 다른 메뉴도 먹어볼까 했는데 사장님께서 우럭정식만 된다고 하셔서 3인분을 주문했다. 먼저 밑반찬이 여러가지 나왔는데 게장이 많이 짜지도 않고 맛있었다. 우럭 정식 그리고 메인인 우럭정식이 나왔다. 말린 우럭을 튀긴 다음 양념을 끼얹어 만든 음식이었다. 테이블에 올린 뒤 이모님께서 집게와 가위로 살을 잘개 잘라주셨다. 살이 쫀득쫀득하면서 양념과 잘 어우러져 밥도둑이 따로 없었다. 양념은 양파가 많았는데 생양파임에도 매운 향을 많이 빼서 아주 먹기 좋았다. 아버지가 우럭을 좋아하시는데 이 정식도 아주 좋아하셨다. 아 참고로 으뜨미는 주차공간이 그리 넓진 않다. 그리고 무엇보다 중요한 것은 노키즈존이라는 것! 식사 중에도 성인이 아닌 인원이 포함된 2가족이 왔는데 모두 들어오지 못했다. 결국 한 가족은 어린 친구들은 다른 식당으로 가고

연합학습 (Federated Learning) (1) [내부링크]

Study해본 내용 간단 정리... 개념 연합학습(Federated Learning)에 대한 첫 개념을 발표한 자리에서 구글은 이렇게 말했다. We advocate an alternative that leaves the training data distributed on the mobile devices, and learns a shared model by aggregating locally-computed updates. We term this decentralized approach Federated Learning. (우리는 휴대 장치에 training 데이터를 남겨놓고 각 device에서 locally-computed된 update값만 결합한다. 우리는 이런 분산 접근을 연합학습(Federated Learning)이라 칭한다.) 2016, Google, Communication-Efficient Learning of Deep Networks from Decentralised

연합학습 (Federated Learning) (2) [내부링크]

연합학습 (Federated Learning) (1) Study해본 내용 간단 정리... 개념 연합학습(Federated Learning)에 대한 첫 개념을 발표한 자리에서 구... blog.naver.com 저번 글에 이어서.... 종류 연합학습은 분류 기준에 따라 여러가지로 나눌 수 있다. 먼저 중심을 모델에 둘 것인가, 데이터에 둘 것인가에 따라 모델 중심 연합 학습(Model-Centric)과 데이터 중심 연합학습(Data-Centric)으로 나누어진다. 먼저 모델 중심 연합 학습에 대해 말하자면 정적 연합학습(Static Federated Learning)이라고도 하며 중앙 서버에서의 더 나은 모델 제공이 목표인 경우 주로 사용한다. 그리고 모델 중심 연합 학습은 다시 여러가지로 나눌 수 있는데 첫째, 네트워크 구성 형태에 따라 다음의 3가지로 나눌 수 있다. Cross-Device Federated Learning : 원격으로 Local에서 학습을 진행한 후 중앙 서버의

동형암호 (HE : Homomorphic Encryption) [내부링크]

데이터 분석과 완전한 관련이 있다고 보기는 힘들지만.. 최근 데이터와 관련된 법안이나 유출 사례들을 볼 때 데이터의 보안에 대한 관심은 날로 높아지고 있기에 Study를 해보았다. +) 서울대 빅데이터 핀테크 교육과정에서도 배운 경험이 있다. 개요 먼저 동형암호에 대해 정의를 내리면 암호문 상태에서도 연산이 가능한 차세대 암호기술이라 할 수 있다. 민감정보(데이터)를 안전하게 보호하면서 유용하게 활용이 가능하고 클라우드 회사에 위탁함으로써 발생할 수 있는 정보의 노출 문제를 최소화할 수 있다. 암호화된 상태에서 연산 처리를 직접 하여도 그 결과가 원문을 처리한 결과와 동일하다. 동형암호는 위 그림처럼 보석을 외부 공간에서 세공하는 것에 비유되곤 한다. 세공자는 보석(데이터)을 만져 결과물을 만들 순 있지만 바깥으로 꺼낼 순(정보 유출) 없다. 동형암호의 활용 범위는 스토리지 아웃소싱, 헬스케어, DNA 분석, 가상 물리 시스템(Cyber Physical System), 기계학습(Ma

연합학습과 동형암호를 합친다면? (Federated Learning + Homomorphic Encryption) [내부링크]

그동안 연합학습과 동형암호에 대해 Study를 진행해봤는데 이 둘을 같이 사용할 수 있을지 살펴보자. 여전히 존재하는 보안 Issue 연합 학습이 Local Device에서 update 값을 중앙 서버로 전송하기 때문에 Local Device 내의 데이터는 볼 수 없을 것 같지만 최근 연구는 그렇지 않음을 보여주고 있다. Breaking Privacy In Federated Learning Despite the benefits of federated learning, there are still ways of breaching a user’s privacy, even without sharing private data. In this article, we’ll zephyrnet.com 먼저 Zepynet의 '연합 학습의 프라이버시 깨기' 글을 보면 익명화된 Dataset을 보유했어도 다른 데이터와의 join 과정에서 사용자의 개인 정보가 유출될 수 있는 위험이 존재하며 Local D

어..언제갔지..? 22/23 소리소문없이 이적한 선수들 [내부링크]

이번 여름이적시장에서 이적했지만 큰 이슈가 되지 않았거나 기사가 크게 뜨지 않았던 몇몇 선수들을 정리해봤다. 이적료는 트랜스퍼마켓을 참고했다. 마티아스 더 리흐트 (Matthijs de Ligt) 소속팀 : 유벤투스 → 바이에른 뮌헨 이적료 : 6700만 유로 포지션 : CB 아약스의 돌풍을 이끌었던 주인공 더 리흐트가 3년간 몸담았던 유벤투스를 떠나 바이에른 뮌헨으로 둥지를 옮겼다. 강력한 피지컬과 큰 키에도 빠른 발, 그리고 좋은 발기술을 이용한 빌드업에도 능한 만능 수비수인 더 리흐트는 뮌헨으로 옮긴 후에도 얼마 지나지 않아 주전 자리를 꿰찬 느낌이다. 리그 초반에는 선발로 나서지 못하며 적응하는데 더 시간이 필요한가 하는 느낌이었지만 어느새 우파메카노를 제치고 뤼카 에르난데스와 함께 수비라인을 형성하고 있다. 보훔과의 리그 3R에서 데뷔골을 넣기도 했으며 묀헨 글라드바흐 전에서는 톱 자리로 올라가 공격에 임하기도 했다. 파비안 루이스 (Fabián Ruiz), 카를로스 솔레르

2022 PSG의 전술 그리고 몽펠리에-릴-유베전까지 [내부링크]

리버풀 경기는 리뷰할 맘이 없고... 이직하면서 적응하느라 다른 경기들 볼 시간도 많지 않았는데 이번 추석 연휴 때 파리생제르망 경기를 보면서 리뷰를 좀 해봤다. 새 감독, 크리스토프 갈티에 (Christophe Galtier) 메시, 네이마르, 음바페... 이름만 들어도 설레는 공격 조합을 가지고 리그에서의 졸전과 챔피언스리그에서의 충격적인 역전패로 탈락해버린 포체티노 감독의 뒤를 이어 새로운 디렉터 루이스 캄포스의 전폭적인 지지 아래 릴과 니스를 이끌었던 크리스토프 갈티에가 22-23시즌을 앞두고 파리생제르망의 새 감독으로 취임했다. 릴의 리그앙 우승을 이끌기도 했던 감독으로 솔직히 이전에 이 감독의 경기를 따로 찾아본 적은 없지만 몇몇 컬럼 글과 하이라이트를 봤을 때 대표적인 전술의 틀은 다음과 같다고 할 수 있다. 첫째 4-4-2 포메이션을 기본으로 하며 그 틀 안에서 유동성을 가져간다. 두번째 공이 있는 공간 쪽에 선수들을 많이 배치, 사각형 틀을 만들어 공을 전개시킨다.

9월 평가전 A대표팀 명단 발표 (+올림픽대표팀까지) [내부링크]

‘이강인-양현준 발탁’ 벤투호, 9월 친선경기 명단 발표 www.kfa.or.kr 23일 코스타리카, 27일 카메룬과 월드컵을 대비한 평가전을 갖는 대한민국의 A대표팀 명단이 오전 10시30분 발표되었다. 최근 라리가에서 맹활약하고있는 이강인이 1년반만에 재발탁되었으며 K리그에서 위협적인 모습을 보여주고있는 신성 양현준은 첫 발탁되었다. 1시간전 발표된 올림픽대표팀 명단 : 이강인&양현준의 A대표팀 발탁?? A대표팀 명단이 발표되기 1시간 전, 황선홍 감독이 이끄는 올림픽 대표팀 명단이 발표되었다. 바이에른 뮌헨으로 이적, B팀에서 맹활약을 펼치고있는 이현주 최근 K리그에서 수원의 공격을 이끄는 2001년생 군필 공격수 오현규 동아시안컵에서 깜짝 스타의 탄생을 알린 강성진 K리그2 최고의 왼쪽 풀백으로 맹위를 떨치고 있는 조현택 등 한국의 미래를 이끌 신성들이 이름을 올렸다. 축구에 관심있는 분들이라면 2000년생 이후의 자원들만 뽑은 와중 두 선수의 이름이 보이지 않은 것을 느꼈을

요즘 나의 삶 정리.. [내부링크]

이번주에 국대 경기랑 클럽 경기 하나 보고 Review도 써보고 내 일상도 작성해보려했는데... 일이랑 노는거랑(;;) 기타 경조사 때문에 바빠서 연휴인데도 하나도 못 챙겼다... 그냥 내 일상만 몇개 작성해야지. 간만의 학교 방문 저번주 금요일. 간만에 학교를 갔다. 새로운 직장에서는 첨 가는 길이었는데 회사 앞 정류장에서 버스 하나 타면 바로 가서 너무 좋았다.ㅎㅎ 저녁식사는 네이버나 카카오 맵에서도 나오지않는 숨겨진(?) 고기집에서 모둠을 먹고... 몰랐는데 주위를 돌아다녀보니 축제였더라. 분위기만 잠깐 즐기고 술집만 2,3,4차까지 가버렸다. 정신차려보니 새벽 4시. 옛날이었으면 첫차 뚫릴 때까지 기다리다가 집에 갔겠지만 늙은 나는 비싼 택시를 타고 말았다... 그리고 주말내내 거의 죽은듯ㅎㅎㅎ 즐거버 : 부평 수제버거 맛집 일요일엔 친구에게 추천받은 수제버거 맛집을 찾아갔다. 부평에 위치한 즐거버란 곳이었다. 나는 트러플 머쉬룸 버거 세트를 주문해서 먹었는데 아~ 정말 맛있

[22/23 EPL 10R] 리버풀vs맨시티 짤막 리뷰 [내부링크]

오잉... 큰 기대 안했는데 리버풀이 맨시티에게 승리를 거두었다...ㅋㅋ 안필드니 질 것 같진않고 무승부를 기대했는데... 늦은 관계로 짤막한 리뷰를 작성해본다. 선발 라인업 : 누홀대전이 아닌 살홀대전 누녜스는 교체명단에 이름을 올린데 반해 홀란드는 당연하게 선발라인업에 이름을 올리면서 누홀대전이 경기 초반부터 이루어지진 않았다. 작년 득점왕인 살라와 올해 득점왕이 유력한 홀란드의 살홀대전이 예견되었다. 이 외에도 양팀의 주전 오른쪽 풀백인 아놀드와 워커가 부상으로 교체명단 및 명단제외되었다. 라인업만 봤을 때는 양팀 모두 몇년간 베이스로 깔아온 4-3-3 전형을 이용하는 듯 했는데... 실질적 포메이션 : 4-4-2 vs 3-2-4-1 리버풀의 포메이션은 최근 몇경기동안 들고 나온 4-4-2 또는 4-2-3-1에 가까운 전형이었다. 살라가 좀더 톱에 가까운 움직임을 가져가고 피르미누가 내려와 중원에 숫자를 더했다. 중원의 떨어진 기동력을 만회하고 수비에 안정감을 주기 위해서였다.

K리그1 Best11 후보 발표... 예상 인원과 나의 Pick [내부링크]

한국프로축구연맹이 하나원큐 K리그 2022 대상 시상식의 개인상 후보들을 발표하였다. K리그1, K리그2로 나누어 발표하였으며 감독상 & 시즌 MVP & 영플레이어상의 개인상과 베스트 일레븐 후보들이 포지션별로 선정되었다. 그럼 예상 수상자들과 나만의 베스트11을 만나보자. 예상되는 수상자들은?? 먼저 감독상과 MVP는 리그 우승팀인 울산의 홍명보 감독님과 이청용 선수에게 돌아가지 않을까 싶다. 카리스마를 갖춘 형님 리더쉽의 홍명보 감독은 시즌 초반부터 승점차를 크게 벌리는데 성공했고 아시아챔피언스리그 토너먼트 진출 실패와 시즌 중반 승점을 따라잡히는 듯 어려움을 겪었지만 자신의 10년 대운설을 이어가려는 듯, 울산에게 17년만의 리그 우승을 안겼다. New 캡틴 이청용은 팀의 정신적 버팀목이 되었을 뿐만 아니라 농익은 실력을 발휘했다. 젊을 때만큼의 속도나 민첩성은 사라졌지만 경험을 바탕으로 팀의 템포를 잘 조절하였고 볼의 순환이 원할하지 않을 경우는 직접 내려와서 빌드업의 시작이

참고) 월드컵 경기 기록 확인 사이트 [내부링크]

이번에 대한민국 대 우루과이 경기 기록을 찾으면서 좋은 사이트를 찾아 공유한다. 월드컵 공식 지원 사이트인 것으로 보이며 생각보다도 더 많은 통계 기록 및 팀&개인 기록이 시간 단위로도 작성되어있어 경기의 전체적인 흐름을 보기에도 좋았다. 지금은 매일 4경기씩 치뤄지는 중이라 상세히 보기는 힘들지만... 토너먼트로 들어가고 여유가 좀 생기면 관심있거나 재밌었던 경기는 진지하게 살펴봐야겠다. 사이트 링크 사이트 링크를 우선 첨부한다. Post Match Summary Reports Here you can find extensive statistics for the FIFA World Cup 2022 . The Post Match Summary Reports for all 62 matches are available here. www.fifatrainingcentre.com 언어는 영어와 스페인어, 불어가 지원된다. 내용 경기 보고서 가장 앞단은 경기의 요약 내용이 작성되어있다. 볼 소

딥러닝 관련 기본개념 정리 [1] [내부링크]

최근 CNN 기반의 Graph Convolutional Network나 Transformer 기반의 Encoder-Decoder 모델 등을 개발하고 있는데 업무를 진행하다 보면 확실히 나의 기본기가 부족하다는 것을 다시 한번 느끼게 된다...ㅜ 그래서 요즘 짬내면서 공부를 하고 있는데 공부를 하던 와중에 가장 기본이 되는 개념부터 정리가 필요하단 생각이 들었다. 그래서 공부를 하는 겸 블로그에도 글을 작성하여 정리해보려 한다. 딥러닝이 떠오르는 이유 AI에 대해 조금이라도 공부해본 분들은 모두 봤을만한 이미지.. 딥러닝의 개념은 예전부터 있어왔다. 수없이 많이 보셨을 위의 이미지에서 볼 수 있듯이 딥러닝의 개념은 AI(Artificial Intelligence)의 작은 범위 중 하나이다. 딥러닝이 최근(이라고 하기엔 이제 시간이 좀 지나긴 했지만..ㅎ) 더욱 각광받고 있는 이유는 성능이 더욱 강화된 하드웨어 이전보다 더 많아진 데이터 더 나아진 정규화(Normalization) 방법

Day18 : 골키퍼, 영웅이 되다. [크로아티아vs브라질] [아르헨티나vs네덜란드] [내부링크]

점점 우승팀의 윤곽이 드러나고 있는 카타르 월드컵. 대망의 8강전에 돌입하게 되었다. 이제 이번 주말이 지나면 단 4팀만이 왕좌의 자리에 오를 수 있다. 나는 주말임에 감사하며. 간만에 라이브로 경기들을 Full시청했다.ㅎㅎ 리바코비치 앞에서 춤출 시간이 없던 브라질 경기 전에는 브라질의 우세를 점치는 전문가들과 여론이 대부분이었다. 조별예선 3차전을 로테를 돌리며 체력을 비축했고 16강전에서 대한민국을 상대로 엄청난 화력을 보여준 브라질과 조별예선 3경기 모두 풀로 소화한데 이어 16강전 일본전까지 승부차기를 가며 체력이 떨어진 크로아티아. 브라질의 승리를 점치는 것은 어찌보면 당연했다. 하지만 막상 뚜껑을 열어보니 경기는 팽팽했다. 코바치치 - 브로조비치 - 모드리치로 이루어진 크로아티아의 3미들은 브라질의 중원을 상대로 밀리지 않았으며 온더볼 상황에서는 볼 소유 및 템포 조절, 공이 없는 상황에서는 엄청난 활동량으로 리커버리하는데 큰 도움을 주었다. 여기에 이어 이날 오른쪽 풀

딥러닝 관련 기본개념 정리 [2] [내부링크]

다시 공부하는데 새로 배우는 듯한 기분이 드는 것은... 역시 나의 기본이 탄탄하지 못하기 때문이겠지...??ㅠㅠ 활성화 함수 (Activation Function) 활성화 함수란 노드에 입력된 값들을 비선형 함수(선형이 아닌 함수, 즉 직선 하나로 표현할 수 없는 함수)에 통과시킨 후 다음 레이어로 전달할 때 사용하는 함수이다. (선형함수를 사용하면 신경망의 층을 깊게하는 것이 의미가 없다.) 입력 신호를 받아 총합한 후 값을 활성화 또는 비활성화를 결정하는데 사용되는 함수이다. 종류는 아래와 같이 있으며 시간이 지나면서 더 새로운 활성화 함수가 나오고 있기도 하다.(중요한 것 몇가지만 살펴보자.) Sigmoid Function (시그모이드 함수) : 실수 값을 받아 0 ~ +1 사이의 값으로 압축하는 함수이다. Vanishing Gradient (기울기 소실) 문제가 발생할 위험이 있으며 0이 중심값이 아니어서 학습 속도가 느려질 수 있다. 또 exp 연산으로 자원과 시간이 많이

Day20 : 메시vs모드리치, 에이스의 품격을 보여주다. [아르헨티나vs크로아티아] [내부링크]

이제 우승팀을 결정되기까지 4경기가 남은 가운데 아르헨티나와 크로아티아의 준결승 첫 경기가 펼쳐졌다. 이번 대결은 메시와 모드리치의 대결로 시작도 전에 큰 관심을 불러일으켰다. 2014 브라질 월드컵 골든볼을 수상했지만 팀은 독일에 패해 준우승에 그쳤던 리오넬 메시. 2018 러시아 월드컵 골든볼을 수상했지만 팀은 프랑스에 패해 준우승에 그쳤던 루카 모드리치. 준우승의 설움을 씻고자 전력을 다하는 둘. 결승에 올라갈 수 있는 사람은 1명 뿐이었다. 선발 변화 : 아쿠나의 공백 막기 크로아티아의 선발라인업은 8강 브라질과의 경기와 동일했다. 성공적인 경기결과를 가져왔던 라인업인만큼 변화를 줄 필요가 없었을 것이다. 반면 아르헨티나는 달랐다. 주전 왼쪽 수비수 마르코스 아쿠나가 경고누적으로 이번 4강전에 출전할 수 없었기 때문이다. 현재 아쉬운 폼을 보여주고있는 타글리아피코 대신 선발 출전하던 아쿠나의 결장으로 아르헨티나는 왼쪽 수비를 강화해야할 필요가 있었기 때문에 8강 네덜란드전 사

Day23 : Lionel “The GOAT” Messi [아르헨티나vs프랑스] [내부링크]

지구인 최고의 스포츠 축제 2022 카타르 월드컵. 개최국 카타르와 에콰도르의 경기를 시작으로 사우디, 일본, 호주, 그리고 우리 대한민국까지 이어졌던 이변과 아시아의 강세가 있었고 멕시코, 벨기에, 독일 등 기존 강팀들의 부진 속 모로코, 미국 등은 놀라운 모습을 보여주기도 하였다. 한달 가까이 진행되었던 축제는 이제 우승자를 가리기 위한 단 한경기만을 남겨놓고 대서사시를 마무리할 준비를 마쳤다. 현존하는 최고의 축구 황제이며 월드컵 골든볼을 수상하기도 했지만 우승트로피를 들어올리지 못한 리오넬 메시. 차기 축구황제 1순위이며 21세기 최초 월드컵 2연패를 꿈꾸는 킬리안 음바페. 같은 파리생제르망 소속의 두 에이스가 결승에서 단 한명의 승자를 가리기 위한, 월드컵 마지막 경기를 시작했다. 결승전의 사나이 디 마리아, 선발 출격 경기가 시작되기 약 1시간30분 전, 양팀의 선발라인업이 발표되었다. 프랑스의 선발 라인업은 이전과 크게 변함없었다. 준결승 모로코 전에서 바이러스 증세로

딥러닝 관련 기본개념 정리 [3] [내부링크]

월드컵에 정신팔려 있다가 이제는 연말 모임과 만남에 크리스마스까지... 아 좀더 쉬고싶다ㅏㅏㅏㅏㅏㅏㅏㅏㅏ 그래도... 공부해야지... (내년에 그나마 덜 힘드려면..ㅎ) Advanced Optimizations loss 값의 최소값을 찾아가는 과정 중 대표적인 것은 저번 글에서 작성한 Gradient Descent이다. 그리고 이외에도 여러가지 발전된 최적화 방법이 많이 나왔는데 몇가지를 살펴보자. 모멘텀 (Momentum Algorithm) : 지수 가중 평균(Exponentially Weighted Average)이라고도 불리며 데이터의 이동 평균을 구할 때, 오래된 데이터가 미치는 영향을 지수적으로 감쇠(exponential decay)하도록 만드는 방법이다. Gradient Descent에서 기울기의 가중 평균치를 산출하여 weight를 업데이트한다. 속도가 빠르고 SGD가 overshooting, diverging되는 것을 방지하며 local minimum 탈출이 가능하다.

회사 클러스터링 : 회계 데이터를 기반으로 [2] [내부링크]

회사 클러스터링 : 회계 데이터를 기반으로 [1] 약 2달 정도 했던 프로젝트. 회사들의 결제 및 회계 데이터를 기반으로 클러스터링을 시도해서 기존에 없던... blog.naver.com 1편에 이어서... K-Means, GMM(Gaussian Mixture Model), DTW 클러스터링을 위한 알고리즘은 크게 3가지를 사용했다. K-Means, GMM(Gaussian Mixture Model), DTW 알고리즘이다. K-Means는 Euclidean 거리를 기반으로 k개의 중심점(Centroid)를 옮기며 클러스터링을 진행하는 알고리즘이다. 나는 Elbow Method를 통해 추천된 k값에 ±2~3정도의 값을 주면서 최적의 k 및 클러스터링 결과를 구했다. GMM은 Gaussian Mixture Model의 준말로 데이터가 하나의 복잡한 확률분포로 구성되어 있고 이를 여러개의 정규분포(Gaussian)으로 나눌 수 있으며 이 정규분포가 Cluster가 되는 이론이다. 나도 이

Name Analysis : 이름 트렌드 분석 [2] [내부링크]

Name Analysis : 이름 트렌드 분석 [1] 예전에 자유롭게 주제를 선택해서 분석을 진행해보라는 과제가 있었다. 주제와 그 주제에 맞는 방법론 모두... blog.naver.com 1편에 이어서... EDA 진행 분석에 앞서 많은 EDA를 진행했다. 2021년 가장 유행한 이름, 남/녀 성별에 따른 구분이 크지 않은 중성적 이름 정도, 외자 이름을 사용한 빈도, 앞글자 및 뒷글자에 주로 쓰인 글자, 주로 쓰인 자음or모음과 그 조합, 받침 여부까지... 그 중 몇가지만 살펴보자. 남자&여자 신생아 중 많이 쓰인 이름들(2008 ~ 2021년) 먼저 2021년에 가장 많이 쓰인 신생아 이름이다. 남자는 이준, 서준, 하준 순으로 많았으며 특히 이준이라는 이름은 근래 들어 굉장한 상승세를 보여주었다. 여자의 경우는 서아, 하윤, 이서였으며 특히 이서의 경우는 2019년까지는 순위권에 존재하지 않았지만 2020년 9위로 진입한데 이어 2021년에는 3위를 차지하며 엄청난 상승세를

[카타르 월드컵 결산] 5가지 이야기 [내부링크]

월드컵이 끝난지 한달이 넘은 상황. 해가 바뀌었고 어느새 유럽의 4대리그는 모두 재개하여 팬들은 다시 리그에 주목하고 있고 K리그의 구단들은 바쁜 이적시장과 함께 전지훈련을 시작하였다. 조규성, 오현규 등 대한민국 스트라이커들의 유럽 이적설도 나오는 가운데 너무 늦긴했지만... 월드컵 결산 이야기를 적어보고자 한다. 첨단과학기술, 축구에 깊숙히 들어서다. 이번 월드컵은 수많은 첨단과학기술의 집약체라고도 볼 수 있을 것이다. 이미 러시아 월드컵에서부터 시작된 VAR로 많은 판정시비와 논란이 줄어든 가운데 이번에는 반자동 오프사이드 기술(SAOT)이 도입되어 심판진들의 정확한 판정을 도왔다. 경기장 내 설치된 12대의 카메라가 신체부위를 29곳이나 측정하여 인공지능으로 오프사이드 여부를 판별하여 알려주는 시스템으로 이번 월드컵에서도 큰 활약을 펼쳤다. 이탈리아 세리에A는 월드컵 이후 리그에 이 기술을 도입하겠다는 의견을 밝히기도 했다. 축구공 역시 마찬가지다. 공인구 '알 리흘라'는 1

Attention is All you Need, 트랜스포머 [내부링크]

나 불러쪙?? 트랜스포머는 본래 자연어 처리에서 주로 사용되던 딥러닝 아키텍처 중 하나이다. 기존에 활용되었던 RNN, LSTM 등이 트랜스포머로 대체되었고, 이제는 자연어 부분을 넘어 이미지 처리와 같은 영역에서도 큰 힘을 발휘하고 있다. 전세계를 휩쓸고 있는 트랜스포머에 대해 알아보자. 트랜스포머와 관련해서 가장 기본이 되고 유명한 논문인 Attention is All you Need를 기반으로 글을 쓰겠다. Abstract We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being mo

CDSS, 그리고 의료 데이터 분석을 하면서.. [내부링크]

CDSS Clinical Decision Support System의 줄임말로 우리나라 말로는 보통 임상의사결정지원시스템이라고 부른다. 분당 서울대병원 홈페이지에는 임상의사결정지원시스템(이하 CDSS)은 '의사결정을 해야 하는 임상의나 의료 지원가를 지원하도록 근거 기반 지식에 기초하여 설계된 상호작용 정보시스템'이라고 말하고 있다. 이를 통해 안전하고 효과적인 약물 사용을 도모하고 의료진 및 환자들에게 근거 중심의 정확한 정보를 전달할 수 있다. 나도 최근에 병원 등과 연계하여 몇몇 의료 데이터를 분석하게 되었다. 보안에 특히나 민감한 medical data이기 때문에 연구 주제나 데이터의 수, feature 등에 대해서 따로 말하긴 힘들지만 분석하면서 느낀 몇몇 점들을 대충 풀어써볼까 한다. 귀하디 귀한 데이터 데이터가 정말 귀하다. 그 수가 정말 적다. 이전에 기가 단위를 넘어 테라바이트 급 csv 데이터를 다루거나 몇십만장 가까이 되어 batch를 만들어야 하는 이미지 데이터

낙성대(or 서울대입구역) 근처서 먹은 것들.. [내부링크]

블로그 글을 요즘 너무 안 썼다...;; 바쁘기도 했고 쓸 내용도 딱히 없었고.. 리버풀을 축구를 못하고ㅜ K리그는 개막했지만 인천은 승리하지 못했고.. 공부는 하나도 못했고.. 얼마 전에 친구에게 서울대입구역 근처서 먹을 곳 좀 추천해달라고 해서 지도 어플을 찾아본 기억이 났다. 그래서 예전에 먹었던 것들 중 사진이 남은 것들이나 정리해봐야겠다...ㅎ 동네아저씨치킨 학교 다닐 때 우리 학교 앞에도 있었는데, 낙성대역 근처에도 있었다. 학생 시절 맛보다는 가성비를 위해 갔던 치킨 집이었는데 오랜만에 가니 반가웠다.ㅎㅎ 그리고 예전에는 있었는지 기억이 안나지만, 초코치킨도 있었다. 맛은.. 음...ㅋㅋㅋㅋ 마지막에 가장 많이 남은 치킨은 초코치킨이긴 했다...ㅋㅋ 다른 치킨들의 맛은 평범했던 것 같다. (그러고보니 우리 학교 근처에 있던 동아치는 사라진 것 같네..) 낙성대동네아저씨치킨 서울특별시 관악구 행운2길 16 충청삼겹 서울대 다니시던 분의 추천을 받아서 갔다. 특히 메뉴 중에

대용량 데이터 다루기 [내부링크]

요즘은 딥러닝이 아닌 머신러닝 모델을 다루고 있다. 거대한 양의 데이터를 전처리하고 Set을 나눈 후 데이터의 특성 및 Case에 따른 모델을 각자 생성하고 Test하여 성능을 평가하는 작업을 반복 중이다. 일의 주제에 대해서는 프로젝트가 완전히 종료되면 다루도록 하고... 현재 만지고 있는 데이터는 종류에 따라 조금씩 다르지만, 그 수가 가장 적은 데이터는 약 1억 건, 가장 많은 데이터는 30억 건이 넘는다. (데이터의 row 수가 억단위가 된다고 보면 되겠다.) 이 데이터들은 당연히 Raw 데이터에서 사용할 수 있는 데이터만 추려낸 후의 결과이다. 필요한 column만 모아서 따로 csv 파일로 저장했음에도 그 용량이 적게는 3GB에서 많게는 5~6GB 정도의 파일이 10개가 생성되기도 하였다. 이번 프로젝트는 알고리즘의 난이도나 코드의 복잡성이 문제가 되지 않았다. 데이터의 용량이 너무 커서 시간적 loss가 너무 많다는 것이 문제였다. 주피터노트북에서 파일 하나를 불러오는데

K리그 1~4라운드 인천 경기 후기 [내부링크]

1라운드 FC서울과의 개막전 경기를 보러 상암 월드컵경기장으로 가서 응원을 했다. 이후 2라운드 대전과의 경기, 3라운드 제주와의 경기를 연속해서 숭의경기장에서 직관했고 4라운드 광주와의 경기는 쿠팡플레이를 통해 시청하다가... 껐다. 4라운드만의 두자리수 실점 달성. 특히 광주와의 4R에서 당한 어이없는 5대0 완패. 선수들의 이름값에 비해 하염없이 밀리는 중원. 느려지고 끈기가 사라진듯한 수비라인. 마무리를 짓지 못하는 공격진까지... 처음으로 아시아챔피언스리그에 진출했다고 좋아하고 있었는데, 이러다 K리그 구단 역사상 처음으로 플레이오프에서 탈락하고 본선진출조차 못하는 것은 아닌가 모르겠다.(물론 아직 시간이 남아있고 이건 기우라 생각하지만) 이적시장까지만 해도 부정적인 의견보다는 긍정적인 시선이 더 많았고 개막 미디어데이에서도 많은 타팀 감독들이 4강 안에 들 전력으로 예상한 것을 보면 단순 립서비스였다 치더라도 지금의 상황은 좋지 않아보인다. 이전처럼 개막 이후 10경기 연

LightGBM 모델 생성과 Hyperparameter [내부링크]

(이번 글은 상당히 뻘글이다. 개인적인 의문과 이를 어느정도 해결한 과정?에 대해 쓴 글.) 회사에서 사용하는 추천 모델이 있었다. 사실 이름은 추천 모델이지만 추천하는 Y값은 정해진 범위 내에서 골랐기 때문에 사실상 더 가까운 것은 분류(Classification) 모델이긴 했다. 실제로 사용한 모델은 부스팅(Boosting) 기반의 LightGBM이었다. 서론과 진행 과정 뭐 내용은 각설하고, 문제는 이 모델이 2019년까지의 데이터로 학습한 모델이기 때문에 최신 데이터로 업데이트할 필요가 있었다. 또한 당시에는 어떤 feature가 정말 중요할지를 판단할 수 없었기 때문에 여러 다양한 파생변수를 생성했기 때문에 분류 구분에 사실상 필요없는 메모리를 잡아먹기도 했다. 2022년까지의 데이터(100억건은 족히 넘는 데이터로 전처리에만 1달 이상이 걸렸다.)를 가지고 null값 제거, Merge 진행 등을 통해 최종 Train/Validation/Test Set을 만들었고 이마저도