키자드에 등록된 dbwjd516의 네이버 블로그 포스트 목록

dbwjd516의 등록된 링크

dbwjd516로 등록된 네이버 블로그 포스트 수는 265건입니다.

3월 일상 : 봄이다 봄 [내부링크]

3월 내가 좋아하는 계절이 오고 있다!! 따뜻한게 조아.. 3월 일상 별거 없었어 자소서 - 코테 - 면접 & 코테 공부 반복... 으휴 재미없엉 재미없는 일상 중 유일한 낙 ️ 눈물의 여왕 김수현 설렘,,, 김지원 넘 이쁨...cc 빨리 둘이 다시 좋아해줘 라고 3/15 에 썼는데 글 올릴 때 쯤 둘이 좋아하고 있을듯!! 이라고 썼는데 아니네... 왤케 둘이 엇갈려... 그치만 존잼~~ 환승연애3 환연은 뭔가 요즘 노잼이야.. 다 싸우기만 함 ㅠ 이제 그만 결말을 보고 싶어지는 전개 현커가 있긴 할까...? 글고 면접도 보고 왔는데 보험사 첫 면접이라 경험 삼아 갔다옴! 나름 괜찮은 경험이었다 근데.. 면접 경험으로 만족할게요 ^^; 이렇게 길어지는 취준 기간 ••• 그치만 가고 싶은 곳에 가기 위해 조금만 더 힘내보는걸로 정신없이 면접 보고 와서 까먹고 있었는데 ADSP 결과 나왔당 통계 전공자라면 책 없이 3일컷 가능~ 사실 ADP를 위한 밑그림이기도 했고, 저거 신청할

[Python] 백준 실버4 11508번 2+1세일 (그리디) [내부링크]

11508번: 2+1 세일 문제 KSG 편의점에서는 과일우유, 드링킹요구르트 등의 유제품을 '2+1 세일'하는 행사를 하고 있습니다. KSG 편의점에서 유제품 3개를 한 번에 산다면 그중에서 가장 싼 것은 무료로 지불하고 나머지 두 개의 제품 가격만 지불하면 됩니다. 한 번에 3개의 유제품을 사지 않는다면 할인 없이 정가를 지불해야 합니다. 예를 들어, 7개의 유제품이 있어서 각 제품의 가격이 10, 9, 4, 2, 6, 4, 3이고 재현이가 (10, 3, 2), (4, 6, 4), (9)로 총 3번에 걸쳐서 물건을 산다면 첫 번째 꾸러미에서는 13원을, 두... www.acmicpc.net 3개 묶음으로 구매시 가장 싼 물건을 공짜로 살 수 있을 때, 최소 비용 구하는 문제 풀이 1. 가격 리스트 price를 내림차순 정렬 2. 3의 배수 번째에 위치한 (i%3==2) 경우를 빼고 더하기 n = int(input()) price = [] for _ in range(n): price

[Python] 백준 실버4 19939번 박 터뜨리기 (그리디) [내부링크]

19939번: 박 터뜨리기 문제 $K$개의 팀이 박 터트리기 게임을 한다. 각 팀은 하나의 바구니를 가지고 있고, 바구니에 들어있는 공을 던져서 자기 팀의 박을 터트려야 한다. 우리는 게임을 준비하기 위해서, $N$개의 공을 $K$개의 바구니에 나눠 담아야 한다. 이때, 게임의 재미를 위해서 바구니에 담기는 공의 개수를 모두 다르게 하고 싶다. 즉, $N$개의 공을 $K$개의 바구니에 빠짐없이 나누어 담는데, 각 바구니에는 1개 이상의 공이 있어야 하고, 바구니에 담긴 공의 개수가 모두 달라야 한다. 게임의 불공정함을 줄이기 위해서, 가장 많이 담긴 바구니와... www.acmicpc.net 가장 많이 담긴 바구니, 가장 적게 담긴 바구니의 공 개수가 최소가 되도록, 공을 바구니에 나눠 담는 문제 풀이 연속된 수의 합을 구하는 아이디어까지는 생각했는데, 세부 조건을 고려하지 못해서 틀렸다. n = 6, k = 3 인 경우 공을 1,2,3 으로 나눠 담을 수 있다. n = 5, k =

[Python] 백준 실버1 1105번 팔 (그리디) [내부링크]

1105번: 팔 1105번 제출 맞힌 사람 숏코딩 재채점 결과 채점 현황 질문 게시판 팔 시간 제한 메모리 제한 제출 정답 맞힌 사람 정답 비율 2 초 512 MB 11246 3704 2998 31.894% 문제 L과 R이 주어진다. 이때, L보다 크거나 같고, R보다 작거나 같은 자연수 중에 8이 가장 적게 들어있는 수에 들어있는 8의 개수를 구하는 프로그램을 작성하시오. 입력 첫째 줄에 L과 R이 주어진다. L은 2,000,000,000보다 작거나 같은 자연수이고, R은 L보다 크거나 같고, 2,000,000,000보다 작거나 같은 자연수이다.... www.acmicpc.net l, r 사이의 수 중에서 8이 가장 적게 들어가는 수의 8개수 찾기 풀이 1 시간 초과 l, r 사이의 수를 탐색하면서 8이 가장 작게 들어가는 수를 탐색 시간초과... l,r = map(int, input().split(' ')) min = str(l).count('8') for i in range(l

[Python] 백준 실버3 1448번 삼각형 만들기 (그리디) [내부링크]

1448번: 삼각형 만들기 문제 세준이는 N개의 빨대를 가지고 있다. N개의 빨대 중에 3개의 빨대를 선택했을 때, 이 빨대로 삼각형을 만들 수 있다면, 세 변의 길이의 합의 최댓값을 구하고 싶다. 입력 첫째 줄에 빨대의 개수 N이 주어진다. N은 3보다 크거나 같고, 1,000,000보다 작거나 같은 자연수이다. 둘째 줄부터 N개의 줄에 빨대의 길이가 한 줄에 하나씩 주어진다. 빨대의 길이는 1,000,000보다 작거나 같은 자연수이다. 출력 첫째 줄에 삼각형 세 변의 길이의 합의 최댓값을 출력한다. 만약 삼각형을 만들 수 없으면 -1을 출력한다. 예제 입... www.acmicpc.net 삼각형 조건을 만족할 때, 세 변의 길이 합의 최댓값을 구하는 문제 풀이 1 시간초과 맞았다고 생각했는데 시간초과..흑흑 울고싶다 n = int(input()) straw = [] for _ in range(n): straw.append(int(input())) straw.sort(reverse

[Python] 백준 실버4 14469번 소가 길을 건너간 이유 3 (그리디) [내부링크]

14469번: 소가 길을 건너간 이유 3 14469번 제출 맞힌 사람 숏코딩 재채점 결과 채점 현황 질문 게시판 소가 길을 건너간 이유 3 다국어 시간 제한 메모리 제한 제출 정답 맞힌 사람 정답 비율 2 초 512 MB 4995 3224 2716 66.212% 문제 이웃 농장의 소가 길을 마구잡이로 건너는 것에 진절머리가 난 존은 극단의 결정을 내린다. 농장 둘레에 매우 큰 울타리를 짓는 것이다. 이렇게 하면 근처 농장 출신의 소가 들어올 일이 거의 없다. 이 일로 주변 소들이 분개하였다. 친구네 집에 놀러 갈 수 없을 뿐만 아니라, 매년 참가하던 국제 젖 짜기 올림피아... www.acmicpc.net 소가 농장에 입장하는 최소 시간을 구하는 문제 예전에 비슷한 문제로 회의실 배정 문제 풀었어서 금방 풀었다! [백준 실버1 1931번 회의실배정] https://blog.naver.com/dbwjd516/223345897913 풀이 아이디어 소가 빨리 도착한 순, 검문 시간이 적

[Python] 백준 실버1 9009번 피보나치 (그리디) [내부링크]

9009번: 피보나치 9009번 제출 맞힌 사람 숏코딩 재채점 결과 채점 현황 질문 게시판 피보나치 다국어 시간 제한 메모리 제한 제출 정답 맞힌 사람 정답 비율 1 초 128 MB 5505 3033 2448 55.285% 문제 피보나치 수 ƒ K 는 ƒ K = ƒ K-1 + ƒ K-2 로 정의되며 초기값은 ƒ 0 = 0과 ƒ 1 = 1 이다. 양의 정수는 하나 혹은 그 이상의 서로 다른 피보나치 수들의 합으로 나타낼 수 있다는 사실은 잘 알려져 있다. 하나의 양의 정수에 대한 피보나치 수들의 합은 여러 가지 형태가 있다. 예를 들어 정수 100은 ƒ... www.acmicpc.net 피보나치 수열에 해당하는 숫자를 가지고 주어진 숫자 n 만들기. 단, 최소 개수로 ! 풀이 피보나치 수열에 대한 접근을 어떻게 해야할지 고민됐던 문제 1 ≤ n ≤ 10억 조건이 있어서 43번의 반복으로 피보나치 수 리스트를 생성했다. (→ 시간 초과 문제 없음!) 최소 개로 n을 만들기 위해 큰 숫

[Python] 백준 실버1 4889번 안정적인 문자열 (스택) [내부링크]

안정적인 문자열을 만들기 위해 수정해야 하는 문자열 개수 구하기 풀이 ii = 1 while True: s = input() if '-' in s: break else: stack = [] count = 0 for i in range(len(s)): if not stack: # stack 비어있는 경우 if s[i] == '{': stack.append(s[i]) else: stack.append('{') # '{' 아니면, '{'으로 붙이고 count+=1 # 수정 횟수 +1 else: # stack 채워져 있는 경우 if s[i] == '{': stack.append(s[i]) else: if stack[-1] =='{': # stack 마지막 문자열 '{' 이면 stack.pop() # '}' 붙이지 말고 '{'pop count += len(stack)//2 # for문 실행 결과 '{'만 붙게 됨. 그 중 반만 수정하면 안정 문자열이 됨. print(str(ii)+'. ' +

[Python] 백준 실버1 17615번 볼 모으기 (그리디) [내부링크]

17615번: 볼 모으기 문제 빨간색 볼과 파란색 볼이 <그림 1>에서 보인 것처럼 일직선상에 섞여 놓여 있을 때, 볼을 옮겨서 같은 색 볼끼리 인접하게 놓이도록 하려고 한다. 볼을 옮기는 규칙은 다음과 같다. 바로 옆에 다른 색깔의 볼이 있으면 그 볼을 모두 뛰어 넘어 옮길 수 있다. 즉, 빨간색 볼은 옆에 있는 파란색 볼 무더기를 한 번에 뛰어 넘어 옮길 수 있다. 유사하게, 파란색 볼은 옆에 있는 빨간색 볼 무더기를 한 번에 뛰어 넘어 옮길 수 있다. 옮길 수 있는 볼의 색깔은 한 가지이다. 즉, 빨간색 볼을 처음에 옮겼으면 다음에도 빨간색 볼만 옮길... www.acmicpc.net 공을 하나씩 옮겨서 같은 색의 공끼리 모으는 문제. 단 최소 개수 구하기! 풀이 감이 전혀 오지 않아서 다른 사람 풀이를 봤다 아이디어 - 공을 같은 색끼리 모을 수 있는 경우의 수는 다음 네 가지 뿐이다! 빨간색 공을 모두 오른쪽으로 파란색 공을 모두 오른쪽으로 빨간색 공을 모두 왼쪽으로 파란

[Python] 이코테 자료구조 : 우선순위 큐 & 힙 [내부링크]

(이코테 강의 정리) https://youtu.be/AjFlp951nz0?si=pcX3kspUfBS-rdz3 우선순위 큐 Priority Queue 우선순위가 가장 높은 데이터를 가장 먼저 삭제하는 자료구조 데이터를 우선순위에 따라 처리하고 싶을 때 사용 ex. 물건 데이터를 자료구조에 넣었다가 가치가 높은 물건부터 꺼내서 확인해야하는 경우 추출되는 데이터 비교 스택 : 가장 나중에 삽입된 데이터 큐 : 가장 먼저 삽입된 데이터 우선순위 큐 : 가장 우선순위가 높은 데이터 우선순위 큐 구현 방법 리스트 이용 힙(heap) 이용 힙 heap 완전 이진 트리 자료구조의 일종 완전 이진 트리? 루트 노드부터 시작해서 왼쪽 자식 노드, 오른쪽 자식 노드 순서대로 데이터가 차례로 삽입되는 트리 힙에서는 항상 루트 노드(root node)를 제거 최소 힙 (min heap) 루트 노드가 가장 작은 값을 가짐 따라서 값이 작은 데이터가 우선적으로 제거 sub tree를 봤을 때도 root nod

[Python] 백준 골드5 11000번 강의실 배정 (그리디/우선순위 큐) [내부링크]

11000번: 강의실 배정 11000번 제출 맞힌 사람 숏코딩 재채점 결과 채점 현황 질문 게시판 강의실 배정 시간 제한 메모리 제한 제출 정답 맞힌 사람 정답 비율 1 초 256 MB 47963 14150 10458 28.962% 문제 수강신청의 마스터 김종혜 선생님에게 새로운 과제가 주어졌다. 김종혜 선생님한테는 S i 에 시작해서 T i 에 끝나는 N개의 수업이 주어지는데, 최소의 강의실을 사용해서 모든 수업을 가능하게 해야 한다. 참고로, 수업이 끝난 직후에 다음 수업을 시작할 수 있다. (즉, T i ≤ S j 일 경우 i 수업과 j 수업은 같이... www.acmicpc.net 사용하는 강의실 개수가 최소가 되도록 강의실을 배정하는 문제 풀이 너무 어려웠다. heap을 사용해서 풀어야해서 heap 자료구조부터 공부했다. [이코테 자료구조 : 우선순위 큐 & 힙] https://blog.naver.com/dbwjd516/223392013340 # input import sy

[Python] 백준 골드4 1715번 카드 정렬하기 (그리디/우선순위 큐) [내부링크]

1715번: 카드 정렬하기 1715번 제출 맞힌 사람 숏코딩 재채점 결과 채점 현황 질문 게시판 카드 정렬하기 시간 제한 메모리 제한 제출 정답 맞힌 사람 정답 비율 2 초 128 MB 66111 23031 17658 34.228% 문제 정렬된 두 묶음의 숫자 카드가 있다고 하자. 각 묶음의 카드의 수를 A, B라 하면 보통 두 묶음을 합쳐서 하나로 만드는 데에는 A+B 번의 비교를 해야 한다. 이를테면, 20장의 숫자 카드 묶음과 30장의 숫자 카드 묶음을 합치려면 50번의 비교가 필요하다. 매우 많은 숫자 카드 묶음이 책상 위에 놓여 있다. 이들을 두 묶... www.acmicpc.net 카드를 두 개씩 비교할 때, 최소 비교 횟수를 구하는 문제 풀이 1 통과 x 아이디어 : 가장 작은 묶음을 두 개씩 찾아서 비교해주기 heap 자료구조 활용 card 리스트에서 가장 작은 카드 2개를 꺼내고 heapq.heappop(card) 합친 뒤, 다시 card 리스트에 넣어주기 heap

[Python] 백준 골드4 1339번 단어 수학 (그리디) [내부링크]

1339번: 단어 수학 문제 민식이는 수학학원에서 단어 수학 문제를 푸는 숙제를 받았다. 단어 수학 문제는 N개의 단어로 이루어져 있으며, 각 단어는 알파벳 대문자로만 이루어져 있다. 이때, 각 알파벳 대문자를 0부터 9까지의 숫자 중 하나로 바꿔서 N개의 수를 합하는 문제이다. 같은 알파벳은 같은 숫자로 바꿔야 하며, 두 개 이상의 알파벳이 같은 숫자로 바뀌어지면 안 된다. 예를 들어, GCF + ACDEB를 계산한다고 할 때, A = 9, B = 4, C = 8, D = 6, E = 5, F = 3, G = 7로 결정한다면, 두 수의 합은 99437이... www.acmicpc.net 알파벳에 숫자를 할당해서 수들의 합이 최대가 되도록 만드는 문제 풀이 아이디어가 떠오르지 않아서 다른 사람 코드를 참고했다.. 아이디어 알파벳별 자리수의 합 구하기 [예제2] ACDEB, GCF A: 10000 B: 1 C: 1000 + 10 = 1010 D: 100 E: 10 F: 1 G: 10

[Python] 백준 골드4 1744번 수 묶기 (그리디) [내부링크]

1744번: 수 묶기 문제 길이가 N인 수열이 주어졌을 때, 그 수열의 합을 구하려고 한다. 하지만, 그냥 그 수열의 합을 모두 더해서 구하는 것이 아니라, 수열의 두 수를 묶으려고 한다. 어떤 수를 묶으려고 할 때, 위치에 상관없이 묶을 수 있다. 하지만, 같은 위치에 있는 수(자기 자신)를 묶는 것은 불가능하다. 그리고 어떤 수를 묶게 되면, 수열의 합을 구할 때 묶은 수는 서로 곱한 후에 더한다. 예를 들면, 어떤 수열이 {0, 1, 2, 4, 3, 5}일 때, 그냥 이 수열의 합을 구하면 0+1+2+4+3+5 = 15이다. 하지만, 2와 3을 묶... www.acmicpc.net 두 수를 묶고(곱하고) 더해서 가장 큰 수를 만드는 문제 풀이 1 런타임 에러 처음 생각한 방식 number 리스트를 정렬하고 len(number) ==2 일 동안, 큰 수 두 개(max1, max2)를 뽑아서 max1+max2 < max1*max2 이면 max1*max2를 더해주는 방식 그 외의 경

[Python] 백준 골드5 12904번 A와 B (그리디) [내부링크]

12904번: A와 B 12904번 제출 맞힌 사람 숏코딩 재채점 결과 채점 현황 강의 질문 게시판 A와 B 시간 제한 메모리 제한 제출 정답 맞힌 사람 정답 비율 2 초 512 MB 16847 8005 6620 46.818% 문제 수빈이는 A와 B로만 이루어진 영어 단어가 존재한다는 사실에 놀랐다. 대표적인 예로 AB (Abdominal의 약자), BAA (양의 울음 소리), AA (용암의 종류), ABBA (스웨덴 팝 그룹)이 있다. 이런 사실에 놀란 수빈이는 간단한 게임을 만들기로 했다. 두 문자열 S와 T가 주어졌을 때, S를 T로 바꾸는 게임이다... www.acmicpc.net 2개의 규칙에 따라서 S를 T로 바꿀 수 있는지 없는지 알아보는 문제 풀이 t 에서 s로 접근해서 풀었다. 규칙도 반대로 적용 s = list(input()) t = list(input()) while len(t) != len(s): # t와 s의 길이가 같아질 때까지 반복 if t[-1] == '

[Python] 백준 골드2 1202번 보석 도둑 (그리디 / 우선순위 큐) [내부링크]

1202번: 보석 도둑 문제 세계적인 도둑 상덕이는 보석점을 털기로 결심했다. 상덕이가 털 보석점에는 보석이 총 N개 있다. 각 보석은 무게 M i 와 가격 V i 를 가지고 있다. 상덕이는 가방을 K개 가지고 있고, 각 가방에 담을 수 있는 최대 무게는 C i 이다. 가방에는 최대 한 개의 보석만 넣을 수 있다. 상덕이가 훔칠 수 있는 보석의 최대 가격을 구하는 프로그램을 작성하시오. 입력 첫째 줄에 N과 K가 주어진다. (1 ≤ N, K ≤ 300,000) 다음 N개 줄에는 각 보석의 정보 M i 와 V i 가 주어진다. (0 ≤ M i , V i ≤... www.acmicpc.net 보석의 가격이 최대가 되도록 보석을 훔치는 문제 풀이 1 오답 # input import sys input = sys.stdin.readline n, k = map(int, input().split()) jewel = [] for _ in range(n): jewel.append(list(map(i

[Python] 리트코드 1493. Longest Subarray of 1's After Deleting One Element (슬라이딩 윈도우) [내부링크]

하나의 요소를 지워서, 연속되는 1의 개수가 가장 많은 경우를 구하는 문제 풀이 1 내 풀이 예시 : [1,1,0,1] nums 리스트를 문자열로 바꾸고 join 한 뒤에 : 1101 0을 기준으로 split : [11,1] 이후 연속되는 1의 개수를 구해서 리스트화하고(result) : [2,1] 이웃하는 숫자끼리 더해서 연속되는 최대 1의 길이를 구함 : [3] (예외) result의 길이가 2보다 작은 경우 (nums 길이가 1인 경우) : return 0 nums에 0이 없는 경우 : return len(nums)-1 class Solution: def longestSubarray(self, nums: List[int]) -> int: if 0 not in nums: return len(nums)-1 nums = [str(i) for i in nums] string = ''.join(nums) result = [len(i) for i in string.split('0')] i

[Python] 리트코드 2390. Removing Stars From a String (Stack) [내부링크]

* 앞에오는 문자와 * 을 함께 지우고, 남는 문자열을 반환하는 문제 class Solution: def removeStars(self, s: str) -> str: lst = [] for i in range(len(s)): if not lst: lst.append(s[i]) elif s[i]=='*': lst.pop() else: lst.append(s[i]) return ''.join(lst) stack 문제는 그래도 잘 풀리는 것 같다

[Python] 리트코드 735. Asteroid Collision(Stack) [내부링크]

소행성 충돌 문제 다른 방향으로 움직이는 소행성이 만나면 절댓값이 큰 소행성만 살아남음 같은 방향으로 움직이는 소행성은 충돌하지 않음 풀이 class Solution: def asteroidCollision(self, asteroids: List[int]) -> List[int]: lst = [] for i in asteroids: while lst and i < 0 < lst[-1]: if abs(i) == lst[-1]: lst.pop() break elif abs(i) > lst[-1]: lst.pop() else: break else: lst.append(i) return lst and로 비교연산자 쓰는 것 주의 / &가 아님!! &는 비트연산자

[Python] 백준 실버4 2847번 게임을 만든 동준이 (그리디) [내부링크]

2847번: 게임을 만든 동준이 2847번 제출 맞힌 사람 숏코딩 재채점 결과 채점 현황 질문 게시판 게임을 만든 동준이 다국어 시간 제한 메모리 제한 제출 정답 맞힌 사람 정답 비율 1 초 128 MB 13616 7668 6658 56.548% 문제 학교에서 그래픽스 수업을 들은 동준이는 수업시간에 들은 내용을 바탕으로 스마트폰 게임을 만들었다. 게임에는 총 N개의 레벨이 있고, 각 레벨을 클리어할 때 마다 점수가 주어진다. 플레이어의 점수는 레벨을 클리어하면서 얻은 점수의 합으로, 이 점수를 바탕으로 온라인 순위를 매긴다. 동준이는 레벨을 난이도 순으로 배치했... www.acmicpc.net input : 첫째 줄 : 레벨의 수 / 이후 : 각 레벨의 점수 각 레벨의 점수가 갈수록 높아지도록 만들기 위해, 낮은 레벨의 점수를 빼서 조정하려고 함. 이때 얼만큼 점수를 빼야하는지를 구하는 문제 풀이 first : 초기 max 값 초기 max 값을 업데이트 하면서 count를 셈 #

[Python] 백준 실버2 11501번 주식 (그리디) [내부링크]

11501번: 주식 11501번 제출 맞힌 사람 숏코딩 재채점 결과 채점 현황 질문 게시판 주식 다국어 시간 제한 메모리 제한 제출 정답 맞힌 사람 정답 비율 5 초 256 MB 21212 7463 5806 34.129% 문제 홍준이는 요즘 주식에 빠져있다. 그는 미래를 내다보는 눈이 뛰어나, 날 별로 주가를 예상하고 언제나 그게 맞아떨어진다. 매일 그는 아래 세 가지 중 한 행동을 한다. 주식 하나를 산다. 원하는 만큼 가지고 있는 주식을 판다. 아무것도 안한다. 홍준이는 미래를 예상하는 뛰어난 안목을 가졌지만, 어떻게 해야 자신이 최대 이익을 얻을... www.acmicpc.net 주식 가격이 최대가 되면 팔아서 낼 수 있는 최대 수익을 구하는 문제 풀이 주식 가격을 거꾸로 확인하는게 포인트! for i in range(int(input())): n = int(input()) price = list(map(int, input().split())) money = 0 # 이익 max

[Python] 백준 브론즈1 2810번 컵홀더 (스택, 문자열) [내부링크]

2810번: 컵홀더 문제 십년이면 강산이 변한다. 강산이네 동네에 드디어 극장이 생겼고, 강산이는 극장에 놀러갔다. 매점에서 콜라를 산 뒤, 자리에 앉은 강산이는 큰 혼란에 빠졌다. 양쪽 컵홀더를 이미 옆 사람들이 차지했기 때문에 콜라를 꽂을 컵 홀더가 없었기 때문이다. 영화를 보는 내내 콜라를 손에 들고 있던 강산이는 극장에 다시 왔을 때는 꼭 콜라를 컵 홀더에 놓겠다는 다짐을 한 후 집에 돌아갔다. 극장의 한 줄에는 자리가 N개가 있다. 서로 인접한 좌석 사이에는 컵홀더가 하나씩 있고, 양 끝 좌석에는 컵홀더가 하나씩 더 있다. 또, 이 극장에는 ... www.acmicpc.net 풀이 1 스택 n = int(input()) lst = [] count = 0 for i in input(): if not lst: lst.append(i) count +=1 else: if lst[-1] == 'S': count +=1 lst.append(i) elif lst[-1] == 'L' an

[Python] 백준 실버3 18310번 안테나 (그리디) [내부링크]

18310번: 안테나 18310번 제출 맞힌 사람 숏코딩 재채점 결과 채점 현황 질문 게시판 안테나 시간 제한 메모리 제한 제출 정답 맞힌 사람 정답 비율 1 초 256 MB 18353 6508 5194 35.590% 문제 일직선 상의 마을에 여러 채의 집이 위치해 있다. 이중에서 특정 위치의 집에 특별히 한 개의 안테나를 설치하기로 결정했다. 효율성을 위해 안테나로부터 모든 집까지의 거리의 총 합이 최소가 되도록 설치하려고 한다. 이 때 안테나는 집이 위치한 곳에만 설치할 수 있고, 논리적으로 동일한 위치에 여러 개의 집이 존재하는 것이 가능하다. 집... www.acmicpc.net 풀이 1 완전 탐색 - 시간 초과 이중 for문을 사용하면 안 되나보다.. n = int(input()) lst = list(map(int, input().split(' '))) first = 200000 answer = 0 for i in lst: sum_ = 0 for j in lst: sum_

[Python] 백준 실버5 1417번 국회의원 선거 (그리디, 정렬) [내부링크]

1417번: 국회의원 선거 문제 다솜이는 사람의 마음을 읽을 수 있는 기계를 가지고 있다. 다솜이는 이 기계를 이용해서 2008년 4월 9일 국회의원 선거를 조작하려고 한다. 다솜이의 기계는 각 사람들이 누구를 찍을 지 미리 읽을 수 있다. 어떤 사람이 누구를 찍을 지 정했으면, 반드시 선거때 그 사람을 찍는다. 현재 형택구에 나온 국회의원 후보는 N명이다. 다솜이는 이 기계를 이용해서 그 마을의 주민 M명의 마음을 모두 읽었다. 다솜이는 기호 1번이다. 다솜이는 사람들의 마음을 읽어서 자신을 찍지 않으려는 사람을 돈으로 매수해서 국회의원에 당선이 되게 하려... www.acmicpc.net 첫번째 후보(다솜이)가 당선되도록, 득표 수를 조정하는 문제 풀이 다솜이를 제외한 사람들의 득표 수를 내림차순 정렬하고, 그 중 첫 번째 값(다솜이 제외하고, 득표 수 가장 많은 사람)의 득표 수를 줄여가는 것이 포인트! 이후 다시 내림차순 정렬. ← 이 과정 반복 # input n = int(

[Python] 백준 실버5 1969번 DNA (완전탐색) [내부링크]

1969번: DNA 문제 DNA란 어떤 유전물질을 구성하는 분자이다. 이 DNA는 서로 다른 4가지의 뉴클레오티드로 이루어져 있다(Adenine, Thymine, Guanine, Cytosine). 우리는 어떤 DNA의 물질을 표현할 때, 이 DNA를 이루는 뉴클레오티드의 첫글자를 따서 표현한다. 만약에 Thymine-Adenine-Adenine-Cytosine-Thymine-Guanine-Cytosine-Cytosine-Guanine-Adenine-Thymine로 이루어진 DNA가 있다고 하면, “TAACTGCCGAT”로 표현할 수 있다. 그리고 H... www.acmicpc.net 여러 개의 유전자가 주어지고, 이들과 최대한 비슷한 유전자를 찾는 문제 풀이 sort 부분 주의 파이썬 최빈값 구하기 : from statistics import mode # input n, m = map(int, input().split(' ')) lst = [[] for _ in range(m)]

[Python] 백준 실버5 2828번 사과 담기 게임 (그리디) [내부링크]

2828번: 사과 담기 게임 2828번 제출 맞힌 사람 숏코딩 재채점 결과 채점 현황 질문 게시판 사과 담기 게임 다국어 시간 제한 메모리 제한 제출 정답 맞힌 사람 정답 비율 1 초 128 MB 11610 5742 4626 50.852% 문제 상근이는 오락실에서 바구니를 옮기는 오래된 게임을 한다. 스크린은 N칸으로 나누어져 있다. 스크린의 아래쪽에는 M칸을 차지하는 바구니가 있다. (M<N) 플레이어는 게임을 하는 중에 바구니를 왼쪽이나 오른쪽으로 이동할 수 있다. 하지만, 바구니는 스크린의 경계를 넘어가면 안 된다. 가장 처음에 바구니는 왼쪽 M칸을 차지... www.acmicpc.net 바구니를 움직여가며 사과를 담아낼 때, 바구니 이동 거리의 최솟값을 구하는 문제 풀이 바구니가 커버하는 범위를 window로 설정 사과가 떨어지는 위치(i)가 전보다 커지면, window +1 사과가 떨어지는 위치(i)가 전보다 작아지면, window -1 위 과정을 시행할 때마다 count

[Python] 백준 실버3 2012번 등수 매기기 (그리디) [내부링크]

2012번: 등수 매기기 2012번 제출 맞힌 사람 숏코딩 재채점 결과 채점 현황 질문 게시판 등수 매기기 시간 제한 메모리 제한 제출 정답 맞힌 사람 정답 비율 2 초 256 MB 14232 5497 4546 38.441% 문제 2007년 KOI에 N명의 학생들이 참가하였다. 경시일 전날인 예비소집일에, 모든 학생들은 자신이 N명 중에서 몇 등을 할 것인지 예상 등수를 적어서 제출하도록 하였다. KOI 담당조교로 참가한 김진영 조교는 실수로 모든 학생의 프로그램을 날려 버렸다. 1등부터 N등까지 동석차 없이 등수를 매겨야 하는 김 조교는, 어쩔 수 없이 ... www.acmicpc.net 실제 등수 - 예측 등수의 합이 최솟값이 되도록 만들고, 그 최솟값을 구하는 문제 풀이1 시간 초과 하.. 계속 시간초과 나서 애먹었는데, input 형식이 문제였다. # input n = int(input()) grade = [] for _ in range(n): grade.append(int(

[Python] 백준 실버1 11497번 통나무 건너뛰기 (그리디) [내부링크]

11497번: 통나무 건너뛰기 문제 남규는 통나무를 세워 놓고 건너뛰기를 좋아한다. 그래서 N개의 통나무를 원형으로 세워 놓고 뛰어놀려고 한다. 남규는 원형으로 인접한 옆 통나무로 건너뛰는데, 이때 각 인접한 통나무의 높이 차가 최소가 되게 하려 한다. 통나무 건너뛰기의 난이도는 인접한 두 통나무 간의 높이의 차의 최댓값으로 결정된다. 높이가 {2, 4, 5, 7, 9}인 통나무들을 세우려 한다고 가정하자. 이를 [2, 9, 7, 4, 5]의 순서로 세웠다면, 가장 첫 통나무와 가장 마지막 통나무 역시 인접해 있다. 즉, 높이가 2인 것과 높이가 5인 것도 서로... www.acmicpc.net 주어진 요소 간 차의 최댓값이 최소가 되는 값을 구하는 문제 풀이 1 내 풀이 아이디어 통나무가 원형으로 놓여있는 점을 고려해서 요소 간의 차이를 최소화 하려면? : [2, 9, 7, 4, 5] 리스트를 정렬하고 [2, 4, 5, 7, 9] 홀수번째 수를 뽑고 [2, 5, 9] 짝수번째 수

[Python] 백준 실버3 19941번 햄버거 분배 (그리디) [내부링크]

19941번: 햄버거 분배 문제 기다란 벤치 모양의 식탁에 사람들과 햄버거가 아래와 같이 단위 간격으로 놓여 있다. 사람들은 자신의 위치에서 거리가 $K$ 이하인 햄버거를 먹을 수 있다. 햄버거 사람 햄버거 사람 햄버거 사람 햄버거 햄버거 사람 사람 햄버거 사람 1 2 3 4 5 6 7 8 9 10 11 12 위의 상태에서 $K = 1$인 경우를 생각해보자. 이 경우 모든 사람은 자신과 인접한 햄버거만 먹을 수 있다. 10번의 위치에 있는 사람은 11번 위치에 있는 햄버거를 먹을 수 있다. 이 경우 다음과 같이 최대 5명의 사람이 햄버거를 먹을 수 있다. 2... www.acmicpc.net 최대한 많은 사람들(answer)이 햄버거를 먹을 수 있도록 햄버거를 분배하는 문제 풀이 인터넷 풀이 아이디어 사람의 위치에서 k의 범위 (± k)에서 가장 왼쪽에 있는 햄버거를 고르자 ! n, k = map(int, input().split()) pos = list(input()) # 리스트

[Python] 백준 실버5 15904번 UCPC는 무엇의 약자일까? (그리디) [내부링크]

15904번: UCPC는 무엇의 약자일까? 문제 UCPC는 '전국 대학생 프로그래밍 대회 동아리 연합 여름 대회'의 줄임말로 알려져있다. 하지만 이 줄임말이 정확히 어떻게 구성되었는지는 아무도 모른다. UCPC 2018을 준비하던 ntopia는 여러 사람들에게 UCPC가 정확히 무엇의 줄임말인지 물어보았지만, 아무도 정확한 답을 제시해주지 못했다. ntopia가 들은 몇 가지 답을 아래에 적어보았다. Union of Computer Programming Contest club contest Union of Computer Programming contest Club cont... www.acmicpc.net 주어진 문자열을 적절히 지워서 UCPC 문자열을 만들 수 있는지 알아보는 문제 풀이 1 그리디 쉬운듯 어려웠던 문제 원하는 문자열을 찾으면 i 를 늘려가면서 푸는게 포인트 string = input() i = 0 for s in string: if s == 'UCPC'[i]: i

[Python] 백준 실버5 9237번 이장님 초대(그리디) [내부링크]

9237번: 이장님 초대 9237번 제출 맞힌 사람 숏코딩 재채점 결과 채점 현황 질문 게시판 이장님 초대 다국어 시간 제한 메모리 제한 제출 정답 맞힌 사람 정답 비율 1 초 128 MB 7595 4680 4099 63.462% 문제 농부 상근이는 마당에 심기 위한 나무 묘목 n개를 구입했다. 묘목 하나를 심는데 걸리는 시간은 1일이고, 상근이는 각 묘목이 다 자라는데 며칠이 걸리는지 정확하게 알고 있다. 상근이는 마을 이장님을 초대해 자신이 심은 나무를 자랑하려고 한다. 이장님을 실망시키면 안되기 때문에, 모든 나무가 완전히 자란 이후에 이장님을 초대하... www.acmicpc.net 전형적인 그리디 문제. 쉽게 풀었다! 풀이 tree = [2, 3, 4, 3] tree 자라는데 오래 걸리는 순으로 배열 [4, 3, 3, 2] tree를 심는 날짜는 [1,2,3,4] = i+1 tree 심고, 자라는 시간은 두 배열을 더한 숫자 [5, 5, 6, 6] 이중 max 값이 트리가

[Python] 백준 실버4 1758번 알바생 강호(그리디) [내부링크]

1758번: 알바생 강호 문제 스타박스는 손님을 입장시킬 때 독특한 방법으로 입장시킨다. 스타박스에서는 손님을 8시가 될 때 까지, 문앞에 줄 세워 놓는다. 그리고 8시가 되는 순간 손님들은 모두 입구에서 커피를 하나씩 받고, 자리로 간다. 강호는 입구에서 커피를 하나씩 주는 역할을 한다. 손님들은 입구에 들어갈 때, 강호에게 팁을 준다. 손님들은 자기가 커피를 몇 번째 받는지에 따라 팁을 다른 액수로 강호에게 준다. 각 손님은 강호에게 원래 주려고 생각했던 돈 - (받은 등수 - 1) 만큼의 팁을 강호에게 준다. 만약, 위의 식으로 나온 값이 음수라면, ... www.acmicpc.net 강호가 받을 수 있는 팁의 최댓값을 구하는 문제 팁 = 원래 주려고 했던 팁 - (받은 등수-1) 풀이 tip 리스트를 내림차순 정렬하고, 받은 팁의 합을 구하면 됨! 왜 내림차순 정렬? 팁이 마이너스 값이 되는 경우, 팁을 받을 수 없음 예를 들어 tip 리스트 = [1,1,1,1,2] 인 경우

[Python] 백준 실버4 1049번 기타줄 (그리디) [내부링크]

1049번: 기타줄 문제 Day Of Mourning의 기타리스트 강토가 사용하는 기타에서 N개의 줄이 끊어졌다. 따라서 새로운 줄을 사거나 교체해야 한다. 강토는 되도록이면 돈을 적게 쓰려고 한다. 6줄 패키지를 살 수도 있고, 1개 또는 그 이상의 줄을 낱개로 살 수도 있다. 끊어진 기타줄의 개수 N과 기타줄 브랜드 M개가 주어지고, 각각의 브랜드에서 파는 기타줄 6개가 들어있는 패키지의 가격, 낱개로 살 때의 가격이 주어질 때, 적어도 N개를 사기 위해 필요한 돈의 수를 최소로 하는 프로그램을 작성하시오. 입력 첫째 줄에 N과 M이 주어진다. N... www.acmicpc.net 아이디어 1. min(6개 세트 가격) < min(1개 가격) * 6 일 때, → n//6 만큼 6개 세트로 구매 나머지 n%6 개는? n%6 * min(1개 가격) <= min(6개 세트 가격) 이면 n%6 * min(1개 가격) 구매 n%6 * min(1개 가격) > min(6개 세트 가격) 이면

[Python] 백준 실버5 14916번 거스름돈 (그리디) [내부링크]

14916번: 거스름돈 14916번 제출 맞힌 사람 숏코딩 재채점 결과 채점 현황 질문 게시판 거스름돈 시간 제한 메모리 제한 제출 정답 맞힌 사람 정답 비율 2 초 512 MB 23073 10643 8831 47.094% 문제 춘향이는 편의점 카운터에서 일한다. 손님이 2원짜리와 5원짜리로만 거스름돈을 달라고 한다. 2원짜리 동전과 5원짜리 동전은 무한정 많이 가지고 있다. 동전의 개수가 최소가 되도록 거슬러 주어야 한다. 거스름돈이 n인 경우, 최소 동전의 개수가 몇 개인지 알려주는 프로그램을 작성하시오. 예를 들어, 거스름돈이 15원이면 5원짜리 3... www.acmicpc.net 풀이 1 내 풀이 n = int(input()) coin_type = [5,2] count = 0 if n==1 or n==3: print(-1) else: for i in coin_type: count += n//i n %= i if n%2 !=0: while n%2 != 0: count-=1 n

[Python] 백준 실버3 1449번 수리공항승 (그리디) [내부링크]

1449번: 수리공 항승 1449번 제출 맞힌 사람 숏코딩 재채점 결과 채점 현황 질문 게시판 수리공 항승 시간 제한 메모리 제한 제출 정답 맞힌 사람 정답 비율 2 초 128 MB 21699 10497 8696 48.494% 문제 항승이는 품질이 심각하게 나쁜 수도 파이프 회사의 수리공이다. 항승이는 세준 지하철 공사에서 물이 샌다는 소식을 듣고 수리를 하러 갔다. 파이프에서 물이 새는 곳은 신기하게도 가장 왼쪽에서 정수만큼 떨어진 거리만 물이 샌다. 항승이는 길이가 L인 테이프를 무한개 가지고 있다. 항승이는 테이프를 이용해서 물을 막으려고 한다. 항승... www.acmicpc.net n, l = map(int, input().split()) lst = list(map(int, input().split())) lst.sort() start = lst[0] # 테이프를 처음 붙이는 위치 count = 1 # 테이프 개수 for i in lst[1:]: if (start-0.5 <

[Python] 리트코드 605. Can Place Flowers (그리디) [내부링크]

문제 해석 일렬로 된 화분(flowerbed)이 있고, 꽃은 인접해서 심을 수 없다. 0: 빈 화분, 1: 꽃이 심어진 화분, n : 심어야 할 꽃의 수 모든 꽃을 심을 수 있는지 구해라 풀이 1 내 풀이 class Solution: def canPlaceFlowers(self, flowerbed: List[int], n: int) -> bool: if len(flowerbed)<=2: # 화분이 2개 이하일 때 (양 끝을 따로 확인해서 예외가 생김..) if 1 not in flowerbed: # 0으로만 이루어져 있어야 꽃을 심을 수 있음 n-=1 else: # 화분이 3개 이상일 때 if flowerbed[1]==0 and flowerbed[0]==0: # 왼쪽 끝 확인 n-=1 flowerbed[0]=1 if flowerbed[-2]==0 and flowerbed[-1]==0: # 오른쪽 끝 확인 n-=1 flowerbed[-1]=1 for i in range(1, len(f

[Python] 리트코드 238. Product of Array Except Self [내부링크]

문제 해석 리스트 nums = [1, 2, 3, 4]가 주어지고 자기 자신을 제외한 값을 곱한 리스트를 반환하라 => [24, 12, 8, 6] 문제 자체는 쉽지만 조건이 까다로웠다. * 나눗셉을 사용하지 않고, O(n)에 풀어야 한다. 즉 이중 for문은 사용하면 안 된다. 풀이 시간 초과가 나지 않도록 하는 풀이를 찾기 어려워서 정답을 찾아봤다. 찾아 봤는데도 이해가 쉽지는 않지만, 아이디어는 다음과 같다. 1) 초기 값을 1로 두고, 왼쪽 끝부터 곱한 리스트를 구한다. [1, 1*1, 1*1*2, 1*1*2*3] 2) 초기 값을 1로 두고, 오른쪽 끝부터 곱한 리스트를 구한다. [1*4*3*2, 1*4*3, 1*4, 1] 이렇게 두 리스트를 구하고 각각의 값을 곱하면, 자신을 제외한 곱을 구할 수 있다. 써놓고 보면 이해가 되지만.. 이런 아이디어를 어떻게 생각하지?외워야하나...ㅎ 앤드!! 리스트끼리 곱할때도 두 개의 리스트를 만들어서 곱하는 것이 아니라, 이미 만들어둔 re

[Python] 리트코드 334. Increasing Triplet Subsequence (그리디) [내부링크]

리스트에서 단조 증가 값 3개를 찾는 문제 class Solution: def increasingTriplet(self, nums: List[int]) -> bool: # first, second 는 이미 정해져 있다고 가정 first = inf second = inf for third in nums: if second < third: # first, second 값 setting 이후, second < third 이면 return True # True 반환 if third <= first: first = third # first setting else: second = third # second setting return False first와 second는 이미 정해져 있다고 가정하고, inf로 초기값을 정한다. ---①---[first]---②---[second]---③--- [third] ① 구간에 해당되면, first = third로 first setting [third]

[Python] 리트코드 283. Move Zeroes (투 포인터) [내부링크]

풀이 1 내 풀이 투 포인터라고 명시되어 있었지만 그냥 풀었다. 처리 속도가 너무 느리다. class Solution: def moveZeroes(self, nums: List[int]) -> None: if 0 not in nums: return nums else: for _ in range(len(nums)): nums.remove(0) nums.append(0) return nums 풀이2 투 포인터 class Solution: def moveZeroes(self, nums: List[int]) -> None: zero = 0 # 차례대로 탐색 pointer 1 for i in range(len(nums)): if nums[i] != 0: # 0이 아닌 숫자 탐색 pointer 2 nums[i], nums[zero] = nums[zero], nums[i] zero += 1 두 개의 포인터를 활용한다. pointer 1 : 차례대로 탐색 (0 인 경우 탐색) pointer 2 :

[Python] 리트코드 392. Is Subsequence (투 포인터) [내부링크]

t에서 일정 문자열을 삭제해서 s를 만들 수 있으면 True, 아니면 False를 반환하는 문제 어제 풀었던 투 포인터 문제를 참고해서 풀었다. 풀이 1 내 풀이 class Solution: def isSubsequence(self, s: str, t: str) -> bool: if len(s) == 0: # s가 빈 문자열일 경우, True 반환 [예외 처리] return True else: find_s = 0 # s가 가진 문자를 찾기 위한 index (pointer1) result = '' # s가 가진 문자에 해당되는 경우 result에 추가 for i in range(len(t)): # t를 앞에서부터 차례대로 탐색하며 (pointer2) if t[i] == s[find_s]: # s가 가진 문자가 t안에 있으면 result+=t[i] # result에 추가 find_s +=1 # pointer1 한 칸 이동 (s를 차례대로 탐색 가능) if result == s: # re

[Python] 리트코드 11. Container With Most Water (투 포인터) [내부링크]

가장 많은 물을 담을 수 있도록하는 verical line 2개를 찾는 문제 예전에 코딩테스트에서 비슷한 문제가 나온 적이 있었다. 잘 기억해두자! (그게 투포인터 문제였다니..ㅎ) class Solution: def maxArea(self, height: List[int]) -> int: left = 0 # 순방향 시작점 right = len(height)-1 # 역방향 시작점 maxArea = 0 # 초기 넓이값 while left < right: area = min(height[left], height[right]) * (right-left) # 넓이 구하기 maxArea = max(area, maxArea) # 초기 넓이와 비교해서 update # 범위 좁혀가기 if height[left] < height[right]: # 왼쪽 height가 낮으면 left+=1 # left +1 else: # 오른쪽 height가 낮으면 right-=1 # right-1 return max

[Python] 리트코드 1679. Max Number of K-Sum Pairs (투 포인터) [내부링크]

합이 k 인 두 개의 숫자를 선택해서 배열에서 제거하는 task 수행. 수행할 수 있는 최대 task 수를 반환하는 문제 백준에서 풀어봤던 문제라 쉽게 풀었다! 백준에서 풀었을 때보다 풀이가 확실히 깔끔해진 느낌이다. class Solution: def maxOperations(self, nums: List[int], k: int) -> int: left = 0 right = len(nums)-1 nums.sort() answer = 0 while left < right: if nums[left] + nums[right] > k: right -=1 elif nums[left] + nums[right] < k: left +=1 else: answer +=1 right -=1 left +=1 return answer

[Python] 백준 실버1 1080번 행렬 (그리디) [내부링크]

1080번: 행렬 문제 0과 1로만 이루어진 행렬 A와 행렬 B가 있다. 이때, 행렬 A를 행렬 B로 바꾸는데 필요한 연산의 횟수의 최솟값을 구하는 프로그램을 작성하시오. 행렬을 변환하는 연산은 어떤 3×3크기의 부분 행렬에 있는 모든 원소를 뒤집는 것이다. (0 → 1, 1 → 0) 입력 첫째 줄에 행렬의 크기 N M이 주어진다. N과 M은 50보다 작거나 같은 자연수이다. 둘째 줄부터 N개의 줄에는 행렬 A가 주어지고, 그 다음줄부터 N개의 줄에는 행렬 B가 주어진다. 출력 첫째 줄에 문제의 정답을 출력한다. 만약 A를 B로 바꿀 수 없다면 -1... www.acmicpc.net # input n, m = map(int, input().split()) graph1 = [] # A graph2 = [] # B for _ in range(n): graph1.append(list(map(int, input()))) for _ in range(n): graph2.append(list(m

[Python] 리트코드 634. Maximum Average Subarray I (슬라이딩 윈도우) [내부링크]

리스트에서 연속된 k개의 평균이 가장 큰 경우를 구하는 문제 풀이 1 시간 초과 부분 리스트의 합을 반복해서 구해야 하기 때문에 효율적이지 않은 풀이 class Solution: def findMaxAverage(self, nums: List[int], k: int) -> float: max_ = sum(nums[:k]) / k for i in range(len(nums)-k+1): if (sum(nums[i:i+k]) / k) > max_: max_ = sum(nums[i:i+k]) / k return max_ 풀이 2 부분 합 초기값 (total_sum) / 초기 max값(max_sum) 을 정의하고 시작 (값 두개 정의 주의!!) 부분합 초기값을 조정해주면서, max값을 업데이트 하는 것! (코드 쓰면서 만져야할 부분은 total_sum 임!) 반복문을 돌면서 total_sum - 맨 앞 값 + 맨 뒤 값 max 값 업데이트 반복문 탈출 후, max 값 return class

[Python] 리트코드 1456. Maximum Number of Vowels in a Substring of Given Length (슬라이딩 윈도우) [내부링크]

리스트의 연속된 k개의 요소 중, 모음의 개수가 최대인 경우를 구하는 문제 풀이 1 시간초과 문제를 해결하기 위해서, 슬라이딩 위도우를 활용하자! 리스트 중 첫 k개에 해당되는 구간에서, 모음의 개수 구하기 슬라이딩 윈도우 for문 돌면서 첫 글자가 모음인 경우 count -=1 / 마지막 글자의 다음 글자가 모음인 경우 count+=1 초기값(first_count) > max_count 인 경우, max_count 값 업데이트 코드 쓸 때 first_count 값을 조정해주는 것 !! 잊지 말기 max_count는 오직 max값을 기록하는 변수 class Solution: def maxVowels(self, s: str, k: int) -> int: vowels = ['a','e','i','o','u'] count = 0 for i in s[:k]: if i in vowels: count+=1 first_count = count max_count = count for i in ra

[Python] 리트코드 1004. Max Consecutive Ones III (슬라이딩 윈도우) [내부링크]

k번 만큼 0을 1로 바꿔서 구할 수 있는 1로만 이뤄진 연속된 가장 긴 리스트의 길이를 구하는 문제 풀이를 보고도 이해하기 어려웠던 문제.. 정답 풀이 i : 연속된 1이 처음 시작하는 위치 / j : 포인터 모든 반복에서 k가 0일 때, k-=1 윈도우 내에서 0의 개수가 k를 초과했을 때 nums[i] == 0 인 경우, k +=1 (0을 1로 바꿀 수 있는 기회를 한 번 더 주는 것) nums[i] == 1인 경우, k +=0 (0을 1로 바꿀 수 있는 기회 더 안줌) 위 두가지 경우 모두에서 i 위치를 오른쪽으로 한 칸 옮겨줌 (기회를 주거나, 안 주는 이유) j는 포인터니까 반복할 때마다 값이 증가 / i는 k < 0 일 때만 증가 즉, 윈도우 안에서 바꿀 수 있는 0의 개수가 한정되도록 유지됨 이후 j-i+1 로 윈도우의 최대 길이 구할 수 있음 (in 위 조건 부합하는 조건) class Solution: def longestOnes(self, nums: List[int

나름 바쁘고 행복했던 2월 [내부링크]

️ 2월 ️ 벌써 2월이 끝났다니 !! 시간이 넘 빠르다 작년 하반기 끝나고 1,2월에 뭐할까 했는데 이제 곧 3월 시작이야~ 3월 싫은데 c 이번 분기에는 상처 조금만 받게 해주세요ㅠ 아예 안 받게 해달라고는 안 할테니까.. 아무튼..! 1월에 일상 글 올리는데 사진이 너무 없어서 2월엔 많이 찍겠다고 했지만?! 비슷한 수준입니당 ^___^ 사진은 후딱.. 찍는데 의의를 둠 ㅎ 2월 첫 약속은 미루고 미뤄왔던 약속 무려 15학번 선배륌을 만났당 요즘 너무 얻어먹고 다녀서 큰일 났어 다들 저 취업하면 기대하세요. 어색할 줄 알았는데 예상 외로 너무 재밌었던 담엔 주연이 언니도 같이 봐야 돼!! 두번째 약속은 예림이 송도에서 오랜만에 수다 100시간 떨다 옴 ! 인천 약속을 사랑하게 된 나.. 하지만 이제 대전으로 떠나버린 그녀 ㅠ 넌 언제 만나도 좋다 ~ 블로그 안 보는 예림이한테 사랑 고백중.. ㅋㅋ And 수달? 해달? 수세미를 지나치지 못했다ㅎ 여기에는 깊은 사연이 있는데

[Python] 백준 실버2 16953번 A→B (BFS) [내부링크]

16953번: A → B 16953번 제출 맞힌 사람 숏코딩 재채점 결과 채점 현황 강의 질문 게시판 A → B 시간 제한 메모리 제한 제출 정답 맞힌 사람 정답 비율 2 초 512 MB 49296 20290 16111 39.623% 문제 정수 A를 B로 바꾸려고 한다. 가능한 연산은 다음과 같은 두 가지이다. 2를 곱한다. 1을 수의 가장 오른쪽에 추가한다. A를 B로 바꾸는데 필요한 연산의 최솟값을 구해보자. 입력 첫째 줄에 A, B (1 ≤ A < B ≤ 10 9 )가 주어진다. 출력 A를 B로 바꾸는데 필요한 연산의 최솟값에 1을 더한 값을 출력한... www.acmicpc.net 풀이 1 틀린 풀이... 왜 틀렸는지 모르겠어...ㅠ # input a,b = map(int, input().split()) leaves = [a] count = 0 while True: temp = [] for leaf in leaves: temp.append(leaf*2) temp.append(

[Python] 백준 실버4 10610번 30 (그리디) [내부링크]

10610번: 30 10610번 제출 맞힌 사람 숏코딩 재채점 결과 채점 현황 강의 질문 게시판 30 다국어 시간 제한 메모리 제한 제출 정답 맞힌 사람 정답 비율 1 초 256 MB 48181 19394 15415 39.729% 문제 어느 날, 미르코는 우연히 길거리에서 양수 N을 보았다. 미르코는 30이란 수를 존경하기 때문에, 그는 길거리에서 찾은 수에 포함된 숫자들을 섞어 30의 배수가 되는 가장 큰 수를 만들고 싶어한다. 미르코를 도와 그가 만들고 싶어하는 수를 계산하는 프로그램을 작성하라. 입력 N을 입력받는다. N는 최대 10 5 개의 숫... www.acmicpc.net 풀이 1 (시간 초과) 시간 초과날 것 같긴 했는데 그래도 시도해 봄 # input lst = list(input()) lst.sort(reverse=True) from itertools import permutations if '0' not in lst: print(-1) else: for i in

[Python] 백준 실버1 1946번 신입사원 (그리디) [내부링크]

1946번: 신입 사원 문제 언제나 최고만을 지향하는 굴지의 대기업 진영 주식회사가 신규 사원 채용을 실시한다. 인재 선발 시험은 1차 서류심사와 2차 면접시험으로 이루어진다. 최고만을 지향한다는 기업의 이념에 따라 그들은 최고의 인재들만을 사원으로 선발하고 싶어 한다. 그래서 진영 주식회사는, 다른 모든 지원자와 비교했을 때 서류심사 성적과 면접시험 성적 중 적어도 하나가 다른 지원자보다 떨어지지 않는 자만 선발한다는 원칙을 세웠다. 즉, 어떤 지원자 A의 성적이 다른 어떤 지원자 B의 성적에 비해 서류 심사 결과와 면접 성적이 모두 떨어진다면 A는 결... www.acmicpc.net "다른 모든 지원자와 비교했을 때 1차 성적과 2차 성적 중 적어도 하나가 다른 지원자보다 떨어지지 않는 자만 선발한다" 즉 1차,2차 성적이 모두 다른 지원자보다 안 좋다면 선발되지 않는다. 문제 이해하기가 쉽지 않았다.. 예제로 이해해보자. input이 아래와 같이 주어졌을 때 1 5 3 2 1

Word2Vec 모델 구조 및 예제 :: 임베딩 결과 시각화 하기 + 단어 인코딩 방법 3가지 [내부링크]

이번 포스팅에서는 자연어처리의 기본이 되는 단어 임베딩을 하는데 있어서 기초가 되는 모델인 Word2Vec에 대해서 정리해보겠습니다. ** 본 포스팅은 PC에 최적화 되어있으며, tensorflow 버전은 2.9.1, 작업환경은 colab입니다. ** **공부 참고 자료 - 허민석, 『나의 첫 머신러닝/ 딥러닝』, 위키북스, 2020. ** 들어가기 전에, 단어 인코딩이란? 딥러닝 모델은 입력을 수치값으로 받기 때문에 자연어처리 전처리 과정에서 단어를 수치로 변환해줘야 합니다. 이 과정을 인코딩이라고 합니다. 인코딩 방법에는 크게 정수 인코딩, 원 핫 인코딩, 임베딩이 있습니다. 정수 인코딩 단어를 빈도수 순으로 정렬한 단어 집합(vocabulary)을 만들고, 빈도수가 높은 순서대로 차례로 낮은 숫자부터 정수를 부여하는 방법 토큰 문서 내 토큰의 개수 정수 인코딩 사과 1 2 바나나 3 0 딸기 2 1 원 핫 인코딩 자연어처리에 가장 많이 사용되는 방법 각 단어에 고유한 인덱스를

Pretrained Word2Vec 코랩 사용법 / gensim으로 활용하기 [내부링크]

저번 포스팅에서는 Word2vec 모델을 간단하게 구현해보았습니다. 이번에는 사전학습이 완료된 Word2Vec 모델을 코랩에서 사용하는 방법에 대해서 알아보고, 사전학습된 Word2Vec 모델의 단어 임베딩을 gensim을 통해 확인해보겠습니다. ** 본 포스팅은 PC에 최적화 되어있으며, tensorflow 버전은 2.9.1, 작업환경은 colab입니다. ** 1. Pretrained Word2Vec model 불러오기 GoogleNews-vectors-negative300.bin.gz 사전 학습 모델을 코랩에서 사용하는 방법에 대해 알아봅시다. GoogleNews-vectors-negative300.bin.gz 위 모델을 불러와서 사용해보려고 합니다. 첫번째 시도에서는 아래 코드를 이용하려고 했으나, 오류가 나서 다른 방법을 소개합니다. !wget -P . -c "https://s3.amazonaws.com/dl4j-distribution/GoogleNews-vectors-neg

FastText, Glove 모델 원리 & Pretrained FastText, Glove 예제 [내부링크]

저번 포스팅에서는 Word2Vec 모델에 대해서 알아보았습니다. 이번에는 Word2Vec 모델을 발전시킨 모델인 FastText, Glove 모델에 대해서 알아보겠습니다. ** 본 포스팅은 PC에 최적화 되어있으며, tensorflow 버전은 2.9.1, 작업환경은 colab입니다. ** **공부 참고 자료 - 허민석, 『나의 첫 머신러닝/ 딥러닝』, 위키북스, 2020. ** 1. FastText Word2Vec 보다 조금 발전된 형태 페이스북이 공개한 임베딩, Word2Vec과 기본 아이디어는 동일함 Word2Vec의 단점인 OOV 극복 OOV(Out of Vocabulary) : 학습 시 사용되지 않은 단어는 임베딩을 갖지 못하는 문제 Word2Vec의 경우 학습 시 "smart", "phone" 이 있었다면? 두 단어에 대한 임베딩은 존재 but, "smartphone" 에 대한 임베딩은 존재 X FastText의 경우 "smartphone" 에 대한 임베딩 존재 형태학적 유

[전이학습] Glove로 사전학습된 임베딩 이용해 사용자 리뷰 주제 분류하기 예제 with Tensorflow [내부링크]

이번 포스팅에서는 Pretrained Glove 모델을 이용한 예제를 살펴보려고 합니다. 본격적인 포스팅에 앞서 전이학습에 대해 정리해보겠습니다. ** 본 포스팅은 PC에 최적화 되어있으며, tensorflow 버전은 2.9.1, 작업환경은 colab입니다. ** **공부 참고 자료 - 허민석, 『나의 첫 머신러닝/ 딥러닝』, 위키북스, 2020. ** 전이학습 이미 학습이 잘 된 모델을 다른 목적의 모델에 재사용하는 학습 방법 (장점) 적은 데이터만으로, 적은 시간을 들여 좋은 모델을 만들 수 있음 이미지 분류 전이학습 많이 사용되는 모델은 ImageNet의 1000종류 사진 분류하기 대회에서 우수한 성적을 거둔 모델 VGG, Inception, ResNet 이 모델들은 이미지 안의 특징을 잘 찾아내기 때문에 이 모델들의 특정 추출레이어를 재사용 자연어 처리 전이학습 데이터가 부족하면 OOV(Out of Vocabulary) 문제 발생 → 사전학습 모델 사용 Word2Vec, Fa

Transfer Learning : 업스트림, 다운스트림 태스크 / 다운스트림 태스크 학습 방식 [내부링크]

자연어 처리에서 널리 쓰이고 있는 모델인 BERT, GPT에 대해 본격적으로 공부하기 전에 Transfer Learning 개념에 대해 정리하려고 합니다. ** 본 포스팅은 PC에 최적화 되어있습니다. ** Transfer Learning 이란? 업스트림 / 다운스트림 태스크 다운스트림 태스크 학습 방식 3가지 1. Transfer Learning 트랜스퍼 러닝이란 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법입니다. 우리가 새로운 지식을 접했을 때 이미 알고 있는 지식을 통해 쉽게 이해할 수 있는 것과 같은 이치입니다. 트랜스퍼 러닝을 이용하면 학습 속도가 빨라지고, 새로운 태스크를 더 잘 수행하는 경향이 있습니다. BERT와 GPT에도 트랜스퍼 러닝이 적용되어 있습니다. 2. 업스트림 / 다운스트림 태스크 위에서 트랜스퍼 러닝을 "특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법"이라고 했는데요. 특정 태스크(먼저 학습한 태스크)를 업스트림 태스크

Tensorflow RNN 모델 정리하기 : SimpleRNN, Deep RNN, Bidirectional RNN [내부링크]

이번 포스팅에서는 tensorflow를 이용해서 RNN 모델을 구현하는 방법에 대해서 알아보려고 합니다. RNN모델에도 여러 종류가 있는데 가장 기본적인 바닐라 RNN, Deep RNN, Bidirectional RNN에 대해서 알아보겠습니다. ** 본 포스팅은 PC에 최적화 되어있으며, tensorflow 버전은 2.9.1, 작업환경은 colab입니다. ** **공부 참고 자료 - 허민석, 『나의 첫 머신러닝/ 딥러닝』, 위키북스, 2020. / 딥러닝을 이용한 자연어처리 입문** 본격적인 포스팅을 시작하기에 앞서 아래 포스팅을 통해 RNN 개념 잡으시면 코드 이해하기 쉬우실거에요! [학부연구생] D2L Chapter8 : RNN 올해 1월부터 6월까지 학부연구생 활동을 하면서, 제가 진행했던 발표 자료를 블로그에 공유하려고 합니다.... blog.naver.com 시간 여유가 없으신 분들은 아래 페이지만이라도 보시는걸 추천드립니다! RNN 작동 예시 RNN 모델로 단어 품사 분류

Tensorflow LSTM 구조 및 예제 - 지문읽고 주제 분류하기 / NLP 전처리 맛보기 [내부링크]

저번 포스팅에서는 RNN 모델에 대해서 알아보았습니다. 이번에는 RNN 모델의 장기 의존성 문제(RNN 시점(문장)이 길어질수록 정보가 뒤로 충분히 전달 되지 못하는 문제)를 해결하기 위해 메모리 셀을 추가한 LSTM 모델에 대해서 정리해보겠습니다. ** 본 포스팅은 PC에 최적화 되어있으며, tensorflow 버전은 2.9.1, 작업환경은 colab입니다. ** **공부 참고 자료 - 허민석, 『나의 첫 머신러닝/ 딥러닝』, 위키북스, 2020. ** LSTM 모델 구조 http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 실습 전에 LSTM 모델 구조를 간단하게 알아보겠습니다. RNN 모델과 달리 LSTM 모델에는 메모리셀이 있습니다. 첫번째 그림을 보면 크게 3가지 파트로 계산이 이루어지고 있는 것을 알 수 있는데요. 각 파트의 역할은 아래와 같습니다. 첫번째 파트 : 메모리셀의 기본 정보를 어느정도 기억할 것인지 sigmoi

2022.12 친구와 함께한 도쿄 여행 :: 1일차 [내부링크]

2022.12.21~ 2022.12.24 친구와 함께한 도쿄 여행 1일차 완전완전 오랜만에 올리는 일상글입니당 얼마 전에 친구랑 도쿄에 다녀와서 기록용으로 포스팅을 해보려고 합니다. 기록하기 위함이니 ! 편하게 막~ 쓸게요~ㅋㅋㅋㅋ 첫째 날 인천공항 친구랑 해외여행 가는건 상상만 하고 있었는데 매번 미루고 미루다가 드디어 떠났다! 둘 다 해외는 가족들이랑만 가봐서 우리의 첫 해외여행은 가까운 일본으로 픽! 그중에서도 우리 둘 다 못가본 도쿄에 가기로 했다. 며칠동안 한식 못먹는다며 고른 마지막 한국음식 비빔밥. 원래 안먹고 가려고 하다가 먹었는데 안먹었으면 큰일날뻔 했다. 기상 때문에 비행기가 연착돼서 예상보다 2시간 정도 늦게 도착했기 때문..ㅎㅎ 그래도 어찌저찌 비행기 타고 자세히 보면 나 있다! 일본 나리타 공항 도착! 저땐 몰랐다. 입국심사 줄이 그렇게 길줄..ㅋㅋ 그런 줄도 모르고 우린 빠르게 내렸지만 화장실도 느긋하게 가고 사진도 찍고 그러느라 줄은 빨리 안섰다..ㅎㅎㅎ

2022.12 친구와 함께한 도쿄 여행 :: 2일차 [내부링크]

2022.12.21~ 2022.12.24 친구와 함께한 도쿄 여행 2일차 둘째 날 雷門上村ビル 일본 111-0034 Tokyo, Taito City, Kaminarimon, 2-chōme−17−10 雷門上村ビル 첫째날 그냥 잠들기 아쉬워서 새벽까지 놀다가 느지막이 일어나서 점심먹으러 갔다. 유튜버 도쿄 규짱이 추천해준 "아사쿠사 규카츠" 갔는데 오픈 시간 맞춰서 갔는데도 1시간 웨이팅하고 들어갔다. 한국에서 먹어본 규카츠랑은 차원이 다르다! 웨이팅이 부담된다면 오픈시간 11시보다 좀 일찍 가서 꼭 드셔보시는 거 추천드려요 :) 규카츠 맛있게 먹고 둘째 날 일정 고고! 1-1 Maihama, Urayasu, Chiba 279-0031 일본 1-1 Maihama, Urayasu, Chiba 279-0031 일본 2일차에는 도쿄 디즈니랜드 다녀왔다. 디즈니 갈 때 운빨 에피소드 하나 탄생..ㅎㅎ 지하철 갈아탈 때 방향 헷갈려하고 있는데 지하철 도착하는 바람에 망설이다 그냥 탔는데(?) 알

2022.12 친구와 함께한 도쿄 여행 :: 3일차, 4일차 [내부링크]

2022.12.21~ 2022.12.24 친구와 함께한 도쿄 여행 3일차-4일차 셋째 날 둘째 날 디즈니랜드에서 체력을 시험 당할걸 알았기에 셋째 날에는 쇼핑하면서 힐링데이 보내기로 했당 아사쿠사 거리 쇼핑하러 가기 전에 아점으로 이치란 라멘 먹으러 가는 길에 찍은 아사쿠사 거리! 일본 느낌나서 넘 이뿌당 이치란 라멘 아사쿠사점 일본 111-0032 Tokyo, Taito City, Asakusa, 1 Chome−1−16 ＨＫ浅草ビル B1F 이치란 라멘 도착~ 일본에서 유명한 라멘 집이여서 웨이팅 길까봐 걱정했는데 다행히 하나도 없었다! 근데 다 먹고 나오니까 웨이팅이 길어져 있었다는.. 그래서 이것도 운빨 에피소드 중에 하나다ㅋㅋㅋ 다만 한가지 문제는 라멘 주문 방법을 몰랐다는 것..ㅎㅎ 이거 원래 아빠가 해주는 거였는데 .. 둘다 어리둥절 하고 있는데 때마침 한국 분들이 들어오셔서 도와주고 가셨다!! 너무너무 감사합니다.. 하지만 우리는 실수로 이치란 특제 매운 소스(?)를 각

AutoEncoder 모델 구조 및 예제 with Tensorflow :: 입력값 복원값 이미지 비교하기 [내부링크]

이번 포스팅에서는 Tensorflow를 이용한 오토인코더 모델에 대해 알아보려고 합니다. ** 본 포스팅은 PC에 최적화 되어있으며, tensorflow 버전은 2.9.1, 작업환경은 colab입니다. ** **공부 참고 자료 - 허민석, 『나의 첫 머신러닝/ 딥러닝』, 위키북스, 2020. ** 오토인코더 AutoEncoder 간단하면서 강력한 비지도학습 딥러닝 모델 입력값(x)을 압축 → 압축된 정보 복원 → 출력값(x') 리턴 압축 : Encoder 복원 : Decoder 입력값(x)과 출력값(x')이 일치하도록 파라미터 최적화 압축된 정보 입력값(x)에서 노이즈가 제거된 핵심 특징들로 구성된 저차원 데이터로 간주됨 주로 차원 축소의 목적으로 오토인코더가 많이 활용됨! Autoencoder 구조 label 없이 학습 시키는 unsupervised Anomaly Detection 에도 AutoEncoder 사용 가능 AutoEncoder를 활용한 손글씨 데이터 입력값, 복원값 비

[학부연구생] 논문세미나 : Scaling Up Vision and Vision-Language Representation Learning [내부링크]

올해 1월부터 6월까지 학부연구생 활동을 하면서, 제가 진행했던 발표 자료를 블로그에 공유하려고 합니다. ISLR(An Introduction to Statistical Learning)과 D2L(Dive into Deep Learning) 이라는 책을 공부했고, 마지막으로 논문 세미나도 진행했었는데 부족하지만.. 올해가 가기전에 기록을 남기려고 합니다. 마지막 여섯 번째 ppt는 논문세미나 자료입니다. 『Scaling Up Vision and Vision-Language Representation Learning With Noisy Text Supervision』 이라는 논문입니다. 처음 읽은 논문이라 쉽지 않았고 부족함이 많았지만, 개인적으로는 성장할 수 있었던 계기가 되었던 것 같습니다! 아주 간단히 설명드리자면, 간단한 전처리를 하지만 데이터 스케일을 엄청나게 크게함으로써 좋은 성능을 내는 모델을 만들 수 있다! 정도입니다. 첨부파일 Scaling Up Visual and V

[공모전] 2021 금융데이터 경진대회 : 마이데이터 기반 업종별 전염병(바이러스) 보험료 산출방안 제시 [내부링크]

(2021년 7월 ~ 2021년 9월) 금융보완원이 주최한 금융데이터 경진대회 결과물입니다. 주제 : 마이데이터 기반 업종별 전염병(바이러스) 보험료 산출방안 제시 프로젝트 요약 중소기업 상인의 업종, 상권 변화등급, 매출액 변화, 전염병 위험 정도 등 여러 상황을 종합하여 상인 개개인의 적절한 전염병 보험료를 제시한다. 이를 통해, 팬데믹 상황에서 상인의 최소한의 경제적 안전장치를 마련한다. 첨부파일 결과보고서_보험의정석.pdf 파일 다운로드 첨부파일 (보험의정석)금융데이터 경진대회 발표자료.pptx 파일 다운로드

[공모전] 2022 빅콘테스트 : 앱 사용성 데이터를 통한 대출신청 예측분석 [내부링크]

(2022년 9월 ~ 2022년 10월) 한국진흥정보사회진흥원과 핀다가 주최한 빅콘테스트 공모전 결과물입니다. 주제 : 앱사용성 데이터를 통한 대출신청 예측분석 프로젝트 요약 핀다 앱 사용성 데이터를 이용하여 고객의 대출신청 여부를 예측하는 모델을 구축하고, 대출 신청, 미신청 고객을 분류하여 고객의 특성 분석 결과를 도출한다. 이를 통해 효과적인 마케팅 방안을 제시한다. 첨부파일 데이터분석리그_퓨쳐스부문_통계금쪽이들_결과보고서.pdf 파일 다운로드

[통계학과 학회] 모델링 팀스터디 : Ridge/Lasso Regression [내부링크]

2020년 7월부터 2022년 8월까지 동국대학교 통계학과 학회 활동을 하면서 진행했던 프로젝트 내용을 공유하려고 합니다. 학회 첫번째 활동이니만큼 머신러닝 모델(SVM, XGBoost, Ridge/Lasso Regression, LGBM, Naive Bayes)에 대한 팀 스터디를 진행했습니다. 그중 저희조가 맡은 모델은 Ridge/Lasso 회귀모델 입니다.

[통계학과 학회] 팀프로젝트 : 심리경향 분석을 통한 국가 투표 여부 예측 [내부링크]

2020년 7월부터 2022년 8월까지 동국대학교 통계학과 학회 활동을 하면서 진행했던 프로젝트 내용을 공유하려고 합니다. 학회 두번째 활동에서는 데이콘 데이터를 이용해 팀프로젝트를 진행하였습니다. 처음 진행하는 프로젝트여서 어려움이 많았지만, 어깨너머로 많이 배우면서 성장할 수 있었던 것 같습니다. 프로젝트 주제는 심리경향 분성을 통한 국가 투표 여부 예측입니다. 프로젝트 요약 낮은 투표율 재고를 위해 사람의 심리성향과 투표율의 상관관계를 파악하고, 낮은 투표율이 예측되는 집단을 대상으로 활동적인 캠페인을 추진한다.

[통계학과 학회] 팀프로젝트 : 코로나 데이터 시각화 [내부링크]

2020년 7월부터 2022년 8월까지 동국대학교 통계학과 학회 활동을 하면서 진행했던 프로젝트 내용을 공유하려고 합니다. 학회 세번째 활동에서는 데이콘 데이터를 이용해 팀프로젝트를 진행하였습니다. 이번 프로젝트는 EDA를 진행하면서 인사이트를 알아내는데 중점이 맞춰져 있습니다. 프로젝트 주제는 코로나 데이터 시각화 입니다. 프로젝트 요약 팬데믹 사태를 일으킨 코로나 바이러스를 지역, 성별, 연령별 측면에서 분석하여, 감염병에 대한 전반적인 인사이트를 발굴하고, 감염병 컨트롤 방안을 제시한다.

[통계학과 학회] 팀프로젝트 : 음용 가능성 예측 및 측정을 위한 중요 변수 파악 [내부링크]

2020년 7월부터 2022년 8월까지 동국대학교 통계학과 학회 활동을 하면서 진행했던 프로젝트 내용을 공유하려고 합니다. 학회 네번째 활동에서는 캐글 데이터를 이용해 팀프로젝트를 진행하였습니다. 프로젝트 주제는 음용가능성 예측 및 측정을 위한 중요변수파악 입니다. 프로젝트 요약 물의 음용가능성을 예측하기 위한 요소 및 중요도를 파악하여, 효율적으로 물의 음용가능성을 예측할 수 있는 방안을 마련한다.

CNN 모델로 MNIST 데이터 분류하기 with Tensorflow [내부링크]

이전 포스팅에서는 Pytorch를 이용해서 CNN 모델을 구현하고, MNIST 데이터를 분류해봤습니다. 이번에는 동일한 과정을 tensorflow를 이용해서 진행해보려고 합니다. CNN 구조는 아래 포스팅을 참고해주시기 바랍니다. ** 본 포스팅은 PC에 최적화 되어있으며, tensorflow 버전은 2.9.1, 작업환경은 colab입니다. ** **공부 참고 자료 - 허민석, 『나의 첫 머신러닝/ 딥러닝』, 위키북스, 2020. ** CNN을 활용한 MNIST 데이터 분류 예제 :: Part1. CNN 구조 이해하기 저번시간에는 softmax 회귀모델을 이용해서 MNIST 데이터를 분류해봤는데요. 오늘은 CNN 모델을 이... blog.naver.com CNN 모델을 이용한 MNIST 데이터 분류하기 with tensorflow 우선 필요한 라이브러리를 불러와줍니다. import tensorflow as tf from tensorflow.keras.datasets import mn

빅데이터 분석 기사 실기 독학 합격 후기 : 준비 방법 / 작업형2 난이도 채점 기준 [내부링크]

오늘 12월 3일에 봤던 빅데이터 분석 기사 5회 실기 결과가 나왔다. 11월에 이것저것 하느라 준비할 시간이 많이 없어서 이틀 벼락치기로 공부하고 시험 봤는데 원하던만큼은 아니지만 결과는 어쨌든 합격이다ㅎㅎ 제 5 회 빅데이터 분석기사 실기 준비 방법 시험 시간 : 3시간. 1시간 30분 이후 퇴실 가능 문제 유형 : 단답형, 작업형1, 작업형2 통계학과라서 별다른 준비를 한 건 없지만, 도움이 될 만한 준비 방법을 공유해보려고 한다. 빅데이터 분석기사 실기는 단답형, 작업형1, 작업형2로 구성되어 있다. 문제 배점은 단답형은 10문제 각 3점 작업형1은 3문제 각 10점 작업형2는 1문제 40점이다. 단답형은 필기에서 봤던 내용을 리뷰하는 식의 문제고 주관식으로 답을 작성하면 된다. 작업형1은 간단한 전처리 문제다. ~~ 조건에 해당하는 행의 평균을 구하세요. 같은 문제들이 나오고, 평소에 분석을 해본 적이 있다면 어렵지 않게 풀 수 있다. 다만, 문제 조건을 잘 보고 푸셔야 합

소프트맥스 회귀 MNIST 데이터 분류 with tensorflow [내부링크]

공부를 하다보니 tensorflow가 Early Stopping이나 모델 최적화 및 best 모델을 저장하는데 있어서 pytorch보다 용이하다는 생각이 들어서 tensorflow 공부를 이어나가 보려고 합니다. 아주 오래전이지만 tensorflow를 이용해 선형 회귀, 로지스틱 회귀까지는 다루었으니 softmax 회귀모델부터 시작해보겠습니다. # 라이브러리 불러오기 from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, Activation from tensorflow.keras.utils import to_categorical from tensorflow.keras.datasets import mnist 1. MNIST 데이터 손글씨 데이터셋 0~9 이미지로 구성된 손글씨 데이터셋 60000개의 훈련 데이터, 레이블 (X, y) 10000개의 테스트 데이터, 레이블 (X, y)

[학부연구생] ISLR Chapter2 : Statistical Learning [내부링크]

올해 1월부터 6월까지 학부연구생 활동을 하면서, 제가 진행했던 발표 자료를 블로그에 공유하려고 합니다. ISLR(An Introduction to Statistical Learning)과 D2L(Dive into Deep Learning) 이라는 책을 공부했고, 마지막으로 논문 세미나도 진행했었는데 부족하지만.. 올해가 가기전에 기록을 남기려고 합니다. 첫번째 ppt는 ISLR의 가장 기초 적인 내용인 Statistical Learning 통계학습에 대한 내용입니다. 첨부파일 [학부인턴 ISLR 책세미나02] Statistical Learning.pdf 파일 다운로드 pdf 자료 공유합니다 :)

[학부연구생] ISLR Chapter4 : Classification [내부링크]

[학부연구생] ISLR Chapter10 : Unsupervised Learning [내부링크]

올해 1월부터 6월까지 학부연구생 활동을 하면서, 제가 진행했던 발표 자료를 블로그에 공유하려고 합니다. ISLR(An Introduction to Statistical Learning)과 D2L(Dive into Deep Learning) 이라는 책을 공부했고, 마지막으로 논문 세미나도 진행했었는데 부족하지만.. 올해가 가기전에 기록을 남기려고 합니다. 세 번째 ppt는 ISLR의 Unsupervised Learning 비지도 학습에 관한 자료입니다. 첨부파일 [학부인턴 ISLR 책세미나10] Unsupervised Learning.pdf 파일 다운로드 ppt 자료 공유합니다 :)

[학부연구생] D2L Chapter8 : RNN [내부링크]

[학부연구생] D2L Chapter10 : Attention Mechanisms [내부링크]

데이터 불균형 해소를 위한 여러가지 샘플링 기법 - Under Sampling 편 [내부링크]

이전 포스팅에서 데이터 불균형 해소 방법 중 over sampling에 대해서 알아봤습니다. 이번에는 under sampling 방법에 대해서 알아보겠습니다. sampling 이 왜 필요한지, over sampling이 무엇인지 궁금하신 분은 아래 포스팅을 참고해주시기 바랍니다. ** 본 포스팅은 pc 버전에 최적화 되어 있습니다. ** ** 본 포스팅은 고려대학교 김성범 교수님 유튜브 강의를 참고해 정리한 글입니다. ** 데이터 불균형 해소를 위한 여러가지 샘플링 기법 - Over Sampling 편 오늘은 데이터 불균형 해소 방법에 대해 포스팅하려고 합니다. 데이터 불균형은 sampling(over sampling, u... blog.naver.com Under Sampling Under Sampling 에는 대표적으로 4가지 방법이 있습니다. 차례대로 알아보겠습니다. Random undersampling Tomek links Condensed Nearest Neighbor Ru

모델을 통한 데이터 불균형 문제 해결 - 비용기반 학습 / 단일 클래스 분류기법 [내부링크]

앞선 2개의 포스팅에서는 sampling을 통해 즉, 데이터를 조정하여 데이터 불균형 문제를 해결하는 방법에 대해서 알아봤습니다. 이번 포스팅에서는 모델을 통한 데이터 불균형 문제를 해결하는 방안에 대해서 알아보려고 합니다. 비용기반 학습(Cost sensitive learning)과 단일 클래스 분류기법(Novelty detection)에 대해 소개합니다. ** 본 포스팅은 pc 버전에 최적화 되어 있습니다. ** ** 본 포스팅은 고려대학교 김성범 교수님 유튜브 강의를 참고해 정리한 글입니다. ** 데이터 불균형 해소를 위한 여러가지 샘플링 기법 - Over Sampling 편 오늘은 데이터 불균형 해소 방법에 대해 포스팅하려고 합니다. 데이터 불균형은 sampling(over sampling, u... blog.naver.com 데이터 불균형 해소를 위한 여러가지 샘플링 기법 - Under Sampling 편 이전 포스팅에서 데이터 불균형 해소 방법 중 over sampling

2022 빅콘테스트 최종 발표심사 후기 [내부링크]

바로 어제.. 2022 빅콘테스트 발표 결과가 나왔다. 결과창 보자마자 웃고 있길 바랬는데 후... 역시 공모전 수상의 길은 멀고도 험한 것 같다. 왜 불합인지는 납득이 잘 안된다^^ 발표도 잘했고, 질의도 잘 받았는데 우리 팀은 데이터 분석할 때 모델링 보다는 전처리에 신경을 많이 썼다. 그래서 그 과정을 발표에 반영하려고 노력했고 심사위원분들도 전처리 과정이 합리적으로 잘 이루어졌다고 하셨다. 질문도 거의 전처리 부분에서 하셨고, 답도 미리 준비해갔던지라 잘 했다. 다만, 질문이 적극적이지 않았던 점이 좀 아쉬웠다. 공격적인 질문이 거의 없었던 것 같다. 그저 “잘했다”가 아니라 좀 더 적극적으로 질문해주셨다면 우리가 왜 이런 방향으로 분석을 했는지 설명하고, 얼마나 고민해서 결정한 방향인지 드러낼 수 있었을 것 같은데 그런 기회가 주어지지 않았던 것 같다. 예를 들면 앞 팀한테 했던 범주형 변수 인코딩을 할때 왜 원핫인코딩을 사용했는지, 불균형 데이터를 해결하기 위해 왜 sam

카이제곱 검정을 하는 3가지 경우 : 적합도, 독립성, 동질성 검정 + python 실습 [내부링크]

카이제곱 검정은 분할표에서 빈도를 비교하는 과정을 통해 검정을 수행합니다. 과정은 모두 동일하지만 목적에 따라 3가지 검정을 수행할 수 있습니다. 이번 포스팅에서는 카이제곱 검정을 하는 3가지 경우에 대해서 정리해보겠습니다. 적합도 검정(Goodness of fit test) 독립성 검정(Test of Independence) 동질성 검정(Test of Homogeneity) ** 본 포스팅은 pc 에 최적화 되어있습니다. ** 1. 적합도 검정 Goodness of fit test 하나의 범주형 변수에 대해 검정을 시행 실험에서 실제로 얻어진 관측값들의 분포가 예상한 이론의 분포와 같은지 검정하는 방법 (실제 분포 vs 이론적 분포) 예제를 통해 방법을 알아봅시다. 상자 안에 흰공, 검은공, 빨간공이 같은 비율로 들어있다고 가정합시다. 실제 실험을 통해 공이 뽑히는 비율에 대해 알아봤을 때, 결과는 아래와 같습니다. 흰공 검은공 빨간공 합계 관찰 20 10 60 90 위 결과를 바

앞으로의 포스팅 순서 [내부링크]

궁금한 분이 계실지 모르겠지만! 통계나 머신러닝/딥러닝 포스팅을 할 때 나름 순서를 생각하면서 올리고 있었는데요! 궁금해하실 분들을 위해(?) 제 포스팅 계획도 정리할 겸 포스팅 순서를 적어보려고 합니다. 공부해보고 싶은 내용이 있다면 추천해주셔도 좋아요ㅎㅎ 1. 로그 데이터를 이용한 Funnel 분석 with python 2. t test (one-sample t test / two-sample independent t test / paired t test) 이론 + 파이썬 3. ANOVA 이론 + 파이썬 4. 회귀 분석 예제 with python 5. 로지스틱 회귀 분석 예제 with python ** 4,5는 할까 말까 고민중입니다..!ㅎㅎ 6. Anomaly Detection 이론 - Autoencoder 7. Autoencoder pytorch 실습 8. 시계열 분석 관련 포스팅 - 이건 학부 수업때 안들어서 공부해야해요!ㅋㅋㅠㅠ 9. 자연어 처리 시리즈 시작 - 아하 님의

쇼핑몰 웹 로그 데이터를 이용한 Funnel 분석 - python 실습 &로그 데이터 분석 방법 [내부링크]

오늘은 쇼핑몰 웹 로그 데이터를 이용한 Funnel 분석을 진행해보려고 합니다. Funnel 분석이란? 퍼널 분석 퍼널 분석을 하기 전에, 퍼널 분석이 무엇인지 먼저 알아봅시다. 퍼널 분석은 웹 사이트에서 특정 결과에 도달하는데 필요한 단계와 각 단계를 통과하는 사용자 수를 파악하기 위한 방법입니다. 각 단계 별 사용자 수를 통해 사용자의 흐름을 시각화했을 때, 깔때기 모양과 비슷하여 Funnel 분석이라는 이름이 붙여졌습니다. Funnel 분석을 이용하면 각 단계에 대한 고객 분석이 가능합니다. 단계 별로 고객의 이탈률을 확인하여, 이에 대한 조치를 취할 수 있습니다. 오늘 포스팅에서 로그데이터 전처리 과정부터 고객 분석까지 진행해보려고 합니다. Funnel 분석 실습 with Python 사용 데이터는 아래 링크에서 다운 받을 수 있습니다. kaggle에서 제공하고 있는 데이터 입니다. 데이터 용량이 너무 커서 2019-Nov.csv 데이터만을 이용해서 분석하였습니다. eComm

t- test 평균 검정 (One-sample t test / Two-sample independent t test / paired t test) with Python [내부링크]

이번 포스팅에서는 모집단의 평균을 검정하는 방법인 t-test에 대해서 알아보겠습니다. 모집단의 평균 검정을 하는 방법에는 크게 3가지가 있습니다. 개념을 먼저 알아보고 python 예제를 통해 검정을 진행해보겠습니다. 단일표본 t 검정 (One-sample t test) :: scipy.stats.ttest_1samp 독립표본 t 검정 (Two-sample independent t test) :: scipy.stats.ttest_ind 대응표본 t 검정 (paired t test) :: scipy.stats.ttest_rel ** 본 포스팅은 pc에 최적화 되어있습니다.** 1. 단일표본 t 검정 One-sample t test 하나의 모집단에 대한 가설 검정 (모집단 1개) 단일 모집단에서 관심이 있는 연속형 변수의 평균값을 특정 기준값과 비교할 때 사용 모집단이 정규분포를 따른다는 가정하에 검정통계량값을 계산 (정규성 가정) 일반적으로 표본크기 > 30 일 경우, 중심극한 정리

python 등분산성 검정: F 검정, 바틀렛, 레빈, 플리그너 검정 scipy.stats.bartlett levene fligner [내부링크]

이전 포스팅에서 통계 검정(모수 검정)을 하기 전 많이 확인하는 중요한 가정 3가지가 있다고 했었는데요. 정규성, 독립성, 등분산성 이였습니다. 앞선 2개의 포스팅에서는 python을 이용한 정규성, 독립성 검정 방법에 대해 알아보았습니다. 오늘은 마지막으로 등분산성 검정에 대해 알아보겠습니다. 정규성 검정, 독립성 검정 방법은 아래 포스팅을 참고해주세요! * 본 포스팅은 pc에 최적화 되어있습니다. Python 정규성 검정: Q-Q plot & 통계 검정 with Scipy 거의 모든 모수적 검정들은 정규성, 독립성, 등분산성을 가정합니다. (eg. independent two sample t-test,... blog.naver.com python 독립성 검정: 카이제곱 독립성 검정 scipy.stats chi2_contingency() 저번 포스팅에서 통계 검정을 하기 전 확인해야 할 중요한 가정 3가지가 있다고 말씀드렸는데요. 정규성, ... blog.naver.com 등분산성

11월 4주차 일상 :: 루틴에 갇혀버린 요즘 [내부링크]

11월 4주차 일상 무료해무료해...요즘 진짜 인생노잼 시기~ 왜냐하면 틀에 박힌 일상을 살고 있기 때문.. 언제쯤 재미난 나날들이 찾아올까? 12월 14일 이후?! 왜냐구? 지금 세운 계획이 다 끝나는 날이거덩.. 자문자답 해버리기~ㅋㅋ 후딱 일주일 간의 기록 남겨보겠어용 월요일! Valor Legends 이게 뭐냐면.. 빅콘 회의하러 학교 갔다가 집에 돌아오는 길에 인스타에서 강아지 지키기(?) 게임 광고하길래 심심해서 깔았는데 알고보니 속은거였엉 강아지만 지키고 싶은데 자꾸 전투를 시키더라고.. 어떻게 하는지 몰라서 아무거나 누르고 있는데 옆에서 오빠가 보더니 이런 게임은 말야~ 하면서 대신 해주는데 처음으로 게임하는 오빠가 멋있어보였지 뭐야?ㅎ,,ㅎ 하지만 한 시간 뒤 폰에서 removed..ㅋㅋ 화요일에는 집에서 나름 생산적으로 보냈다. 졸업 논문 코드 드뎌 끝! 사실 논문이라고 이름붙여도 될지 살짝 의문..(?)ㅋㅋ 논문 코드가 끝났다는 사실에 기뻐서 밤에 잠 안자고 일본

1cm 경제학 by 연합인포맥스 한컷 경제팀 :: 초보자도 쉽게 읽는 경제 기초 책 [내부링크]

11월 독서 - 1cm 경제학 원래 주식 책을 읽어보려고 했는데 너무 어렵고, 바쁜 시기에 공부까지 하며 읽으려니 엄두가 나지 않아서 조금 쉬운 책을 읽기로 했다. 도서관에서 경제 코너 보다가 발견한 책인데 쉽게 읽을 수 있을 것 같아서 골랐다. 1cm 경제학 저자 연합인포맥스 한컷경제팀 출판 다산3.0 발매 2017.05.29. 경제에 대한 전반적인 기초 지식을 쌓을 수 있게 도와주는 책이다. 책을 읽기만하면 의미가 없을 것 같아서 기억하고 싶은 부분 정리하며 읽었다. 희소성의 원리: 수량이 적을수록, 갖기 힘든 것일수록 더 갖고 싶어지는 심리 상대적 희소성: 희소성은 사람에 따라 상대적일 수 있음 기회비용: 선택으로 인해 포기된 기회 가운데 가장 큰 가치를 지닌 것 혼합 경제 체제(시장 경제+계획 경제): 사유 재산제, 시장 경제 기본 + 정부가 일정부분 경제에 관여하는 경제체제 정부가 기업의 독점을 막고, 공기업을 운영해 경제가 원활하게 돌아가도록 함 시장 경제의 부작용 억제

Scipy를 이용한 확률분포 랜덤 샘플 생성하기 / pdf pmf cdf 그래프 그리기 [내부링크]

오늘은 scipy를 이용하여 다양한 분포의 랜덤 샘플을 생성하는 방법에 대해 알아보겠습니다. 더불어, 각 분포의 확률 밀도 함수(pdf), 확률 질량함수(pmf), 누적분포함수(cdf)를 그리는 방법도 알아봅니다. Scipy 패키지 알아보기 Scipy 패키지는 각종 수치 해석 기능을 제공하는 파이썬 패키지로, scipy.stats 패키지를 이용하면 여러가지 통계 분석을 할 수 있습니다. 1. 확률분포 객체 생성 Scipy에서 확률 분포 기능을 사용하려면, 우선 확률분포 객체를 생성해야 합니다. 확률분포 객체를 생성하기 위한 메서드에는 아래와 같은 것들이 있습니다. 메서드의 인자에는 각 분포의 모수를 입력해주면 됩니다. 분포 종류 확률분포 메서드 모수 이산형 베르누이 분포 bernoulli p 이산형 이항 분포 binom n, p 이산형 기하분포 geom p 이산형 음이항 분포 nbinom n, p 이산형 초기하 분포 hypergeom N,m,n 이산형 포아송 분포 poisson mu

2022년 11월 마무리 [내부링크]

️ 2022.11 마무리 10월 마지막날 11월 목표를 남겼었다. 2022년 11월에 이뤄볼 것들 ️ 2022.11 목표 이번달이 시작되었으니 이번 달에 이뤄볼 것들을 적어보자! 1. 빅분기(실기) 시험 준비 ... blog.naver.com 하나씩 쓰다보니까 많아져서 너무 많이 썼나? 싶었는데 한 달 후에 보니 그래도 꽤 많이 한 것 같다! 1. 빅분기(실기) 시험 준비 - 시험 12.03(토) 준비를 많이 하진 않았지만 그래도 하긴 했으니까 성공이라고 할래! 시험 잘보고 오겠습니다용ㅎㅎ 잘 볼 수 있겠지..? 고럼고럼 2. 졸업 논문 쓰기 - 틈틈이 조금씩 쓰기 일단 코드는 다 돌리고 결과도 봤으니 얘도 성공! 빅분기 시험 끝내고 쓰기 시작하려고 한다. 코드 다 돌렸으면 끝난거나 다름 없지 암.. 3. 코딩 테스트 스터디 - 코테 강의 듣기 코테 강의 결제하고 문제 조금 풀었다. 문제 많이 안 푼것 같은데도 은근히 뒤로 갈수록 잘풀리는게 느껴져서 기분 좋았다. 돌아보니 이번 달에

11월의 결실이였던 이번주 :: 빅콘 2차, 빅분기 실기 [내부링크]

블챌은 끝났지만! 한주를 기록하는게 좋아서 남기는 이번주 일상 이번주엔 11월 동안 준비했던 빅콘테스트 발표, 빅분기 실기 시험이 있었다. 11월은 뭔가를 준비만 하고 결과물은 하나도 없었던 달이지만, 12월엔 결과가 나오는 달이닷ㅎㅎ 월-수는 이번주에 일이 많으니 체력 아껴야 한다고 발표준비밖에 안했당 ?ㅋㅋㅋㅋ 통계금쪽이들 목요일엔 발표하러 서울 갔다왔당 우리팀은 5번째! 시간이랑 순서랑 딱 좋았던 것 같당 발표도 질의도 꽤 잘한 것 같다!!! 제발 수상했으면 좋겠당..c 다음주까지 어떻게 기다린담ㅎㅎ 사실 하고 싶은말은 많지만 아낄래..ㅋㅋ 수상하면.. 수상하면 하자 To Be Continue... 진짜 다들 너무너무 고생했어ㅠㅠㅠㅠ 얼른 회식하러 가자!!! 토요일! 오늘은 빅분기 실기 있는 날~ 어제 월드컵 보고 자서 아침에 넘 힘들었당..ㅎ 우리나라 16강 진출 대박~ 필답형은 10점만 받자! 였었는데 10점은 넘긴것 같고 작업형1은 다 맞자! 였는데 하나 실수 해버렸다.

11월 2주차 일상 :: 전주 대전 여행, 고등학교 친구들 만나기 [내부링크]

저번주에 못 쓴 11월 2주차 일상 남기기! 이번주는 월요일부터 참 바빴다. 월요일 - 수요일 전주 대전 여행이 잡혀있었기 때문! 광명역에서 ktx 타고 전주로 가려는데.. Previous image Next image 오마이갓! 전날 무궁화호 탈선 때문에 ktx가 연착되기 시작했다.. 처음엔 20분, 그다음엔 50분, 점점 늘어나서 190분까지... 여행 갈 수 있는건가 싶었다. 그래도 어찌저찌 전주에 도착하긴 했다. 예상 시간보다 2시간 반 정도 늦게ㅎㅎ 덕분에 일정에도 차질이 생겼다. 한옥미담 전라북도 전주시 완산구 동문길 54-41 도착해서 숙소에 짐 두러 들렸는데 주인분께서 웰컴 과일을 주셨당 Ktx 연착돼서 점심도 못먹은 우리는.. 너무너무 배고팠던 나머지 Ktx급 속도로 먹어치움ㅎㅎ 머물렀던 곳은 한옥미담 이라는 숙소인데 아담하지만 하룻밤 자기에 좋았다! 친구들이랑 놀러갈때 가보시길 추천드려요~ 우리의 첫끼! 만두 + 칼국수 배고플때 먹어서 꿀맛이였당 전주는 남쪽 마을이

Python 정규성 검정: Q-Q plot & 통계 검정 with Scipy [내부링크]

거의 모든 모수적 검정들은 정규성, 독립성, 등분산성을 가정합니다. (eg. independent two sample t-test, ANOVA, 회귀분석) 그렇기 때문에 가설 검정을 수행하기 전에는 꼭 이러한 가정이 만족되는지 확인하는 작업이 선행되어야 합니다. 오늘은 정규성 검정 방법에 대해서 알아보겠습니다. * 본 포스팅은 pc에 최적화되어 있습니다. 정규성 검정 방법 정규성 검정은 데이터가 정규분포를 따르는지 검정하는 것을 의미합니다. 보통 표본이 30개 이상이면, 정규성 조건을 만족한다고 가정합니다.(중심극한정리) 하지만 표본이 30개 이상임에도 데이터 특성에 의해 정규분포를 따르지 않을수도 있기에, 정규성 검정을 진행합니다. 정규성 검정 방법입니다. 시각화 Q-Q plot box plot histogram 통계 검정 카이제곱 정규성 검정(Chi-square normality test) : scipy.stats.chisquare 샤피로-윌크 검정(Shapiro-Wilk tes

11월 셋째주 일상 :: 보기엔 노잼이지만 나름 알찼던 [내부링크]

11월 셋째주 마무리 하려고 일주일 간 찍은 사진을 봤는데 ... OMG 어떻게 이렇게 재미없게 보냈지 일주일동안 사진 5장 찍었네^^ 5장으로 어떻게 내 일주일을 설명하겠냐만! 그래도 함 해보자면 월요일엔 공모전 회의하러 학교 갔다왔구! 화요일에 집콕! 그리고 수요일엔 포레스트아웃팅스 다녀왔다. 포레스트아웃팅스 송도점 인천광역시 연수구 청량로 145 포레스트아웃팅스 송도점 브런치에 10만원을 태우는 우리.. 난 아무리 생각해도 여기 너무 비싼 것 같아,, 연어 샐러드는 첨 먹어봤는데 연어가 좀 비리다. 그래도 토마토 파스타랑 잘 어울려서 나머지는 먹을만 했다! 소금빵이랑 앙버터(?) 쿠키는 다 맛있당~ 크림 파스타랑 토마토 파스타 주문했다. (자세한 메뉴명은 까먹음~~) 원래 토마토 파스타 더 좋아하는데 크림 파스타가 더 맛있었던 건 크림 파스타 맛집이라는 뜻인가..! 그리고 이건 엄마가 풍수지리 영상을 보고 들여놓은 삼족두꺼비....ㅋㅋㅋㅋ 돈이 들어온다는데 과연..? 목요일엔

python 독립성 검정: 카이제곱 독립성 검정 scipy.stats chi2_contingency() [내부링크]

저번 포스팅에서 통계 검정을 하기 전 확인해야 할 중요한 가정 3가지가 있다고 말씀드렸는데요. 정규성, 독립성, 등분산성 입니다. 오늘은 그중 하나인 독립성 검정 방법에 대해서 알아보겠습니다. 정규성 검정에 대한 설명은 아래를 참고해주세요! * 본 포스팅은 pc 에 최적화 되어있습니다. Python 정규성 검정: Q-Q plot & 통계 검정 with Scipy 거의 모든 모수적 검정들은 정규성, 독립성, 등분산성을 가정합니다. (eg. independent two sample t-test,... blog.naver.com 카이제곱 독립성 검정 Chi-square test of independence 독립성 검정을 할 때는 카이제곱 독립성 검정을 사용합니다. 카이제곱 독립성 검정은 2개의 범주형 변수가 서로 연관성이 있는지, 즉 서로 독립인지를 통계적으로 판단하는 방법입니다. 예를 들어, 아래 두 변수가 관련이 있는지 알아볼 때 카이제곱 독립성 검정을 사용합니다. 변수1 : 학력(초

2022년 11월에 이뤄볼 것들 [내부링크]

️ 2022.11 목표 이번달이 시작되었으니 이번 달에 이뤄볼 것들을 적어보자! 1. 빅분기(실기) 시험 준비 - 시험 12.03(토) 2. 졸업 논문 쓰기 - 틈틈이 조금씩 쓰기 3. 코딩 테스트 스터디 - 코테 강의 듣기 (자세한 건 미정) 4. 주식 책 1권 읽기 - 주식 공부 5일 완성 5. 블로그 통계 포스팅 - 일주일 2회 포스팅 - pytorch RNN까지 마무리 - Data Analysis 시작 6. 열심히 놀기 - 야구 보러가기 11.02(수) - 전주/대전 여행 11.07~09 생각보다 할 게 많아 보이넹ㅎㅎ 중요도는 1부터 순서대로! 호옥시나 공모전 1차도 합격하면 공모전 pt 준비도 해야돼...! 그래도 붙게 해줘~c 10월에 2주정도 쉬었으니 11월엔 열심히 살아보도록 하겠습니닷c

[주식 공부] #1 순이익 ROE ROA 시가총액 PBR PER EPS [내부링크]

주식 책을 읽어보려고 했는데 생각보다 어렵더라구요. 필기없이 읽다가는 머리에 남는게 하나도 없을 것 같아서 조금씩 기록하려고 합니다! 주식 마스터 하려면 몇 년은 걸릴 듯하니.. 조금씩 부담없이 해보려고 합니다. 언젠가 할 수 있겠죠ㅎㅎ 100세 시대니까 50전까지만 하면 성공이라고 생각합니다..ㅋㅋㅋㅋ 아직 1일차니까 같이 할 분은 팔로미!!!ㅋㅋ 1. 순이익 기업은 자본 + 부채로 이루어진다. 기업의 1년간 순이익은 어떻게 계산할까?수익에서 여러 비용들을 빼줘야 한다. 매출액이 50억이라고 가정했을 때 순이익은 다음과 같이 계산한다. 매출액(수익) [50억] - 매출 원가 [20억] 매출 총이익 [30억] - 판매비 / 관리비 (판관비) [10억] 영업 이익 [20억] - 기타 금융비용 [5억] = 순이익 [15억] 이렇게 얻은 순이익 15억은 다시 회사의 자본으로 쌓이거나 배당을 통해 주주들에게 환원된다. 2. ROE / ROA 기업 이익의 질을 평가하는 지표 1000억을 들여

RNN 모델로 CIFAR10 데이터 분류하기 Part2. RNN 설계 & Validation 기반 Train / Test with Pytorch [내부링크]

오늘은 저번 포스팅에 이어서 RNN 모델로 CIFAR10 이미지 데이터를 분류해보겠습니다. Part1 글을 아직 못 보신 분들이라면 꼭 아래 글 먼저 보시길 권해드립니다. Part1에 이어서 4. RNN 모델 정의부터 시작해봅시다. ** 본 포스팅은 pc버전에 최적화되어 있습니다. RNN 모델로 CIFAR10 이미지 분류하기 Part1. 전처리 Augmentation / DataLoad with Pytorch 오늘은 "CNN을 활용한 MNIST 데이터 분류하기"에 이어 "RNN 모델로 CIFAR1... blog.naver.com RNN 모델로 CIFAR-10 이미지 분류하기 4. RNN 모델 정의 원래 RNN은 순차 데이터에 적용이 되는 모델인데요. 예시에서는 이미지 데이터에 RNN을 적용합니다. 순차 데이터가 아닌 이미지 데이터에 어떻게 적용을 할 수 있을까요? 이미지를 가로 방향으로 보면 가로 길이만큼 여러 픽셀이 있습니다. 이러한 픽셀(가로 한줄)들이 세로로 쌓이면 하나의 이미

SVM kernel :: polynomial vs RBF 차이점 [내부링크]

얼마전에 블로그에 어떤 분이 질문을 남겨주셨습니다. 그 부분에 대한 답을 공유해보려고 합니다. * 본 포스팅은 PC에 최적화되어 있습니다. 질문: SVM의 kernel parameter에서 RBF와 Polynomial를 사용할 때 decision boundary 차이점? 시작하기 전에, SVC()의 기본값은 아래와 같습니다. 참고사항도 같이 정리해두겠습니다. from sklearn.svm import SVC SVC(kernel='rbf', C=1, gamma=1/n_feature) # default kernel : 커널 함수 종류 지정 'linear', 'poly', 'rbf', 'sigmoid', 'precomputed' 중에 지정 가능. default = 'rbf' * precomputed : 미리 계산된 거리 값을 입력 특성으로 사용 C : regularization 정도 지정 / 결정 경계선의 마진(margin)을 결정하는 하이퍼 파라미터 default = 1 C 클수록 마진

2022 한국시리즈 문학 경기장 그린존 준비물/후기/원정팀 마킹 [내부링크]

원래 야구장 잘 안가는데 올해 드디어 내가 응원하는 키움이 한국시리즈에 올라갔다! (But, 난 인천 토박이..ㅋㅋㅋ 이런 모순이!) 기념으로 한국 시리즈 2차전 보러 문학경기장에 다녀왔다. 구. 문학경기장 / 신. SSG 랜더스필드 But, 나는 문학경기장이 익숙해~ 문학경기장 그린존 시야 / 준비물 / 입장 팁 자리는 그린존으로 잡았다. 그린존은 처음이라 살짝 걱정됐는데 자리를 잘 잡아서 보통 좌석보다 만족스러웠다. 한국시리즈 그린존 처음 가시는 분들을 위해 챙겨가면 좋을만한 것들을 말씀드리자면 돗자리, 담요, 핫팩, 보조배터리, 휴지, 겉옷 두껍게! 이 정도면 좋을 것 같아요. 생각보다 춥고 바람 많이 불더라구요. 앞자리에는 텐트 못치는 것도 알아두세용! 경기 시작 시간은 6:30 pm 이였고 4:30부터 입장 가능했다. 4시쯤부터 줄서서 Gate7로 입장했는데 줄이 많이 길지 않아서 좋은 자리 잡을 수 있었다. Gate 입장하자마자 런해서 좋은 자리 get!! 줄이 많이 길지

11월 첫째주 일상 : 이번주에 나 뭐했지? [내부링크]

한 주가 또 너무 빠르게 지나가버렸당 이번주는 돌이켜보니 한 게 없네ㅎㅎ 그래도 기록용으로 남기는 포스팅! 월요일 전날 캠핑 다녀와서 힘들어서 침대와 한몸~ 화요일 야구장 가기 전 날이라 공부 조금 해보겠다고 블로그 포스팅 하나했당 Pytorch 마무리 포스팅이였는데 생각보다 너무 힘들어서 체력 소모가 컸다. 수요일 수요일은 일주일 중 가장 활동적이였던 날! 완전 오랜만에 야구장 갔다왔다. 야구 끝나고 뒷풀이로 맥주 마시고 노래방갔다가 새벽 3시에 집 도착! 그리고 6시에 일어나서 언니 역까지 데려다주고 돌아와서 다시 잤당 목요일 수요일의 여파로 목요일도 침대와 한몸~ 오메.. 세상 여유로웠네.. 이러면 안돼 유정~~~ 금요일 이날은 그래도 책상에 앉았다. 코딩 연습 조금 하고 공부 겸 포스팅도 하나 하고 학교 쉅도 듣고 독서도 쪼끔했다. 하지만 아직 각잡고 공부할 마음이 안생겨서인지 너무나 비효율적이였던 느낌~ 토요일 토요일엔 엄마 아빠랑 집 앞 카페 갔다왔다. 바다쏭이라고 우리가

기쁜 소식 기록하기, 2022 빅콘테스트 1차 합격 [내부링크]

이번주 월요일부터 수요일까지 여행 다니느라 긴장할 새도 없이 다가와버린 2022 빅콘테스트 결과 발표날! 3시까지는 아무 생각 없었는데 3시 55분 되자마자 떨려 죽는 줄 알았다. 결과는.. 합격!! 작년 1차 경쟁률이 1000:18이라고 해서 큰 기대는 안했지만 그래도 너무 열심히 준비했기에 기대를 완전히 안 할 수는 없었다. (제출일 다가와서는 매일 4시쯤 자서 팬더 됐었어 ㅠㅠ) 1차 합격 전에는 1차만이라도 합격하면 얼마나 좋을까 라고 생각했지만 1차를 합격한 이상... 최합까지도 노려봐야지!ㅎㅎㅎㅎ (역시 사람 마음이란..ㅋㅋ) 정확한 발표일자는 안나왔는데 저기 어디쯤이니 이제부터 준비해야 할 듯하다. 빅분기 실기도 12/3에 있는데 이제 진짜 다시 바빠질 것 같다..ㅠㅠ 아무래도 블로그 포스팅은 뒷전이 될 것 같당.. 그래도 현생이 더 중요하니까..ㅎㅎ 너무 피폐해졌다 싶을 때 한 번씩 찾아오겠습니당 (완전히 떠나는 건 아니에요!!ㅎㅎ) 블로그 꾸준히 하기란 너무 힘든 일

10월 마지막주 주간일기 :: 막학기생의 백수 같은 삶 [내부링크]

벌써 10월이 끝났다니. 역시 놀면 시간이 잘간다. 10월까지만 놀고 11월부터 다시 현생 살려고 했는데어쩌다 보니 11월에 전주/대전 여행이랑 자잘한 약속들이 많이 잡혀서 둘째 주까지 조금만 더 쉬려고 한다~ 역시 노는게 제일 좋고 행복하다. (졸업 준비는 미래의 내가 하겠지^^) 그럼 이제 일주일동안 놀고 먹은 기록을 남겨볼까 월요일 안국역 - 땡스오트 안국 월요일엔 우영이 만나러 안국역 갔다왔다. 카페에서 수다떨고 헤어졌는데 취업 관련 얘기만 나오면 둘다 우울해져서 웃펐다는..ㅋㅋㅋㅋ 으아 누가 우리 좀 데려가줘.. 화요일 백수씨 심야식당 https://m.place.naver.com/restaurant/1224219974/photo?entry=plt 화요일엔 공모전 뒷풀이하러 학교 갔다왔다. 이날 첨으로 학교 앞에 있는 백수씨네 갔다. 떡볶이가 특히 맛있다. 사진을 안찍은게 아쉽군! 우리의 다음 모임은 1차 합격 축하파티(?) 제발 1차 통과시켜주세요c 백수씨심야식당 서울특별

RNN 모델로 CIFAR10 이미지 분류하기 Part1. 전처리 Augmentation / DataLoad with Pytorch [내부링크]

오늘은 "CNN을 활용한 MNIST 데이터 분류하기"에 이어 "RNN 모델로 CIFAR10 이미지 분류하기" 실습을 해보려고 합니다. RNN 모델은 보통 순차 데이터에 사용됩니다. 사실 처음에는 뉴스 기사 주제 분류하기를 진행하려고 했으나, 자연어 처리가 복잡하여 RNN 모델보다 전처리에 집중되는 느낌이 들더라구요. 그래서 전처리가 비교적 단순한 CIFAR10 이미지 분류를 통해 RNN 모델에 대해 알아보려고 합니다. ** 본 포스팅은 pc버전에 최적화되어 있습니다. CNN을 활용한 MNIST 데이터 분류 예제 :: Part2. CNN 모델 구현하기 with Pytorch 저번 포스팅에서 CNN 구조에 대해서 알아보았습니다. 이번에는 Pytorch를 이용해서 CNN 모델을 구현... blog.naver.com RNN 모델로 CIFAR-10 이미지 분류하기 CIFAR-10 오늘 사용할 데이터인 CIFAR-10 데이터에 대해 알아봅시다. torchvision의 datasets에서 제공

안국역 그릭요거트 디저트 카페 :: 땡스오트 안국 [내부링크]

c2022.10.24(월) 꽤 오랜만에 서울 다녀온 날! 서울 맛집을 꿰고 있는 친구가 예전부터 가고 싶었던 그릭요거트 맛집이 있다고해서 다녀왔다. 가보니까 분위기도 완전 인스타 감성이고 맛도 괜찮아서 완전 간단하게 후기 남기려고 한다. 맛있는데 왜 완전 간단하게지? 사실 까먹고 사진을 안 찍었다..ㅠㅠ 찍어서 이쁘게 포스팅했어야 하는건데.. 블로거의 자세를 갖추자 유정..ㅋㅋㅠㅠ 아무튼 리뷰 시작~ 그릭요거트가 맛있는 집 땡스오트 안국 영업시간 : 매일 11:00~20:00 전화번호 : 0507-1392-0891 우리는 평소에 무화과 러버이기 때문에!! 무화과가 들어간 피그타치오, 피그 앤 베리즈 주문했당 메뉴판에는 없는데 말씀드리면 만들어주십니다! 무화과 철이 지나기 전에 얼른 드셔보세요ㅎㅎ 친구랑 종암 자취하던 시절에도 카공하고 가볍게 저녁 먹고 싶을 때 그릭데이 가서 요거트 많이 먹었었다. 한동안 그릭데이에 빠져서 그릭데이 요거트만 찾았다. 그릭데이만한 요거트 집 찾기 정말

캠핑 요리 :: 쿠팡 토마호크 스테이크 시즈닝 순서 내돈내산 후기 [내부링크]

c️ 2022.10.27~30 , 가을 캠핑 (당분간은 캠핑 포스팅 하겠습니당ㅎㅎ) 가족들이랑 엄청 오랜만에 캠핑하러 왔다! 한때는 캠핑족이라고 말할 수 있을만큼 주기적으로 다녔는데 고등학교 때 바빠지면서 자연스럽게 안 다니게 됐던 것 같다. 그래서 완전 오랜만에 온 캠핑! 첫 날엔 고기 파티~ 삼겹살, 목살은 기본이고! 이번엔 특별히 토마호크를 가져왔다. 급하게 주문하느라 쿠팡에서 샀는데 맛이 괜찮아서 후기 남기려고 한당 미트엔조이 미국산 토마호크스테이크 (냉장) COUPANG link.coupang.com 그냥 구우면 되는 줄 알았는데 시즈닝을 해야한대서 처음으로 토마호크 시즈닝에 도전했다. 나의 첫 토마호크 시즈닝 도전기 날 것의 토마호크 영접!ㅋ_ㅋ 먼저 키친타올로 눌러서 핏물을 빼줬다. 그리고 올리브유 바르기 구석구석 잘 발라줍니다~ 다음! 시즈닝 가루 바르기 마지막으로 20분간 재우기 처음 해봤는데 생각보다 간단했다. 누구나 할 수 있는 토마호크 시즈닝입니다ㅎㅎ 토마호크

감성 캠핑 오로라 가루 불멍 추천템 내돈내산 후기 [내부링크]

감성캠핑 필수템 오로라 가루 오랜만에 가는 캠핑에 설레서 준비한 아이템! 캠핑 관련 프로그램에서도 많이 나왔던 오로라 가루를 드디어 직접 사용해봤다. 파인벨리 오로라 가루를 구매했다. 특별한 이유는 없고 네이버에 오로라 가루 검색해서 제일 저렴해보이는 걸로 주문했다. 사진은 2개 사용하고 찍은거라 8개지만 원래 25g 10개에 7900원 상품인 상품이다. 배송비까지 하면 약 10000원 정도! 한 차례 먹부림을 끝내고 불멍 시작 사실 처음에 아무생각 없이 빨간색 불 보고 있다가 갑자기 오로라 가루가 생각났다!! (야심차게 준비해가고는 까먹을뻔ㅋㅋㅋㅋ) 바로 오로라 가루 투여하기!! 순식간에 오로라? 도깨비불이 생겼당ㅎㅎ 진짜 너무 이쁘다! 불멍 만족도 200% 오로라 가루를 넣을 땐 봉지 통째로 넣어도 되고 가루만 따로 넣어도 된다. 초반 1~2개는 봉지째로, 3개부터는 가루만 따로 넣으라고 설명이 되어있다. 나는 가루만 따로 넣었다. 지속시간은 25g당 20~25분 정도라는데 체감

베스트 셀러 역행자 by 자청 :: 경제 독립 나도 이룰 수 있을까? [내부링크]

얼마 전 책을 꾸준히 읽어보겠다고 다짐한 나. 적어도 한 달에 한 권은 읽어보겠다는 마음으로 첫 번째 책을 골랐다. 몇 달 전부터 베스트 셀러로 회자되고 있는 자청의 "역행자"라는 책이다. 역행자 저자 자청 출판 웅진지식하우스 발매 2022.06.03. 이 책에서는 인생을 공략하는 단계를 7가지로 소개한다. 순서대로 올바른 방법으로 따랐을 때 비로소 자유를 얻을 수 있다고 설명한다. 자의식 해체 정체성 만들기 유전자 오작동 뇌 자동화 역행자의 지식 경제적 자유를 얻는 구체적 루트 역행자의 쳇바퀴 사실 한 번 읽고 모든걸 이해하기는 쉽지 않은 책이라는 생각이 든다. 물론 책 자체로 보면 문장이 어려워서 잘 안 읽히거나 이해가 힘든 건 아니다. 하지만 저자가 전달하고자 하는 모든 내용을 완벽하게 흡수하고 실천하기 위해서는 몇 번 더 읽어봐야 할 것 같다. 한 번 읽었을 때 기억에 남는 내용을 정리해본다. 무의식 속 불가능을 컨트롤 하는 것이 중요하다. 자기 자신을 객관적으로 아는 것이

CNN을 활용한 MNIST 데이터 분류 예제 :: Part2. CNN 모델 구현하기 with Pytorch [내부링크]

저번 포스팅에서 CNN 구조에 대해서 알아보았습니다. 이번에는 Pytorch를 이용해서 CNN 모델을 구현하고 MNIST 데이터를 분류해봅시다. ** 본 포스팅은 pc버전에 최적화되어 있습니다. CNN을 활용한 MNIST 데이터 분류 예제 :: Part1. CNN 구조 이해하기 저번시간에는 softmax 회귀모델을 이용해서 MNIST 데이터를 분류해봤는데요. 오늘은 CNN 모델을 이... blog.naver.com CNN으로 MNIST 분류하기 저번 포스팅에서 구현하기로 했던 CNN 모델 구조는 아래와 같습니다. 구현해봅시다. 1번 레이어 : Conv + ReLU + POOL 합성곱(in_channel = 1, out_channel = 32, kernel_size = 3, stride=1, padding=1) + 활성화 함수 ReLU + 맥스풀링(kernel_size=2, stride=2) 2번 레이어 : Conv + ReLU + POOL 합성곱(in_channel = 32, out

송도 원데이클래스 이루리아카데미 :: 바리스타 핸드드립 체험 후기 [내부링크]

️ 2022.10.19 (수) 엄마와 함께한 일일 바리스타 체험기 바빴던 일들이 마무리되고 쉬는 시간을 가지는 김에 엄마랑 원데이클래스 체험을 하고 왔다. 얼마 전에 올린 버킷리스트 포스팅에도 남겨두었듯 바리스타 자격증 취득과 커피 공부를 언젠가 하고 싶었기에 바리스타 체험을 해보기로 했다. 집에서 커피를 내려먹는 우리 모녀! 둘 다 커피에 관심이 많았기에 한껏 기대하며 송도에 있는 바리스타 원데이클래스에 찾아갔다. 송도 바리스타 원데이클래스 이루리 아카데미 인천 연수구 송도과학로 32 테크노파크IT센터 M동 26층 테크노파크역 2번 출구 10분 거리 영업 시간: 평일 9:00 ~ 21:00 전화 번호: 0507-1339-8441 테크노파크역 2번 출구로 나와서 10분 정도 걸으면 높은 건물이 하나 있는데 그 건물 26층에 위치한다. 높은 건물이 하나라 쉽게 찾을 수 있었다. 바리스타 교육장 내부인데 생각보다 넓다. Previous image Next image 이루리아카데미 커피

softmax 회귀 모델을 이용한 MNIST 데이터 분류 예제 with Pytorch [내부링크]

저번 시간에는 nn.Module을 이용해서 softmax 회귀 모델을 구현해보았습니다. Pytorch nn.Module로 소프트맥스 회귀 모델 구현하기 드디어 진행하고 있던 공모전이 끝나서 파이토치 글을 다시 씁니다! ㅎㅎ 오늘은 pytorch의 nn.Module을 ... blog.naver.com 오늘은 softmax 회귀 모델로 MNIST 데이터 분류하기를 진행해보려고 합니다. MNIST 데이터는 분류 예제로 많이 사용되는 데이터 인데요. 이 데이터 특징에 대해 먼저 알아보고 예제를 살펴봅시다. ** 본 포스팅은 pc버전에 최적화되어 있습니다. 1. MNIST 데이터 손글씨 데이터셋 0~9 이미지로 구성된 손글씨 데이터셋 60000개의 훈련 데이터, 레이블 (X, y) 10000개의 테스트 데이터, 레이블 (X, y) 28*28 픽셀 이미지 → 이후, 28*28=784 픽셀 각 이미지를 총 784의 원소를 가진 벡터로 만들어줌. → 784개의 feature를 가진 sample이라

CNN을 활용한 MNIST 데이터 분류 예제 :: Part1. CNN 구조 이해하기 [내부링크]

저번시간에는 softmax 회귀모델을 이용해서 MNIST 데이터를 분류해봤는데요. 오늘은 CNN 모델을 이용한 MNIST 데이터 분류 예제를 살펴보려고 합니다. 물론 이번에도 Pytorch를 이용해서 모델을 구현합니다. 그럼 바로 시작하겠습니다! ** 본 포스팅은 pc버전에 최적화되어 있습니다. softmax 회귀 모델을 이용한 MNIST 데이터 분류 예제 with Pytorch 저번 시간에는 nn.Module을 이용해서 softmax 회귀 모델을 구현해보았습니다. 오늘은 softmax 회귀 모델로... blog.naver.com CNN 구조 이해하기 Convolutional Neural Network - 합성곱 신경망 우선 CNN 모델을 구현하려면 CNN에 대한 기본적인 지식을 알고 있어야겠죠? CNN(Convolutional Neural Network)는 이미지 처리에 탁월한 성능을 보이기 때문에 주로 이미지 데이터를 처리할 때 사용되는 모델입니다. CNN은 크게 Convolut

10월 3주차 일상 :: 비로소 자유를 얻었다! [내부링크]

벌써 일주일이 지났군! 이번주는 나름 프리하게 보냈다. 사실 저번 주에 공모전 끝나고 그동안 쌓였던 피로 푸느라 매일 잠에 취해 살았던 것 같다. 이제야 좀 살 것 같다~ 스시지현 서울특별시 마포구 동교로 227-7 1층 스시지현 월요일엔 일 있어서 학교 다녀왔다. 이날 또 일을 벌리고 와버렸다...ㅎㅎ (뭔진 비미일..) 학교 간 김에 동기도 만나고 왔다. 원래 학교에서 놀려다가 홍대 가서 스시 먹었다! “스시지현” 이라는 곳인데 생각보다 맛있어서 담에 한 번 더 가고 싶을 정도였다. 화요일에는 늦게까지 자다가 엄마가 해준 점심 먹고 금요일에 있을 시험 공부 쪼끔했다. 안심 스테이크 꿀맛c 그리고 사촌 언니랑 통계 공부했는데 언니가 치킨 깊티 보내줌~~ 맛있게 잘 먹었습니당 수요일엔 엄마랑 바리스타 원데이클래스! 조만간 바리스타 자격증 따러 다닐 것 같다 ㅋㅋㅋㅋㅋ 특히 엄마가 푹 빠져 버렸다. 자세한 후기는 요기에ㅎㅎ 송도 원데이클래스 이루리아카데미 :: 바리스타 핸드드립 체험

빅데이터 분석 기사 필기 독학 합격 후기 : 난이도 및 준비 방법 [내부링크]

이번주 금요일 10월 1일에 봤던 빅데이터분석기사 5회 필기 결과가 나왔다. 요건 시험 본 직후 느낌을 담은 후기! 빅분기와 함께한 일주일 :: 빅데이터 분석기사 5회 필기 준비기 벌써 일주일이 거의 다 지났으니! 또 #블챌 #주간일기 를 남겨줘야지~ 이번 주는 특별한 이벤트가 없었다. ... blog.naver.com 커트라인은 60이고, 결과는 가뿐히 합격~ 전공자여서 그런지 시험이 많이 어렵진 않았다. (근데 2/3/3/4 문제는 어디서 틀린거징ㅋㅋㅋㅋ) 시험 시간은 120분이였고 문제 다 푸는데는 약 60분 정도 걸린 것 같다. 더 안봐도 합격일 것 같아서 그냥 나와버렸당ㅋㅋ (통계학과임을 실감한 순간ㅎㅎ) 오늘은 빅분기 필기 준비 방법을 자세히 남겨보려고한다. 사실 전공자 후기라 큰 도움이 될지 모르겠다.. 그래도 전공자와 비전공자를 모두에게 도움될 수 있도록 포스팅 남겨보겠습니당 제 5회 빅데이터 분석기사 필기 준비 방법 빅분기 필기 준비 책으로는 데이터 에듀 책을 선택했

닌텐도 모동숲에서의 소소한 일상 기록하기 [내부링크]

2022.10.17(월)c️ 원래 게임 별로 안 좋아하는데 요즘 하는 게임이 생겼다!! 참고로 내가 할 줄 아는 게임이라고는 크아, 메이플, 테런, 그리고 모동숲이 끝! ㅋㅋ 이 마저도 한 달 이상 빠져있던 적은 없당ㅎㅎ 이 중에서 요즘 모동숲 하는중~ 언제 또 그만둘지 모르니 모동숲 일상을 남겨두려고 한당 #닌텐도 #모동숲 #모여라동물의숲 요즘 모동숲에서의 일상! 집 치우고, 카페 만들고, 텃밭 가꾸고, 물질하기 일본 유저들은 모동숲에서 여유를 즐기고 한국인들은 게임속에서도 일 한다는 말이 맞군 ㅋㅋㅋㅋㅋ 그래도 돈 많아지면 좋아잖아.. 너구리가 다 가져갈 때 빼고.. 일 없을 땐 가끔 커피도 마시고, 보트 투어도 시켜주는 착한 주인은? 바로 나~ 귀여워서 노래 부르는 것도 남겨뒀당ㅎㅎ 아 참고로, 내 캐릭터 남자 아니고 여자다!! 머리 묶고 모자 썼더니 남자 마리오 됐어ㅠㅡㅠ 저번주 금요일에는 유진이랑 데이트도 했당 시간 가는 줄 모르고 한 심야 데이트 우리 마을 구경시켜 주는

2022 임창정 전국투어 콘서트 인천 후기 / 송도컨벤시아 3,4홀 시야 [내부링크]

2022.10.08(토) 바로 어제! 오빠랑 임창정 전국투어 콘서트에 다녀왔다. 사실 요즘 너무너무 바쁘고 피곤한데 송도에서 열려서 마음 편히 다녀올 수 있었당 #임창정 #임창정콘서트 #임창정전국투어 송도컨벤시아 인천광역시 연수구 센트럴로 123 송도컨벤시아 매번 거미 콘서트만 가다가 (거미 팬카페까지 가입한 찐팬입니다용ㅋㅋ) 다른 가수 콘서트는 처음이라 어떻게 다를까 기대도 되고 오랜만에 가는 콘서트라 설렘도 가득했다. 임창정 가수님의 이번 전국투어 콘서트 컨셉은 멀티버스! 마블을 좋아하시나보다ㅋㅋㅋㅋ 임창정 전국투어 콘서트 인천 공연은 송도 컨벤시아전시장 3,4홀에서 열렸다. 콘서트 갈때마다 설레는 입구..ㅎㅎ 처음 갔을 땐 저기에서 사진 많이 찍었는데 안에는 더 좋은게 있으니..! 사진은 스킵하고 얼른 들어가봅시다용 들어가서 마주한 무대..ㅎㅎ 하.. 갑자기 콘서트 온게 실감나기 시작했다. 오빠한테 설렌다구 난리침..ㅋㅋㅋㅋ 영상으로도 살짝 담아봤다. 난 콘서트가면 이렇게 메들

요즘 일상 : 힘들지만 연말에 돌아보면 뿌듯한 날이길 [내부링크]

후.. 요즘 너무 힘들당 7월 -인턴 8월 - 인턴 / SQLD 준비 9월 SQLD 시험 / 빅분기 필기 준비 / 공모전 준비 10월 빅분기 필기 시험 / 공모전 준비 및 마감 사실 인턴할 때 사람 때문에 너무 힘들었다. 그 사람을 겪으면서 성장한 것도 있지만 다시는 돌아가고 싶지 않다. 그렇게 인턴 하면서, 이제 취준할 시기가 되었으니 SQLD 한 번 따볼까 했는데 막상 하나 준비하다보니 욕심이 생겨서 빅분기까지 도전하게 됐다. 회사 다니면서 SQLD 같이 준비하느라 고생하긴 했는데 막상 합격하니까 그간의 고통이 미화됐다. 그렇게 힘을 얻어서 빅분기 준비를 시작했다. 빅분기 준비와 동시에 1년 전부터 나가려고 했던 빅콘테스트 공모전 준비도 했다. 자격증 준비, 공모전 준비를 병행하는게 생각보다 힘들었다. 앞에 인턴과 SQLD도 있어서 그랬나..? 암튼 이때 번아웃 왔다..ㅋㅋ 10월 되면 공모전만 준비하면 돼서 그나마 편할 줄 알았는데 후.. 힘들다. 이번 공모전을 하면서 역시 난

Pytorch nn.Module로 소프트맥스 회귀 모델 구현하기 [내부링크]

드디어 진행하고 있던 공모전이 끝나서 파이토치 글을 다시 씁니다! ㅎㅎ 오늘은 pytorch의 nn.Module을 이용해서 소프트맥스 회귀 모델을 구현해보려고 합니다. 이전 시간에 다뤄보았던 로지스틱 회귀모델과 소프트맥스 회귀 모델의 차이점은 뭘까요? 로지스틱 회귀 모델은 이진 분류를 할 때 사용하는 모델이라면, 소프트맥스 회귀는 다중 분류를 할 때 사용하는 모델이라는 것입니다. binary class가 아닌 multi class 일 때 소프트맥스 회귀 모델을 사용하는 것이죠. 로지스틱 회귀 모델은 0.5를 기준으로 class 분류를 진행했다면, softmax 회귀 모델은 총 합이 1일때 가장 많은 확률을 가져간 class로 분류를 합니다. 아래 그림의 경우 class 2로 분류를 하게 됩니다. 그럼 본격적으로 nn.Module을 이용해서 모델을 구현해봅시다. ** 본 포스팅은 pc버전에 최적화되어 있습니다. 로지스틱 회귀 소프트맥스 회귀 파이토치 nn.Linear( ) / F.so

jupyter Pandas 데이터 프레임 모든 행, 모든 열 추출하기 [내부링크]

저는 주로 데이터 분석을 할 때 jypyter notebook을 사용합니다. 주피터를 사용하다보면 DataFrame을 추출했을 때, 행과 열이 모두 보이지 않아 불편할 때가 있습니다. 이는 코랩을 사용할 때도 마찬가지입니다. 아래와 같이 보이게 되는것이죠. 테이블을 한번에 볼 수 없어 매우 불편합니다. 오늘은 이러한 경우에 사용할 수 있는 방법을 알려드리겠습니다. Jupyter & Colab 데이터프레임 모든 행 / 모든 열 확인하기 # 모든 행 보기 옵션 pd.set_option('display.max_rows',None) #모든 열 보기 옵션 pd.set_option('display.max_columns',None) 위 코드를 실행시키고, 데이터 프레임을 조회해보면 모든 행과 열이 출력되는 것을 확인할 수 있습니다. 하지만 행과 열이 너무 많을 경우 데이터 조회에 시간이 너무 오래 걸릴 수 있기 때문에 위 방법은 추천드리지 않습니다. Jupyter & Colab 데이터프레임 행/

언젠가는 이루고 싶은 버킷리스트 ver.2022 [내부링크]

언젠가 한번은 써봐야지 하다가 이제서야 써보는 버킷리스트! “버킷리스트” 라는 단어가 조금은 무겁게 느껴질 수 있지만 사소한 희망사항이나 목표까지 포함해서 한 번 써볼까 한다. 일단 올해 9월~12월에 이룰 목표로 잡았었던 것들부터 시작! 1. SQLD 자격증 따기 → 완료! 2. 빅분기 자격증 따기 3. 빅콘테스트 공모전 수상하기 4. 2022년 안에 졸업 논문 써두기 5. 오픽으로 졸업 요건 맞추기(IM2) 이제 여기부터는 언젠가 이루고 싶은 것들! 1. 오픽 IH 달성하기 2. 외국인이랑 프리토킹 할 정도의 영어실력 갖추기 3. IT 대기업 취직하기 4. 퇴사 후 스터디 카페 차리기 5. 주식 배당금 월 100만원 이상 받기 6. 건물 사서 월세/전세 주기 7. 일 방문자 500 통계 블로그 만들기 8. 한식 or 일식 조리사 자격증 따기 9. 바리스타 자격증 따기 10. 가족들한테 풀코스 여행 선물하기 11. 내가 운전해서 자유롭게 여행하기 12. 미슐랭 가이드 선정 식당 1

구글 코랩 colab 런타임 유지 [내부링크]

데이터 분석 프로젝트를 할 때 구글 코랩 많이 사용하실텐데요. 코랩 무료 버전의 경우 런타임 유지 시간은 12시간입니다. 하지만 90분 간 입력이 없으면 연결이 끊겨버리죠..ㅎㅎ 체감상 90분보다 짧은 것 같기도 해요. 저도 프로그램 돌릴 때 이랬던 적이 한 두번이 아닙니다. 그러면 처음부터 다시 모델 학습을 해야하는 불상사가.. 생각만 해도 끔찍합니다. 오늘은 이 문제를 해결할 수 있는 방법에 대해 알려드리려고 합니다. 물론 코랩 유료 버전을 결제해서 사용하는게 제일 마음 편하긴 하지만, 결제까지는 필요없는데? 하시는 분들께 유용할 것 같습니다. 구글 코랩 Goole Colab 런타임을 유지 방법 1. F12 키를 눌러 개발자 도구 열기 2. Console 탭 누르기 3. Console 탭에 아래 코드 붙여넣고 Enter function ClickConnect(){ console.log("Working"); document.querySelector("colab-toolbar-but

pytorch 커스텀 데이터셋 만들기 Custom Dataset [내부링크]

저번 포스팅에서는 TensorDataset 클래스를 이용해서 텐서의 입력을 받아 Dataset을 정의하고, DataLoader 클래스를 이용해서 data shuffle과 mini-batch 학습을 수행하는 방법에 대해서 다뤄봤습니다. 즉, 데이터를 정의하고 데이터를 불러오는 방법에 대해서 배웠습니다. from torch.utils.data import TensorDataset from torch.utils.data import DataLoader 이번 포스팅에서는 torch.utils.data.Dataset을 상속 받아 직접 Custom Dataset을 만드는 방법에 대해서 알아보겠습니다. 즉, 이번에는 클래스 형태로 데이터를 정의하는겁니다. 이후에 DataLoader를 이용해서 데이터를 불러오는 과정은 동일합니다. torch.utils.data.Dataset 상속 받아서 Custom Dataset 만들기 본 포스팅에 들어가기 전에, 커스텀 데이터셋을 만들 때 가장 기본적인 뼈대는

여수 가볼만한 곳 :: 예술랜드 마이다스의 손, 사진찍기 좋은 명소 [내부링크]

여수 가볼만한 곳, 여수 예술랜드 오늘은 얼마 전 여수에 갔을 때 방문한 여수 예술랜드 내돈내산 후기 정말 간단하게 남겨보려고 합니다! 결론부터 말씀드리면 사진찍기에는 좋지만 가성비는 별로였던 것 같습니다. 운영시간은 09:00~18:00 이고, 예술랜드 중에서도 제가 방문했던 미디어아트 조각공원 입장료는 소인 10000원, 대인 15000원 입니다. 모두가 저 마이더스의 손을 멀리서 보고 저 위에서 사진 찍기 위해 거금을 내고 입장하지만?! 실상은 사진찍기 매우 힙듭니다..ㅎㅎ 입장할 때부터 2시간 대기해야한다고 안내해주시구요. 대기표를 받는 곳에서 실제로는 3시간을 기다리라고 합니다. 99번을 받았는데 기다리다 이건 아니다 싶어서 손 위에 올라가서 찍는건 일찌감치 포기했습니다. 엄빠 그래서 반대편 테라스 쪽으로 올라가서 이렇게 사진 찍었어요. 이 구도가 더 이쁜 것 같기도 하죠?! 3시간 기다려야 하는데 대기 없이 이 정도 사진이라면 가성비 갑인 것 같습니다ㅎ 이곳 저곳 다니면서

빅분기와 함께한 일주일 :: 빅데이터 분석기사 5회 필기 준비기 [내부링크]

벌써 일주일이 거의 다 지났으니! 또 #블챌 #주간일기 를 남겨줘야지~ 이번 주는 특별한 이벤트가 없었다. 그냥 빅데이터 분석기사 필기 준비하러 독서실 다니고, 공모전 회의 준비하면서 보냈다! 책은 데이터에듀 걸로 선택했는데 빅분기 책 처음 봤을 때 두께가 정말 상당해서 이걸 시간 안에 다 보고 셤을 볼 수 있는건가.. 싶었다. 사진은 드디어 4과목 마지막 절까지 와서 와.. 이걸 거의 다봤다니!! 하면서 감격하며 찍은 사진이당 ㅋㅋㅋㅋ 자세한 후기는 합격하면 올려야지~.~ 그리고 이건 번외로! 이번 주에 거미 20주년 콘서트 티켓팅도 성공했당 새내기 때 학교 축제에서 제대로 빠져서 3년째 가는 콘서트️ 송도 컨벤시아에서 12월 31일, 올해 마지막 날 거미와 함께할 수 있다니 생각만 해도 벌써 행복하당 이건 어제 먹은 바다쏭 빵ㅎㅎ 인천 사람들은 다 안다는 그 카페! 우리 가족이 자주 가는 카페이기도 하다. 맨 오른쪽에 마늘빵 진짜 꿀맛이당 바다쏭 인천광역시 연수구 능허대로 16

으앗 이웃 정리... [내부링크]

이웃 정리 하려다가 이웃 그룹 날려버렸는데 왜 죄다 나만 이웃 삭제한게 된거지... 졸지에 개념 없는 이웃이 되어버렸당..ㅠㅠ 사실 진짜 소통하는 이웃빼고 다 지우고 싶은데 내 블로그 보려고 이웃 추가한 사람들도 있는 것 같아서 어떻게 정리해야할지 감이 안와,, 하나씩 들어가서 확인해야하나ㅎㅎ... 진짜 혹시라도 제 블로그 챙겨보시는 이웃이 계시다면 댓글... 한번만 부탁드립니닷 + 결국 최근 추가된 이웃 제외하고 직접 정리하기 끝~,, 하하

Pytorch nn.Module로 로지스틱 회귀 모델 구현하기 [내부링크]

오늘은 pytorch의 nn.Module을 이용해서 로지스틱 회귀 모델을 구현해보려고 합니다. 로지스틱 회귀 모델의 원리를 알면 어렵지 않게 구현할 수 있습니다. 간단하게 말씀드리자면, 로지스틱 회귀 모델은 이진 분류를 할 때 사용되는 모델입니다. 앞서 배운 선형회귀모델을 통해 행 별 사건발생 확률(y)을 구하고, 이 확률을 0과 1사이의 값으로 변환해주기 위해 sigmoid 함수(로지스틱 함수)에 통과시킵니다. 이렇게 구해진 확률이 0.5 보다 크면 1로, 작으면 0으로 분류합니다. 이때 임계값 0.5는 변경될 수 있습니다. 자세한 원리를 알고 싶으시다면 아래 포스팅을 참고해주시기 바랍니다! ** 본 포스팅은 pc버전에 최적화되어 있습니다. 왜 선형 회귀모델 결과값을 0과 1사이의 값으로 변환해주어야 하는가?(Hint, 0 ≤ 확률값 ≤ 1) ** 이해가 잘 되지 않는 부분은 댓글 남겨주세요~ [coursera 머신러닝 강의] Logistic regression 로지스틱 회귀 기초

데이터로 전문가처럼 말하기 :: 데이터 시각화의 모든 것 [내부링크]

데이터로 전문가처럼 말하기 - 책 리뷰 - 요즘 들어 독서의 중요성을 깨닫고 있다. 특히 전공 분야와 관련해서는 책이 아니면 전문가의 꿀팁들을 얻기가 매우 힘들기에 부족한 부분이 생길 때마다 책을 찾게 되는 것 같다. 현재 데이터 분석 공모전에 참가중인데 데이터 EDA를 진행하면서 데이터 시각화 부분에 있어서 부족한 점이 많이 느껴졌다. 이 부분을 보완하고자 한빛미디어 신간인 데이터로 전문가처럼 말하기 책을 읽어보기로 했다. ** 본 포스팅은 모바일에 최적화되어 있습니다. ** 데이터로 전문가처럼 말하기 저자 칼 올친 출판 한빛미디어 발매 2022.08.30. 이 책은 데이터 시각화에 대한 전반적인 내용을 다루고 있다. 데이터 프로젝트를 해봤다면 한 번쯤은 느꼈을 데이터 시각화의 중요성과 기존 시각화 방식의 부족한 점에 대해 아주 공감되게 설명하고 있다. 더불어 해결책을 제시해준다. Previous image Next image 목차는 다음과 같다. Part1. 커뮤니케이션과 데이터

Python Tip 게시판 개설 [내부링크]

블로그 카테고리가 자꾸 늘어나는 것 같아서 Python Tip 게시판을 개설할지 말지 고민하다가 결국에 개설하게 되었습니다. 이 공간에는 앞으로 프로젝트를 하면서 알아두면 좋을 것 같은 작은 Tip들이나 에러 해결 과정을 기록해보려고 합니다.

SQLD 46회 합격 후기 :: 2주 벼락치기 공부법, 노랑이 기출 어디까지? [내부링크]

내가 벌써 4학년 막학기생이라니.. 이제 취준을 시작해야하는 시기인만큼 자격증을 따보기로 했다. 그렇게 제일 처음으로 선택한 자격증은! SQLD : SQL 개발자 시험이 9월 4일이라 7~8월에 비상교육 인턴을 하면서 틈틈이 공부해야 했다. 사실 자격증 난이도를 쉽게 보고 시작해서 '퇴근 후 1시간씩 공부하면 충분하겠지.' 하고 호기롭게 시험을 신청했지만 퇴근 후 공부는 생각보다 힘들었고 피곤이 가중되는 느낌이였다. (그래서 1차 시도 실패..ㅠㅠ) 그렇게 주어진 한 달의 기간 중 공부한 시간은 고작 2주.. (플래너 확인해보니 정확히는 딱 10일 했다.) 10일 뒤, 시험을 봤고 시험 본 직후 후기는 아래에..ㅎㅎ 46회부터 눈에 띄게 어려워진 시험 덕에 멘붕 상태였다. 원래 시험 보고 카페 들어가보면 대충 점수 알 수 있다고 하는데, 사람들끼리도 정답이 하도 갈려서 정확한 점수를 알기 어려웠다. (시험이 점점 더 어려워질 것 같아서 하루빨리 따는게 좋아보인다.) 나도 블챌 시작!

송도 오마카세 스시이와 주말 런치 내돈내산 후기 [내부링크]

후엥.. 1일 1포스팅 하려고 했는데 어제 너무 바빠서 글을 못썼다..ㅠㅠ 아무래도 1일 1포는 무리인가..! 하고 싶은건 많고 시간은 부족하고 몸은 너무 피곤하다. 요즘 생활 패턴이 제대로 바뀌어서 2~3시쯤에 자는건 기본이고 더 문제는 12시에 일어난다는거다.. 흑.. 사실 지금 시각도 2022-09-21 02:07:?? 오늘 하루 종일 날짜 데이터 봐서 이렇게 함 써보고 싶었다!ㅋㅋㅋㅋ 아무튼 본론으로 들어가서 저번 주말에 가족들이랑 다녀온 곳! 송도 스시 오마카세 스시이와 내돈내산 후기를 남기려고 한당 스시이와 인천광역시 연수구 센트럴로 194 C동 109호 가족들이 스시 오마카세를 안가봤다는 사실에!! 내가 데려가주기로 결심했다. 후후 캐치 테이블로 바 자리 예약해서 다녀왔다. 송도 최고의 오마카세라는데 생각보다 예약이 어렵지는 않았다. 사실 저녁 4명을 예약하기에는 내 예산이 부족한 관계로~ 아빠도 같이 갈 수 있는 주말 점심으로 예약했다. 주말 점심 2부는 1:10 부터

Pytorch nn.Module로 다중 선형회귀 구현하기 nn.Linear() [내부링크]

오랜만에 pytorch 시리즈로 돌아왔습니다. 이전 포스팅에 이어서 오늘은 pytorch의 nn.Module을 이용해서 다중 선형회귀를 구현해보겠습니다. 방식은 단순 선형회귀와 매우 비슷합니다. 기초 코드부터 알고 싶으신 분들은 이전 글을 참고하시면 좋을 것 같습니다. ** 본 포스팅은 pc 버전에 최적화 되어 있습니다. ** Pytorch nn.Module로 단순 선형회귀 구현하기 nn.Linear() 이전 포스팅에서 말씀드렸던대로, pytorch의 nn.Module을 이용하여 선형회귀를 구현해보겠습니다. hypothe... blog.naver.com 다중 선형 회귀 구현 nn.Linear() ## 기본 셋팅 import torch import torch.nn as nn import torch.nn.functional as F torch.manual_seed(1) 단순 선형회귀에서와 마찬가지로, 다중 선형회귀를 구현하는데 필요한 라이브러리를 불러와줍니다. torch.manual_s

인천 학익동 스터디카페 추천 집중 스터디카페 이용 후기 [내부링크]

오늘은 오빠랑 인하대 후문 놀러 가기 전에 학익동 스터디 카페에 들렸다. 오빠도 나도 공부하는게 있는데 하루 종일 놀기에는 살짝 아까워서 놀기 전에 최소한의 양심을 챙겨 보기로 했다. ㅋㅋㅋㅋㅋ 오늘 선택한 스터디 카페는 학익동 “집중 스터디 카페” 학익동 신동아 아파트 바로 앞에 스터디 카페가 있는 줄 몰랐는데 아마 생긴지 얼마 안 된 곳 같다! 학익동 스터디 카페 집중 스터디 카페 24시간 운영 / 연중무휴 #미추홀구스터디카페 #학익동스터디카페 #주안동스터디카페 집중스터디카페학익점 인천광역시 미추홀구 매소홀로 478 2층(학익동) 메가커피 옆 건물 2층에 위치해있다. 처음 찾아갔는데도 어렵지 않게 찾을 수 있었다. 스터디 카페 처음 갔을 때 키오스크 있어서 당황했던 기억이..ㅎㅎ 한번 사용해보면 어렵지 않게 이용할 수 있다. 키오스크가 시키는대로만 하면 된다. 학익동 집중 스터디카페 가격은 당일 이용권의 경우 아래와 같다. 2시간 3000원 4시간 5000원 6시간 7000원 8

Pytorch 데이터셋 정의 및 로드 TensorDataset / DataLoader(batch_size, shuffle) [내부링크]

파이토치에서는 데이터를 좀 더 쉽게 다룰 수 있는 도구로 Dataset과 DataLoader를 제공합니다. DataLoader를 이용하면 data shuffle, mini-batch 학습, 병렬처리까지 간단하게 수행할 수 있다는 장점이 있습니다. 오늘은 Dataset을 정의하는 방법과 이렇게 정의한 데이터를 DataLoader에 전달하여 mini-batch 학습과 data shuffle 방법에 대해서 알아보겠습니다. 데이터셋 정의 & 데이터 로더 사용법 ## 기본 셋팅 import torch import torch.nn as nn import torch.nn.functional as F from torch.utils.data import TensorDataset #텐서 데이터셋 - 텐서를 입력받아 Dataset의 형태로 변환해줌 from torch.utils.data import DataLoader #데이터로더 우선 학습을 위해 필요한 라이브러리를 불러와줍니다. 이전에 사용했던 3개

9월 3주차 블챌 :: 바쁘게 하지만 여유롭게 [내부링크]

벌써 주간일기 데드라인이 다가왔군! 원래 미리미리 쓰려고 했었는데 일요일에 일주일을 돌아보면서 포스팅 하는 것도 나쁘지 않아서 매주 일요일에 쓰는 중~ 몰랐는데 한 주동안 남긴 사진들을 보니 이번 주도 참 바쁘게 살았다 싶다. Previous image Next image 월요일! 난 한 가지 병이 있다. 추석 지나고 며칠 뒤면 추석 음식이 또 먹고 싶어지는... 나만 이런가?!! ㅋㅋㅋㅋ 엄마한테 말했더니 엄마가 바로 또 꼬치전 만들어주셨다~ (사실 꼬치전 좋아해서 평소에도 많이 해먹는다!) 엄마 꼬치전은 언제 먹어도 맛있당 엄마 고마워~️ 꼬치전에 이어 고구마 튀김도 만들어주셨당 요즘 들어 어렸을 때 많이 해주셨던 간식들을 많이 해주신다. 난 너무 조아..c 포레스트아웃팅스 송도점 인천광역시 연수구 청량로 145 포레스트아웃팅스 송도점 이건 수요일! 엄마가 아침에 브런치 먹으러 가자고 해서 포레스트 아웃팅스 다녀왔다. 엄마랑 아빠는 둘이 자주 가는 곳인데 나랑 오빠는 처음 가봤다

9월 2주차 :: 너무도 평범했던 일주일 [내부링크]

#블챌 #주간일기 #9월 #둘째주 벌써 블챌 둘째주 마지막 날이넹 시간 가는 줄 모르고 있었다가 하마터면 까먹고 넘어갈뻔 했다. 이번 주에 특별한 일은 없었지만 일단 써보겠으~ 월요일에 은수랑 완전 오랜만에 점심 먹었당 은수로 말할 것 같으면.. 초등학교 때부터 알고 지낸 젤 오래된 친구! 언제 만나도 편-안하다 ㅎㅎ 인하대 가서 원래 시카고 피자 먹으려고 했는데 여기.. 요즘 갈때마다 닫는다..ㅠ 그래서 그냥 청년다방 갔다. 점심 먹구 동네 공차가서 카공도 쪼오금 했다! 이거는 엄마가 이번 주에 만들어준 에그마요! (스벅 에그마요보다 3배는 맛있어) 어렸을 때 자주 만들어줬었는데 오랜만에 먹으니까 너무 맛있었당 순식간에 순삭했다ㅎ Previous image Next image 음.. 이건 언제였지?목요일이였나 엄마 아빠가 송골매 콘서트 가고 싶다고 해서 티켓팅 해드렸당~ 배철수 씨가 송골매인지 처음 알았다는..ㅋㅋㅋㅋ (엄마아빠 시절의 아이돌이였대) 그리고 신기한 일이 있었다!!

Python 날짜 시간 데이터 다루기 datetime / dateutil / time 패키지 [내부링크]

오늘은 아래 포스팅에서 말씀드렸던대로, 파이썬에서 날짜와 시간을 다루는 패키지에 대해서 자세히 다뤄보려고 합니다. year, month, day로 이루어진 데이터라면? 아래 포스팅에서처럼 간단하게 pd.to_datetime() 함수를 이용해서 처리할 수 있습니다. 하지만 데이터에 시간까지 포함된 경우라면 아래 방법만으로는 처리가 불가능합니다. 오늘은 좀 더 자세히 날짜 시간 데이터를 다루는 방법에 대해서 datetime, dateutil , time 패키지를 통해 알아봅시다. ** 본 포스팅은 pc 버전에 최적화 되어 있습니다. ** python pandas 날짜 데이터 to_datetime 년 월 일 추출 오늘은 pandas를 이용해서 날짜 데이터를 다루는 방법에 대해 알아보려고 합니다. 파이썬 데이터분석 기초... blog.naver.com 1. datetime 패키지 먼저 datetime 패키지에 대해서 알아봅시다. datetime 패키지에는 다음 클래스들이 존재합니다. dat

데이터 불균형 해소를 위한 여러가지 샘플링 기법 - Over Sampling 편 [내부링크]

오늘은 데이터 불균형 해소 방법에 대해 포스팅하려고 합니다. 데이터 불균형은 sampling(over sampling, under sampling, 복합 샘플링)을 통해 해결할 수 있습니다. 이번 포스팅에서는 Over Sampling에 대해서 먼저 알아보고, 이후에 Under Sampling, 복합 샘플링을 차례로 포스팅하겠습니다. ** 본 포스팅은 pc 버전에 최적화 되어 있습니다. ** ** 본 포스팅은 고려대학교 김성범 교수님 유튜브 강의를 참고해 정리한 글입니다. ** 들어가기 전에 Sampling, 왜 필요할까? 불균형 데이터 문제 해결! Sampling에 대해 알아보기 전에 Sampling이 왜 필요한지 먼저 알아봅시다. 결론부터 말씀드리자면, 불균형 데이터의 문제점을 해결하기 위해서입니다. 그림1 [그림1]을 보시면, 이상 데이터가 정상 데이터에 비해 적습니다. 이 경우, 분류 경계선이 다음과 같이 형성됩니다. 이때 회색점들은 아직 발견되지는 않았지만 이상 관측치인 경우

샤로수길 데이트 일본 가정식 추천 :: 동경산책 [내부링크]

오랜만에 대학 동기랑 샤로수길에서 돌아보니 인턴 끝나구 정말 정신없이 놀았군! 난 원래 밖에 나가서 노는거 안 좋아하는 사람인 줄 알았는데, 자취방 빼면 이제 서울 잘 안 갈 줄 알았는데, 그럴 줄 알고 너무 아쉬웠는데, ... 쓸데 없는 아쉬움이였다^^ 일주일에 2~3번은 가는듯ㅎ 다만 우리집에서 가까운 서울로 활동 반경이 조금 바뀌었을 뿐!ㅋㅋㅋㅋ 요즘엔 2호선 라인이 편하다~ 그래서 이번에는 설대입구 다녀왔당 마제루롤 요즘엔 일식이 땡겨서 동경산책 다녀왔다. 친구는 사케롤 정식, 나는 마제루롤 정식! 나름 맛있었다. 서울에서 먹는 롤 정식 맛! (맛있다는 뜻~ 인천 롤이랑은 쪼금 다른 느낌이야ㅋㅋ) 일식은 각자 깔끔하게 먹기 좋아서 점점 더 선호하게 되는 것 같당 일 식 조 아 ! ! 가게 분위기는 조용하진 않음! 대화하기에는 썩 좋지 않은듯하다. 하지만, 이런 시끄러운 공간에서도 굴하지 않고 먹으면서 또 이런저런 썰 풀기~c 이건 다른 이야기지만, 회사 다니면서 느낀건데 진짜

Pytorch nn.Module로 단순 선형회귀 구현하기 nn.Linear() [내부링크]

이전 포스팅에서 말씀드렸던대로, pytorch의 nn.Module을 이용하여 선형회귀를 구현해보겠습니다. hypothesis, cost를 직접 정의해서 기초부터 모델을 구현하는 방법도 있지만, 본 포스팅에서는 파이토치(nn.Module)에서 이미 구현되어 제공되는 함수들을 불러와 선형회귀 모델을 구현해보려고 합니다. 기초부터 모델을 쌓는 방법을 공부해보고 싶으시다면 하단 링크를 참조하시면 될 것 같습니다. 오늘은 간단하게 단순 선형회귀를 구현해보고, 다음 포스팅에서 다중 선형회귀를 구현해보겠습니다. ** 본 포스팅은 pc 버전에 최적화 되어 있습니다. ** 단순 선형회귀 구현 nn.Linear() ## 기본 셋팅 import torch import torch.nn as nn import torch.nn.functional as F torch.manual_seed(1) 선형회귀 모델을 구현하는데 필요한 라이브러리를 불러와줍니다. torch.manual_seed()는 코드를 여러번 돌려

역삼동 서울로인 강남N점 디너코스 내돈내산 후기 [내부링크]

추석 연휴에 사촌 언니랑 강남에 다녀왔다. 오랜만에 만나서 카페에서 수다떨고 포토이즘 찍구 여기저기 돌아다니다가 저녁 먹으러 고고! 언니가 오랜만에 만난다구 밥도 사줬다ㅎㅎ (언니는 정말 천사야ㅎㅎ) 무려 서울로인 디너코스를..! 서울로인 처음 가보는데 나름 맛있게 먹고와서 내돈내산인 듯 내돈내산 아닌 내돈내산 후기를 간단하게 남기려고 한다. 서울로인 입구~ (너무 대충 찍었나ㅋㅋ) 역시 코스요리 집 답게 고급진 저 글씨..! 들어가 봅시당 사진은 귀찮아서 안 찍었지만 가게 내부 자체는 되게 넓고 쾌적한 느낌이였다. 특별한 날 가족 모임하기에도 좋을듯하다. 앉아서 조금 기다리면 코스요리 재료를 보여준다. 싱싱한 재료들을 눈으로 직접 확인하고 코스요리를 즐길 수 있어서 더 믿을 수 있을 것 같다. 사실 지금 저걸 보니까 내가 저걸 다먹었다고? 싶은데.. 내 위가 생각보다 큰 것 같다. ㅋㅋㅋㅋㅋ 디너 코스요리 구성! 위에서부터 차례대로 초계탕 김부각 새우장튀김 생선구이 불고기쌈 육회

Pytorch 기초 Tensor 크기 변경하기 차원 재구성 view() squeeze() [내부링크]

오늘은 Pytorch 기초 두번째 포스팅을 하려고 합니다. 저번 포스팅에서는 텐서를 선언하는 방법과 선언한 텐서에 계산 관련 함수를 적용하는 방법을 배웠습니다. 이번 포스팅에서는 텐서의 크기를 변경하는 함수들에 대해 다뤄봅니다. ** 본 포스팅은 pc 버전에 최적화 되어 있습니다. ** 텐서 크기 변경 함수 view() squeeze() unsqueeze() 타입캐스팅 - 자료형 변환 cat() stack() ones_like() / zeros_like() In-place → mul_() 1. 뷰 (view) 원소의 수를 유지하면서 텐서의 크기 변경 torch :: view = numpy :: reshape import numpy as np t = np.array([[[0,1,2], [3,4,5]], [[6,7,8], [9,10,11]]]) # 3차원 ft = torch.FloatTensor(t) # 3차원 텐서 ft.shape # torch.Size([2, 2, 3]) 면, 행,

Pytorch 기초 Tensor 선언하기 shape 확인 summary 계산 함수 [내부링크]

오늘부터 2개의 포스팅에 걸쳐 Pytorch 기초에 대해서 알아보겠습니다. 첫 번째 포스팅에서 알아볼 내용은 다음과 같습니다. ** 본 포스팅은 pc 버전에 최적화 되어 있습니다. ** 1. 텐서 선언하기 torch.FloatTensor dim() size() shape 2. 자주 사용되는 기능(계산 관련 함수) matmul() mul() mean() sum() max() argmax() min() argmin() 들어가기 전에 본격적인 내용에 들어가기 전에, 우선 텐서(Tensor)가 무엇인지부터 알아봅시다. 딥러닝에서 데이터를 나타내는 단위는 벡터, 행렬, 텐서입니다. 벡터 : 1차원으로 구성된 값 (=1차원 텐서) 행렬 : 2차원으로 구성된 값 (=2차원 텐서) 텐서 : 3차원 이상의 값 (=3,4,5차원 텐서... / 데이터사이언스 분야에서는 다차원 행렬 or 배열로 간주) 이처럼 주로 3차원 이상을 텐서(Tensor)라고 하지만, 벡터와 행렬을 1차원 텐서, 2차원 텐서 라

뒤늦게 쓰는 그날의 일기 :: 연남동 일식당 미쁘동 [내부링크]

2022년 8월의 어느날 - 연남동에서 - 벌써 시간이 이렇게 흘렀나 이제서야 남기는 일기 그날.. 그날의 의미는 말할 수 없지만 힐링이 아주 많이 필요했던 날..ㅎㅎ 우영이랑 오랜만에 만났당 장소는 연남동! (우리에게 연남동은 남다른 의미가 있지 ㅎㅎ) 미쁘동 원래 가려던 연남동 올랑올랑이 닫아서 급하게 찾은 다른 맛집! (사실 이정도 맛집인 줄 몰랐당ㅎ 스토리 올리니까 다들 가보고 싶었다구 연락 쇄도ㅋㅋㅋㅋ) 이날 우영이가 유정's day로 만들어 준다면서 먹고 싶은거 사준다길래 미쁘동으로 갔당~ 주문은 둘 다 미쁘동으로! 미쁘동은 해산물 덮밥인데 참치,우니,연어알,연어,딱새우 등 9가지 재료들이 들어가 있다고 합니다! (내가 좋아하는거 다 들어있어ㅎ) 맛은 완전 대만족~ 맛집만 찾아다니는 우리의 입맛을 충족시키다니 대단하군!ㅋㅋ (우영 = 자취하던 시절 푸파 메이트 in 종암) 근데 웨이팅이 있어서 다음엔 점심시간 피해서 가야겠당 후.. 아무튼 먹으면서 회사 다니느라 너무 바빠

pandas 데이터를 추출하는 다양한 방법 :: [] / loc 와 iloc 차이점 [내부링크]

오늘은 데이터를 추출하는 방법 3가지에 대해 알아보겠습니다. 상황에 따라 유용한 함수가 다르니, 3가지 방법 모두 알아두신 뒤, 상황에 맞게 활용하시는 것을 추천드립니다. 1. [] 이용하기 df[df['math'] >= 80] # 조건을 충족하는 행 추출 df[(df['nclass'] == 1) & (df['math'] >= 50)] # 여러 조건을 충족하는 행 추출 df[['id', 'nclass']] # 열 추출 df[df['nclass'] == 1]['math'] # 조건을 충족하는 행에서 열 추출 df[df['nclass'] == 1][['math', 'english']] # 조건을 충족하는 행에서 여러 열 추출 df[df['math'] >= 80] # 조건을 충족하는 행 추출 df[(df['nclass'] == 1) & (df['math'] >= 50)] # 여러 조건을 충족하는 행 추출 df[['id', 'nclass']] # 열 추출 df[df['nclass'] ==

Do it ! Python 데이터 분석_데이터 분석 기초 마무리! [내부링크]

Do it ! 쉽게 배우는 파이썬 데이터 분석 오늘로서 본 책을 바탕으로한 파이썬 기초 포스팅이 마무리 되었습니다. 매일매일 포스팅하는게 생각보다는 쉽지 않았지만 포스팅할 겸 한 번 더 내용을 보면서 복습하는 시간을 가질 수 있어서 좋았습니다 :) 앞선 11개의 포스팅에서 알려드린 내용을 기초로 알고 계신다면 데이터 분석을 하는데 큰 어려움이 없을거라고 생각합니다. 물론 조금의 공부는 더 필요하겠지만요!ㅎㅎ 다음 포스팅은 pytorch 딥러닝 입문 책을 바탕으로 포스팅을 진행해보려고 합니다. 다만, 이제는 블로그에 많은 시간을 투자할 수가 없게 되어서 일주일에 2~3번 정도로 줄여서 포스팅 남기도록 하겠습니다. (현생도 중요하니까요~ㅋㅋ) 그럼 다음 포스팅에서 뵙겠습니다 :) 혹시라도 매일 같이 공부하신 분이 계시다면! 정말 고생하셨습니다~! Do it! 쉽게 배우는 파이썬 데이터 분석 저자 김영우 출판 이지스퍼블리싱 발매 2022.05.31.

Pytorch로 시작하는 딥러닝 입문 [내부링크]

<Do it! python 데이터 분석> 책을 바탕으로 Pandas 기초를 공부해보았습니다. 이제부터는 딥러닝을 위해 꼭 필요한 도구인 Pytorch에 대한 포스팅을 진행하려고 합니다. (데이터 분석 관련 포스팅도 동시에 진행할 것 같습니다. 욕심일수도 있지만, 열심히 해보겠습니다!ㅋㅋ) 사실 딥러닝은 제 전공과 약간 거리가 있다보니 저도 공부를 하면서 포스팅을 해야 하기에 부족한 부분이 있을 수 있습니다. <PyTorch로 시작하는 딥러닝 입문> 책을 공부하고 내용 포스팅하겠습니다. 이론보다는 실습 위주로 정리하려고 하고, gpu를 사용할 것이기 때문에 코랩으로 실습하실 것을 추천드립니다. PyTorch로 시작하는 딥 러닝 입문 이 책은 딥 러닝 프레임워크 PyTorch를 사용하여 딥 러닝에 입문하는 것을 목표로 합니다. 이 책은 2019년에 작성된 책으로 비영리적 목적으로 작성되어 출판 ... wikidocs.net

통계 분석 기초 T-test 두 집단 평균 비교하기 stats.ttest_ind / 상관관계 corr heatmap stats.pearsonr [내부링크]

오늘은 통계 분석의 기초인 t test를 간단하게 진행해보려고 합니다. (scipy.stats.ttest_ind) 다음으로 상관계수를 시각화해주는 히트맵도 그려보겠습니다. (corr / sns.heatmap) 오늘 사용할 'mpg.csv'데이터는 아래에서 다운 받을 수 있습니다. https://github.com/youngwoos/Doit_Python/tree/main/Data 1. t검정 - 두 집단의 평균 비교하기 compact 자동차와 suv 자동차의 도시 연비 t 검정 ## 데이터 불러오기 import pandas as pd mpg = pd.read_csv('./data/mpg.csv') mpg.head() ## 기술 통계 분석 mpg.query('category in ["compact", "suv"]').groupby('category', as_index = False)\ .agg(n = ('category', 'count'),mean = ('cty', 'mean')) t

영어 스피킹 1일차 모임을 가장한 오랜만의 안암 나들이 [내부링크]

2022.09.06(화) 슬기로운 막학기 생활 - 영어 스피킹 1일차 - 우리 학교는 동국대지만 대학교 7학기 동안 고대에서 자취를 했던 나! (왜냐면 오빠가 고대이기 때문..) 학교 다닐 땐 나도 학교 앞에 살고 싶어서 쪼오금 불만이었지만 고대에 살았던 덕에 오빠 과 친구들이랑 친해질 수 있었다ㅎㅎ 막학기 3학점을 남겨두고 자취방을 빼서 이제는 싸강을 들으며 집에서 살고 있다. (개강인듯 개강아닌 개강같은 너~) 아무튼! 오늘 완전 오랜만에 안암 나들이 다녀왔다~ 본 목적 : 고대 언니들이랑 영어스피킹 모임 서브 목적(?) : 언니들이랑 수다떨기 사실 영어 스피킹 모임에 들어간 것도 주기적인 서울 나들이 겸 언니들을 만나기 위한 나의 빅픽쳐였당ㅎㅋㅎㅋ 인천에서 고대까지 얼마나 걸릴까?! 자그마치 2시간... 너무 멀다 흑흑 그래도 오랜만에 가니까 살짝 반갑기도 했다. 이렇게 다시 갈 줄은 몰랐는데ㅋㅋ 꼬꼬아찌 고대점 서울특별시 성북구 고려대로26길 50 1층 오늘 저녁은 자취할 때

[비상교육 인턴] 2022 하계 현장실습 후기 기록하기 [내부링크]

오늘은 7,8월에 했던 비상교육 현장실습에 대한 기록을 남겨보려고 합니다! 후.. 결론부터 말씀드리자면 처음 해보는 회사생활. 아침에 일어나는 것부터 쉽지 않더라구요 비상교육 인턴 후기 AI 기획 부서 2022.07~2022.08 저는 AI 기획 부서에서 두 달동안 연수를 받았어요. 이 메일을 받고 기쁘기도 하면서 첫 사회 경험이다 보니 가서 잘 할 수 있을까 하는 걱정도 되더라구요. 그래도 걱정보단 기쁨이 더 컸어요! 드디어 첫 출근날이 왔습니다! 첫날이라 10시까지 출근해서 OT를 들었어요. 출근 시간, 휴가 관련된 내용 소개 받았어요! 분명 다른 내용도 있었는데 젤 중요한 두 개밖에 생각이 안나네요ㅋㅋ 휴.. 이날 유연근무제라는 걸 알고 얼마나 기뻤는지..ㅎㅎ 회사까지 1시간 반 정도 걸려서 출근 어떻게 하나 고민하고 있었거든요. 정말 다행이였어요. 출근은 8:00~10:00 사이에 하면 되고, 9시간 근무 후 퇴근하면 됩니다! 근데 이 부분은 부서마다 조금씩 다른 것 같더라구

나도 블챌 시작! [SQLD 망한 후기] [내부링크]

#블챌 #주간일기 #첫글 주변에서 블챌 주간일기 많이 쓰길래 그거 몇 주 동안 매일 써야하는거 아닌가? 난 이미 늦었겠지? 하고 시작 안하고 있었는데 그게 아니였다! 그래서 이참에 나도 시작! 첫 블챌 주제는.. 나의 망해버린 첫 자격증 시험..이다!ㅋㅋ 2022.09.04(일) 바로 어제! 시험을 보고 왔당 나름 SQL을 다뤄본 사람으로서! 조금만 준비하고 봐도 붙겠지?하고 안일하게 준비 시작했는데 그러면 안됐다..ㅋㅋ 사실 준비하면서도 생각보다 쉽진 않겠다고 생각은 했는데, 이게 웬걸 어제 본 시험 46회!! 부터 시험 난이도가 높아져버렸다. 기출과 노랭이를 풀고 간 보람이 없어져버린,, 사실 과목2는 그나마 풀만 했는데 과목1이.. 1,2번부터 막혀서 살짝 멘붕쓰.. 과목1 다 맞고 과목2에서 좀 더 틀리자~하고 갔는데 과목1 다맞기는 커녕 과락 걱정을 해야했다 ㅋㅋㅋㅋㅋㅋㅋㅋ (역시 인생은 쉽지 않아!) 가채점해보니까 합격 기준선에 간당간당 걸쳐 있어서 붙을지 안붙을지 나도

python 워드 클라우드 총정리 텍스트 마이닝 막대그래프 Hannanum Kkma [내부링크]

오늘은 파이썬을 이용해서 텍스트 마이닝을 해보려고 합니다. 텍스트 마이닝 후, 막대 그래프를 이용하여 결과를 시각화하고, 최종적으로는 워드 클라우드를 만드는 방법에 대해서 알아볼건데요. 텍스트 마이닝을 하기 위해서는 텍스트에 대한 전처리가 선행되어야합니다. 이 과정에 대해서 알아보고, 형태소 분석기(Hannanum, Kkma)를 이용하여 "명사"를 추출해 막대 그래프와 워드 클라우드로 시각화를 진행해보겠습니다. 추가로 워드클라우드 모양을 바꾸는 방법도 알아보겠습니다. 포스팅 순서는 다음과 같습니다. 데이터 불러오기 간단한 텍스트 전처리 (불필요한 문자 제거) 형태소 분석기(Hannanum / Kkma)를 이용한 명사 추출 막대 그래프를 이용한 시각화 워드 클라우드를 이용한 시각화 워드 클라우드 모양/ 색깔 바꾸기 (참고) 다양한 형태소 분석기의 장단점 정리 데이터는 아래 링크에서 다운이 가능합니다. https://github.com/youngwoos/Doit_Python/tree/m

python plotly 시각화 인터랙티브 그래프 총정리 HTML 저장 / pip conda 차이점 [내부링크]

오늘은 파이썬 plotly 패키지를 이용한 interactive 그래프를 그려보겠습니다. plotly 패키지는 수많은 데이터 시각화 패키지 중에서도 예쁘게 그래프를 그려주는 패키지 중 하나로 손꼽히는만큼 알아두면 큰 도움이 될겁니다! 오늘 그려볼 그래프는 다음과 같습니다. 산점도 그래프 : plotly.express.scatter() 막대 그래프 : plotly.express.bar() 선 그래프 : plotly.express.line() box plot : plotly.express.box() 추가로 위의 함수로 그린 그래프를 HTML로 저장하는 방법도 알아보겠습니다. 1. plotly 패키지 설치 밎 데이터 불러오기 우선 plotly 패키지를 불러오고 시작하겠습니다. 오늘 사용하는 데이터는 아래 링크에서 다운 받으실 수 있습니다. https://github.com/youngwoos/Doit_Python/tree/main/Data ## 1. 패키지 설치 pip install plo

Jupyter Notebook 마크다운 한번에 정리하기 [내부링크]

오늘은 쥬피터 노트북이나 코랩에서 유용하게 쓰이는 기능 마크다운에 대해서 정리해보려고 합니다. 많이 사용되는 기능 위주로 정리해보겠습니다. 제목 작성 목록 작성 다양한 방법으로 글씨 강조 (기울임체, 굵은 글씨, 취소선, 형광펜) 인용구 삽입 링크 삽입 이미지 삽입 코드 삽입 수식 삽입 수평선 삽입 1. 제목 작성 # 1단계 제목 ## 2단계 제목 ### 3단계 제목 #### 4단계 제목 ##### 5단계 제목 ###### 6단계 제목 6번째 제목까지 #을 이용해서 작성할 수 있습니다. 2. 목록 작성 1. 첫번째 2. 두번째 3. 세번째 숫자를 이용한 목록 작성이 가능합니다. + 첫번째 + 두번째 + 세번째 - 첫번째 - 두번째 - 세번째 * 첫번째 * 두번째 * 세번째 점으로 목록을 표현 하는 것도 가능하구요. (세 가지 모두 같은 결과를 반환합니다.) - 첫번째 - 두번째 - 세번째 점으로 목록을 표현하되, 들여여쓰기가 필요하다면 TAB으로 조정하시면 됩니다. 3. 다양한 방법

pandas 데이터 가공 query groupby agg merge concat [내부링크]

오늘은 파이썬 데이터 분석을 하는데 있어서 필수로 알아야 할 함수인 query, groupby, agg, merge, concat 함수에 대해서 알아보겠습니다. 1. 조건에 맞는 데이터만 추출하기 query() : 행 추출 exam.query('english <= 80') # 여러 조건 동시 충족 exam.query('nclass == 1 & math >= 50') # 여러 조건 중 하나 이상 충족 exam.query('math >= 90 | english >= 90') exam.query('nclass in [1, 3, 5]') df.query() 함수 안에 따옴표를 이용하여 조건을 써주시면 됩니다. 2. 필요한 변수만 추출하기 df[ ] exam['math'] # 한 변수 추출 exam[['nclass', 'math', 'english']] # 여러 변수 추출 exam.drop(columns = 'math') # 변수 제거 exam.drop(columns = ['math', 'e

python 결측치 이상치 처리 기본 isna fillna dropna quantile [내부링크]

오늘은 python에서 결측치와 이상치를 처리할 때 기본적으로 사용되는 함수에 대해서 알아보겠습니다. 물론 결측치,이상치를 처리하는데는 다양한 방법이 있습니다. 이부분에 대해서는 Do it! 데이터분석 포스팅이 끝나면 자세히 다뤄보려고 합니다. 이번 포스팅에서는 아주 기초적인 방법에 대해서 다룹니다. 1. 결측치 정제하기 ## 1. 결측치 정제하기 pd.isna(df).sum() # 결측치 확인 df_nomiss = df.dropna(subset = ['score']) # 결측치 제거 df_nomiss = df.dropna(subset = ['score', 'sex']) # 여러 변수 동시에 결측치 제거 exam['math'] = exam['math'].fillna(55) # 결측치 55로 대체 pd.isna(df).sum()은 결측치를 확인해주는 코드입니다. isna() 함수를 통해 결측치를 찾고 boolean 형으로 반환된 결과를 sum 함수로 더해줌으로써 결측치 개수를 확인할

pandas seaborn 데이터 시각화 그래프 총정리 [내부링크]

오늘은 python 그래프 패키지인 seaborn에 대해서 알아보겠습니다. 기초 내용을 다루는 포스팅인 만큼 꼭 필요한 함수에 대해서 알아볼건데요. 오늘 알아볼 함수는 다음과 같습니다. sns.scatterpolt() : 산점도 그래프 sns.barplot() : 막대 그래프 [빈도표 이용] sns.countplot() : 빈도 막대 그래프 [원자료 이용] sns.lineplot() : 선 그래프 sns.boxplot() : 상자 그림 sns.histplot() : 히스토그램 sns.distplot() : 히스토그램 upgrade! pivot() / plot.barh() : 누적 막대 그래프 우선 그래프를 그리는데 필요한 seaborn 패키지를 불러오고 시작합니다. import seaborn as sns 1. 산점도 그래프 sns.scatterplot() ## 산점도 그래프 sns.scatterplot(data = mpg, x = 'displ', y = 'hwy') # 축 제한 sn

python pandas 날짜 데이터 to_datetime 년 월 일 추출 [내부링크]

오늘은 pandas를 이용해서 날짜 데이터를 다루는 방법에 대해 알아보려고 합니다. 파이썬 데이터분석 기초를 다루고 있는 만큼 아주 간단하게 알아보겠습니다. * 이후에 날짜와 시간을 다루는 패키지인 datetime / dateutil / time 패키지에 대해 자세한 포스팅을 진행할 예정입니다. 1. datetime 변수 변환 및 year/month/day 추출 # 날짜 시간 타입 변수 만들기 economics['date2'] = pd.to_datetime(economics['date']) # 변수 타입 object -> datetime64 # 연/월/일 추출 economics['date2'].dt.year economics['date2'].dt.month economics['date2'].dt.day 우선 object type의 변수를 datetime64 type으로 변환시켜줍니다. 이때 pd.to_datetime() 함수를 사용합니다. 이렇게 datetime64 type으로 변환

pandas 데이터 분석 기초 함수 rename value_counts np.where sort_index sort_values [내부링크]

오늘 알아볼 파이썬 함수는 다음과 같습니다. 데이터 분석 전 데이터 파악하기 데이터 프레임 복사 변수명 바꾸기 파생 변수 만들기 빈도 확인하기 1. 데이터 분석 전 데이터 파악하기 df.head() # 데이터 앞부분 df.tail() # 데이터 뒷부분 df.shape() # 행, 열 수 df.info() # 속성 df.describe() # 요약 통계량 데이터를 불러온 후, 데이터의 전체적인 구조를 파악하는데 사용되는 함수 입니다. 2. 데이터 프레임 복사 df_new = df.copy() 새로운 데이터 프레임을 복사하지 않고, df1 = df 와 같이 객체로 할당에서 사용할 경우, df1의 값이 바뀌면 df의 값도 함께 변해버리는 문제가 발생합니다. 따라서 꼭 copy함수를 통해 복사 후 사용해야합니다. 3. 변수명 바꾸기 df.rename(columns = {"manufacturer':'company'}, inplace = True) # old_name : new_name ren

Do it! Python 데이터 분석 [내부링크]

파이썬 데이터 분석을 시작하면서 처음으로 완독했던 책인 《Do it! 쉽게 배우는 파이썬 데이터 분석》 이라는 책에 대해 포스팅을 진행하려고 합니다. 오랜만에 블로그를 다시 시작한 이 시점에 이 책을 가장 먼저 소개하는 이유는 데이터 분석을 하는데 꼭 필요한 함수들을 쉽게 배울 수 있기 때문입니다. 앞으로 12개의 포스팅을 통해 공부를 하면서 정리했던 내용을 간단하게 공유하도록 하겠습니다. 저도 이 책을 완독한 시점부터 파이썬을 주로 사용할 만큼 파이썬에 대한 자신감을 길러주는 책입니다. 데이터 분석가가 되고 싶은 분들이시라면, 꼭 한 번 읽어보시길 추천드립니다. Do it! 쉽게 배우는 파이썬 데이터 분석 저자 김영우 출판 이지스퍼블리싱 발매 2022.05.31.

pandas 데이터 프레임 엑셀 csv 파일 불러오기 한글깨짐 방지 [내부링크]

오늘 알아볼 내용은 다음과 같습니다. 데이터 프레임 만들기 외부 데이터 불러오기(excel, csv) 1. 데이터 프레임 만들기 import pandas as pd df = pd.DataFrame({'name':['김지훈','이유진','박동현','김민지'], 'english':[90,80,60,70], 'math':[50,60,100,20]}) 다른 방법도 있지만 가장 많이 사용하게 되는 방식인 것 같습니다. 2. 외부 데이터 불러오기 # 엑셀 불러오기 df = pd.read_excel('excel_exam.xlsx') # csv 파일 불러오기 df = pd.read_csv('exam.csv') # csv 파일로 저장하기 df.to_csv('output_newdata.csv', index=False) df.to_csv('output_newdata.csv', index=False, encoding='utf-8-sig) # 한국어 깨짐 방지 index = False : 인덱스는 같이 저

NLP 텍스트 전처리 Text Preprocessing [내부링크]

자연어 처리 기초 4단계 포스팅에 이어, 이번 포스팅에서는 텍스트 전처리 Text Preprocessing에 대해 공부하려고 합니다. 자연어 처리 4단계에 대한 포스팅은 아래를 참고해주시길 바랍니다. NLP 자연어 처리 기초 4단계와 기계학습 학회 활동으로 자연어 처리 관련 스터디를 하게 되어, NLP 관련 포스팅을 기초부터 포스팅하며 공부하려... blog.naver.com 텍스트 전처리 Text Preprocessing 자연어 처리 기법이 잘 적용될 수 있도록, 용도에 맞게 텍스트를 사전에 처리하는 과정 텍스트 전처리 과정은 크게 세 가지로 나눌 수 있다. 1. 텍스트를 토큰으로 나누기 가. 토큰화 (Tokenization) 1) Sentence Tokenization 2) Word Tokenization 3) POS(Part of Speech) Tagging 나. 정제 및 정규화 (Cleaning & Normalization) 1) 정제 및 정규화 기법 3가지 2. 불필요한 토

01 토큰화 Tokenization 단어 문장 토큰화 nltk konlpy 품사 태깅 형태소 분석기 비교 [내부링크]

앞선 포스팅에서 공부했던 NLP 텍스트 전처리 과정에 대한 실습을 한 단계씩 진행하려고 합니다. NLP 텍스트 전처리 Text Preprocessing 자연어 처리 기초 4단계 포스팅에 이어, 이번 포스팅에서는 텍스트 전처리 Text Preprocessing에 대해 공... blog.naver.com 포스팅 순서는 다음과 같습니다. 01. 토큰화 02. 정제(Cleaning) and 정규화(Normalization) 03. 어간 추출(Stemming) and 표제어 추출(Lemmatization) 04. 불용어(Stopword) 05. 정규표현식(Regular Expression) 06. 정수 인코딩(integer Encoding) 07. 패딩(padding) 08. 원-핫 인코딩(One-Hot Encoding) 09. 데이터의 분리(Splitting Data) 10. 한국어 전처리 패키지 오늘 주제는 01. 토큰화 입니다. 1. 단어 토큰화 (영어) from nltk.tokeniz

새로 블로그를 만들 예정이였으나.. [내부링크]

며칠 만에 생각이 바뀌었습니다! 블로그 새로 만들 생각으로 계정도 새로 파고 글도 일곱 개 쯤 올려뒀는데 생각보다 새로 블로그를 키우는게 쉽지 않다는걸 느끼고 빠르게 돌아왔어요..ㅎ 대신 기존의 블로그를 리모델링해서 공부한 내용을 위주로 올리고 일상은 가끔 올리려고 해요 :) 원래 있던 공부 내용은 카테고리 정도만 다시 정리하는걸로 하려고 합니다. 이렇게 말해놓고 또 언제 떠나갈지 모르겠지만.. 하는데까지는 열심히 해보겠습니당~ 오늘부터 망해가는 블로그 되살리기 프로젝트!

결측치 대체 imputation 회귀대체 확률적 회귀대체 다중대체 mice in R [내부링크]

오늘은 『데이터 전처리 결측치 처리 방법』 포스팅에서 간단하게 언급했던 imputation(결측값 대체 방법)에 대해서 자세히 공부해보려고 합니다. 결측치 종류 및 처리 방법에 대한 대략적인 내용은 아래 포스팅을 참고해주시길 바랍니다. 데이터 전처리 결측치 처리 방법 in R 요즘 학회에서 프로젝트를 진행 중이다. 큰 주제는 환경이고 세부 주제는 조 마다 자유롭게 정해서 프로젝... blog.naver.com 물론 결측치를 처리하는데 있어서 결측치의 비율이 절대적인 것은 아니지만, 결측치 비율에 따라 처리 처리 방법을 달리할 수 있습니다. 비율에 따른 처리 방법은 아래와 같고, 이번 포스팅에서는 결측치 처리방법(imputation)을 하나하나 알아보려고 합니다. 결측치 비율 결측치 처리 방법 10% 미만 제거 or imputation(어떤 방법을 이용해도 상관 없음) 10% 이상 20% 미만 hot deck, regression, model based imputation 20% 이상

을지로 충무로 양식 맛집 을지다락, 특히 오므라이스가 맛있는 곳 [내부링크]

2021.07.05(월) 완벽했던 을지로 충무로 나들이 과동기 언니를 만나러 학교에 다녀왔다. 충무로에서 학교를 다니면서 힙지로가 처음이라니 말도 안돼..! (몰랐는데 충무로와 을지로 3가역이 매우 가깝다.. 걸어서 7분거리) 학교 다닐 때 매일 학교 주변에서 밥 먹고 술만 마셨지 서울 주변 맛집은 하나도 안 다녀본듯하다. 오히려 요즘 더 다니고 있다. 이번에 다녀온 곳은 을지로 양식 맛집! 을지다락이라는 곳이다. 을지로 양식 맛집, 특히 오므라이스가 맛있는 곳 을지다락 서울 중구 초동 156-9 을지로3가역 9번 출구에서254m 매일 11:30 - 21:30 Break Time 평일 15:00 - 17:00 주말, 공휴일 NO break time 0507-1322-4484 을지다락 주문메뉴 사전조사 없이 방문한 을지로 맛집 을지다락. 어떤 메뉴가 맛있는지 몰랐다. 그럴 때 사용하면 좋은 방법은 메뉴판 맨 위 메뉴를 고르는 것!ㅎㅎ 그렇게 다락 오므라이스, 매콤크림파스타를 주문했다.

데이터 전처리 이상치 탐색 및 처리하기 변수변환 방법 [내부링크]

저번 포스팅에서는 결측치 처리 방법에 대해 간단하게 알아봤습니다. 여러가지 imputation 방법에 대해서는 추후에 자세히 포스팅 하기로 하고, 오늘은 이상치 탐색 방법과 간단한 처리 방법에 대해서 소개해보려고 합니다. 1. 이상치란? 데이터의 전체적인 패턴에서 동떨어져 있는 관측값. 변수 분포에서 비정상적으로 벗어난 값. 편차가 큰 값. → 이상치를 탐색하기 위해 분포를 그려보는 과정(box plot, scatter plot, histogram)이 꼭 필요함. 여러 test를 하는 것보다 효과적. 2. 이상치의 종류 1) 데이터 생성 시 실수로 생겨난 이상치 수집 과정에서의 오류, 측정단위 오류, 실험 과정에서의 오류 2) 자연적으로 발생한 이상치 직원 월급 중 임원들의 월급은 일반 사원들의 월급과 큰 차이가 나기 때문에 따로 분석해야 함. 자연적으로 큰 차이가 발생하는 경우임. 3) 역코딩에 의한 이상치 설문지에서 의도적으로 1번과 5번 성향을 바꿔놨는데 데이터 분석 시 고려를

데이터 마이닝? 지도학습 비지도학습 준지도학습 강화학습 scikit learn 주요 모듈 [내부링크]

파이썬 실습에서 scikit-learn(Sklearn)라이브러리에 대한 포스팅을 하기 전에 데이터 마이닝에 대한 전반적인 소개를 하고, 본격적으로 포스팅을 진행하고자 합니다. 1. 데이터 마이닝 Data Mining 데이터로부터 규칙을 도출해내, 새로운 상황이나 현상에 대한 예측 또는 분석을 실시하는 과정 데이터로부터 도출된 규칙을 통해 새로운 인사이트(insight)를 찾는 과정 데이터를 적절히 학습해 좋은 예측모델을 구축하는 것이 중요함 가. 학습의 종류 지도 학습, 비지도 학습, 준지도 학습, 강화 학습 1) 지도 학습 ① input에 대해 정답(label)이 있는 데이터 셋이 주어지는 경우 ② 종류: 회귀(regression), 분류(classification) 분류 이진분류 어떤 데이터에 대해 두가지 중 하나로 분류할 수 있는 경우 다중분류 어떤 데이터에 대해 여러값 중 하나로 분류할 수 있는 경우 회귀 어떤 데이터들의 feature을 토대로 값을 예측하는 것. 결과값은 실

파이썬 scikit-learn sklearn 모듈 전처리 모델 학습 평가 하이퍼 파라미터 튜닝 실습 예제 [내부링크]

오늘은 저번 시간에 이론으로 소개한 데이터 마이닝 과정이 실제로 어떻게 이루어지는지 간단하게 예제를 통해서 설명드리도록 하겠습니다. 아래 글은 데이터 마이닝 이론에 대한 전반적인 내용이니 참고하시면 좋을 것 같습니다. 데이터 마이닝? 지도학습 비지도학습 준지도학습 강화학습 scikit learn 주요 모듈 파이썬 실습에서 scikit-learn(Sklearn)라이브러리에 대한 포스팅을 하기 전에 데이터 마이닝에 대한 전반... blog.naver.com 데이터 마인닝의 과정은 크게 [데이터 전처리 - 모델링 - 모델 평가] 순으로 이루어집니다. 이 순서대로 실습을 진행해보도록 하겠습니다. 본 포스팅에서는 데이터 마이닝의 세세한 과정보다는 대략적인 순서 파악에 중점을 두시길 바랍니다. 다음은 실습에서 사용할 데이터 파일입니다. 첨부파일 Data06.csv 파일 다운로드 1. 데이터 전처리 1-1. 파일 불러오기 # 작업경로 import os os.getcwd() #현재 작업경로 확인하

NLP 자연어 처리 기초 4단계와 기계학습 [내부링크]

학회 활동으로 자연어 처리 관련 스터디를 하게 되어, NLP 관련 포스팅을 기초부터 포스팅하며 공부하려고 합니다. 1. 자연어 처리 발전 배경 자연어 처리는 인공지능 분야로부터 파생된 영역으로, 인공지능은 기계가 생각하고 판단할 수 있도록 인공적으로 지능을 만드는 분야이다. 인공적인 지능 생성을 위해 인간의 언어를 이해할 수 있는 능력이 요구되며, 컴퓨터가 인간의 언어인 자연어를 이해하고 처리할 수 있도록 하는 자연어 처리가 중요해졌다. 2. 자연어 처리 활용 영역 인간의 언어가 사용되는 모든 영역에서 활용 가능하다. - 정보 검색, 질의 응답 시스템 - 기계번역, 자동통역 - 문서작성, 문서요약, 문서분류, 철자오류 검색 및 수정, 문법오류 검사 및 수정 3. 자연어 분석 단계 자연어 분석 단계 자연어 분석 단계는 크게 4단계로 분류됩니다. 형태소 분석 - 구문 분석- 의미 분석 - 화용 분석 한 단계씩 살펴봅시다. 가. 형태소 분석 (Morphological Analysis) 입

요즘 보는 드라마 알고있지만 송강 한소희 리뷰 [내부링크]

알고있지만 포스터 사랑은 못 믿어도 연애는 하고 싶은 여자, 나비 연애는 성가셔도 썸은 타고 싶은 남자, 재언 결코 평범하지 않은 청춘들의 하이퍼리얼리즘 로맨스 알고있지만, 그럼에도 불구하고 알고있지만, 연출 김가람, 장지연 출연 송강, 한소희, 채종협, 양혜지, 한으뜸, 김민귀, 이열음, 서혜원, 윤사봉, 이호정, 윤서아, 정재광, 이정하, 이승협, 김무준 방송 2021, JTBC 알고있지만, 얼마 전 넷플릭스를 보다가 한소희, 송강 주연의 드라마를 발견했다. 한소희는 부부의 세계에서 송강은 스위트 홈에서 알게 된 배우다. 둘 다 너무 이쁘고 멋있고 연기도 잘 하는 배우이기에 드라마를 발견하자마자 한순간에 보고 싶어졌다. 그때 시간이 새벽 3시. 볼까말까 고민하다가 '보다 졸리면 자야지' 하고 드라마를 보기 시작했다. 그렇게 1화를 끝까지 봤다. 지금은 2화까지 본 상태이고 계속 볼지 고민 중이다. 왜 고민하고 있는지는 차차 설명하기로 하고! 지금부터는 드라마를 간단히 소개해보려고

송도 피에프창 트리플스트리트 아시안 푸드 맛집 [내부링크]

2021.07.01(목) 송도 트리플스트리트 맛집 추천 친한 고등학교 친구와 송도 트리플스트리트에 다녀왔다. 종강을 해서 둘 다 밤낮이 바뀌어 버리는 바람에 아침도 못먹고 부랴부랴 만났다. 너무 배고파서 빨리 아점을 먹고 놀기로 했다. 뭘 먹을지 찾다가 친구 필라테스 쌤이 추천해주신 곳이 있어서 가보기로 했다. 송도 트리플스트리트에 있는 아시안 푸드 맛집 피에프창이라는 곳이다. 송도 아시안 푸드 맛집 피에프창 인천 연수구 송도과학로16번길 33-2 트리플스트리트 B동 2층 매일 11:00 - 22:00 Last Order 21:00 032-310-9488 창스 치킨 레터스 랩 마침 런치 타임(open~16:00)이라 런치세트를 주문했다. 런치세트 구성은 메인 메뉴+ 수프+완탕스트립+밥+에이드이다. 서브 메뉴가 추가로 나오는 대신 메인 메뉴만의 가격으로 보면 조금 더 비싸다. 우리는 메인 메뉴로 창스 치킨 레터스 랩과 몽골리안 비프를 주문했다. Price 창스 치킨 레터스 랩 1880

인하대역 닭갈비 맛집 학익동 용구네 닭갈비 [내부링크]

인하대역 학익동 숯불 닭갈비 맛집 용구네 숯불 닭갈비 영업시간 17:00~00:00 일요일 휴무 매장주소 인천 미추홀구 학익동420-23 전화번호 010-3257-7771 주차공간 하이패션 아웃렛 용구네 닭갈비 도보 2분거리 / 무료 인하대역 맛집 용구네 닭갈비 오랜만에 약속이 없는 틈을 타 가족들과 외식을 하고 왔다. 인하대 주변에 방문할 일이 있어서 주변 맛집을 검색하던 중 숯불 닭갈비 집을 하나 발견했다. 우리 가족은 일반 닭갈비보다 숯붗 닭갈비를 즐겨먹는 편이다. 항상 집 앞에 있는 가게만 가다가 오늘은 새로운 가게에 방문해보기로 했다. 인하대역 주변 학익동에 위치한 용구네 닭갈비라는 가게이다. 용구네 닭갈비 가게 내부 가게 내부는 깔끔했다. 여덟 데이블 정도 수용할 수 있는 크기였다. 여름이라 숯불 닭갈비를 먹기에는 너무 덥지 않을까 할 수 있는데 에어컨을 틀어주셔서 가게 내부는 시원했다. 이른 저녁 시간에 방문해서 그런지 사람들이 많진 않았고 저녁 시간이 되자 사람들이 몰

데이터 전처리 결측치 처리 방법 in R [내부링크]

요즘 학회에서 프로젝트를 진행 중이다. 큰 주제는 환경이고 세부 주제는 조 마다 자유롭게 정해서 프로젝트를 시작했다. 우리 조는 캐글의 수질 데이터를 이용해서 프로젝트를 진행하려고 한다. 현재 데이터 전처리 과정(결측치 처리)에서 어려움을 겪고 있다. 그래서 이번 포스팅에서는 결측치 처리 방법에 대한 공부를 해보려고 한다. 수많은 결측치 어떻게 처리하면 좋을까? 들어가기 전에 결측치를 평균, 중앙값, 최빈값, 최솟값으로 단순 대체하는 방법은 절대!! 사용하지 말것. Bias를 높일 뿐아니라, 모델링에 악영향을 미친다. p-value가 부정확해지고 변수간의 상관관계를 왜곡시킨다. 결론적으로 아주 안 좋은 방법. 1. 결측치의 종류 결측치마다 결측치를 처리하는 방법이 다르다. 때문에 결측치의 종류부터 알아봐야한다. 1) 완전 무작위 결측 (MCAR, Missing Completely At Random) 결측치가 다른 변수들과 아무런 관련이 없을 때. 상관관계가 낮을 때. 데이터가 MCA

코스트코 다이어트 샐러드 일품채 닭가슴살 리코타 샐러드 [내부링크]

코스트코 샐러드 일품채 리코타/닭가슴살 샐러드 코스트코 샐러드 얼마 전에 냉장고를 열었다가 마주하게 된 샐러드. 엄마가 다이어트를 하시겠다고 코스트코에서 사다 놓은 샐러드다. 원래 엄마 식단이지만 너무너무 배가 고팠기에.. 아침 겸 점심으로 가볍게 먹기로 했다. 그렇게 한 번 먹고 두 번 먹고.. 빠져버린 코스트코 샐러드를 포스팅 해보려고 한다 :) 코스트코 닭가슴살 샐러드 원래 정식 명칭은 코스트코 샐러드가 아니고 일품채 샐러드! 코스트코에서 리코타 샐러드와 닭가슴살 샐러드 3팩을 묶음으로 구매할 수 있다. 가격은 3팩에 약 10000원 정도! 인터넷으로 주문하면 배송비 포함 13000원 정도. 평소에는 리코타 치즈 샐러드를 자주 먹는데 오늘은 닭가슴살 샐러드를 먹어봤다. 코스트코 닭가슴살 샐러드 구성 일품채 닭가슴살 샐러드 구성은 닭가슴살 + 견과류 채소도 싱싱하고 닭가슴살 양도 적당하다. 안에 소스도 들어있는데 간이 딱 적당해서 다이어트 식단이라고 하기에는 넘 맛있당 일품채 닭

이태원 주휴소 분위기 좋은 술집 밥집 추천 [내부링크]

2021.06.22(화) 이태원 나들이 & 술집 추천! 얼마 전 대학 동기 언니랑 이태원에 다녀왔다. 이태원도 이번이 처음이다. 서울에서 학교를 다니지만 안 가본 곳이 많다. 매일 학교 주변이나 자취방 주변에서만 놀다보니 가는 곳만 계속 가게된다. 2학기 때 학교에 가게 되면 그동안 못 가봤던 곳도 찾아다녀 봐야겠다. 이태원은 처음이라! 여기저기 후기를 찾아봤다. 하지만 역시.. 찐 서울러 언니를 이길 수는 없었다. 결국에는 언니가 추천해준 곳으로 술을 마시러 갔다. 그렇게 가게 된 곳이 "주휴소"라는 술집이자 밥집이다. 이태원 분위기 좋은 술집 주휴소 서울 용산구 이태원동 129-9 지하1층 이태원역4번 출구에서193m 0507-1435-147 월요일 휴무 화요일~금요일 17:00 - 22:00 토요일 16:00 - 22:00 주휴소 주문 메뉴 자리에 앉자마자 언니가 메뉴 추천을 해주기 시작했다. 닭볶음탕, 떡볶이, 매콤 낙지 로제파스타, 바지락 버터술찜 등등. 메뉴판에 best라

혜화 레트로 코믹 연극 추천, 연극라면 솔직 후기 [내부링크]

2021.06.21(월) 혜화에서 오랜만에 연극! 오랜만에 대학교 동기랑 혜화로 연극을 보러갔다. 내 인생 4번째 연극! 학교랑 혜화가 가까워서 나중에 공강 때 연극 보러와야지 했는데 그놈의 코로나가 다 망쳐놨다. 2학기 때라도 학교 가게 되면 연극 자주 보러 가야겠다. 이날 보기로 한 연극은 레트로 코미디극 "연극라면"이다. 폰으로 예매하고 수다떨면서 기다리다보니 금방 연극 시간이 됐다. 연극 시간에 맞춰서 상영장소인 해피시어터로 갔다. 혜화역에서 멀지 않은 곳에 위치해 있어서 쉽게 찾아갈 수 있었다. 연극라면은 레트로코믹극으로 90년대부터 현재까지 네 남녀의 사랑이야기와 인생이야기를 함께 담은 연극이다. 러닝 타임은 100분이고, 연극 시간은 월요일~금요일 15:00 / 18:00, 주말 및 공휴일 13:00 / 15:20 / 17:40 / 20:00 에 있다. 연극라면 장소: 해피시어터 장르: 레트로 코미디 상영 시간 100분 연극 시간 월요일~금요일 15:00/18:00 주말

나를 돌아보는 백문백답, TMI 대잔치 - 3편 [내부링크]

100문 100답 3편 시작! 오랜만에 하는 백문백답~ 오늘은 어떤 질문이 있을까ㅎㅎ 긴말 없이 바로 시작! ..start! 63. 나만의 추억이 담긴 장소 > 어렸을 때 놀던 아파트 놀이터 요즘엔 모래 깔린 놀이터가 없지만 내가 어렸을 때만해도 다 모래 놀이터였다. 거기서 모래 갖고 노는게 그땐 정말 재밌었다. 맨날 두꺼비집 만들고 성 쌓고 그랬었는데ㅋㅋ 그리고 동네만 나가도 아파트 단지 안에서 노는 친구들이 되게 많았었는데 요즘은 그렇지 않은 것 같다. 꼰대같지만 라떼랑 분위기가 많이 달라졌다. 64. 제일 많이 울어봤던 기억 > 얼마전. 노코멘트 65. 제일 크게 싸웠던 기억 > 살면서 다른 사람이랑 크게 싸운 기억은 없는 것 같다. 제일 크게 싸웠던 기억을 굳이 뽑자면 오빠랑 어렸을 때 소리지르면서 싸운거? 맨날 나만 고래고래 소리지르고 오빠는 이성을 잃지 않았다. 그래서 더 짜증났어ㅋㅋㅋㅋ 66. 가장 기억에 남는 여행 > 일본 오사카 가족여행 가족들이랑 국내 여행은 안 가

고려대역 맛식당 연어랑 메뉴 추천 사케동 맛집 [내부링크]

고려대역 연어 요리 맛집 맛식당 연어랑 서울 성북구 북악산로31길 35 02-928-1502 영업시간: 매번 바뀜 맛식당 연어랑 외부 코로나 때문에 학교에 안가서 자취방에 살고 있지 않지만, 자취방에 가끔 들리면 꼭 가는 맛집 한 군데가 있다. 자취방에 살 때는 일주일에 한 번 꼴로 가던 곳! 고려대역 주변에 위치한 "맛식당 연어랑"이라는 연어 요리 맛집이다. 맛식당 연어랑 메뉴 맛식당 연어랑 메뉴는 전체적으로 저렴하다. 그렇다고 연어 질이 떨어지는 건 절대 아니다. 홍대나 이태원, 혜화 쪽만 가도 이 가격의 배가 되는데, 연어랑은 가격이 저렴해서 자취방 주변에서도 부담없이 즐길 수 있다는 점이 너무 좋다!! 제일 자주 먹는 메뉴는 연어간장덮밥(사케동)이다. 먹어 본 메뉴는 사케동, 연어회덮밥, 연어초밥, 우동 정도. 적어 놓고 보니 거의 다 먹어 본 것 같다. 보통 사케동을 먹고, 너무 배고픈 날에는 연어초밥도 같이 주문해서 먹는다. 연어간장 덮밥 (사케동) 이번에 자취방에 들렸을

부평 그래잇 평리단길 카레 맛집, 분위기 좋은 밥집 추천 [내부링크]

부평 카레 맛집 그래,잇 인천 부평구 부평문화로65번길 19 매일 12:00 - 21:00 매일 15:00 - 17:00 Break-time 휴무일 인스타그램 공지 010-8765-0425 그래, 잇(@gr___eat) • Instagram 사진 및 동영상 팔로워 694명, 팔로잉 13명, 게시물 148개 - 그래, 잇(@gr___eat)님의 Instagram 사진 및 동영상 보기 www.instagram.com 인천 사는 대학교 동기들과 부평에 다녀왔다. 뭘 먹을까 하다가 친구가 먹고 싶다며 추천한 부평 카레집에 방문하게 되었다. "그래,잇"이라는 카레집인데 방문해보니 분위기도 좋고 맛있어서 리뷰를 남겨보려고 한다! :) 그래잇 내부 인테리어가 깔끔하고 자리도 널찍이 떨어져 있어서 비좁지 않고 편했다. 분위기도 좋아서 데이트 장소로 딱인 것 같다. 사장님도 친절하셨다 :) 그래잇 내부 가게 한 쪽이 분위기 있게 꾸며져 있길래 남기고 싶은 마음에 한 컷 찍었다. 나중에 내 집을 가지

오랜만의 상경 망원동 나들이 [내부링크]

2021.06.20(일) 오랜만의 상경 & 망원동 나들이 용산역 지날 때 시험기간 동안 스트레스가 엄청났던 관계로.. 무자비하게 잡았던 서울 약속을 해결하기 위해 자취방으로 올라왔다. 얼마만에 가는 자취방인지도 생각이 나지 않는다. 코로나 시국만 아니었다면 매일 있었을 곳인데 지금은 달마다 월세를 가져가는 아까운 공간일 뿐이다. 그래도 시험 끝나고 약속이 넘쳐날 때 며칠 있기에는 너무 좋은 공간이다 :) 원래는 자취방에 올까말까 고민하고 있었는데 일요일 약속이 생기는 바람에 주저 없이 왔다. 일요일 약속은 친한 언니와 언니 친구와 함께한 망원동 나들이ㅎㅎ 시실 망원동은 처음이다. Previous image Next image 오스테리아오라 주문 메뉴 자취방에 도착하자마자 집 청소를 하고 망원역으로 떠났다. 저녁은 언니 친구가 예약한 오스테리아오라에서 먹었다. 가게 소개는 나중에 맛집 리뷰에서 자세히 하기로 하고! 간단히 말하자면 피자가 맛있었다. 언니 친구랑은 처음 만난 사이였는데

망원동 이탈리안 맛집 오스테리아오라 메뉴 추천 [내부링크]

망원동 이탈리아 음식점 오스테리아오라 망원역1번출구 올리브영 골목 도보 10분 010-9163-0415 영업시간 평일, 토요일 12:00 - 22:00 런치 last order 14:00 디너 last order 20:30 일요일 12:00 - 21:00 런치 last order 14:00 디너 last order 20:00 Break Time 15:00 - 17:00 시험기간 때 종강을 하면 열심히 노리라 다짐하며 서울 약속을 엄청 많이 잡아놨다. 다른 사람이 들으면 그리 힘든 일정은 아니라고 생각할 수 있지만 원래 격일로만 약속을 잡는 나로서는 이번 서울 약속들이 아주 타이트한 일정이었다. (시험기간 때 진짜 어지간히 놀고 싶었나보다ㅋㅋ) ANYWAY 첫번째 약속은 망원동에서 있었다. 망원동에서 친한 언니와 언니 친구를 만났다. 언니 친구가 미리 예약해 둔 망원동 이태리 맛집 "오스테리아오라"에 방문했다. 노느라 사진을 많이 찍진 못해서 간단하게 느낌 위주로 리뷰를 남겨보려고 한

심심해서 하는 백문백답, TMI 대잔치 - 2편 [내부링크]

100문 100답 2편 시작! 여기서부턴 진짜 내가 답하고 싶은 질문만 답해야지~ ..start! 31. 첫사랑 32. 좋아하는 사람 33. 사귀는 사람 > 없다구!!!! 34. 이상형 > 배울 점이 있는 사람 35. 첫눈에 반한 사람 > 없뜸 36. 사랑 vs 우정 > 사랑 결국 마지막에 남는 건 가족 뿐인걸 알기에. 여기서 사랑은 진짜 가족ㅎㅎ 사귀는 사이 말고~ 누군가를 사귀게 돼도 완전히 믿고 기댈 생각 없음ㅎㅎ 우정도 마찬가지. 진짜 힘들 때 찾아주는 우정 별로 없더라. (너무 비관적으로 보이나?ㅋㅋㅋㅋ) 37. 내가 사랑하는 사람 vs 나를 사랑하는 사람 > 원래는 내가 사랑하는 사람이라고 생각했지만 지금은 나를 사랑하는 사람! 38. 좋아하는 사람이 제일 보고싶을 때 > 기분 안 좋을 때? 기댈 곳이 필요할 때 39. 이성을 볼 때 제일 따지는 부분 > 능력 / 한마디로 배울점이 있어야 한다는 점!! 40. 사랑이란 > 아까워도 계속 뭔가를 해주고 싶은 것 41. 누군가

커피빈 20주년 이벤트 6월 16일 음료1+1 [내부링크]

커피빈코리아가 20주년 창립 기념일인 6월16일 하루동안 고객 감사 프로모션을 진행한다고 해요. 6월 16일 오늘! 하루동안 보라색 패션 아이템을 착용하고 매장에서 음료를 구매하면 동일한 음료를 무료로 하나 더 제공한다고 해요. 보라색 아이템이면 모두 가능하다고 해요. 의상, 잔자기기, 악세서리, 보라헤어, 메이크업, 네일까지! 오늘 카페 방문할 일이 있으신 이웃분들은 보라색 아이템 착용하고 방문해보시는 것도 재밌을 것 같네요~

여의도 놀거리 더현대서울 한강공원 [내부링크]

2021.06.15(화) 대학 동기들과 여의도 나들이 대학 동기들과 오랜만에 만났다. 한 친구는 집이 인천이라 평소에도 자주 만나고 카공도 많이 했는데, 다른 한 친구는 집이 멀어서 거의 1년만에 본 것 같다. 코로나만 아니었으면 매일 보는 거였는데! 코로나가 여러모로 문제다. 더 현대 서울 어제 다녀온 곳은 여의도! 더 현대 서울을 가기로 했었다. 인스타 보면 커플인 친구들이 더현대 서울에서 자주 데이트를 하길래.. 우리도 궁금해서 가보기로 했다. 나중에 남자친구 생기면 와야하니까 사전 답사 겸ㅋㅋㅋㅋ 서울 최대 규모 백화점 답게 외형부터 거대했다. 더 현대 서울 내부 1층에 들어서자마자 물이 흐르는 구조물이 있다. 사실 백화점에서 나오다가 찍은 사진이다. 뭔가 블로그에 일기 올리려면 내부 사진 하나는 필요할 것 같아서ㅎㅎ 아무 생각 없이 사진을 찍고 있는데 갑자기 사람들이 옆에서 사진을 따라 찍기 시작했다. 핫플인 줄 아셨나? 핫플이었던걸까?ㅋㅋ 암튼, 백화점 내부가 정말 넓고

더현대서울 맛집 마츠노하나 텐동 사케동 [내부링크]

더 현대 서울 텐동 맛집 마츠노하나 더 현대 서울 지하 1B 평일 10:30 - 20:30 last order 20:00 02-766-3774 대학교 친구들과 오랜만에 만나서 여의도 더 현대 서울에 다녀왔다. 열심히 노느라 사진은 많이 못 찍어서 간단하게 리뷰를 해보려고 한다 :) 마츠노하나 요즘 20대들 답게 아침은 가볍게 거르고 만났기에 더현대에 들어가자마자 점심을 먹기로 했다. 그런데.. 점심시간이라 그런지 모든 식당의 웨이팅이 엄청 났다. 그나마 웨이팅이 짧았던 마츠노하나에 예약을 걸어두고 기다렸다. (웨이팅이 짧았다고는 하지만 그래도 40팀..ㅠㅠ) 배고픈 상태로 더현대 이곳저곳을 둘러보다가 미리 예약해둔 마츠노하나에서 알림이 와서 가게 앞으로 기쁜 마음으로 달려갔다. 마츠노하나 2차 웨이팅 가게 앞으로 갔는데 안타깝게도.. 3인석이 나지 않아 조금 더 기다려야 했다. 그렇게 2차 웨이팅 시작! 다행이도 2차 웨이팅할 때는 생각보다 빨리 자리가 나서 금방 자리에 앉을 수 있

더현대 서울 카멜커피 후기, 엄청난 웨이팅 [내부링크]

더 현대 서울 커피 맛집 카멜커피 더 현대 서울 지하 1B 주말 10:30 - 20:30 평일 10:30 - 20:00 금요일 10:30 - 20:30 02-3277-0758 대학교 동기들과 다녀온 더현대서울! 텐동 맛집 마츠노하나에 이어서 후식으로 먹은 카멜커피도 소개해볼까 한다 :) 카멜커피 내부 카멜커피도 역시 웨이팅이 엄청나다. 120팀?정도 기다렸던 것 같다. 다행히 점심 먹기 전에 미리 예약을 해둬서 생각보다 많이 기다리지는 않을 수 있었다. 더 현대 서울은 웨이팅이 기본인가보다 ^^; 카멜커피 2차 웨이팅 미리 예약해둔 카멜커피에서 알림이 와서 빠르게 가게 앞으로 갔다. 그런데 가게에서 앉아서 먹으려면 또 3팀을 기다리라네? ··· 당연히 앉아서 먹는 순서를 기다리는거라고 생각했는데 그게 아니었다니..ㅎㅎ 그렇게 또 3팀 웨이팅 시작! 이미 지칠대로 지쳐있었는데 가게 앞에서 또 줄을 서서 기다리고 있으니 백화점을 온건지 놀이공원을 온건지 헷갈렸다ㅋㅋ 카멜커피와 라떼 아,

인천 옥련동 쌈밥 맛집 우렁쌈밥 대패정식 [내부링크]

최서방네 우렁쌈밥 대패정식 인천 연수구 한나루로 84 매일 10:00~21:30 032-832-1996 최서방네우렁쌈밥대패정식 인천광역시 연수구 한나루로 84 오늘 과외가 취소돼서 모처럼 쉬는 날이 되어버렸다. 얼마만에 아무것도 안하고 쉬는 주말인지! 학기가 시작된 이후로 아마 처음이 아닌가 싶다. 오랜 만에 쉬는 날인데 뭘 먹을까 하다가 점심에 가볍게 가족들과 우렁쌈밥을 먹으러 다녀왔다. 고딩 때 시험 끝난 날 자주 가던 우렁쌈밥맛집인데 오랜만에 가서 그런지 더 맛있었다 :) 가게 입구에는 쌈밥 집이라 그런지 세면대가 있다. 코로나 전에도 이렇게 세면대가 배치되어 있었는데 처음 갔을 때 되게 깔끔한 가게구나 싶었다. 이런 디테일한 부분까지 신경썼다니 손님들이 많이 오는 이유도 알 것 같다. 코로나 때문에 찜찜했는데 손 씻고 들어가니 맘이 편안했다. 가게 내부 가게 내부는 생각보다 넓다. 룸도 있어서 가족 모임을 하기에도 괜찮은 것 같다. 쌈채소 self 코너 쌈채소는 셀프 코너에서

심심해서 하는 백문백답, TMI 대잔치 - 1편 [내부링크]

100문 100답! 요즘 주변에서 이거 많이 하길래 나도 한 번 해보려고 한다:) 대신 답하기 곤란한 질문들은 제외하고. 그래서 백문 백답이 될 것 같진 않고 한.. 백문 팔십답정도?^^ ..start! 1. 블로그 닉네임 > 유 정 2. 생일, 별자리 > 5월 16일, 황소자리 3. 혈액형 > A형 4. 직업 > 대학생.. 아, 빨리 돈 벌고 싶다. 5. 전공 > 통계학 6. 키 > 158cm / 작은 키도 나름 나쁘지 않아ㅎㅎ 7. 시력 > 0.2/0.3 교정시력은 0.8정도 완전 옛날에 잰 거라 정확하지 않은데 지금은 뭔가 더 나빠졌을 것 같은 느낌이다. 드림렌즈를 중2 때부터 껴서 실제 시력은 측정한지 오래~ㅎㅎ 언제까지 드림렌즈를 낄 수 있을지 모르겠어서 요즘들어 조금 걱정되긴 하는데 안되면 나중에 라식하거나 렌즈 끼지 뭐.. 아, 그리고 요즘 안구건조증이 심해진 것 같아서 눈 관리 좀 해야겠다는 생각이 든다. 8. 종교 > 무교 9. 별명 > 별명은.. 딱히 없는 것 같당

옥련동 자연 카페 유퀴즈 촬영지, 블랑블룸 [내부링크]

카페 블랑블룸 인천 연수구 능허대로151번길 30 주말 11:00 - 22:00 공휴일 11:00 - 22:00 평일 12:00 - 21:00 주차 5대 가능 카페 블랑블룸 입구 우렁쌈밥 대패정식을 먹고 바로 앞에 있는 자연 카페 블랑블룸에 들렸다. 전에 근처에 밥 먹으러 왔다가 엄마랑 들린 적이 있는데 분위기가 너무 좋아서 재방문하게 되었다. 블랑블룸 디저트 우렁쌈밥을 먹고 들리기에는 두 곳 분위기가 너무도 다르긴 한데, 뭐 암튼!^^ 블랑블룸엔 디저트도 많고 음료도 맛있다. 요즘 시험 기간이었어서 프랜차이즈 커피만 먹다가 블랑블룸 커피를 먹으니 이게 정말 커피지 싶었다 ^o^ 블랑블룸 디저트 블랑블룸 디저트는 앙버터 다쿠아즈만 먹어봤다. 다쿠아즈는 매일 수제로 만든다고 하신다. 사실 다쿠아즈를 여기서 첨이자 마지막으로 먹어봐서 다른 다쿠아즈 맛은 모른다ㅋㅋ 그래서 다른 다쿠아즈랑 비교해서 맛을 리뷰할 순 없지만, 수제답게 맛있었당 담에 가면 케이크나 타르트 먹어봐야겠다. 블랑블룸

시험 끝난 날로 돌아가서 [내부링크]

2021.06.10(목) 기다리고 기다리던 시험 끝난 날! (시험 끝난 날 일기를 왜 오늘에서야 쓰고 있는지 모르겠지만 그날로 돌아가서 그날의 생각을 써보려고 한당ㅋㅋ) 3학년 1학기 시험이 끝났다. 시험 결과는 장담 못하겠는데 열심히 한 건 틀림없으니까.. 물론 조금 아쉬움은 남는다. 전공 전문이라 그런지 쉽지가 않네..ㅎㅎ 그래도 이제는 아무 생각 안하고 쉬고 싶다. 너무 고생했다!! 담주 월요일까지 세미나 에세이를 써야하긴 하지만 그건 내일 생각해야지! 원할머니 보쌈 오늘 시험이 끝나긴 했는데 교수님들께서 학기 마무리 수업을 빠짐없이 하시는 바람에.. 수업이 5시 반쯤 끝났다. 엄마 아빠가 시험 끝난 날이라고 맛있는 걸 먹으러 나가자고 하셨는데 나기기가 너무 귀찮아서.. 그냥 집에서 원할머니 보쌈을 주문해서 먹었다. 원래 보쌈,족발 같은 음식을 별로 안좋아하는데 보쌈은 요즘에 조금씩 먹는다. 근데 오늘은 딱히 먹고 싶은 음식도 없고.. 요즘 입맛도 별로 없어서 그냥 엄마가 추천

회귀해석 연습문제 풀이 [내부링크]

오늘의 타임랩스! 회귀해석 연습문제 풀이 드디어 내일 시험이다(^｡^) 내일부터 3일간 시험보고 나면 공부 포스팅 말고 재ㅣ밌는 포스팅 할 수 있겠지! 오늘도 고생했다( ´∀｀) 종강 기다렷!!

인천 용현동 연어초밥 맛집 그집초밥 배달의 민족 [내부링크]

정말 오랜만에 맛집 포스팅을 하는 것 같아요! 오늘 시험을 하나 봤는데 또 한번 느꼈습니다ㅎㅎ "시험 공부는 적당히 하자!" 그래도 한 학기동안 배운건 많은 수업이었으니, 시험 결과는 그냥 받아들이기로 하고~ 오늘 점심에 먹은 연어초밥 리뷰를 해보려고 합니다! 예전부터 많이 주문해서 먹고, 방문해서 먹던 인천 용현동 스시 맛집을 소개해 드릴게요. 연어초밥이 맛있는 용현동 스시 맛집 그집초밥 인천 미추홀구 토금남로 79 우성상가동 104호 매일 12:00 - 23:00 둘째주 넷째주 일요일 휴무 070-4216-8989 코로나가 심해진 이후로 배달음식을 자주 시켜먹게 되는 것 같아요. 가게 사장님들도 아셨는지 요즘에는 배달 앱에 등록되지 않은 가게를 찾기가 더 어렵더라구요. 오늘은 초밥이 먹고 싶어서 배달 앱을 찾다가 예전에 즐겨먹던 그집초밥을 발견했어요. 한 때 정말 많이 시켜먹곤 했었는데 오랜만에 그 맛이 생각나서 그집초밥에서 주문을 해봤어요. (같은 초밥이라도 가게에 따라 맛이

통계학과 대학생 타임랩스 [내부링크]

블로그는 하고 싶고, 올릴 글은 없고. 그래서 올리는 타임랩스! 2020 표본설계 기말고사 연습 삼아 풀어보고 있는 중. 오늘 아침에 찍은 따끈따끈한 영상이다. 전 포스팅에서도 말했지만 유튜버의 꿈을 아주 조금 품고 있지만, 실현시킬 여유와 용기가 없기 때문에 이렇게라도 욕구를 충족시켜 보고자 한다 ㅋㅋ <2020 표본설계 기말고사 후기> 표본설계는 재능의 영역이다! 시험 공부를 해도 문제에 따라서 성적의 변동이 아주 클 것 같다는 생각이 들었다. 고로, 지금까지 할 수 있는 노력은 (표본설계 이론 이해 정도?ㅋㅋ) 다 한 것 같으니 이제 다른 공부를 해야겠다~ ps. 이제는 그냥 시험 봐버리고 싶고만ㅎ 물론 지금도 놀고 있지만 이제 그만 맘! 편! 히! 놀고 싶다구요 이 세상의 모든 대학생 화이팅!

2021.05.04(화) 오늘의 일기 [내부링크]

매일매일 챌린지 시즌1 #오늘일기 챌린지가 3일만에 끝났다. 오랜만에 블로그 들어와서 못보던 이웃분들 글도 재밌게 보고, 다시 블로그 붐이 일어나나 싶은 생각도 들었는데 아쉽다. 처음부터 챌린지 기준을 잘 설정하고 진행했으면 좋았을텐데! 뭐, 근데 3일동안 쓰다보니 여기에 일기 쓰는 것도 나쁘지 않은 것 같아서 가끔씩 이벤트가 있는 날엔 간단히 글을 남겨보려고 한다. 2021.05.04(화) 특별한 일은 없었지만 그냥 남기는 일기 어제 늦게까지 공부할 줄 알고 밤에 커피를 마셨다. 그런데 예상 외로 할 일이 빨리 끝나버렸다. 자고 싶었는데 커피 때문에 잠이 안왔다ㅠㅠ 뒤척이다 한.. 새벽 4시 쯤 잠든 것 같다. 지금 불교와 인간 수업을 듣고 있는데 너어무 졸리다. 이거 끝나고 조금 잘까 생각중이당.. 사실 불교와 인간 수업 때는 틀어두고 낮잠(?) 자는게 국룰인데,,ㅎㅎ 오늘 발표 수업 한대서 못자고 있다. 누가 걸릴지 모르기 때문에 하하.. 빨리 끝내고 자고 싶다~ 회귀해석 필기

2021.05.05(수) 일기 [내부링크]

2021.05.05(수) 왠지 모르게 되게 바빴던 날 공휴일이라고 교수님이 녹강으로 강의를 대체해주셨다. 물론 1교시는 실강으로 들었지만ㅎ 덕분에 1교시 끝나고 자고 싶을 때까지 잤다. 며칠동안 잠을 제대로 못잤는데 어린이날 덕분에 피로가 풀렸다. :)) 잠을 못잔 이유는.. 얼마 전에 4층에 누가 이사와서 인테리어 한다고 며칠동안 정말 시끄러웠다. 다행이도 시험 보기 하루 전날 시끄러운 공사가 마무리 돼서 시험에는 지장이 없었다. 근데 도대체 왜 아침 8시만 되면 드릴질을 하는지.. 덕분에 피로 누적이 확실히 됐다^^ 그렇게 공사가 끝나서 이제 늦잠 잘 수 있는건가 싶었는데 이번에는 8층ㅋㅋㅋ 더 시끄럽다,, 중간에 껴서 무슨 죄인지! 요즘 무슨 인테리어 철인가? 내일은 제발 조용하기를.. 과외 다녀오는 길 새로운 과외 첫 수업도 다녀왔다. 우선 제일 좋은 건 집이 가깝다는 점. 두 번째는.. 조금 더 사치를 부릴 수 있게 된 점(?) 사실 평소에 사치부리는 사람은 아니다ㅋㅋ 통장

2021.05.07(금) 일기 [내부링크]

2021.05.07(금) 피로의 정점 최근 며칠동안 너무도 피곤한 나날을 보냈다. 밤에는 자기 아깝고 아침엔 더 자고 싶고.. 그래서 2~3시 쯤 자기를 반복하다가 어제는 도저히 안 될 것 같아서 10시쯤 잠에 들었다. 그래서 어제 일기를 오늘 아침 쓰고 있다.ㅎㅎ 확실히 잠은 12시 전에 자야 피로도 풀리고 생활에 활력이 생기는 것 같다. 이젠 정말 일찍 자고 일찍 일어나야 겠다!!! (말은 이렇게 하지만 실천이 어렵지,,) 암튼, 오늘 컨디션 좋다 :)) 아침 과외 다녀오는 길 원래 오늘 (토요일) 수업인데 학생이 오늘 시간이 안 된대서 어제 아침으로 수업을 옮겼다. 아침 수업은 언제나 힘들다. 그래도 하루가 좀 길어지는 느낌(?)과 아침부터 뭔가를 한 것 같은 뿌듯함이 있어서 기분은 좋다. 조금 졸릴 뿐이다,,^^.. 남순게장 - 간장 게장 정식 어제 어버이날 겸 미리 저녁을 먹으러 갔다. 메뉴는 우리 가족이 좋아하는 간장 게장ㅎㅎ 남순 게장이라고 송도에 있는 가게인데, 여기를

시험기간 집중 못하는 대학생이 쓴 일기 [내부링크]

2021.06.04(금) 시험 D-4. 공부하다가 집중이 안 돼서 쓰는 글 빨리 시험이 끝났으면 좋겠다. 이번 학기 시작하기 전, 수강신청을 아주 거하게 말아먹었다. 그때 3학년 씩이나 돼서 전공을 3개밖에 못 듣는다니,,, 하며 절망했었던 기억이 난다. 어느 정도 여유로운 학기가 될거라고 예상 했지만 생각 이상으로 너무도 여유로웠다. 그래서인지 몸도 너무 풀어지는 것 같아서 일부러 과외도 하나 더 잡았다. 근데.. 여유로운 생활은 중간고사가 끝남과 동시에 같이 끝이 나버렸다. 지금은 너무 힘들다.. 너무 바쁘다.. 수강신청을 3개밖에 성공 못한 과거의 나에게 감사하고 있을 정도로..ㅎㅎ 근데 이렇게 글을 쓰고 있는 걸 보면 그렇게 막 바쁜것 같진 않은 것 같지만(?)ㅋㅋ 암튼 요즘 너무 피곤하다. 원래 새벽까지 깨어 있는 날이 잘 없는데 요즘엔 왜 이리 늦게까지 자기가 싫은지! 거의 기본 3~4시에 자는 것 같다. 그렇다고 공부를 그 시간까지 하는 건 아니다. 나는 항상 워라벨이

R 웹 크롤링(스크래핑) 기초 [내부링크]

R을 이용한 웹 크롤링(스크래핑) 기초 공부 내용입니다. 크롤링이란? 인터넷에 있는 자료를 가져와서 데이터로 뽑아내는 작업을 말한다. 다른말로 '스크래핑'이라고 부르기도 한다. 예를 들면, 인터넷 tv 캐스트에 있는 동영상 제목을 모두 뽑아내고 싶을 때 웹 크롤링을 이용한다. 크롤링 작업은 Python, R 등 다양한 프로그램으로 가능하다. 오늘은 R을 이용한 크롤링을 공부해보았다. 본 포스트에서는 크롤링을 통해 글자 추출 방법과 table 추출 방법을 다뤄보려고 한다. 크롤링 과정 1. 준비 단계 크롤링을 하기 위해서는 'rvest' 패키지가 가장 기본적으로 필요하다. 또한 코드를 가독성있게 작성하기 위해 파이프 연산자(%>%)를 이용할 것이기에 'dplyr'패키지도 함께 설치하자. install.packages('rvest'); library(rvest) install.packages('dplyr'); library(dplyr) 2. 글자추출 하기 https://tv.naver.

R ggplot2 그래프 그리기 기본 원리 [내부링크]

R ggplot2 패키지를 이용해서 그래프 그리는 방법에 대한 포스팅입니다. ggplot2 :: R 대표적인 시각화 패키지 1. ggplot2 패키지 설치 및 불러오기 우선 ggplot2 패키지를 이용하기 위해 패키지를 설치하고 불러와줍니다. install.packages('ggplot2') library(ggplot2) 2. ggplot2 :: mtcars 데이터 구조 확인하기 이번 포스팅에서는 ggplot2에 내장되어 있는 데이터 mtcars 를 이용하도록 하겠습니다. 데이터 구조를 확인해봅시다. head(mtcars) mtcars 데이터 구조 3. ggplot2로 그래프 그리기 (기본 구조) ggplot(data, aes(x= , y= )) + geom_point() ggplot2을 이용해 그래프를 그리는 기본 구조는 다음과 같습니다. aes 는 기능적으로 변수에서 값을 가져와서 처리하라는 뜻입니다. aesthetic의 약자이기도 합니다. 즉 미적인 요소를 가미시키라는 뜻이죠.

R ggplot2 그래프 시각화 :: 실제 데이터로 연습하기 economics mtcars [내부링크]

이번 포스팅에서는 ggplot2를 이용해 실제 데이터로 다양한 그래프를 그려보도록 하겠습니다. ggplot2를 처음 접하시는 독자께서는 전 포스팅을 참고해주시기 바랍니다. ggplot2 그래프 그리기 실습 1. economics 첫 번째 실습은 ggplot2에 내장되어 있는 economics 데이터를 이용하겠습니다. economics 데이터는 1967년부터 2014년 미국 경제 관련 내용을 담은 데이터입니다. 우선 economics 데이터의 구조를 확인해봅시다. head(economics) economics 데이터 구조 ggplot(economics, aes(x=date, y=unemploy))+geom_line() 가장 기본이 되는 그래프를 geom_line( )을 이용해 선그래프로 그려줍니다. 코드 실행 결과는 다음과 같습니다. 코드 실행 결과 1 ggplot(economics, aes(x=date, y=unemploy))+geom_line(color='#FFAA00', lwd=

파이썬 Python 로지스틱 회귀 예제 실습 :: 단일 입력 다중입력 [내부링크]

나의 첫 머신러닝 / 딥러닝 책을 기반으로 공부한 내용을 정리해보려고 한다. 다음은 로지스틱 회귀 Logistic regression 실습을 정리한 내용이다. 로지스틱 회귀 실습 :: 단일 입력 & 다중 입력 Logistic regression 단일 입력 로지스틱 회귀 문제 : 1개의 입력을 받아 0 또는 1을 출력하는 로지스틱 회귀 모델을 케라스로 구현하기 1. 데이터 생성 # 라이브러리 불러오기 from keras.models import Sequential from keras.layers import Dense from keras.layers import Activation import numpy as np # 데이터 생성 x = np.array([-2, -1.5, -1, 1.25, 1.62, 2]) y = np.array([0, 0, 0, 1, 1, 1]) 2. 로지스틱 회귀 모델 만들기 # sigmoid(wx+b) 의 형태를 갖는 로지스틱 회귀 구현 model = Seque

파이썬 Python 선형회귀 예제 실습 keras Sequential [내부링크]

나의 첫 머신러닝 / 딥러닝 책을 기반으로 공부한 내용을 정리해보려고 한다. 다음은 선형회귀 linear regression 실습을 정리한 내용이다. Linear regression 선형 회귀 문제 : y = wx의 형태를 갖는 선형 회귀를 케라스로 구현하기 1. 데이터 만들기 # 라이브러리 불러오기 from keras import optimizers from keras.models import Sequential from keras.layers import Dense import numpy as np import matplotlib.pyplot as plt plt.style.use('default') # 데이터 만들기 X = np.linspace(0,10,10) # 0~10까지 총 10개의 값 만들기 Y = X+np.random.randn(*X.shape) #np.random.randn(m,n) : 표준정규분포 난수를 (m,n)배열로 생성 #X.shape는 튜플. (*튜플)로 표현

파이썬 Python k-means 예제 실습 KMeans kmeans++ [내부링크]

나의 첫 머신러닝 / 딥러닝 책을 기반으로 공부한 내용을 정리해보려고 한다. 다음은 k-means 실습을 정리한 내용이다. k-means 군집화 문제 : 키와 몸무게에 따른 체형 군집화 1. 데이터 만들기 # 라이브러리 불러오기 import pandas as pd import numpy as np from sklearn.cluster import KMeans import matplotlib.pyplot as plt import seaborn as sns # 데이터 만들기 df = pd.DataFrame(columns= ['height', 'weight']) df.loc[0] = [185,60] df.loc[1] = [180,60] df.loc[2] = [185,70] df.loc[3] = [165,63] df.loc[4] = [155,68] df.loc[5] = [170,75] df.loc[6] = [175,80] df 2. 데이터 시각화 plt.style.use('default')

파이썬 Python 앙상블 랜덤포레스트 배깅 부스팅 / 소프트 하드 보팅 예제 [내부링크]

나의 첫 머신러닝 / 딥러닝 책을 기반으로 공부한 내용을 정리해보려고 한다. 다음은 앙상블 실습을 정리한 내용이다. 배깅 (랜덤 포레스트) & 부스팅 개념 bagging & boosting 실습에 앞서, 배깅 개념에 대해 간단히 소개하겠습니다. 배깅은 한 가지 분류 모델을 여러 개 만들어서 서로 다른 학습 데이터로 학습시킨 후(부스트랩), 동일한 테스트 데이터에 대한 서로 다른 예측값들을 투표를 통해(어그리게이팅; 소프트 보팅, 하드보팅) 가장 높은 예측값으로 최종결론을 내리는 앙상블 기법입니다. 여기서, 투표는 한 표당 동일한 효력을 가집니다. 배깅은 과대적합되기 쉬운 모델에 상당히 적합한 앙상블입니다. 따라서 과대 적합되기 쉬운 모델인 의사결정 트리를 배깅을 통해 개선할 수 있습니다. 여러 의사결정 트리를 배깅해서 예측을 실행하는 모델이 랜덤 포레스트 입니다. 추가로, 배깅과 함께 각광 받는 앙상블 기법인 부스팅에 대해서 소개하겠습니다. 부스팅 역시 여러 개의 분류기를 만들어 투

파이썬 Python 다항분포 나이브 베이즈 예제 MultinomialNB [내부링크]

나의 첫 머신러닝 / 딥러닝 책을 기반으로 공부한 내용을 정리해보려고 한다. 다음은 Multinomial Naive Bayes 실습을 정리한 내용이다. Multinomial Naive Bayes 다항분포 나이브 베이즈 문제 : 영화 리뷰가 긍정적인지 부정적인지 분류해보자. 1. 데이터 획득 # 필요한 라이브러리 불러오기 import numpy as np import pandas as pd from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn.metrics import accuracy_score # 데이터 획득 review_list = [ {'movie_review': 'this is great great movie. I will watch again', 'type': 'positive'}, {'movie_review': 'I

파이썬 Python 베르누이 나이브 베이즈 예제 BernoulliNB [내부링크]

나의 첫 머신러닝 / 딥러닝 책을 기반으로 공부한 내용을 정리해보려고 한다. 다음은 Bernoulli Naive Bayes 실습을 정리한 내용이다. Bernoulli Naive Bayes 베르누이 나이브 베이즈 문제 : 스팸 메일을 분류해보자. 1. 학습 데이터 획득 및 다듬기 # 필요한 라이브러리 불러오기 import numpy as np import pandas as pd from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import BernoulliNB ## 베르누이 나이브 베이즈 from sklearn.metrics import accuracy_score # 학습 데이터 불러오기 email_list = [ {'email title': 'free game only today', 'spam': True}, {'email title': 'cheapest flight deal', '

파이썬 Python 가우시안 나이브 베이즈 예제 GaussianNB [내부링크]

나의 첫 머신러닝 / 딥러닝 책을 기반으로 공부한 내용을 정리해보려고 한다. 다음은 Gaussian Naive Bayes 실습을 정리한 내용이다. Gaussian Naive Bayes 가우시안 나이브 베이즈 문제 : iris 데이터를 활용해 데이터의 특징에 따라 붓꽃의 종류를 분류해보자. 1. 데이터 획득 ## 필요한 라이브러리 불러오기 import pandas as pd from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.naive_bayes import GaussianNB ##가우시안 나이브 베이즈 from sklearn import metrics from sklearn.metrics import accuracy_score import matplotlib.pyplot as plt # 데이터 불러오기 dataset=load_iris() df=pd.

파이썬 Python 의사결정 트리 Decision Tree / tree.DecisionTreeClassifier [내부링크]

나의 첫 머신러닝 / 딥러닝 책을 기반으로 공부한 내용을 정리해보려고 한다. 다음은 Decision Tree 의사결정 트리 실습을 정리한 내용이다. Decision Tree 의사결정 트리 문제 : 서울의 지역 정보를 이용해 서울 지역을 강동, 강서, 강남, 강북으로 분류하기 1. 데이터 획득 import pandas as pd district_dict_list = [ {'district': 'Gangseo-gu', 'latitude': 37.551000, 'longitude': 126.849500, 'label':'Gangseo'}, {'district': 'Yangcheon-gu', 'latitude': 37.52424, 'longitude': 126.855396, 'label':'Gangseo'}, {'district': 'Guro-gu', 'latitude': 37.4954, 'longitude': 126.8874, 'label':'Gangseo'}, {'district': '

파이썬 SVM(Support Vector Machine) 그리드 서치 GridSearchCV [내부링크]

나의 첫 머신러닝 / 딥러닝 책을 기반으로 공부한 내용을 정리해보려고 한다. 다음은 SVM(Support Vectot Machine) 서포트 벡터 머신 실습을 정리한 내용이다. SVM (Support Vector Machine) 서포트 벡터 머신 문제 : NBA 농구선수들의 게임 기록을 데이터로 이용해서 특정 선수의 포지션 예측하기 1. 데이터 확인 import pandas as pd df=pd.read_csv('https://raw.githubusercontent.com/steve3789/Python_First_AI/master/data/csv/basketball_stat.csv') df.head() df.drop(['2P','AST','STL'], axis=1, inplace= True) df.head() from sklearn.model_selection import train_test_split train, test = train_test_split(df, test_size=

파이썬 k-최근접 이웃 알고리즘 (kNN) k-fold 교차검증 [내부링크]

나의 첫 머신러닝 / 딥러닝 책을 기반으로 공부한 내용을 정리해보려고 한다. 다음은 k-최근접 이웃 알고리즘(kNN) 실습을 정리한 내용이다. k-최근접 이웃 알고리즘 (kNN) 문제 : NBA 농구선수들의 게임 기록을 데이터로 이용해서 특정 선수의 포지션 예측하기 1. 데이터 불러오기 및 데이터 확인 import pandas as pd df=pd.read_csv('https://raw.githubusercontent.com/steve3789/Python_First_AI/master/data/csv/basketball_stat.csv') df.head() Player : 선수이름 Pos : 포지션 3P : 한 경기 평균 3점슛 성공 횟수 2P : 한 경기 평균 2점슛 성공 횟수 TRB : 한 경기 평균 리바운드 성공 횟수 AST : 한 경기 평균 어시스트 성공 횟수 STL : 한 경기 평균 스틸 성공 횟수 BLK : 한 경기 평균 블로킹 성공 횟수 df.Pos.value_counts

[코세라 머신러닝] 강의를 마무리하며 (내용 총정리) [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 교수가 진행하는 머신러닝 강의를 수강하였습니다. 이번 포스팅에서 지금까지 배운 내용을 요약하고, 강의 정리를 마무리 합니다. Coursera Machine Learning 코세라 머신러닝 1. 지도 학습 선형회귀, 로지스틱 회귀, 뉴럴 네트워크(인공 신경망), SVM(서포트 벡터머신) 2. 비지도 학습 k-means clustering, 차원 축소를 위한 PCA, 이상 탐지 **물론 이상탐지에서는 레이블을 지정된 데이터를 사용할 수도 있다. 3. 추천 시스템과 속도를 향상할 수 있는 대용량 머신러닝 알고리즘(확률적 경사하강법, 맵축소 접근법 등) 4. 머신러닝 알고리즘이 제대로 작동하는지 확인하는 방법 편향(bias), 분산(variance), 정규화 5. 학습 알고리즘 평가 방법 정확도 평가(accuracy), F1-score, 재현율(recall), 정밀도(precision), training data를 tr

[코세라 머신러닝] 대규모 머신러닝 학습 알고리즘 :: Map Reduce / Online Learning [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 교수가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Large Scale Machine Learning : Advanced Topics 강의 내용을 정리한 것이다. 이번 포스팅에서는 새로운 대규모 머신러닝 학습 알고리즘인 '온라인 학습 알고리즘'과 '맵 축소 접근법' 대해 알아보겠습니다. Online Learning 온라인 학습 온라인 학습 알고리즘은 실시간으로 유입되는 데이터를 모델링하고 학습한다. 오늘날 대규모 웹사이트에서 사용하는 여러 버전의 온라인 학습 알고리즘은 웹사이트를 방문하는 사용자들로부터 실시간으로 학습을 한다. 대부분의 웹사이트에서는 연속적이고, 지속적으로 방문하는 사용자들이 데이터를 실시간으로 생성하면서 데이터 스트림이 발생한다. 온라인 학습 알고리즘은 데이터 스트림에서 사용자 선호도를 학습하고 최적화 한다. 예를 들어, 한 택배 회사 웹사이트에서 출발지와 배송지를 입력하면, 배송비 견적

[코세라 머신러닝] 확률적 경사하강법 Stochastic Gradient Descent Convergence 수렴 여부 확인 학습률 [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Large Scale Machine Learning 강의 내용을 정리한 것이다. 앞선 포스팅에서 확률적 경사하강법 알고리즘에 대해서 공부하였습니다. 그런데, 확률적 경사하강법 알고리즘이 완전히 수렴했는지는 어떻게 알 수 있을까요? 답은 경사하강법 알고리즘과 마찬가지로 학습률 α를 조절하는 것입니다. 이번 포스팅에서는 경사하강법 알고리즘이 제대로 작동하고, 수렴하는지를 확인하기 위해 α를 결정하는 몇가지 방법을 알아보겠습니다. Checking for convergence Stochastic Gradient Descent 확률적 경사하강법의 수렴 여부 확인 배치 경사하강법을 사용할 때 알고리즘이 수렴하는지 확인하는 가장 기본적인 방법은 반복 횟수를 함수로 하는 최적화 비용함수를 도식화 하는 것이다. 확률적 경사하강법의 핵심은 매 스텝마다 전체 학습 set을 계

[코세라 머신러닝] Mini-Batch Gradient Descent 미니 배치 경사하강법 [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Large Scale Machine Learning 강의 내용을 정리한 것이다. 저번 포스팅에서는 확률적 경사하강법의 동작방식과 경사하강법보다 확률적 경사하강법이 빠른이유, 두 하강법의 차이점에 대해 알아보았습니다. 이번 포스팅에서는 미니-배치 경사하강법(Mini-Batch Gradient Descent)에 대해 공부합니다. 미니 배치-경사하강법은 때로 확률적 경사하강법보다 조금 더 빠르게 작동할 수 있습니다. Mini-Batch Gradient Descent 미니-배치 경사하강법 우선, 지금까지 배운 알고리즘을 요약해보자. 배치 경사하강법은 각 스텝마다 모든 m개의 학습 예제를 사용한다. 확률적 경사하강법은 각 스텝마다 하나의 학습 예제만을 사용한다. 미니-배치 경사하강법은 두 알고리즘 사이 어딘가에 있다. 미니-배치 경사하강법은 각 스텝마다 b개의 예제

[코세라 머신러닝] 확률적 경사하강법 Stochastic Gradient Descent VS. Batch Gradient Descent 차이점 [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 교수가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Large Scale Machine Learning 강의 내용을 정리한 것이다. Learning With Large Datasets 대규모 data set으로 학습하기 최근 5년 또는 10년을 뒤돌아 볼 때, 머신러닝이 예전보다 훨씬 더잘 작동하는 이유는 알고리즘이 학습할 수 있는 엄청난 양의 데이터 때문이다. 이번 포스팅에서는 대규모 data set이 있을 때 처리하는 알고리즘을 공부해보고자 한다. 왜 우리는 대규모 data set을 사용할까? 고성능 머신러닝 시스템을 개발하는 가장 좋은 방법 중 하나는 편향이 적은 학습 알고리즘을 사용하여 많은 데이터를 학습하는 것이다. 예를 들면, 알고리즘은 "I ate ( ) eggs" 문장에서 'to','two','too' 중에서 들어갈 단어인 'two'를 많은 데이터를 학습할수록 정확하게 예측할 수 있다. 그렇기

[코세라 머신러닝] 콘텐츠 기반 추천 시스템 원리 Collaborative Filtering 협업 필터링 [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 교수가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Recommender Systems 강의 내용을 정리한 것이다. Problem Formulation A는 넷플릭스나 왓챠에서 제공하는 서비스와 같이 영화 별점을 예상하여 추천하는 알고리즘을 만드려고 한다. 각 사용자가 몇 편의 영화에 대해 0점~ 5점 사이의 별점을 매기면 그에 기반에 새로운 영화를 추천해주는 시스템이다. 다시말해, 다음 표와 같은 데이터를 사용해서 각 사용자가 평가하지 않은 영화, 즉 ? 자리에 들어갈 점수를 예측하는 것이 목표이다. nu : 사용자 수 = 4 nm : 영화 수 = 5 r(i, j) = 1 : 사용자 j 의 영화i 를 평가한 것을 의미 (otherwise 0) y(i, j) = 사용자가 영화 i 에 준 등급 ; r(i, j) =1 인 경우에만 정의됨. Content Based Recommendation 콘텐츠 기반 추천 A

[코세라 머신러닝] 이상 탐지 Anomaly Detection 로그변환 오류 분석 새로운 feature 만들기 [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 교수가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Anomaly Detection 강의 내용을 정리한 것이다. Choosing What Features to Use 어떤 feature을 사용해야 할까? Non-Gaussian Features feature가 정규분포를 따르지 않을 때 Feature가 Gaussian 분포를 따르는 것이 이상적이겠지만, 사실 그렇지 못한 경우가 종종 있다. Non-Gaussian Feature를 이용할 때는 Feature을 약간 조정해서 Gaussian 분포를 따르도록 할 수 있다. 예를 들어, 이래와 같은 분포를 보이는 feature를 이용할 경우 log를 취하면, Gaussian 분포에 가까운 분포로 수정할 수 있다. 로그 변환 이외에도, log(x+c), sqrt(x), xc 등을 이용하여 feature transformation을 할 수 있다. Error Analysi

[코세라 머신러닝] 이상탐지(Anomaly Detection) 시스템 구축 개발 평가 Recall Precision F1-score [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 교수가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Anomaly Detection 강의 내용을 정리한 것이다. 이상 탐지 시스템 구축하기 이상 탐지 시스템 개발하고 평가하기 Anomay Detection The Importance of Real Number Evaluation 실수 평가의 중요성 (숫자로 표현하는 것의 중요성) 다양한 응용 사례에서 학습 알고리즘을 개발할 때 어떤 feature을 사용할지를 선택한다. 그 때 알고리즘을 수치로 평가한다면 feature을 추가할지 말지를 쉽게 결정할 수 있다. 예를 들어, 특정 feature을 추가한 알고리즘과 특정 피처를 추가하지 않은 알고리즘을 각각 실행하고 수치화된 결과를 확인한다면, 어떤 알고리즘이 성능을 향상시키는지 또는 악화시키는지 쉽게 판단할 수 있다. 따라서, 이상 탐지 시스템을 신속하게 개발하기 위해 알고리즘을 수치로 평가하는 방법은 큰 도움이

[코세라 머신러닝] Anomaly Detection 이상 탐지, 사례 가우시안 분포 mle 우도함수란? [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 교수가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Anomaly Detection(이상 감지) 강의 내용을 정리한 것이다. Anomaly Detection 이상 감지 비행기 엔진을 제작하는 공장에서 불량품을 걸러내는 방법을 개발하려고 한다. 문제가 있는 엔진은 발열이나 진동 정도가 비정상적으로 크거나 작다면, 이들을 측정함으로써 불량품을 검출해 낼 수 있을 것이다. 즉, 발열과 진동 세기를 feature로 사용한다. 정상 작동하는 다수의 엔진들(training data)로부터 측정한 feature 값들(빨간점)과 test 하고 싶은 엔진에서 측정한 feature값(파란점)을 비교하여 불량 여부를 판단할 수 있다. 이 포스팅에서는 이와 같은 방법으로 이상(Anomaly)을 검출하는 방법에 대해서 알아본다. Density Estimation 밀도 추정 다음과 같은 데이터를 사전에 수집하였다고 하자. 앞서 살펴

[머신러닝] PCA (Principal Component Analysis) 주성분 분석 선형회귀 차이, 주성분 개수 구하기 [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 교수가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Dimensionality Reduction 강의 내용을 정리한 것이다. Data Compression 데이터 압축 Feature dimension(데이터 차원)이 쓸데 없이 너무 높아 중복성(redundancy)가 큰 경우, dimension을 줄일 수 있다. 상관관계가 높은 feature를 찾고 그래프를 그려서 두 feature을 동시에 대표할 수 있는 새로운 line을 찾아내는 방법을 쓸 수 있다. Dimensionality reduction(차원 축소)으로 컴퓨터 메모리에 저장되는 데이터 양을 줄이고, 알고리즘 학습 속도를 높일 수 있다. *Dimensionality reduction이란 feature의 개수를 줄이는 것이지 example의 수를 줄이는 것이 아니다. 즉, m은 같은 크기이며, 각 example의 feature 수 n이 줄어드는 것이

[머신러닝] k-means clustering 개념 :: 비지도 학습 elbow method / Random Initialization [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 교수가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Unsupervised Learning 강의 내용을 정리한 것이다. Unsupervised Learning 비지도 학습 지금까지의 강의에서는 지도 학습(Supervised Learning) 즉, training set의 label 이 주어지는 경우(답이 정해진 경우)에 대하여 알아보았다. 이제부터는 비지도 학습(Unsupervised Learning)에 대해서 알아보려고 한다. 비지도 학습은 주어진 label 없이 training 한다. 예를 들면, 비슷한 특성을 가진 데이터끼리 묶는 clustering이 있다. (classification과는 다름! / classification : 지도학습) K-Means :: K-Means 알고리즘 개념 주어진 training data (검은색 점)를 K-means 알고리즘을 이용해서 clustering 하는 과정을

[머신러닝] SVM kernel trick 커널트릭 / 비선형 결정경계 구하는 원리 [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 교수가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Support Vector Machines 강의 내용을 정리한 것이다. 이번 포스팅에서는 Kermels에 대해 알아본다. Non-Linear Decision Boundary 비선형 의사결정 경계 다음과 같은 data에는 비선형 의사결정 경계(non-linear decision boundary)가 필요하다. 여기서 SVM classifier가 목표하는 것은 θ0+θ1x1+θ2x2+···+θ4x12+θ5x12+···≥ 0 일 때 y=1 이 되도록 하는 것이다. 이 때 x1,x2,x12,x22,··· 와 같은 feature 들을 더 일반적인 형태로 표현하기 위해 f1,f2,··· 로 고쳐 써보자. 이와 같은 fx들은 기존의 feature들 (x1,x2,···)을 모종의 과정을 통해 변환한 새로운 feature라고 볼 수 있다. 이제 이 fx를 어떻게 구하면 no

[머신러닝] 서포트 벡테 머신 SVM 이론 :: Decision Boundary, margin, Cost function [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 교수가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Support Vector Machines 강의 내용을 정리한 것이다. 서포트 벡터 머신(SVM)은 지도학습 알고리즘으로, 로지스틱 회귀보다 강력할 때가 있다. SVM :: 로지스틱 회귀 대체 알고리즘 우선, 로지스틱 회귀의 hypothesis function을 다시 떠올려보자. 즉, y=1 일 때, θTx ≫ 0 으로 만들어주고, y=0 일 때, θTx ≪ 0 으로 만들어주는 θ를 찾고자 했다. 한 개 training example에 해당하는 cost를 생각해보자. (로지스틱 회귀 cost function) 로지스틱 회귀는 log를 이용해서 cost function을 정의했다. 그러나 SVM은 이와 비슷하지만 piecewise-linear한 함수를 대신 사용한다. 이 함수를 hinge loss function이라고 부른다. **piecewise-linea

[머신러닝] 분류 모델 성능 평가 지표 : Precision Recall F-score [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Machine Learning System Design 강의 내용을 정리한 것이다. 이번 강의에서는 데이터의 Class 크기가 균등하지 않은 경우에 발생하는 문제와 이 때 시스템 성능을 평가하는 방법도 알아본다. Handing Skewed Data class 별 데이터 수가 균등하지 않은 "편향된 데이터" 다루기 로지스틱 회귀 강의에서 언급했던 cancer classification의 예를 생각해보자. 로지스틱 회귀모델 h(x)를 이용하여 암이면 y=1, 암이 아니면 y=0으로 결정을 내리도록 시스템을 만들었다. 성능을 테스트 해봤더니 test set에서의 error가 1% 였다. 정확도가 99%이니, 아주 잘 작동하는 알고리즘처럼 보인다. 하지만 함정이 있다. 사실 환자의 0.5%만이 실제로 암이라면 어떨까? 항상 y=0으로 결정하는 알고리즘만으로도 0.

[머신러닝] Error Analysis 오류 분석 :: 이메일 분류 예제 / stemming [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Machine Learning System Design 강의 내용을 정리한 것이다. 이번 강의에서는 스팸 메일 분류의 예시를 통해 실제 시스템을 구현하는데 있어 고려해야할 사항을 살펴본다. Building a Spam Classifier 스팸 분류기 생성하기 지도학습 x : 이메일의 특성 y : 스팸 메일(1) 또는 스팸 아닌 메일(0) spam/non-spam을 구별할 수 있는 단어 100개를 추려서, feature x를 그러한 단어가 email에 포함되어 있는지 여부를 나타내는 vector로 표현할 수 있다. spam/non-spam을 구별할 수 있는 단어가 deal, buy, Andrew(수신자 이름), now, ··· 등이라고 하자. 이메일 내용 이메일이 다음과 같이 주어졌다고 하자. 그러면 x'=[1 1 0 1 ···]으로 나타낼 수 있다. Buy

Learning Curve 학습곡선 :: High Variance, High Bias 해결하기 [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Learning Curves 강의 내용을 정리한 것이다. Learning Curves Curve 학습하기 Training error / Validation error 특징 Training error Training example 개수에 따라 error 그래프를 그려보는 것으로 overfitting과 underfitting을 진단할 수 있다. 이러한 그래프를 Learning Curve라고 한다. 오른쪽 그림을 보면 Trining data에서 m의 크기가 커질수록 training error는 커지는 것을 확인할 수 있다. validation data에서는 m의 크기가 커질수록(데이터가 많을수록) error가 감소하는 경향이 있다. 1. High Bias (underfitting의 경우 High Bias) High Bais 일 때 error 분포 High Bia

High Bias vs. High Variance 진단 / 정규화항 적절한 람다 λ 고르기 [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 교수가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Bias vs Variance 강의 내용을 정리한 것이다. Diagnosing Bias vs. Variance 편향과 편차 진단 Training error와 (cross) Validation error를 다음과 같이 정의하였다. 다항식의 차수 d에 대해서 Jcv(θ) 와 Jtrain(θ)를 그려보면 training error는 d가 커질수록 줄어들지만 cross validation error는 d=2에서 최솟값을 갖는다. 어떤 머신러닝 알고리즘의 성능이 기대한만큼 나오지 않았을 때, 즉 Jcv(θ) 또는 Jtrain(θ)가 클때, 문제가 bias 인지, variance인지 어떻게 판단할 수 있을까? High bias (underfitting)는 Jtrain(θ) 이 크다. 즉, Jcv(θ) ≈ Jtrain(θ) 인 형태를 띤다. 반면 high varianc

[coursera 머신러닝 강의] 알고리즘 성능 향상 시키기 :: Training, Test, Validation set / Validation set 역할 [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 교수가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Machine Learning Diagnostic 강의 내용을 정리한 것이다. Debugging a Learning Algorithm 알고리즘 수정하기 앞서, 집 값 예측을 위해 우리는 정규화된 선형회귀를 사용하였다. 그 때의 cost function은 다음과 같다. 그런데 이 hypothesis를 새 데이터에 적용했을 때, 예측 error가 컸다고 해보자. (underfitting 되었다고 하자.) 그러면 어떻게 알고리즘의 성능을 수정할 수 있을까? 시도해볼 수 있는 방법은 다음과 같다. 1. Training example 수를 늘린다. 2. Feature 개수를 늘린다. 3. Polynomial feature를 추가한다. (다항식 항을 추가한다.) 4. λ를 조절한다. (늘리거나 줄인다.) 그러나 이 방법들을 아무런 기준 없이 시도하기보다 현재 알고리즘

Neural Network 뉴럴 네트워크 쉽게 이해하기 backward propagation [내부링크]

전 포스팅에서 코세라 뉴럴 네트워크 강의를 정리했다. 코세라 뉴럴 네트워크 강의 정리 포스팅 https://blog.naver.com/dbwjd516/222206046209 https://blog.naver.com/dbwjd516/222207085336 코세라 머신러닝 강의의 뉴럴 네트워크(Neural Network) 내용이 잘 이해되지 않아 쉽게 풀어서 정리해보았다. 인간의 뇌는 신경계의 기본 단위인 뉴런(Neuron)이 무수히 연결되어 있는 구조이다. 뉴런 하나의 모습을 보면 다음 그림과 같다. 입력단(dendrites)에서 외부 신호를 수용하고 출력단(axon)을 통해 신호를 출력한다. 뉴련을 수학적 모델로 표현하면 다음과 같다. 뉴런의 입력단으로 들어오는 여러 개의 신호(입력값 x, 가중치 θ)를 하나로 합산한 후 activation function을 통해 자신의 출력으로 만들어 낸다. Cell Body에서 하는 일은 입력값 x와 가중치 θ를 곱하는 것이다. 이때 우리는 ac

[coursera 머신러닝 강의] 뉴럴 네트워크 Neural Network 비용함수 backpropagation Gradient Checking [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Neural Network 강의 내용을 정리한 것이다. 뉴럴 네트워크 Multiclass Classification Multiclass Classification을 하려면 output unit을 class 개수만큼 두면 된다. 예를 들어 데이터를 4개 클래스로 나누고자 한다면 다음과 같이 나타내면 된다. 마지막 layer(그림에서 3번째 layer)는 theta matrix에 곱해져서 새로운 vector가 될 것인데 이 vector는 g(·) 즉, 로지스틱 함수를 적용하여 hypothesis 값을 찾는 vector이다. 한 input에 대한 결과 hypothesis의 예시는 다음과 같다. 이 때 classification 결과는 3번째 클래스 혹은 hΘ(x)3 에 해당한다. 가능한 h(x) 경우 뉴럴 네트워크 Cost Function 앞서 공부했던 로지스틱

[coursera 머신러닝 강의] 뉴럴 네트워크 Neural Network 개념 구조 예제 [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Neural Networks 강의 내용을 정리한 것이다. Non-linear Hypotheses 지금까지 알아본 선형 회귀(linear regression)나 로지스틱 회귀(logistic regression)로는 복잡한 데이터를 다루는 데 한계가 있다. 예를 들어, 다음과 같이 분포하는 데이터는 non-linear decision boundary가 필요하다. 물론 로지스틱 회귀를 이용해서 non-linear boundary를 만들 수 있긴 하다. 예를 들어, 다음과 같이 3개의 feature로부터 만들어 낼 수 있는 2차항들을 포함하는 hypothesis를 만든다고 하자. 이 경우, 새로운 6개 feature을 이용한 것으로 볼 수 있다. 즉, 원래 3개 feature를 두 개씩 묶는 가능한 경우의 수 3H2=6이 새 feature의 개수가 된다. 그런데

[coursera 머신러닝 강의] Overfitting underfitting 해결 Regularization 정규화 람다 λ [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 교수가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 정규화(Regularization) 강의 내용을 정리한 것이다. 정규화를 하는 이유? Overfitting 문제 해결 → overfitting 이란? The Problem of Overfitting Feature(변수)가 너무 많으면 문제가 생긴다. Hypothesis function이 너무 복잡해지기 때문이다. 이 복잡한 함수는 training set의 데이터 분포를 거의 똑같이 모델링 할 수는 있을 것이다. 그러나 우리의 목적은 training data와 완벽하게 똑같은 모델을 만드는 것이 아니라, 새로운 데이터에 대해서 target(y값)을 정확하게 예측하는 것이다. training data에 지나치게 맞춰진 모델은 오히려 새로운 데이터를 예측하는데 실패할 수 있다. 이와 같이 training data에 지나치게(over) fit되어 일반적인 추세를

[coursera 머신러닝 강의] 로지스틱 회귀 Multiclass Classification 다중 분류 One-vs-All [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 교수가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 로지스틱 회귀 : Multi-Class Classification 강의 내용을 정리한 것이다. https://blog.naver.com/dbwjd516/222203693899 [coursera 머신러닝 강의] 로지스틱 회귀 Logistic regression Decision Boundary 비용함수 Gradient Descent 머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 ... blog.naver.com 위의 포스팅에서 로지스틱 회귀는 이중 분류(Binary Classification)을 하기 위해 사용된다는 것을 설명하였다. 이번에는 다중 분류(Multiclass Classification)을 하는 방법에 대해 설명하겠다. Binary Classification은 두 개의 선택지 중 하

[coursera 머신러닝 강의] 로지스틱 회귀 Logistic regression Decision Boundary 비용함수 Gradient Descent [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Logistic Regression 강의 내용을 정리한 것이다. 오늘은 전 포스팅에 이어 로지스틱 회귀에 대한 얘기를 이어 나가 보려고 합니다. 전 포스팅을 먼저 읽어보시고 다음 포스팅을 보시는 것을 권장드립니다. https://blog.naver.com/dbwjd516/222201864419 [coursera 머신러닝 강의] Logistic regression 로지스틱 회귀 기초 Hypothesis 머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 ... blog.naver.com 분류 경계 Decision Boundary 분류 경계(Decision boundary)는 y=0(class0)과 y=1(class1)을 가르는 경계선을 말하며 hypothesis function에 의해 결정된다. 예

[coursera 머신러닝 강의] Logistic regression 로지스틱 회귀 기초 Hypothesis [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Logistic Regression 강의 내용을 정리한 것이다. 분류 (지도학습) classification Linear regression 이 주어진 feature(x)에 따라 연속적인 target(y) 값을 추정하는 방법이라면, classification은 주어진 feature에 따라 데이터를 이산적인 class에 분류하는 방법이다. 예를 들면, 받은 이메일이 스팸인지 아닌지, 어떤 종양이 양성인지 악성인지 등을 판별하는 것은 분류 문제에 속한다. 분류에는 여러 개의 class로 분류하는 다중 분류(multi-class classification)와 두 개의 class로 분류하는 이중 분류(binary classification)가 있다. 로지스틱 회귀(Logistic regression)은 분류 문제에 속한다. 이중 분류 Binary Classific

[coursera 머신러닝 강의] Normal Equation 정규 방정식 : 경사 하강법 외 최적값 찾는 방법 [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Computing Parameters Analytically 강의 내용을 정리한 것이다. 정규 방정식 Normal Equation 선형회귀에서 최솟값을 찾는 방법에는 앞 포스팅에서 언급한 경사 하강법(Gradient descent) 이외에도 정규 방정식(Normal Equation)을 이용하는 방법이 있다. 경사 하강법(Gradient descent)가 여러번 반복을 해야하는 것과 달리, 정규 방정식(Normal Equation)은 한번에 최적해를 찾을 수 있다는 특징이 있다. 정규 방정식 접근법 Normal Equation Intuition (1) Feature가 1개인 경우, J(θ)는 2차 방정식의 꼴이 된다. 따라서 최적해(최솟값)를 찾기 위해서는 θ에 대해 미분을 하고 그 값이 0이 되도록 설정하여 풀면 된다. (2) Feature가 여러 개인 경

[coursera 머신러닝 강의] 다항 회귀(Polynomial Regression) Feature / hypothesis 개선 방법 [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Features and Polynomial Regression 강의 내용을 정리한 것이다. 새로운 변수(Feature) New Feature 여러 개의 feature을 하나로 합쳐 새로운 feature로 이용할 수 있다. 예를 들어, A가 집 값을 추정할 때 집 면적의 가로, 세로 길이를 이용했다고 하자. 이 두 feature(가로,세로)를 이용하면 다소 복잡하다는 단점이 있다. 이 때 해결법은 가로, 세로를 곱합 값. 즉, 넓이를 새로운 feature로 이용하는 것이다. 이렇게 함으로써 2개의 feature을 1개의 feature로 줄여서 표현할 수 있다. 다항 회귀 Polynomial Regression Hypothesis function이 반드시 linear(직선)이어야 하는 것은 아니다. 데이터에 잘 맞도록, 잘 fitting 되도록 하는 것이 가장

[coursera 머신러닝 강의] Feature scaling 정규화 학습률 [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Gradient Descent in Practice 강의 내용을 정리한 것이다. Feature Scaling Feature Scaling 이란, Feature 들의 크기, 범위를 정규화 시켜주는 것을 의미한다. Feature Scaling은 아래의 예처럼 0~2000, 0~5 처럼 범위 차이가 많이 날 때 시행한다. x_0가 0~2000, x_1이 0~5의 범위를 갖고 있다면, 각각의 x_0와 x_1을 x_0/(2000-0), x_1/(5-0)을 통해 0~1 사이의 값으로 조정한다. 모든 feature가 비슷한 범위에 있으면 경사 하강법에서 수렴하는 속도를 빠르게 하는데 도움이 된다. 첫 번째 그림처럼 타원 모양으로 범위가 존재한다면 여기저기 방향을 바꿔가며 최솟값으로 수렴하지만, 두 번째 그림처럼 feature가 비슷한 범위에 있어서 범위가 원을 이룬다면

[coursera 머신러닝 강의] Multiple Linear Regression 다중 회귀 비용함수 경사하강법 [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Multiple Linear Regression 강의 내용을 정리한 것이다. 다중 변수 Multiple features 지금까지는 하나의 변수를 이용한 univariate linear regression에 대해서 알아보았다. 그러나 실제 상황에서는 하나의 변수만으로 예측하기 어려운 경우가 많다. 이번 장에서는 여러 개의 변수를 이용한 다중 회귀(multiple linear regression)에 대해 포스팅하겠다. 다시 집 값 추정 문제를 생각해보자. A는 원래 집의 넓이만 고려했다. 이를 보고 B는 평수 외의 요소들도 고려하면 더 정교하게 추정할 수 있을 것이라고 조언했다. 그래서 이번에는 집 넓이(x1)뿐만 아니라 방의 개수(x2), 층 수(x3), 건물의 연령(x4)를 고려해서 집 값(y)를 추정해 보기로 했다. 집 값 추정 문제 예시 Notation

[coursera 머신러닝 강의] Parameter Learning 경사 하강법 Gradient Descent [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Parameter Learning(Gradient Descent) 강의 내용을 정리한 것이다. https://blog.naver.com/dbwjd516/222194917428 [coursera 머신러닝 강의] Univariate Linear Regression 비용함수 LSE MSE 머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 ... blog.naver.com 전 포스팅에서 우리는 cost function J(θ)가 최솟값을 갖도록 하는 모수를 구하고자 한다는 것을 배웠다. 이번 포스팅에서는 cost function J(θ)가 최솟값을 갖도록 하는 값을 자동으로 구하는 법에 대해 알아보려고 한다. 이는 경사 하강법 (Gradient Descent)을 통해 구할 수 있다. 경사 하강법 Gra

[coursera 머신러닝 강의] Univariate Linear Regression 비용함수 LSE MSE [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Univariate Linear Regression 강의 내용을 정리한 것이다. https://blog.naver.com/dbwjd516/222194316797 [coursera 머신러닝 강의] Univariate Linear Regression 선형회귀 머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 ... blog.naver.com 위 포스팅에 이어서 선형 회귀를 설명하는데 필요한 비용함수 cost function에 대한 포스팅을 진행하겠다. 비용 함수 Cost function 가설은 다음과 같이 정의한다. Hypothesis : h_θ(x) = θ_0 + θ_1 x * h_θ(x)는 간단히 h(x)로 표기하기도 한다. 이 때 θ_i 들은 모수(parameter)라고 한다. 우리가 정한 선

[coursera 머신러닝 강의] Univariate Linear Regression 선형회귀 [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Univariate Linear Regression 강의 내용을 정리한 것이다. 모델 표현 Model Representation A가 집을 사려고 한다. 만약 B가 사는 1500제곱피트짜리 집이 24만불이고, C가 사는 1000제곱피트짜리 집이 20만불이면 A가 사고자하는 1250제곱피트짜리 집은 그 중간인 22만불정도가 적당하다고 생각할 것이다. 이런식으로 A는 원하는 집의 넓이에 따른 적정 가격을 추정하기 위해, 몇 군데 집의 넓이와 가격 정보를 수집하였다. A가 조사한 집의 넓이 & 가격 정보 이 경우, 사전에 수집한 집 값(y) 정보라는 정답이 존재하므로 지도학습에 해당하며, 추정하고자하는 값이 실수 값이므로 회귀문제이다. 여기에 집의 넓이와 가격 사이에 선형관계가 존재한다고 가정하면 선형 회귀(linear regression)이 되는 것이다. 수집

[coursera 머신러닝 강의] Introduction 지도학습 비지도학습 [내부링크]

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Introduction에서 진행하는 강의 내용을 정리한 것이다. 머신러닝 이란? Machine Learning 전통적으로 programming이라고 하면 "A조건에서는 B 명령을 수행하라"와 같이 사람이 구체적으로 규칙을 정해주는 과정이었다. 그러나 이러한 programming에는 한계가 있다. 예를 들어, 스팸 메일을 거르는 필터를 만든다고 하자. 스팸 메일에는 "광고"라고 알려주는 문구가 버젓이 걸려있는 경우는 거의 없다. 이 때문에 스팸 메일을 걸러내려면 정말 많은 규칙을 정해야 한다. 하지만 이는 상식적으로 불가능하기에, 이러한 문제를 해결하기 위해 머신러닝. 즉, 기계가 스스로 어떤 패턴을 학습하도록 하는 접근법이 등장하였다. 정리하자면 머신러닝이란, 프로그래머가 직접 수많은 규칙을 미리 정해주는 대신 프로그램 자체가 데이터를 통해 스스로 학습하도

데이터 분석과정 전처리 모델링 해석 [내부링크]

본 포스팅은 학회 활동을 위해 데이터 전처리 과정 공부 내용을 정리한 내용입니다. 데이터 전처리 Data preprocessing 특정 분석에 적합하게 데이터를 가공하는 작업을 의미한다. 업무활동이나 현업에서 발생하는 데이터는 분석,머신러닝(딥러닝)에 적합하지 않은 경우가 많다. 의미 없는 값이 포함되어 있거나, NA값이 존재하거나, 변수가 많은 경우 데이터의 품질을 떨어뜨린다. 이를 방지하기 위한 작업이 "데이터 전처리"이다. 실제 현업에서의 데이터는 러프한 경우가 많다고 한다. "데이터 과학의 80%는 데이터 클리닝에 소비되고, 나머지 20%는 데이터 클리닝하는 시간을 불평하는데 쓰인다." Kaggle 창립자 Anthony Goldbloom 데이터 분석 과정 1. 문제 정의 2. 데이터 수집 3. 데이터 탐색 및 전처리 4. 모델링 5. 해석 및 시각화 6. 피드백 1. 문제 정의 데이터 분석 과정에서 가장 중요한 단계이자, 어려운 단계이다. 문제가 제대로 설정되지 않으면 "문제

2021.05.02(일) 오늘의 일기 [내부링크]

매일매일 챌린지 시즌1 #오늘일기 2021.05.02(일) 오늘은 문화 생활의 날?! 영화관 가는 길 오늘도 어제에 이어서 밀린 강의 듣고 과제를 하려고 했는데..! 너무 공부가 하기 싫어서 영화관으로 탈출을 했다. 오늘 날씨는 정말 맑음! 영화관에서 돌아올 때쯤에는 바람이 조금 불어서 쌀쌀했지만ㅎㅎ 집 주변에 영화관이 생긴 이후로는 예전보다 자주 영화를 보러가게 되는 것 같다. 혼자가는 날도 점점 늘어나는 듯 하다. 오빠가 군대를 안갔다면 매일 끌고 갔을 것 같긴 한데! 혼자서도 잘 다니고 있다는 점~ㅎㅎ 비와 당신의 이야기 영화를 촬영한다는 소식을 들었을 때부터 봐야겠다고 생각한 작품! 사실 천우희 배우가 너무 매력 있어서 인스타 팔로우하고, 유튜브 구독하다가 영화 촬영한다는 걸 알았다.ㅎㅎ 영화는 되게 조용하고 감성적이다. 영화 제목처럼 비오는 날, 뭔가 차분해지는 날 보면 더 좋을 듯하다. 이 영화를 보고 느낀 점은.. 진짜 운명이 있는 걸까? 내 운명은 어디에?ㅋㅋ 암튼 간

2021.05.03(월) 오늘의 일기 [내부링크]

매일매일 챌린지 시즌1 #오늘일기 2021.05.03(월) 오늘은 아무것도 한게 없는데 피곤한 날.. 월요일 1교시 수업이 있는 날이기 때문.. 아침 수업이 있는 날은 녹화를 해두고 자는 날이다. (교수님이 내 글을 보진 않겠지?ㅋㅋ) 근데 녹화를 해두고 무작정 자는게 아니라.. 귀는 열고 자야 되기 때문에.. 일어나면 두 배로 피곤하다. 제 때 수업을 들어야하는데 그건 정말 너무나도 힘든 일이다. 오늘도 어김없이! 자다가 일어나서 겨우겨우 정신을 차렸다. 하.. 이러면 안되는데,, 이따가 아침에 밀린 수업을 들어야 한다아.. 백종원 스팸마요 덮밥 아점을 먹으려고 보니 아무 것도 없길래 곧 바로 백종원 아저씨 유튜브를 켜서 '스팸 마요 덮밥' 레시피를 찾았다ㅋㅋ 오늘 처음 해먹어 봤는데 나름 맛있었다. 근데 칼로리가 너무 높아보여서 자주 해먹으면 안될 것 같다^^ 표설 점수.. 밥을 정말 맛있게 먹고 있는데 학교 동기가 표본설계 중간고사 점수가 나왔다고 카톡이 왔다. 하하하하.. 하

실시간 검색어