Multi-GPU 총정리 4

이번에는 앞서 소개했던 DDP의 동작에 대한 궁금점과 어떻게 하면 더 활용해서 사용해볼 수 있을까에 대한 개인적 견해의 글입니다. 궁금점 DDP 에서 진행하는 통신 기법 [ 링크 ] 통신기법이라 함은 DDP를 위해 데이터를 주고 받고 하는 것에 사용되는 모든 통신들을 말합니다. 위 링크를 통해서 들어가면 자세한 설명을 볼 수 있습니다. 여기서는 이런 동작들을 위해 어떤 코드가 사용되고 무슨 역할을 하는지 조사하였습니다. - dist.broadcast(tensor, src, group): src 의 tensor 를 모든 프로세스의 tensor 에 복사합니다. - dist.reduce(tensor, dst, op, group): op 를 모든 tensor 에 적용한 뒤 결과를 dst 프로세스의 tensor 에 저장합니다. -> reduce를 사용하면 하나의 GPU에 다 모아서 Loss 계산을 진행합니다. 이는 nn.DataParallel에서 사용하는 방식입니다. - dist.all_re...

#AI학습 #spawn #torch #다중지피유 #데이터분산학습 #데이터패러럴 #멀티쓰레드 #멀티지피유 #멀티프로세스 #분산학습 #인공지능GPU #Pytorch #MultiGPU #mpspawn #Apex #DataParallel #DDP #distributed #DistributedDataParallel #DP #GPU #GPU여러대사용하기 #jjunsss #launch #파이토치

원문링크 : Multi-GPU 총정리 4