HDFS(Hadoop Distributed File System)


HDFS(Hadoop Distributed File System)

하둡 분산 파일 시스템 - 대용량 파일 읽기 및 쓰기 작업에 최적화된 파일 시스템 - 파일의 메타정보는 네임노드(마스터노드)가 관리하고 실제 블록 데이터는 데이터노드(작업노드)에서 분산 저장됨 - 분산 파일 시스템은 유져 입장에서는 하나로 보이지만 물리적으로 분산/쪼개져 있고 네임노드가 데이터 노드를 관리함 - 파일시스템 관점에서는 하나의 클러스터의 파일 시스템 네임노드 - 메타정보를 보관 - SPOF(single point of failure) - Active-standby 형태로 운영 - Fsimage, Edit Log(변경로그) 메타정보 - HDFS에 있는 각 블록의 파일위치, 사용자, 권한 등에 대한 정보 Fsimage - 데이터노드에 저장된 블록들에 대한 정보 EditLog - 블록정보에 대한 변경 사항 보조네임노드(Secondary Namenode) - 최신이 메타정보를 유지하기 위해서 주기적으로 체크포이트를 만듦 즉, 최신의 fsimage를 생성하는 역할 - 네임노드의 ...


#bigdata #HDFS #빅데이터

원문링크 : HDFS(Hadoop Distributed File System)