ngela의 등록된 링크

 ngela로 등록된 티스토리 포스트 수는 71건입니다.

[Docker] 윈도우용 도커 오류 : This error may indicate that the docker daemon is not running [내부링크]

windows 용 도커데스크탑을 설치하고, 명령어 프롬포트로 간단히 docker 프로세스 상태 확인 명령어를 날려보면 아래와 같은 오류가 발생한다. 이 상태는 docker 를 사용하기위한 세팅이 마무리 안되었기 때문이다..

[Docker] 도커를 처음쓰면 알아야할 5가지 명령어 - 이미지 실행/확인/삭제 [내부링크]

Docker 기반으로 실행되는 기능을 사용할때 꼭 알아야할 간단한 명령어를 알아야 활용하기 좋다. 가장 기초적인 명령어를 알아보자 1. 이미지 목록확인 로컬에 받아진 도커 이미지를 확인하는 명령어이다. 처음 설..

[Docker] server gave HTTP response to HTTPS client 오류 [내부링크]

회사에서 private-docker-registry 를 구성해서, 딴 서버에서 컨테이너 이미지를 땡겨오려고 했는데 다음과 같은 오류가 발생했다. 신기한건 도메인을 써도 아이피를 써도 동일하게 안되는 현상이 있었다. $ docke..

[Dockerfile] 초보자를 위한 build 와 push 하는 방법 [내부링크]

docker 를 사용하다보면 내가 필요한 이미지를 만들어야 하는 경우가 생기고, 이 컨테이너 이미지를 업로드해서 사용해야할 상황이 발생된다. 여기서는 간단히 빌드를 하고, 이걸 private docker registry 에 업..

초간단 Private Docker Registry 설치하기 [내부링크]

DockerRegistry 란? 도커이미지를 업로드하고 다운로드 할수 있는 저장소로 생각하면 쉽다. 우리가 maven 을 통해 deploy 하고 가져올수 있는것과 비슷하다. 기본적으로는 오픈된 https://hub.docker.com 을 이용..

[Docker] toomanyrequests: Too Many Requests. 해결방법 [내부링크]

이 오류의 원인은 결론부터 말하면, 요청횟수를 넘었다는 말이다. 이 말은 무엇이냐면, 도커의 이미지는 기본적으로 docker hub 에서 가져오게 되는데, 여기서 허용한 횟수를 넘었다는 말이다. ERROR: toomanyre..

[Docker] RUN, ENTRYPOINT, CMD 차이 이해하기 [내부링크]

도커 이미지를 빌드할때 명령어를 기입하는 용도로 3가지의 표현이 존재한다. 이 차이가 뭔지 알고 넘어가도록 하자. 이 이해를 해야 docker run 을 통해 이미지를 활용할때 응용해서 실행 구성하는게 쉬워진다...

[YARN] cannot be cast to com.google.protobuf.Message 오류 [내부링크]

서버에 설치된 하둡버전이 hadoop-3.3.1 버전이었는데, hadoop-3.2.3 의 다른 버전을 사용했을때 나타났던 문제이다. protobuf 는 원격지에 데이터를 직렬화 하기위한 인터넷 프로토콜인데 의존된 버전간이 달라지..

[YARN] java.io.IOException: DestHost:destPort 오류문제 [내부링크]

하둡바이너리 파일과 hdfs, yarn 관련 xml 을 모두 복사후 yarn application 을 확인하기위해 다음과 같이 실행했더니, 다음과 같은 오류가 발생했다. 참고로 커버로스 인증을 통해야 했고, 커버로스 인증은 kinit..

[FLINK] Yarn 기반으로 실행시 오류 - ClassNotFoundException: org.glassfish.jersey.internal.RuntimeDelegateImpl [내부링크]

증상 다음과 같이 Flink 에서 하둡클러스터의 yarn 기반에서 application 잘 invoke 되는지 테스트를 하려고 했는데, 다음과 같은 오류가 나는 경우가 발생했다. 참고로 오류메시지는 다르지만 기존에 "com/sun/je..

Flink 1.15 + Hive 충돌해결 - org.apache.flink.table.planner.delegation.ParserFactory [내부링크]

Flink 1.14 에서는 잘 동작하던 쿼리가 Flink 1.15 에서 오류가 발생되었다. 쿼리는 kafka 테이블을 mysql 혹은 hdfs 에 sink 하는 로직이었고, 1.15.2 버전이 나와서 그걸 써도 동일한 문제가 발생되었다. Flink..

[Centos] Docker + private docker-Registry 설치방법 [내부링크]

docker 는 컨테이너 기반으로 독립된 환경을 제공하는데, 이미지를 docker hub 가 아닌 개인 저장소에 빌드 및 업로드 하고 싶을때는 private docker-registry 를 설치해야한다. 여기서는 docker 를 설치하고, pri..

hadoop client 설치와 HADOOP_CLASSPATH 잡기 [내부링크]

하둡클러스터에 접근해서 파일을 확인하고 복사할때 하둡 클라이언트 바이너리를 설치해야한다. 보통 메이저버전만 맞추면 일반적으로 돌아가는 편인데 다음 경로에서 다운로드를 받아 압축을 푼다. https://hadoo..

[docker] no space left on device 이유와 해결 [내부링크]

docker 를 통해 실행하려고 하는데, "no space left on device" 라는 오류가 발생했다. 말 그대로 용량이 부족하다는 말이다. 이를 해결하기위해서는 용량이 얼마나 남았는지 확인하고 불필요한 파일을 제거해야한..

Airflow Kerberos 로 인증한 ccache 로 하둡인증 활용하기 - KRB5CCNAME [내부링크]

하둡클러스터에 kerberos 인증이 있다면, kinit 명령을 통해서 인증을 거친후 hadoop 명령어를 사용할 수 있다. 하지만, BashOperator 에서 매번 kinit 명령을 넣어서 DAG 를 구성하는건 꽤 번거로운일이다. 왜냐..

Maven 빌드시, Received close_notify during handshake 오류 원인과 해결 [내부링크]

상황 Flink 를 직접 빌드하려고 했는데, 다음과 같은 오류가 나면서 빌드에 실패했다. 데스크탑에서 하면 문제가 없어서 좀 삽질했는데, jdk8 버전을 사용하여 빌드한다면 버전을 확인해 보자. $ mvn clean packag..

snap install 실패 문제 - system does not fully support snapd [내부링크]

주키퍼의 znode 를 웹에서 볼 수 있도록 지원하는 zoonavigator 라는 오픈소스가 존재한다. 도커를 이용하는 방식과 snap 을 이용해 설치하는 방식이 있는데, 이상하게 특정서버에서 설치가 안되는 현상이 발생되..

Airflow 2.x 에서 filter_by_owner 사용하기 - 소스코드 수정위치 [내부링크]

airflow 1.x 버전에서는 airflow.cfg 설정에서 filter_by_owner 라는 설정이 지원되서, 로그인한 유저의 DAG owner 만 보여주는것이 가능했다. 하지만 airflow 2.x 에서는 권한 정책이 변경되면서 이 옵션이 사라..

[Airflow] hive_operator 실행 오류 : Cannot modify airflow.ctx.xxx at runtime [내부링크]

Airflow 에서 "hive_cli_default" Connection 을 설정할때, Extra 옵션에 {"use_beeline": true} 를 추가하면, beeline 을 통해 쿼리를 실행한다. 근데, 기본적으로 -hiveconf 옵션에 airflow.ctx.* 패턴의 값이..

[rabbitmq] Failed to start RabbitMQ broker - 노드가 모두 죽고 기동안됨 [내부링크]

airflow 에서 셀러리기반으로 운영할때 DAG 요청을 담는 메시지큐로 rabbitmq 를 주로 사용한다. 그런데 테스트를 위해 모든 노드를 죽였는데 rabbitmq 가 기동을 못하는 상황이 발생되었다. 로그를 확인해보면 다..

[하둡] 커버로스 인증시 GSS initiate failed 오류문제 [내부링크]

커버로스 인증은 성공했는데, 하둡에서 명령을 실행했을때 다음과 같이 "javax.security.sasl.SaslException: GSS initiate failed" 오류가 날때가 있다. 이 문제를 해결하려면 $JAVA_HOME 하위의 security 파일에..

[HADOOP] Kerberos 인증 적용된 하둡 접근하기 [내부링크]

하둡에 인증을 넣어 관리할때 커버로스 인증을 사용해서 권한 관리를 할때는 hadoop 명령어를 이용해서 접근할 경우 다음과 같이 오류가 발생된다. 그래서 하둡명령을 날리기전에 kinit 명령을 실행해서 인증을 거..

[FLINK] Avro 포맷에서 TO_TIMESTAMP_LTZ 사용시 정밀도 오류 [내부링크]

Flink 에서 Window 단위로 데이터를 다루려면 워터마크를 지정해야하고, 워터마크를 지정하기위해서 TO_TIMESTAMP_LTZ 함수를 써서 날짜타입으로 전환해서 사용해야 하는 경우가 종종 있다. 보통 EpochTime 이 들..

데이터 파이프라인 /스케쥴링 대세플랫폼 - Airflow 이야기 [내부링크]

데이터를 다루기 위해서는 다양한 데이터 변환과 조작작업을 주기적으로 수행해야 한다. 이런 행위를 단단히 줄여서 ETL (Extract, Transform, Load) 작업이라고 하는데, 이런 작업을 구성하고 스케쥴 하는 방법에..

[FLINK] _metadata 파일 확인하는 방법 (savepoint, checkpoint) [내부링크]

Flink 에서는 Savepoint 와 Checkpoint 라는 개념이 있는데, 복구를 할때 사용할 메타정보들을 활용한다. 이 정보는 "state.checkpoint.dir" 이나 "state.savepoints.dir" 를 설정한 디렉토리의 하위에 _metadata..

[FLINK] TIMESTAMP vs TIMESTAMP_LTZ 필드 타입 차이 [내부링크]

시간 관련된 필드를 다룰때 글로벌을 고려하면 복잡할게 많아진다. 동일한 이벤트 발생 시점이라도 어떤 타임존에 있느냐에 따라서 시간을 표시하는게 달라지기 때문이다. 이런걸 고려하기 위해서 요즘은 절대적인..

[구글시트] importJSON 을 이용한 웹데이터 활용하기 - 크롤링?! [내부링크]

구글시트에는 웹의 데이터를 추출해서 시트의 값으로 활용할 수 있는 좋은 기능이 있다. importXML 과 importHTML 이 대표적이다. 하지만, RESTAPI 형태로 제공되는 데이터의 경우 일반적으로 json 데이터를 사용..

[HIVE] distinct count 문제 해결 및 튜닝방법 정리 [내부링크]

보통 Unique Count 를 구하기위해서 다음과 같은 쿼리를 많이 사용한다. 유니크 카운트가 필요한 대표적인 사례가 방문한 사람이 몇명인지 카운팅하는 User Count 를 구할때이다. 단순한 count 가 아니라, 중복 방..

[HIVE] Hive 의 skewed 문제 튜닝하기 [내부링크]

Hive 에서 쿼리를 돌리다보면, 특정 리듀서 하나에서 작업이 안끝나고 무한정 대기하는 경우가 종종있다. 이런 경우 skewed 형태의 데이터구조일 확률이 높다. skewed 라는건 데이터가 균일하지 않고, 특정 key 에..

[Flink] Explode 쿼리 표현하기 - Cross join unnest [내부링크]

Hive 에서 list 와 같이 N개의 아이템이 담기는 필드를 행으로 풀어낼때 explode 쿼리를 사용한다. 하지만 flink 에서는 아무리 검색해도 해당 문법이 잘 안나오는데 그 이유는 hive 에서는 explode 라는 문법을..

Flink Application 개발시 Avro 라이브러리 충돌 문제 해결방법 [내부링크]

Flink 에서는 sql-client.sh 를 실행해서 쿼리기반으로 실행하는 방법이 있고, dataStream API 를 이용해서 직접 java 코드를 짜서 만드는 방법이 있다. 두개를 병행해서 테스트하다보니 avro 라이브러리 충돌이..

[Flink] Could not acquire the minimum required resources 이유와 해결방법 [내부링크]

Flink 로직을 돌릴때 로그에 "Could not acquire the minimum required resources" 라는 메시지가 보이면 이유는 리소스가 부족하기 때문이다. 보통 데이터를 처리할때는 DAG 라고 해서 데이터의 처리 흐름을 그래..

Flink 1.15 버전에서 HA 설정시 오류가 발생하는 경우 - 주키퍼 버전 [내부링크]

얼마전 Flink 1.15 가 릴리즈 되었고, 테스트를 하는데 HA 관련 설정을 하면 오류가 발생했다. 주키퍼를 이용해 HA 를 처리하게 되고 관련된 설정은 "high-availability.zookeeper.quorum" 이다. 로그를 zookeeper..

RestTemplate 을 이용해서 ES 연결 여부 체크하기 -Spring- [내부링크]

elasticsearch 의 연결가능성만 체크하고 싶은데, "Java High Level REST" 의 의존성은 너무 많기도 하고 번거로움이 많아서 RESTAPI 를 직접 사용해서 연결가능성만 체크하는 로직을 만들어 보았다. 구글링해보면..

[Flink] streaming-source.enable 기능이 동작 안하는 이유? - 파티션갯수 [내부링크]

Flink 의 "streaming-source.enable" 기능을 이용해서 hive의 데이터를 스트림 데이터스럽게 처리하려고 했는데 희안하게 어떤 테이블은 잘 되는데, 어떤 테이블은 또 안되는 현상이 발생되었다. 그 이유는 결론부..

[Flink] Hive Streaming Source 기능 소개 - unbounded scan [내부링크]

flink 에서 hive 는 unbounded sacn 을 지원한다. 더 정확히 말하면 파티션이나 파일이 생기는걸 주기적으로 감시하다가 데이터를 조회하는 한다는게 더 맞을지도 모르겠다. 이게 뭔 의미가 있나 싶겠지만 스트림..

[Flink] Hive 연동시 슬롯보다 크게 TASK 가 잡히는 문제 [내부링크]

flink 에서 hive 를 연동할때, catalog 를 등록하면 바로 테이블 조회가 가능하다. 그런데 최대 슬롯은 10개이고, 여유 슬롯이 7개뿐인데 터무니없이 크게 task 를 할당해서 작업이 취소되는 경우가 발생했다. 다..

[Flink] yarn-session.sh 오류 : java.lang.NoClassDefFoundError [내부링크]

Yarn 기반에서 Flink 클러스터를 기동하려고 했는데 다음과 같은 오류가 발생했다. 구글링을 해보니 중국어 사이트에서 해결방법을 찾았다. $ ./bin/yarn-session.sh --detached ..생략.. java.lang.NoClassDefFou..

Flink sql 에서 필드 변경하는 꼼수 - 필드 타입 / 이름 [내부링크]

flink 에서는 create table like 구분이 있어서, 필드가 동일한 필드를 상속받듯이 필드선언을 할 수 있다. 하지만 alter table 에 대한 document 를 확인해보면, 테이블의 이름과 테이블 속성값만 바꿀수 있다. h..

[Flink] Yarn 환경에서 세팅시 high-availabillity.cluster-id 충돌문제 [내부링크]

High-Availabily 를 이용하기 위해서 다음과 같이 설정을 하고 YARN 에서 클러스터를 구성하면 이상하게 1개 이상의 클러스터를 띄울수 없어서 삽질하게된 후기를 알려주고자 한다. Flink 의 주키퍼를 이용한 HA..

[FLINK] yarn 세션 모드 : 클러스터 N대로 sql-client 접속하는 방법 [내부링크]

Flink 에서 세션모드로 application 이나 sql-client.sh 를 사용하려고 했는데, 이런 오류가 발생했다. 참고로 N대의 세션 클러스터를 기동하기위해 주키퍼 노드 관련 옵션을 추가해서 기동했다. 다음과 같이 기동..

[Flink] sql-client 에서 쿼리 결과가 안나오는 문제 - checkpoint [내부링크]

결론부터 말하면, 이 현상은 checkpoint 관련 설정을 적용하고서 나타난 현상이었다. checkpoint 를 모르는 사람을 위해 간단히 쉽게 설명하면 자동세이브 기능을 생각하면 쉽다. 장애의 복구를 위해 중간중간 상..

[Flink] extension (5) should not be presented in certificate_request 오류 - postgresql 연동시 [내부링크]

문제 다음과 같이 sql-client.sh 상에서 PostgreSQL 을 연동하려고 했는데 다음과 같은 오류가 발생했다. 이건 flink 의 문제가 아니라, PostgreSQL 에서 연결할때 문제가 되는것이다. 가장 손쉬운 해결은 java 옵..

[Flink] PostgreSQL 연동시 Doesn't support Postgres type 'jsonb' yet 문제 [내부링크]

문제 Flink 에서 기본적으로 제공하는 JDBC Connector 는 Mysql , Derby, PostgreSQL 3개지를 지원한다. 나는 sql-client.sh 를 통해서 쿼리기반으로 데이터를 다루는걸 자주 이용하는데 카탈로그 등록이 되서 바..

[PostgreSQL] javax.net.ssl.SSLHandshakeException 해결방법 [내부링크]

오류내용 dbeaver 와 같이 java 기반의 프로그램에서 postgreSQL 에 연결하려고 할때 오류메시지는 조금씩 다르더라도 다음과 같은 Exeption 오류가 난다면 실행할 때 다음과 같이 java 옵션을 주고 실행하면 된..

[Flink] op 필드 없는 "debezium-avro-confluent" 포맷 사용 방법 [내부링크]

데이터를 분석하기 위해서는 다양한 스토리지를 하나의 저장소로 모아야 하는 작업이 필요한 경우가 많다. 이때 처음에 데이터를 다 복사해와도 계속 변경되는 데이터가 생기기 때문에, 데이터를 동기화 해야 하는..

[Flink] JDBC Connector 에서 "ORACLE" 연동하기 - flink 1.13 [내부링크]

Flink 에서는 JDBC Connector 가 존재한다. 하지만 오피셜하게 지원되는 dbms는 총 3개 뿐이다. MySQL과 PostgreSQL 그리고 Derby ... https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/connecto..

[명령어] 파일 생성일 기준으로 이전 파일 지우기 - 리눅스 쉘 명령 [내부링크]

로그파일이나 임시파일들이 계속 쌓일때 생성일기준으로 과거 데이터를 지우고 싶을때 가 종종있다. 이럴때 유용한게 ls 에서 날짜 포맷팅 하고 awk 에서 필터링후 xargs 로 삭제 명령의 인자로 보내는 형태로 처..

리눅스에서 PC로 파일옮길때 유용한 팁 - SimpleHTTPServer [내부링크]

개요 가끔 개발서버에서 설정파일이나 오류메시지 로그를 복사해오고 싶은 경우가 있다. 그럴때 가장 손쉽게 사용할 수 있는건, python의 SimpleHTTPServer 를 쓰면 정말 쉽게 복사 해올수 있다. 이게 의외로 유용..

[용어] Hive 에서 테이블/파티션/버킷의 의미 알기 - hdfs 와 맵핑 [내부링크]

개요 hive 는 쿼리기반으로 데이터를 분석하기 위한 도구이다. 스키마는 메타스토어의 DBMS에 저장되지만 실제 데이터는 기본적으로는 HDFS 에 저장되어 있다. 그래서 hive 에서 논리적으로 테이블, 파티션, 버킷..

[엑셀] 특정단어가 들어가 있는 행에 색을 넣는 방법 [내부링크]

특정필드에서 검색 후, 검색결과가 있으면 해당 행을 색깔을 칠하고 싶은 경우가 있다. 이때 사용하는 엑셀 혹은 구글시트의 기능이 "조건부 서식" 이다. 그리고 미리 알아둬야하는 수식이 있는데, FIND 함수이다...

[팁] 다른 hdfs 클러스터의 nameservice 등록하는 방법 [내부링크]

개요 하둡클러스터가 부서별로 여러대를 운영할 경우 rpc-address 를 기반으로 접근하는 경우가 많다. 하지만 HA구성이 되어있다면 리더를 담당하는 서버가 변경되서 동작이 안되는 경우가 존재한다. 이걸 해결하..

[오류] hive 를 union all 할때 null 오류 문제 -tez엔진- [내부링크]

개요 희안하게 0건인 결과와 UNION ALL 하는 경우 null 오류가 발생했다. 더 특이했던건 hive client 에서는 쿼리가 성공하는데... jdbc 드라이버를 통하거나 beeline 을 통해서 쿼리를 날릴때만 발생했다는 점이..

[오류] hive llap 지원 버전 오류 - java.lang.OutOfMemoryError: Java heap space - 컨테이너모드 [내부링크]

개요 초창기 hdp 에서 hive 의 성능이 좋아진다면서 llap 를 지원하는 hive를 사용한적이 있다. 이때 llap 모드에서 쿼리가 실패했고, 컨테이너 모드로 바꿔서 실행했는도 다음과 같은 오류가 나서 골치아팠던적이..

[튜닝] Hive 에서 Broadcast Join 을 이용한 join 성능 튜닝방법 [내부링크]

개요 hive 에서 join 은 매우 느린 연산이다. 돌려본 사람은 알겠지만 join 이 들어간 경우 엄~~청 결과가 느려진다. 그래서 join 이 있는 쿼리를 튜닝해야할 일이 생길텐데 가장 손쉬운 방법은 broadcast join 을..

[오류] Hive 에서 Struct 테이블 Join 시 오류 회피하는 방법 [내부링크]

오류내용 hive 에 STRUCT 형으로 필드가 있는 테이블을 JOIN 할 때 나타났던 문제이다. hql의 문법상 문제가 없는데 beeline 에서 뱉는 오류메시지는 다음과 같다. (tez 엔진을 사용했다) INFO : Map 1: 26(+2)/28..

[팁] SCRAM-SHA-512 인증 있는 카프카에 명령어 실행하는 방법 [내부링크]

카프카의 토픽이나 그룹정보를 확인하는 기본적인 명령어 툴이 있다. 인터넷에 있는 대부분의 예시는 인증이 없는 방식이 예로 있는데, 카프카클러스터에 보안인증이 존재할때 기냥 명령을 내리면 실행이 안되고..

카프카 토픽결과 조회 방법 (confluent AVRO format) - 예시 - [내부링크]

카프카에서 kafka-console-consumer 를 사용할 경우, JSON 이나 STRING 형태의 데이터가 잘 보이지만, AVRO 포맷으로 저장하는 데이터는 다음과 같이 깨지는 현상이 있다. 그래서 토픽의 결과를 깨지 않고 보려면..

[오류] Hive 의 deadLock 문제 - lock 사용안하기 [내부링크]

배치가 주기적으로 돌고 있는데, 분석을 위해 select 를 하게되면 더 골치아프다. 경험상 select 를 주기적으로 하면 락때문에 insert 는 무한히 밀려서 배치작업에 영향을 주기도 한다. 이런일이 자주 일어난다면..

[명령어] hive 에서 ddl 추출하기 (create table 명령 확인하기) [내부링크]

hive 는 다양한 파일포맷과 스토리지 핸들러를 통해 hdfs 가 아닌 es 나 kafka 같은 외부 스토리지의 연결도 가능하게 해준다. 그래서 테이블이 어떤 파티션 정책을 갖고 있고 어떤 파일포맷이고 어떤 스토리지 핸..

[Kafka Streams] 윈도우집계 최종결과만 출력하는 방법 - suppress 사용 [내부링크]

Kafka 의 토픽에 있는 데이터를 실시간성으로 데이터 집계 하기위해서는 Kafka Streams 를 많이 사용한다. 사용하기도 쉬운편이고, 카프카에만 의존되다보니 사실상 카프카만 세팅되어있다면 바로 활용가능하다...

[오류] Flink에서 HDFS 데이터 Sink 할때 inprogress 로 flush 안되는 현상 [내부링크]

flink 에서 Kafka 의 데이터를 hdfs 에 Sink 테스트하는데 이상하게 inprogress 파일형태로 중간파일만 생성하고, 최종적으로 flush 가 안되는 상황으로 삽질했었는데, 결론부터 말하면 checkpoint 를 설정해야 한..

[오류] Flink SQL 에서 HIVE 데이터를 조회 못하는 문제 [내부링크]

Flink 에서 Hive Connector 를 연동해서, 카탈로그에 등록하면 hive 의 데이터를 조회해볼 수 있다. 기본적으로는 flink 의 taskManager 의 슬롯안에서 데이터를 처리하기 때문에 (즉, M/R 이나 TEZ 엔진이 도는 y..

[세팅] Flink SQL 에서 HIVE Connector 연동하기 - hive 2.3.6 [내부링크]

Flink 에서 sql-client.sh 에서 쿼리기반으로 데이터를 가공하고, 저장(sink) 할 수 있다. 일반적으로 sink 용으로 많이 사용하는 스토리지는 hive 거나 elasticsearch 가 아닐까 싶다. 추가될 라이브러리는 "$FLI..

[HDFS] 파일 삭제할때 휴지통(.Trash)에 안넣고 바로 버리기 [내부링크]

하둡을 사용하다보면 디스크 사용량이 70%를 넘어서기 시작하면 장애가 생기는 경우가 은근히 많다. 그리고, 클러스터의 모니터링 알람같은걸 해두면 알람도 많이 오기 때문에 물리적인 디스크 공간을 확보해야 할..

[오류] hive select(*) 결과가 0 인 문제 [내부링크]

단순히 "select * from 테이블" 형태로 조회하면 결과가 나오는데, 희안하게 "select count(*) from 테이블" 형태로 쿼리를 나오면 0으로 나오는 현상이다. 이 경우 hive 의 통계 자료가 잘못 입력되어있어서 그런..

[FLINK] kubernetes 환경에서 퍼시스턴트 볼륨 연동하기 - HA, checkPoint, savePoint [내부링크]

Flink 는 스트림데이터를 다룰수 있는 플랫폼이다. High-Avaliability(HA)를 구성하거나 상태정보를 저장하려면 공유스토리지가 필수인데 보통 hdfs 나 s3 를 쓰는 경우가 많다. (예제로 보통 s3나 hdfs 로 되어있..

[ES] ElasticSearch 인덱스 조회, 삭제, 생성 예제 - curl 사용 [내부링크]

엘라스틱서치는 restapi 를 지원해서 주소를 요청해서 가능한게, url 을 호출하는 가장 대중적인 커맨드라인툴이 curl 이다. 그래서 curl 로 호출하는 경우도 많으니 간단히 명령어를 정리하도록 하겠다. 예제는 ..

[오류] hive 쿼리 에러 해결방법 : SemanticException Exception when trying to remove partition predicates: fail to find child from parent [내부링크]

하이브에서 쿼리를 날릴때 이런 쿼리가 발생했고 구글링 하면 나오는 사이트중 그나마 힌트에 근접한 결과는 아래링크에서 얻을수 있었다. https://docs.treasuredata.com/display/public/PD/Hive+Known+Limitatio..

[추천] Kafka 명령어 유틸리티 소개 - kafkactl (실무자가 강추) [내부링크]

카프카를 사용하다보면 토픽이나 컨슈머그룹을 확인하기위한 명령어를 사용해야 하는 경우가 많다. 처음엔 기본 command line 명령어툴을 사용했는데 사용하면서 느끼는 가장 큰 불편함은 아래 2가지였다. 명령어..

Kafka 의 용어 이해하기 - 토픽, 스키마레지스트리 [내부링크]

Kafka 의 장점은 메시지큐인데 휘발성이 아니라 파일에 저장되고 offset 형태로 과거의 데이터도 읽어오는게 가장 큰 장점이 아닌가 싶다. 그래서, 스트림데이터에 대한 재집계 문제를 offset 을 돌려서 처리할수..