pyspark csv read separator bug

개발환경 IDE: Intelli-J Python: 3.9 Gradle: group: 'org.apache.spark', name: 'spark-core_2.13', version: '3.2.1' 배경 회사에서 HDFS에 저장된 원본 데이터를 가공해서 HDFS에 재 적재하는 업무를 수행 했습니다. pyspark을 사용해 HDFS 데이터를 읽어 특정 컬럼으로 필터링해 HDFS에 데이터를 재적하는 프로그램을 구현했습니다. 데이터 결과를 검증하니 이상한 점이 발결돼 내용을 공유합니다. 소스는 다음과 같습니다. Pyspark Source from pyspark.sql import SparkSession spark = SparkSession.builder.appName('IntelliJ').master('local').getOrCreate() spark.read.format('csv').csv('/data/inputData.txt').show(10, False) 문제점 확인 다음 이미지에서 위...

#bigdata #pyspark

원문링크 : pyspark csv read separator bug

등록된 다른 글

pyspark csv read separator bug

등록된 다른 글

Hadoop2 특징

[앱테크]포게더 소개, 포인트 적립 및 출금 방법 가이드/후기

Mac에서 anaconda 삭제

Linux에서 Yum으로 Rabbitmq 설치

데이터 파이프라인 소개

Mac에서 RabbitMQ 설치 및 Sample Message

[centos]rsync 명령어(옵션)

[앱테크] 옵저버(Observer) 채굴기 소개, 매수 및 출금 방법 소개

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티