pyspark csv read separator bug


pyspark csv read separator bug

개발환경 IDE: Intelli-J Python: 3.9 Gradle: group: 'org.apache.spark', name: 'spark-core_2.13', version: '3.2.1' 배경 회사에서 HDFS에 저장된 원본 데이터를 가공해서 HDFS에 재 적재하는 업무를 수행 했습니다. pyspark을 사용해 HDFS 데이터를 읽어 특정 컬럼으로 필터링해 HDFS에 데이터를 재적하는 프로그램을 구현했습니다. 데이터 결과를 검증하니 이상한 점이 발결돼 내용을 공유합니다. 소스는 다음과 같습니다. Pyspark Source from pyspark.sql import SparkSession spark = SparkSession.builder.appName('IntelliJ').master('local').getOrCreate() spark.read.format('csv').csv('/data/inputData.txt').show(10, False) 문제점 확인 다음 이미지에서 위...


#bigdata #pyspark

원문링크 : pyspark csv read separator bug