python을 이용하는 개발자로써 DataFrame형태의 데이터를 자주 접합니다.
python에서 hdfs에 dataframe 데이터를 저장하는 방법을 공유 합니다.
#hdfs 관련 라이브러리 로드
from hdfs import InsecureClient
#client 선언
hdfs_url = "http://<HDFS-NAMENODE-HOST>:<HDFS-NAMENODE-PORT>"
client = InsecureClient(hdfs_url, user="<HDFS-USER>")
#원하는 저장 경로(csv파일 또는 parquet 파일로 저장가능)
hdfs_path = "/path/to/your/directory/{file_name}.csv"
hdfs_path = "/path/to/your/directory/{file_name}.parquet"
with client.write(hdfs_path, overwrite=True) as writer:
df.to_csv(writer, index=False, header=True)
'데이터 엔지니어 > hadoop' 카테고리의 다른 글
hadoop 구축 4.구축과정에서의 에러와 해결방법 (0) | 2023.12.17 |
---|---|
hadoop 구축 3. zookeeper, hadoop 설치 및 실행 (2) | 2023.12.17 |
hadoop 구축 2. 하둡 구성 현황 (2) | 2023.12.17 |
[zookeeper]Error contacting service. It is probably not running (2) | 2023.11.23 |
hadoop 구축 1-1. 편리한 vm사용을 위한 ssh원격 터미널 사용 (0) | 2023.11.05 |