Airflow의 스케줄링을 이용해서 Spark를 submit하려고했지만 위와 같은 에러가 발생하였습니다.

에러의 원인은 spark의 default connection의 host가 yarn으로 설정되어 있어 발생하였습니다.

 

분산모드가 아닌 로컬 모드에서 테스트로 이루어지는 상황에서 

host가 yarn으로 설정되어 있기 때문에 이러한 에러가 발생하였습니다.

 

https://airflow.apache.org/docs/apache-airflow-providers-apache-spark/stable/operators.html 참조

 

spark를 submit할때는 spark conection이 올바르게 설정되어 있어야합니다.

 

만약 master를 yarn으로 실행시키실 경우(분산모드) host를 yarn으로 변경해주시고,
local에서 실행하실 경우 (standalone모드) host를 local로 변경해주세요.

 

Selenium을 통한 크롤링을 Airflow환경에서 테스트 중에 발생한 에러입니다.

확인 결과 구글(브라우저)이 설치되어 있지 않아 에러가 발생 했습니다.

 

Selenium에서 사용 중인 브라우저가 설치되어있는지 확인해보시고,

설치가 되어있지 않다면 아래 방법으로 설치해주시면 해결됩니다 !

 

1. 패키지 리스트 업데이트

sudo apt update

 

2. 구글 다운로드 및 설치 

 

#구글 패키지 다운로드
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb

#구글 패키지 다운로드 파일 설치
sudo apt install ./google-chrome-stable_current_amd64.deb

3. 설치 확인

google-chrome-stable --version

 

이후 실행하면 정상적으로 접속이 가능한게 확인 되었습니다.

 

+ Recent posts