About connecting the dots.

data science related trivial things

livy に接続するために Sparkmagic をインストール際にハマったところ

久しぶりに書きますが,すごい小ネタ.EMR 5.9.0 で livy0.4.0 がサポートされたので,ちょっと試してみようかなと思ったわけです.EMR のよくある問題は,Step 経由でジョブを投げると,ジョブを並列実行できないところで,この解消のために ssh でログインしてコマンド実行するとか,そんな感じのやり方をとる必要がありました.ここに livy があれば,REST でジョブを投げられるので,いろいろ捗るかな,というのが背景にあります.

そんなわけで,chezou さんの記事を参考に sparkmagic を入れて試してみました.

chezou.hatenablog.com

そうしたら pykerberos のインストールでこけて,??? となったんですが,結果的には以下の issue で挙げられている,libkrb5-dev を先にインストールすることで,無事に sparkmagic が入りましたよ,というお話.

github.com

使ってみると,REST API も非常にシンプルで使いやすそう.Jupyter からも接続できていい感じです.ただ現在のところ,sparkmagic から EMR クラスタの Hive Metastore につながらくて,なんでなのかがよくわかってないです.多分自分の設定が何か間違ってるんでしょうけど... 接続できると,Glue Data Catalog とも連携できていい感じなのに.