#author("2021-04-08T07:46:14+00:00","","")
#author("2021-04-20T10:03:17+00:00","","")
[[技術資料]]

*BIGDLを用いてSparkでディープラーニングを実行する [#x078f9ae]

#CONTENTS


**【参考サイト】 [#g760028a]
・BIGDLのチュートリアル~
https://bigdl-project.github.io/master/#getting-started/~
・Sparkのインストール、メモリ関連~
https://ishiis.net/2017/03/12/intel-bigdl-install/~
・Spark分散処理環境の構築
https://dev.classmethod.jp/articles/construct-spark-cluster/


**【インストールするもの】 [#gb5b13d6]
◆MasterPCに入れるもの~
・Apache Spark 3.0.2~
・BIGDL 0.12.1~

**【インストールの流れ】 [#gb5b13d6]
MasterPCの環境を構築する。
***Spark [#gb5b13d6]

左上のアプリケーション→システムツールから端末を開く。これから示すコマンドはこの端末上に入力していく。まず最初に下のコマンドからJDKのダウンロード、インストールを行う。~

 $ sudo yum install java-1.8.0-openjdk

下のコマンドによりバージョンが表示されればインストールされている。

 $ java -version

Sparkをダウンロードする。~

 $ wget http://ftp.riken.jp/net/apache/spark/spark-3.0.2/spark-3.0.2-bin-hadoop2.7.tgz

ダウンロードしたファイルを解凍&いろいろ

 $ tar zxvf spark-3.0.2-bin-hadoop2.7.tgz
 $ sudo mv spark-3.0.2-bin-hadoop2.7 /usr/local/
 $ cd /usr/local/spark-3.0.2-bin-hadoop2.7/
 $ sudo cp conf/spark-env.sh.template conf/spark-env.sh
 $ sudo chmod +x conf/spark-env.sh
 $ sudo cp conf/spark-defaults.conf.template conf/spark-defaults.conf
 $ sudo echo "SPARK_EXECUTOR_INSTANCES=2" >> conf/spark-env.sh
 $ sudo echo "SPARK_EXECUTOR_MEMORY=2G" >> conf/spark-env.sh
 $ sudo echo "SPARK_DRIVER_MEMORY=2G" >> conf/spark-env.sh

環境変数を設定する。~

 $ cd ~
 $ sudo vim .bashrc

vimというテキストエディタによって.bashrcファイルを編集する画面になるので、挿入モードに切り替え(iを押す)、以下を追記する。その後、Escで挿入モードを終了し、保存して閉じる。(:wqと入力しEnter)

 export SPARK_HOME=/usr/local/spark-3.0.2-bin-hadoop2.7
//export PATH=$PATH:$SPARK_HOME/bin

設定した.bashrcファイルを反映させる。

 source .bashrc


***BIGDL [#gb5b13d6]

https://bigdl-project.github.io/master/#release-download/~

上のリンクから、リリース0.12.1のSpark3.0.0用ダウンロードリンクからBIGDLをダウンロードする。ダウンロードしたフォルダをホームに配置し、下記のコマンドから解凍する。

 $ unzip dist-spark-3.0.0-scala-2.12.10-all-0.12.1-dist.zip -d dist-spark-3.0.0-scala-2.12.10-all-0.12.1-dist

環境変数を設定する。下のコマンドから.bashrcを開く。

 $ sudo vim .bashrc

以下(export~)を追記した後、設定を反映する。(source~)

 export BIGDL_HOME=$HOME/dist-spark-3.0.0-scala-2.12.10-all-0.12.1-dist

 $ source .bashrc

**【サンプルプログラムの実行】 [#gb5b13d6]
***分散処理環境の構築 [#gb5b13d6]
複数のPCにより分散処理ができる環境を作る。分散処理において、制御する側はマスター、制御される側はスレーブと呼ばれている。下のコマンドよりマスターを立ち上げる。
 $ cd $SPARK_HOME
 $ sbin/start-master.sh
下のURLをVirtualBox上で打ち込み開く。~
下のURLをVirtualBox上のfirefoxなどのブラウザで開く。~
 http://localhost:8080
次に



https://www.cs.toronto.edu/~kriz/cifar.html~

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS