Hadoopによる並列処理での機械学習
の編集
Top
/
Hadoopによる並列処理での機械学習
[
トップ
] [
編集
|
差分
|
履歴
|
添付
|
リロード
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
-- 雛形とするページ --
島部/menu/template
[[技術資料]] *BIGDLを用いてSparkでディープラーニングを実行する [#x078f9ae] #CONTENTS **【参考サイト】 [#g760028a] ・BIGDLのチュートリアル~ https://bigdl-project.github.io/master/#getting-started/~ ・Sparkのインストール、メモリ関連~ https://ishiis.net/2017/03/12/intel-bigdl-install/~ ・Spark分散処理環境の構築 https://dev.classmethod.jp/articles/construct-spark-cluster/ **【インストールするもの】 [#gb5b13d6] ◆MasterPCに入れるもの~ ・Apache Spark 3.0.2~ ・BIGDL 0.12.1~ **【インストールの流れ】 [#gb5b13d6] MasterPCの環境を構築する。 ***Spark [#gb5b13d6] 左上のアプリケーション→システムツールから端末を開く。これから示すコマンドはこの端末上に入力していく。まず最初に下のコマンドからJDKのダウンロード、インストールを行う。~ $ sudo yum install java-1.8.0-openjdk 下のコマンドによりバージョンが表示されればインストールされている。 $ java -version Sparkをダウンロードする。~ $ wget http://ftp.riken.jp/net/apache/spark/spark-3.0.2/spark-3.0.2-bin-hadoop2.7.tgz ダウンロードしたファイルを解凍&いろいろ $ tar zxvf spark-3.0.2-bin-hadoop2.7.tgz $ sudo mv spark-3.0.2-bin-hadoop2.7 /usr/local/ $ cd /usr/local/spark-3.0.2-bin-hadoop2.7/ $ sudo cp conf/spark-env.sh.template conf/spark-env.sh $ sudo chmod +x conf/spark-env.sh $ sudo cp conf/spark-defaults.conf.template conf/spark-defaults.conf $ sudo echo "SPARK_EXECUTOR_INSTANCES=2" >> conf/spark-env.sh $ sudo echo "SPARK_EXECUTOR_MEMORY=2G" >> conf/spark-env.sh $ sudo echo "SPARK_DRIVER_MEMORY=2G" >> conf/spark-env.sh 環境変数を設定する。~ $ cd ~ $ sudo vim .bashrc vimというテキストエディタによって.bashrcファイルを編集する画面になるので、挿入モードに切り替え(iを押す)、以下を追記する。その後、Escで挿入モードを終了し、保存して閉じる。(:wqと入力しEnter) export SPARK_HOME=/usr/local/spark-3.0.2-bin-hadoop2.7 //export PATH=$PATH:$SPARK_HOME/bin 設定した.bashrcファイルを反映させる。 source .bashrc ***BIGDL [#gb5b13d6] https://bigdl-project.github.io/master/#release-download/~ 上のリンクから、リリース0.12.1のSpark3.0.0用ダウンロードリンクからBIGDLをダウンロードする。ダウンロードしたフォルダをホームに配置し、下記のコマンドから解凍する。 $ unzip dist-spark-3.0.0-scala-2.12.10-all-0.12.1-dist.zip -d dist-spark-3.0.0-scala-2.12.10-all-0.12.1-dist 環境変数を設定する。下のコマンドから.bashrcを開く。 $ sudo vim .bashrc 以下(export~)を追記した後、設定を反映する。(source~) export BIGDL_HOME=$HOME/dist-spark-3.0.0-scala-2.12.10-all-0.12.1-dist $ source .bashrc **【サンプルプログラムの実行】 [#gb5b13d6] ***分散処理環境の構築 [#gb5b13d6] 複数のPCにより分散処理ができる環境を作る。分散処理において、制御する側はマスター、制御される側はスレーブと呼ばれている。下のコマンドよりマスターを立ち上げる。 $ cd $SPARK_HOME $ sbin/start-master.sh 下のURLをVirtualBox上のfirefoxなどのブラウザで開く。~ http://localhost:8080 次に https://www.cs.toronto.edu/~kriz/cifar.html~
タイムスタンプを変更しない
[[技術資料]] *BIGDLを用いてSparkでディープラーニングを実行する [#x078f9ae] #CONTENTS **【参考サイト】 [#g760028a] ・BIGDLのチュートリアル~ https://bigdl-project.github.io/master/#getting-started/~ ・Sparkのインストール、メモリ関連~ https://ishiis.net/2017/03/12/intel-bigdl-install/~ ・Spark分散処理環境の構築 https://dev.classmethod.jp/articles/construct-spark-cluster/ **【インストールするもの】 [#gb5b13d6] ◆MasterPCに入れるもの~ ・Apache Spark 3.0.2~ ・BIGDL 0.12.1~ **【インストールの流れ】 [#gb5b13d6] MasterPCの環境を構築する。 ***Spark [#gb5b13d6] 左上のアプリケーション→システムツールから端末を開く。これから示すコマンドはこの端末上に入力していく。まず最初に下のコマンドからJDKのダウンロード、インストールを行う。~ $ sudo yum install java-1.8.0-openjdk 下のコマンドによりバージョンが表示されればインストールされている。 $ java -version Sparkをダウンロードする。~ $ wget http://ftp.riken.jp/net/apache/spark/spark-3.0.2/spark-3.0.2-bin-hadoop2.7.tgz ダウンロードしたファイルを解凍&いろいろ $ tar zxvf spark-3.0.2-bin-hadoop2.7.tgz $ sudo mv spark-3.0.2-bin-hadoop2.7 /usr/local/ $ cd /usr/local/spark-3.0.2-bin-hadoop2.7/ $ sudo cp conf/spark-env.sh.template conf/spark-env.sh $ sudo chmod +x conf/spark-env.sh $ sudo cp conf/spark-defaults.conf.template conf/spark-defaults.conf $ sudo echo "SPARK_EXECUTOR_INSTANCES=2" >> conf/spark-env.sh $ sudo echo "SPARK_EXECUTOR_MEMORY=2G" >> conf/spark-env.sh $ sudo echo "SPARK_DRIVER_MEMORY=2G" >> conf/spark-env.sh 環境変数を設定する。~ $ cd ~ $ sudo vim .bashrc vimというテキストエディタによって.bashrcファイルを編集する画面になるので、挿入モードに切り替え(iを押す)、以下を追記する。その後、Escで挿入モードを終了し、保存して閉じる。(:wqと入力しEnter) export SPARK_HOME=/usr/local/spark-3.0.2-bin-hadoop2.7 //export PATH=$PATH:$SPARK_HOME/bin 設定した.bashrcファイルを反映させる。 source .bashrc ***BIGDL [#gb5b13d6] https://bigdl-project.github.io/master/#release-download/~ 上のリンクから、リリース0.12.1のSpark3.0.0用ダウンロードリンクからBIGDLをダウンロードする。ダウンロードしたフォルダをホームに配置し、下記のコマンドから解凍する。 $ unzip dist-spark-3.0.0-scala-2.12.10-all-0.12.1-dist.zip -d dist-spark-3.0.0-scala-2.12.10-all-0.12.1-dist 環境変数を設定する。下のコマンドから.bashrcを開く。 $ sudo vim .bashrc 以下(export~)を追記した後、設定を反映する。(source~) export BIGDL_HOME=$HOME/dist-spark-3.0.0-scala-2.12.10-all-0.12.1-dist $ source .bashrc **【サンプルプログラムの実行】 [#gb5b13d6] ***分散処理環境の構築 [#gb5b13d6] 複数のPCにより分散処理ができる環境を作る。分散処理において、制御する側はマスター、制御される側はスレーブと呼ばれている。下のコマンドよりマスターを立ち上げる。 $ cd $SPARK_HOME $ sbin/start-master.sh 下のURLをVirtualBox上のfirefoxなどのブラウザで開く。~ http://localhost:8080 次に https://www.cs.toronto.edu/~kriz/cifar.html~
テキスト整形のルールを表示する