中間発表(堀) の履歴(No.15) | 奥原研究室・Rene研究室ログ

堀?

tex

ポスター

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{comment}
\section{並列分散処理による解法の事例}
現在の情報社会では，経済や社会の問題を解決したり，業務を支援したり付加価値向上行うために用いる，ビッグデータをとり扱うために様々なアルゴリズムやアプリケーションによって，システム，組織などに関するデータは日々収集され，大量のデータが生成されている．
%%%%
しかし問題となってくるのは，この莫大な量のデータを，効率的かつ高速に処理する手段である．この問題を解決する方法として並列分散処理という技術がある．並列分散処理とは，複数台のコンピュータをリンクさせて，複数のCPUや，メモリを同時に使用することで一つの計算処理を行うことである．これにより，処理性能や計算速度を向上させることができる．並列分散処理を行っているときのイメージを図\ref{並列分散}に示す．並列分散処理を行うメリットとしては，1台のコンピューターで実行するよりも短い時間で解を導くことができることや，1台では実装が難しい大規模の処理を実現できることが挙げられる\cite{安藤さん}．

\begin{flushleft}
\textbf{オーバーヘッド}
\end{flushleft}

並列分散処理における注意点としてオーバーヘッドが挙げられる．オーバーヘッドとは，コンピュータシステムで，何らかの処理を実行するときにかかる時間的，または空間的な費用やコンピュータにおける負荷のことを指す．
並列分散処理におけるオーバーヘッドが，並列化によって得ることのできる性能の向上の恩恵を上回ってしまうことがありえる．

例えば，複数のプロセス，スレッド上で並列分散処理を行おうとする際に，複数のプロセスと各スレッドの起動，終了の処理，並列化するためのデータの分割と結果の統合の処理などにかかる時間の合計などが，並列化によって削減された時間合計を超えてしまう場合，並列化したことがかえって処理性能の低下を引き起こすことに繋がってしまうことがある．また，物理的なプロセッサコアの数以上のプロセス，スレッドを起動させて並列分散処理を行っても，現在実行している処理の流れを一旦停止し，別の処理に切り替え，実行を再開するときに発生するオーバーヘッドがかさんでしまうため，これもかえって処理性能を低下させてしまう要因となることがある．

%%%%%%%%%%%ここまでチェック済み

また，とあるタスクをどう分散させ，どう実行するか，複数のコンピュータによる処理結果はどう１つの結果にまとめたらよいか，などの問題があり，導入は容易ではなかったが，Apache HadoopやApache Spark，Daskなどの並列分散ソフトウェアが台頭したことによって並列分散処理の利用に対する敷居は低くなりつつある．現在，並列分散処理を行いたい場合に使われることの多いソフトウェアであるApache Hadoop，Apache Spark，Daskについて説明する．
%\begin{description}

\begin{flushleft}
\textbf{Apache Hadoop}
\end{flushleft}

Apache Hadoopとは，大規模なデータを効率的に管理し，分散処理するために用いられるソフトウェアの1つである．Hadoopは，オープンソースソフトウェアとして開発元のアパッチソフトウェア財団(Apache Software Foundation: ASF

われる．\n\nSparkは，データをRDD（Resilient Distributed Datasets: RDD）と呼ばれる管理の単位に分割してそれぞれのノードで管理する．RDDは，メインメモリ上で管理され，必要に応じてストレージに記録される．そのため，ストレージへの記録と読み込みを毎回繰り返さなくても済むため，高速で処理を行うことができる．\n\nHadoopでは1回の分散処理ごと実行結果をストレージに記録するため，機械学習などの用途では性能が落ちてしまうという問題があったが，Sparkはそれぞれのノード上のメモリを有効活用できるため，用途によってはHadoopよりも高速に機能する．\n\nまた，SparkはWindowsやLinuxなどのプラットフォームに対応しており，JavaやScalaなどのプログラミング言語での記述がサポートされている．さらに，Java APIを経由し，実行環境にJava仮想マシンを利用する，JVM言語のサポートも行われている．\n\n拡張機能として，ノードやデータ，分散処理の管理をするSpark Coreや，管理下のデータに対してSQLによる問い合わせと処理を行うSpark SQL，グラフの処理などの機能を提供するGraphXなどが用意されている．\n\n\begin{flushleft}\n\textbf{Dask}\n\end{flushleft}\n\nDaskは，Matthew Rocklinによって開発されたコミュニティプロジェクトであり，並列分散処理行うために用いられるソフトウェアである．効率的な数値計算を行うための多次元配列のサポートとそれを操作できるように拡張された，Pythonのライブラリの1つであるNumpyや，データ解析を支援するために，時系列データや数表を操作できるデータ構造とその演算を提供している，Numpyと同様にPythonのライブラリであるPandasを，Daskは簡単に並列・分散して処理を行うことが可能である．また，Daskは，上記の2つのライブラリと競合するライブラリではなく，それらをより高機能にしたラッパーライブラリのようになっている．\n\nDaskによる分散処理は，大量のデータを複数のブロックについて分割してから，処理することにより実現される．この仕組みによって，分割されたブロックは，1度に全てのデータを読み込む必要がなくなるため，メモリ消費のピーク値を大幅に抑えることが可能となる．\n\nDaskでは，いくつかのNumpy配列を格子状に配置された状態を1つのDask配列とみなし，Numpy配列単体がDask上でのチャンクサイズとなり，同様に，Daskのデータフレームは図\ref{dask}のように，いくつかのPandasデータフレームで構成される．\n\nDaskは主にデータ分析や機械学習に利用されていて，本研究にも使われるモジュールの一つであるPandasは，大容量のデータを処理する際には，分析に使われるデータが，メモリに収まらないことや，基本的に単一のスレッドで処理が行われるため，処理速度が遅いことが問題に上げられる．Daskによる並列分散処理を行うことで，それらの問題は解決され，プログラムの処理速度向上に繋がる．\n\n\n本研究などの組み合わせ最適化は膨大な量のデータから近似最適解を探索し，処理のたびに評価し，さらなる最適解を検討しているため，最適解を求める時間が長くなり，システムとして実用的ではないことが多い．そのため，組み合わせ最適化を適応したシステムに並列分散処理を施して短い時間で解を導いている事例もいくつか存在する．\n\end{comment})

卒論

本論1028

本論1209

図表

#ref(): File not found: "Figure.pdf" at page "中間発表(堀)"