分散処理など

分散処理に入門してみた
Hadoop+spark
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)

Amazon Elastic MapReduceの使い方─Hadoopより手軽にはじめる大規模計算
Amazon EMR公式
上記記事のコメントに「EMRは初心者向きじゃない。実運用向き。」とある。「ちょっと試すのなら、CDHのVMイメージをダウンロードして、ちょっと速めのマシンで複数のVMを走らせた方が手っ取り早いです。」とも。

CDHとは
「CDHは、Apache Hadoopや関連プロジェクトすべてを包含し、機能検証済み、かつ、世界でもっとも導入実績の多いディストリビューションです。本ディストリビューションは、100% Apacheラインセンスに基づくオープンソース製品であり、Hadoopソリューションとしては唯一、バッチ処理、インタラクティブSQL、インタラクティブ検索、ロールベースのアクセスコントロール機能などを備えています。他のディストリビューションよりも、さらに多くの企業ユーザーにダウンロードされ使用されているディストリビューションと言えます。」

Cloudera Manager
「我々は、Apache Hadoop とそのエコシステムのインストール、構成管理、および監視をするために一番適しているのは Cloudera Manager であると考えています。」とのこと。

Hadoopクラスタを簡単に実行できるHDInsightと、新しいAzure Data Lakeサービスを一般公開
Azure Data Lake ・・・Amazon EMRにも言えることだが、従量課金制なので、料金見積もりが難しく、手を出しにくい。

データサイエンティスト養成読本 R活用編
ビッグデータ周辺にかかわる人材の3系統として、営業系、統計系、技術実装系の三系統がある、というようなことが書かれていたと記憶している。その3角形の中に、いろいろな技術・ナレッジのキーワードが書かれていた。再読したい。

コメント

このブログの人気の投稿

VBAでEdge操作は不可能ではないが、ナンセンス

docker+nginx+wordpress リバースプロキシにてはまった件