分散処理など
分散処理に入門してみた Hadoop+spark 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) Amazon Elastic MapReduceの使い方─Hadoopより手軽にはじめる大規模計算 ※ Amazon EMR公式 上記記事のコメントに「EMRは初心者向きじゃない。実運用向き。」とある。「ちょっと試すのなら、CDHのVMイメージをダウンロードして、ちょっと速めのマシンで複数のVMを走らせた方が手っ取り早いです。」とも。 CDHとは 「CDHは、Apache Hadoopや関連プロジェクトすべてを包含し、機能検証済み、かつ、世界でもっとも導入実績の多いディストリビューションです。本ディストリビューションは、100% Apacheラインセンスに基づくオープンソース製品であり、Hadoopソリューションとしては唯一、バッチ処理、インタラクティブSQL、インタラクティブ検索、ロールベースのアクセスコントロール機能などを備えています。他のディストリビューションよりも、さらに多くの企業ユーザーにダウンロードされ使用されているディストリビューションと言えます。」 Cloudera Manager 「我々は、Apache Hadoop とそのエコシステムのインストール、構成管理、および監視をするために一番適しているのは Cloudera Manager であると考えています。」とのこと。 Hadoopクラスタを簡単に実行できるHDInsightと、新しいAzure Data Lakeサービスを一般公開 Azure Data Lake ・・・Amazon EMRにも言えることだが、従量課金制なので、料金見積もりが難しく、手を出しにくい。 データサイエンティスト養成読本 R活用編 ビッグデータ周辺にかかわる人材の3系統として、営業系、統計系、技術実装系の三系統がある、というようなことが書かれていたと記憶している。その3角形の中に、いろいろな技術・ナレッジのキーワードが書かれていた。再読したい。
コメント
コメントを投稿