AWS

【AWS】ビッグデータの分析サービスEMRについて

記事内に商品プロモーションを含む場合があります

はじめに

こんにちは、やすです。

今回は、ビッグデータ(ペタバイト級)の分析で使えるAWSサービス「EMR」について、ご紹介します。

EMRとは?

EMR(Elastic MapReduce)は、「Hadoop(ハドゥープ)」や「Spark(スパーク)」といった既存のオープンソースのフレームワークを内部で使っている、AWSのビックデータ分析サービスです。

EMRを構成する3つの要素

EMRが採用しているHadoopは「分散処理(分担処理と言った方がわかりやすいかも)」の代名詞で、EMRの中をみると、3つの役割を持ったEC2インスタンスで構成されています。

それぞれのEC2インスタンス(ノードと呼んでいる)で作業を分担することで、スピーディーな並列処理を実現しています。

マスターノード

「指示役」です。
コアノードやタスクノードに処理を割り振ります。

コアノード

「データ保管も担当するデータ処理役」です。
「HDFS(Hadoop Distributed File System)」というデータ保管ファイルシステムを持っています。

タスクノード

「データ処理役」です。
コアノードと同じようにデータ処理をしますが、保管はできないです。名前の通り、タスクの処理に専念ですね。

まとめ

今回は、AWSのEMRについてご紹介しました。

ビックデータの処理で使う用途なので、このサービスを使うのは大企業なのかなぁ。

ではまた、バイバーイ♪