はじめに

AWSを利用してデータ分析をするのに使えるサービスについてまとめてみた。

やってみたこと

Amazon EMRについて

  • 分散処理フレームワーク
    • 大量のアクセスログなどを高速に処理するのに向く
  • 次の3種類のノードから構成される
    • マスターノード
    • コアノード
    • タスクノード
  • コアノードを利用して、実際のジョブ(処理)を行う
  • また、タスクノードを利用して、実際のジョブ(処理)を行う。ただし、データの保存領域を持たない、コアノードなしに、タスクノードのみでは利用できないといった特徴がある
  • マスターノードが、コア・タスクノードへジョブを振り分ける

AWSのETLサービスについて

Kinesis

  • Amazon Kinesisという名称のストリーミング処理サービス
  • Data Streams・Data Firehose・Video Streams・Data Analyticsなど様々な機能がある
  • Data Streamsを利用すると、センサーやログなどのストリームデータを変換し、S3バケットやDynamoDBテーブルなどへ格納することができる

Glue

  • データレイクやデータウェアハウスとセットで使われることが多いサーバーレス型のETL
  • S3やDynamoDBなどのデータソースをクロールし、Redshiftに変換して格納するといったことができる

最後に

AWSを使って、書かなくて良いコードはどんどんショートカットすればいいと思う。

参考

投稿者: hirobel

JavaScriptが好きです

コメントをどうぞ

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

PAGE TOP
Close Bitnami banner
Bitnami