はじめに
AWSを利用してデータ分析をするのに使えるサービスについてまとめてみた。
やってみたこと
Amazon EMRについて
- 分散処理フレームワーク
- 大量のアクセスログなどを高速に処理するのに向く
- 次の3種類のノードから構成される
- マスターノード
- コアノード
- タスクノード
- コアノードを利用して、実際のジョブ(処理)を行う
- また、タスクノードを利用して、実際のジョブ(処理)を行う。ただし、データの保存領域を持たない、コアノードなしに、タスクノードのみでは利用できないといった特徴がある
- マスターノードが、コア・タスクノードへジョブを振り分ける
AWSのETLサービスについて
Kinesis
- Amazon Kinesisという名称のストリーミング処理サービス
- Data Streams・Data Firehose・Video Streams・Data Analyticsなど様々な機能がある
- Data Streamsを利用すると、センサーやログなどのストリームデータを変換し、S3バケットやDynamoDBテーブルなどへ格納することができる
Glue
- データレイクやデータウェアハウスとセットで使われることが多いサーバーレス型のETL
- S3やDynamoDBなどのデータソースをクロールし、Redshiftに変換して格納するといったことができる
最後に
AWSを使って、書かなくて良いコードはどんどんショートカットすればいいと思う。