easy_spark_emr

info:	easy spark setup on aws emr

Installation

git clone https://github.com/scoutbeedev/easy_spark_emr.git
cd easy_spark_emr

pip install awscli

export AWS_SECRET_ACCESS_KEY=XXX
export AWS_ACCESS_KEY_ID=XXX

# create default EMR roles
aws emr create-default-roles
# create S3 bucket for jupyter notebooks
aws --region=XXX s3 mb s3://XXX
# create ssh key-pair
aws --region=XXX ec2 create-key-pair --key-name easy_spark_emr

# edit run_cluster for AWS_SUBNET_ID and AWS_BUCKET_NAME
# AWS_SUBNET_ID can be found at
# https://console.aws.amazon.com/vpc/home#subnets:sort=SubnetId
./run_cluster.sh

open aws emr console

go to Your region

find Your cluster by id

click on ElasticMapReduce-master security group

add All traffic rule for Your IP

go back to the cluster

open http://Master public DNS:8888/

see jupyter up and running ;)

Notes

Do not forget to terminate Your cluster

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
to_sync		to_sync
README.rst		README.rst
config.json		config.json
run_cluster.sh		run_cluster.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

easy_spark_emr

Installation

Notes

About

Releases

Packages

Languages

scoutbee/spark-emr-easy-setup

Folders and files

Latest commit

History

Repository files navigation

easy_spark_emr

Installation

Notes

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages