Skip to content

kosssshhhh/airflow

Repository files navigation

Airflow

각 쇼핑몰 사이트의 카테고리 별 Top 100 상품들은 일별로 업데이트 되기 때문에 매일 수집되어 DB에 Load 하는 과정을 거침.

Apache Airflow를 활용하여 스케쥴링 및 모니터링 할 수 있도록 관리.



Extract, Transform

Python, BS4, HTTPX를 활용하여 각 쇼핑몰 별로 크롤링 코드를 작성하였고, 이 과정에서 수집되는 데이터들을 원하는 형태로 변환하는 과정도 함께 진행.

crawled data visualizaion

Dag

각 쇼핑몰 별 각각 DAG 구성하여 스케쥴러를 통한 데이터 파이프라인 자동화 진행.

Extract, Transfrom, Load 세 개의 Task로 분리하여 DAG 구성

DAGs Each Task

About

2024 산학협력프로젝트 400cc팀 Airflow

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •