Data_Science_Project

A small end‑to‑end data science project demonstrating:

Data Collection via web scraping (BeautifulSoup, Scrapy, Selenium).
Data Storage of raw and processed files in data/.
Exploratory Data Analysis and visualization in a Jupyter notebook.

Project Structure

Data_Science_Project/
├── data/                   # Raw and processed datasets (CSV, JSON, etc.)
├── scraping/               # Standalone Python scripts (BeautifulSoup, Selenium)
├── spider/                 # Scrapy project and spider definitions
├── data_analysis.ipynb     # Jupyter notebook for EDA & visualization
└── README.md               # Project overview and instructions

Prerequisites

Python 3.8 or higher
Git (to clone this repository)

Installation

Clone the repository
```
git clone https://github.com/soupond/Data_Science_Project.git
cd Data_Science_Project
```
1. Create and activate a virtual environment (recommended) bashbash git clone https://github.com/soupond/Data_Science_Project.git cd Data_Science_Project

Create and activate a virtual environment (recommended)

python3 -m venv venv
source venv/bin/activate    # Windows: venv\Scripts\activate

Install dependencies

pip install -r requirements.txt

If a requirements.txt is not present, install manually:
pip install pandas numpy matplotlib jupyter scrapy beautifulsoup4 requests selenium

Usage

Ad‑hoc Python Scrapers

Standalone scripts using BeautifulSoup or Selenium are located in scraping/. To run one:

python scraping/bs4_scraper.py

The script will save output files under data/ (e.g., data/raw_listings.csv).

Scrapy Spiders

The Scrapy project lives in the spider/ directory. To crawl and export data:

Exploratory Data Analysis

Launch Jupyter Notebook and open the analysis notebook:

jupyter notebook data_analysis.ipynb

Inside, you’ll find:

Data loading and cleaning steps
Descriptive statistics and data summaries
Visualizations (histograms, scatter plots, heatmaps)
Key insights and recommendations

Requirements

A requirements.txt file lists all Python package dependencies for this project. Install them with:

pip install -r requirements.txt

Contributing

Contributions are welcome! To contribute:

Fork the repository.
Create a new branch (git checkout -b feature/YourFeature).
Make your changes and commit with a clear message.
Push to your fork and open a Pull Request.

Please ensure:

Code follows PEP8 style guidelines.
Dependencies are updated in requirements.txt.
README is kept up to date with any new scripts or features.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Data_Science_Project

Table of Contents

Project Structure

Prerequisites

Installation

Usage

Ad‑hoc Python Scrapers

Scrapy Spiders

Exploratory Data Analysis

Requirements

Contributing

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
clean_data		clean_data
data		data
scraping		scraping
spider		spider
README.md		README.md
data_analysis_combined.ipynb		data_analysis_combined.ipynb
requirements.txt		requirements.txt

soupond/Data_Science_Project

Folders and files

Latest commit

History

Repository files navigation

Data_Science_Project

Table of Contents

Project Structure

Prerequisites

Installation

Usage

Ad‑hoc Python Scrapers

Scrapy Spiders

Exploratory Data Analysis

Requirements

Contributing

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages