diff --git a/.gitignore b/.gitignore
index 0166454..befe517 100644
--- a/.gitignore
+++ b/.gitignore
@@ -57,7 +57,7 @@ docker-compose.override.yml
 *.db
 *.sqlite
 *.sqlite3
-data/
+
 
 # Cache and temporary files
 .cache/
@@ -94,12 +94,13 @@ docs/.vitepress/dist/
 docs/.vitepress/cache/
 
 # Generated Swagger documentation
-internal/handlers/swagger/docs.go
-internal/handlers/swagger/swagger.json
-internal/handlers/swagger/swagger.yaml
+internal/api/handlers/swagger/docs.go
+internal/api/handlers/swagger/swagger.json
+internal/api/handlers/swagger/swagger.yaml
 
 # Embedded documentation dist
-internal/docs/dist/
+internal/api/docs/dist/
+internal/api/ui/dist/
 
 # Claude specific files
 .claude/
diff --git a/Dockerfile b/Dockerfile
index c2b28d1..559ee92 100644
--- a/Dockerfile
+++ b/Dockerfile
@@ -43,7 +43,7 @@ COPY docs/ ./
 RUN npm run build
 
 # Go Build stage
-FROM golang:1.23-alpine AS builder
+FROM golang:1.24-alpine AS builder
 
 # Install build dependencies
 RUN apk add --no-cache git gcc musl-dev
@@ -61,14 +61,14 @@ RUN go mod download
 COPY . .
 
 # Copy built UI from ui-builder stage
-COPY --from=ui-builder /app/web/dist ./internal/ui/dist
+COPY --from=ui-builder /app/web/dist ./internal/api/ui/dist
 
 # Copy built docs from docs-builder stage
-COPY --from=docs-builder /app/docs/.vitepress/dist ./internal/docs/dist
+COPY --from=docs-builder /app/docs/.vitepress/dist ./internal/api/docs/dist
 
 # Generate Swagger documentation
 RUN go install github.com/swaggo/swag/cmd/swag@latest
-RUN swag init -g cmd/server/main.go -o internal/handlers/swagger
+RUN swag init -g cmd/server/main.go -o internal/api/handlers/swagger
 
 # Build the application with embedded UI
 RUN CGO_ENABLED=1 GOOS=linux go build -a -installsuffix cgo -o pllm cmd/server/main.go
@@ -88,13 +88,12 @@ WORKDIR /app
 
 # Copy binary from builder
 COPY --from=builder /app/pllm .
-COPY --from=builder /app/docs ./docs
 
 # Copy config file (if exists)
 COPY --chown=pllm:pllm config.yaml* ./
 
 # Copy pricing file
-COPY --from=builder --chown=pllm:pllm /app/internal/config/model_prices_and_context_window.json ./internal/config/
+COPY --from=builder --chown=pllm:pllm /app/internal/core/config/model_prices_and_context_window.json ./internal/core/config/
 
 # Change ownership
 RUN chown -R pllm:pllm /app
@@ -110,4 +109,4 @@ HEALTHCHECK --interval=30s --timeout=3s --start-period=5s --retries=3 \
     CMD wget --no-verbose --tries=1 --spider http://localhost:8080/health || exit 1
 
 # Run the application
-ENTRYPOINT ["./pllm"]
\ No newline at end of file
+ENTRYPOINT ["./pllm"]
diff --git a/Makefile b/Makefile
index 7540bd3..d164528 100644
--- a/Makefile
+++ b/Makefile
@@ -27,10 +27,10 @@ web-build: ## Build frontend assets
 	cd web && npm run build
 
 .PHONY: ui-build
-ui-build: web-build ## Copy built frontend to internal/ui/dist for embedding
-	@mkdir -p internal/ui/dist
-	@cp -r web/dist/* internal/ui/dist/
-	@echo "✅ Frontend copied to internal/ui/dist/"
+ui-build: web-build ## Copy built frontend to internal/api/ui/dist for embedding
+	@mkdir -p internal/api/ui/dist
+	@cp -r web/dist/* internal/api/ui/dist/
+	@echo "✅ Frontend copied to internal/api/ui/dist/"
 
 .PHONY: build-worker
 build-worker: ## Build the worker binary for background processing
@@ -336,24 +336,32 @@ redis-shell: ## Open Redis shell
 
 .PHONY: test
 test: swagger ## Run tests (generates swagger docs first)
-	mkdir -p internal/ui/dist
-	mkdir -p internal/docs/dist
-	touch internal/ui/dist/index.html
-	touch internal/docs/dist/index.html
+	mkdir -p internal/api/ui/dist
+	mkdir -p internal/api/docs/dist
+	touch internal/api/ui/dist/index.html
+	touch internal/api/docs/dist/index.html
 	go test -v ./...
 
 .PHONY: test-coverage
 test-coverage: swagger ## Run tests with coverage
-	mkdir -p internal/ui/dist
-	mkdir -p internal/docs/dist
-	touch internal/ui/dist/index.html
-	touch internal/docs/dist/index.html
+	mkdir -p internal/api/ui/dist
+	mkdir -p internal/api/docs/dist
+	touch internal/api/ui/dist/index.html
+	touch internal/api/docs/dist/index.html
 	go test -v -cover -coverprofile=coverage.txt ./...
 
 .PHONY: test-integration
 test-integration: ## Run integration tests
 	go test -v -tags=integration ./...
 
+.PHONY: test-failover
+test-failover: ## Run failover and performance integration tests
+	go test -v -timeout=60s ./internal/services/integration/ -run="Test"
+
+.PHONY: test-performance
+test-performance: ## Run performance benchmarks and validate banking requirements
+	go test -v -timeout=60s ./internal/services/integration/ -run="TestPerformanceBenchmarks"
+
 .PHONY: lint
 lint: ## Run linter
 	@which golangci-lint > /dev/null || go install github.com/golangci/golangci-lint/cmd/golangci-lint@latest
@@ -375,7 +383,7 @@ install-tools: ## Install development tools
 .PHONY: swagger
 swagger: ## Generate Swagger documentation
 	@which swag > /dev/null || go install github.com/swaggo/swag/cmd/swag@latest
-	swag init -g cmd/server/main.go -o internal/handlers/swagger
+	swag init -g cmd/server/main.go -o internal/api/handlers/swagger
 
 ##@ Documentation
 
@@ -386,8 +394,8 @@ docs-dev: ## Run VitePress documentation in development mode
 .PHONY: docs-build
 docs-build: ## Build VitePress documentation
 	cd docs && npm run build
-	mkdir -p internal/docs/dist
-	cp -r docs/.vitepress/dist/* internal/docs/dist/
+	mkdir -p internal/api/docs/dist
+	cp -r docs/.vitepress/dist/* internal/api/docs/dist/
 
 .PHONY: docs-preview
 docs-preview: ## Preview built documentation
@@ -395,7 +403,7 @@ docs-preview: ## Preview built documentation
 
 .PHONY: clean
 clean: ## Clean build artifacts
-	rm -rf bin/ tmp/ coverage.* *.out internal/docs/dist
+	rm -rf bin/ tmp/ coverage.* *.out internal/api/docs/dist
 
 .PHONY: env-setup
 env-setup: ## Create .env file from example
diff --git a/cmd/pllm/Makefile b/cmd/cli/Makefile
similarity index 100%
rename from cmd/pllm/Makefile
rename to cmd/cli/Makefile
diff --git a/cmd/pllm/README.md b/cmd/cli/README.md
similarity index 100%
rename from cmd/pllm/README.md
rename to cmd/cli/README.md
diff --git a/cmd/pllm/commands/budget.go b/cmd/cli/commands/budget.go
similarity index 99%
rename from cmd/pllm/commands/budget.go
rename to cmd/cli/commands/budget.go
index 0def18a..796d5b3 100644
--- a/cmd/pllm/commands/budget.go
+++ b/cmd/cli/commands/budget.go
@@ -10,7 +10,7 @@ import (
 	"github.com/google/uuid"
 	"github.com/spf13/cobra"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 // NewBudgetCommand creates a new budget management command
diff --git a/cmd/pllm/commands/config.go b/cmd/cli/commands/config.go
similarity index 100%
rename from cmd/pllm/commands/config.go
rename to cmd/cli/commands/config.go
diff --git a/cmd/pllm/commands/key.go b/cmd/cli/commands/key.go
similarity index 99%
rename from cmd/pllm/commands/key.go
rename to cmd/cli/commands/key.go
index 8d383e0..3bd8c3b 100644
--- a/cmd/pllm/commands/key.go
+++ b/cmd/cli/commands/key.go
@@ -9,7 +9,7 @@ import (
 	"github.com/google/uuid"
 	"github.com/spf13/cobra"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 // NewKeyCommand creates a new key management command
diff --git a/cmd/pllm/commands/team.go b/cmd/cli/commands/team.go
similarity index 99%
rename from cmd/pllm/commands/team.go
rename to cmd/cli/commands/team.go
index 21c4cc9..94fb129 100644
--- a/cmd/pllm/commands/team.go
+++ b/cmd/cli/commands/team.go
@@ -9,7 +9,7 @@ import (
 	"github.com/google/uuid"
 	"github.com/spf13/cobra"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 // NewTeamCommand creates a new team management command
diff --git a/cmd/pllm/commands/user.go b/cmd/cli/commands/user.go
similarity index 99%
rename from cmd/pllm/commands/user.go
rename to cmd/cli/commands/user.go
index 0430b20..f19c493 100644
--- a/cmd/pllm/commands/user.go
+++ b/cmd/cli/commands/user.go
@@ -9,7 +9,7 @@ import (
 	"github.com/google/uuid"
 	"github.com/spf13/cobra"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 // NewUserCommand creates a new user management command
diff --git a/cmd/pllm/main.go b/cmd/cli/main.go
similarity index 96%
rename from cmd/pllm/main.go
rename to cmd/cli/main.go
index 93ab88a..65ffb12 100644
--- a/cmd/pllm/main.go
+++ b/cmd/cli/main.go
@@ -9,8 +9,8 @@ import (
 	"gorm.io/driver/postgres"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/cmd/pllm/commands"
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/cmd/cli/commands"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 var (
diff --git a/cmd/server/main.go b/cmd/server/main.go
index bfbe9a8..d559b59 100644
--- a/cmd/server/main.go
+++ b/cmd/server/main.go
@@ -9,20 +9,20 @@ import (
 	"syscall"
 	"time"
 
-	"github.com/amerfu/pllm/internal/config"
-	"github.com/amerfu/pllm/internal/database"
-	"github.com/amerfu/pllm/internal/logger"
-	"github.com/amerfu/pllm/internal/router"
-	"github.com/amerfu/pllm/internal/services/cache"
-	"github.com/amerfu/pllm/internal/services/models"
-	redisService "github.com/amerfu/pllm/internal/services/redis"
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/core/database"
+	"github.com/amerfu/pllm/pkg/logger"
+	"github.com/amerfu/pllm/internal/api/router"
+	"github.com/amerfu/pllm/internal/services/data/cache"
+	"github.com/amerfu/pllm/internal/services/llm/models"
+	redisService "github.com/amerfu/pllm/internal/services/data/redis"
 	"github.com/amerfu/pllm/internal/services/worker"
 	"github.com/joho/godotenv"
 	"github.com/redis/go-redis/v9"
 	"go.uber.org/zap"
 	"gorm.io/gorm"
 
-	_ "github.com/amerfu/pllm/internal/handlers/swagger"
+	// _ "github.com/amerfu/pllm/internal/api/handlers/swagger" // TODO: Generate swagger docs
 )
 
 // @title pllm - Blazing Fast LLM Gateway
@@ -138,8 +138,38 @@ func main() {
 	// Services are now initialized in the router
 	// All authentication and management functionality is handled by the unified auth service
 
+	// Initialize Redis client early for model manager and worker
+	var redisClient *redis.Client
+	if appMode.RedisAvailable {
+		opt, err := redis.ParseURL(cfg.Redis.URL)
+		if err != nil {
+			log.Warn("Failed to parse Redis URL, continuing without Redis", zap.Error(err))
+			appMode.RedisAvailable = false
+		} else {
+			// Override with explicit password and DB if provided
+			if cfg.Redis.Password != "" {
+				opt.Password = cfg.Redis.Password
+			}
+			if cfg.Redis.DB != 0 {
+				opt.DB = cfg.Redis.DB
+			}
+
+			redisClient = redis.NewClient(opt)
+
+			// Test Redis connection
+			if err := redisClient.Ping(context.Background()).Err(); err != nil {
+				log.Warn("Redis not available, continuing without Redis features", zap.Error(err))
+				redisClient = nil
+				appMode.RedisAvailable = false
+			} else {
+				log.Info("Redis connected successfully")
+			}
+		}
+	}
+
 	// Initialize model manager (always needed)
-	modelManager := models.NewModelManager(log, cfg.Router)
+	// Pass Redis client for distributed latency tracking (nil if Redis not available)
+	modelManager := models.NewModelManager(log, cfg.Router, redisClient)
 	if err := modelManager.LoadModelInstances(cfg.ModelList); err != nil {
 		log.Fatal("Failed to load model instances", zap.Error(err))
 	}
@@ -166,27 +196,10 @@ func main() {
 	var workerCtx context.Context
 	var workerCancel context.CancelFunc
 
-	if !appMode.IsLiteMode && appMode.RedisAvailable && db != nil {
-		// Initialize Redis client for worker
-		opt, err := redis.ParseURL(cfg.Redis.URL)
-		if err != nil {
-			log.Fatal("Failed to parse Redis URL", zap.Error(err))
-		}
-
-		// Override with explicit password and DB if provided
-		if cfg.Redis.Password != "" {
-			opt.Password = cfg.Redis.Password
-		}
-		if cfg.Redis.DB != 0 {
-			opt.DB = cfg.Redis.DB
-		}
-
-		redisClient := redis.NewClient(opt)
-
-		// Test Redis connection for worker
-		if err := redisClient.Ping(context.Background()).Err(); err != nil {
-			log.Warn("Redis not available for background worker", zap.Error(err))
-		} else {
+	if !appMode.IsLiteMode && appMode.RedisAvailable && db != nil && redisClient != nil {
+		// Use the Redis client initialized earlier
+		// Redis connection already verified above
+		{
 			// Initialize Redis services for worker
 			usageQueue := redisService.NewUsageQueue(&redisService.UsageQueueConfig{
 				Client:     redisClient,
diff --git a/cmd/worker/main.go b/cmd/worker/main.go
index bc01963..7af065a 100644
--- a/cmd/worker/main.go
+++ b/cmd/worker/main.go
@@ -14,8 +14,8 @@ import (
 	"gorm.io/driver/postgres"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/config"
-	redisService "github.com/amerfu/pllm/internal/services/redis"
+	"github.com/amerfu/pllm/internal/core/config"
+	redisService "github.com/amerfu/pllm/internal/services/data/redis"
 	"github.com/amerfu/pllm/internal/services/worker"
 )
 
diff --git a/docs/.vitepress/config.mjs b/docs/.vitepress/config.mjs
index 13e7b2d..1396a1a 100644
--- a/docs/.vitepress/config.mjs
+++ b/docs/.vitepress/config.mjs
@@ -16,37 +16,39 @@ export default withMermaid(
       ],
       sidebar: [
         {
-          text: "Getting Started",
+          text: "Introduction",
           items: [
-            { text: "What is pllm?", link: "/" },
-            { text: "Installation & Setup", link: "/guide/getting-started" },
-            { text: "Quick Start Guide", link: "/guide/quickstart" },
+            { text: "What is PLLM?", link: "/" },
+            { text: "Quick Start", link: "/guide/quickstart" },
+            { text: "Installation", link: "/guide/getting-started" },
           ],
         },
         {
-          text: "Core Features",
+          text: "Configuration",
           items: [
-            { text: "System Architecture", link: "/guide/architecture" },
-            { text: "Multi-Provider Support", link: "/providers" },
+            { text: "Configuration Guide", link: "/config" },
+            { text: "Model Routing & Load Balancing", link: "/guide/routing" },
+            { text: "Provider Setup", link: "/providers" },
             { text: "Authentication", link: "/auth" },
-            { text: "Configuration", link: "/config" },
+          ],
+        },
+        {
+          text: "Architecture",
+          items: [
+            { text: "System Overview", link: "/guide/architecture" },
+            { text: "Resilience & Reliability", link: "/guide/resilience" },
           ],
         },
         {
           text: "API Reference",
           items: [
             { text: "OpenAI Compatible API", link: "/api" },
-            { text: "Chat Completions", link: "/api#chat-completions" },
-            { text: "Models", link: "/api#models" },
-            { text: "Health Checks", link: "/api#health-checks" },
           ],
         },
         {
           text: "Deployment",
           items: [
-            { text: "Docker Deployment", link: "/deployment" },
-            { text: "Kubernetes", link: "/deployment#kubernetes" },
-            { text: "Production Setup", link: "/deployment#production" },
+            { text: "Docker & Kubernetes", link: "/deployment" },
           ],
         },
       ],
diff --git a/docs/AUTH_IMPLEMENTATION_PLAN.md b/docs/AUTH_IMPLEMENTATION_PLAN.md
deleted file mode 100644
index 42d513a..0000000
--- a/docs/AUTH_IMPLEMENTATION_PLAN.md
+++ /dev/null
@@ -1,488 +0,0 @@
-# pLLM Authentication & User Management Implementation Plan
-
-## Executive Summary
-
-This document provides a comprehensive analysis and implementation plan for enhancing pLLM's authentication and user management system, comparing it with LiteLLM's approach and incorporating best practices from both systems while leveraging Dex OAuth2 for enterprise-grade authentication.
-
-## Table of Contents
-
-1. [Current State Analysis](#current-state-analysis)
-2. [LiteLLM Comparison](#litellm-comparison)
-3. [Implementation Gaps](#implementation-gaps)
-4. [Proposed Architecture](#proposed-architecture)
-5. [Implementation Roadmap](#implementation-roadmap)
-6. [Configuration Examples](#configuration-examples)
-7. [Success Metrics](#success-metrics)
-
-## Current State Analysis
-
-### pLLM Current Implementation
-
-#### Backend (Go)
-- **User Model**: Comprehensive with roles (admin, manager, user, viewer), budget control, rate limiting
-- **Team Model**: Hierarchical structure with member roles and shared resources
-- **API Keys**: Hash-based security with scopes and usage tracking
-- **Virtual Keys**: Flexible ownership model (user or team) with granular controls
-- **Authentication**: Dex OAuth2 integration with PKCE support
-- **Database**: PostgreSQL via GORM ORM
-
-#### Frontend (React)
-- **Dual Auth Contexts**: Basic AuthContext and OIDCAuthContext
-- **PKCE Implementation**: Secure OAuth2 flow
-- **Session Management**: Token storage with silent renewal
-
-### LiteLLM Implementation
-
-- **Master Key Concept**: Bootstrap admin access via config
-- **Virtual Keys**: Standardized `sk-` prefix format
-- **Auto-provisioning**: Optional user creation on first login
-- **CLI Tools**: Comprehensive management commands
-- **Spend Tracking**: Detailed analytics at key/user/team levels
-- **Budget Alerts**: Configurable threshold notifications
-
-## LiteLLM Comparison
-
-| Feature | pLLM (Current) | LiteLLM | Recommended Approach |
-|---------|----------------|---------|---------------------|
-| **Authentication** | Dex OAuth2 + API Keys | Master Key + Virtual Keys | Hybrid: Dex + Master Key + Virtual Keys |
-| **User Management** | Manual creation | Auto-provisioning optional | Auto-provision from Dex with role mapping |
-| **Team Structure** | Hierarchical with roles | Basic teams | Enhanced hierarchical with inheritance |
-| **Key Types** | API Keys + Virtual Keys | Virtual Keys only | Unified key system with types |
-| **Budget Control** | User/Team/Key levels | Similar | Enhanced with cascade and alerts |
-| **CLI Tools** | None | Comprehensive | Add CLI for all operations |
-| **Spend Tracking** | Basic | Detailed | Enhanced analytics and reporting |
-| **UI Auth** | Full OIDC | Basic auth | Keep OIDC with master key fallback |
-
-## Implementation Gaps
-
-### Critical Priority
-1. **Master Admin Key System**
-   - No bootstrap admin access without Dex
-   - Solution: Config-based master key for initial setup
-
-2. **User Auto-provisioning**
-   - Manual user creation after OAuth login
-   - Solution: Automatic user creation with Dex claims mapping
-
-### High Priority
-3. **Spend Tracking & Analytics**
-   - Basic usage tracking without detailed reporting
-   - Solution: Enhanced analytics with cost breakdowns
-
-4. **CLI Management Tools**
-   - No command-line administration
-   - Solution: Cobra-based CLI for all operations
-
-5. **Budget Alert System**
-   - No proactive notifications
-   - Solution: Webhook/email alerts at thresholds
-
-## Proposed Architecture
-
-### Authentication Layers
-
-```mermaid
-graph TD
-    A[Master Key] --> B[System Admin]
-    C[Dex OAuth2] --> D[User Authentication]
-    D --> E[Auto-provisioning]
-    E --> F[Team Assignment]
-    G[API Keys] --> H[Programmatic Access]
-    I[Virtual Keys] --> J[Scoped Access]
-```
-
-### User Journey Flow
-
-#### Initial Setup
-```
-1. Deploy with master key in config
-2. Master key creates default admin
-3. Admin configures Dex integration
-4. Users login via Dex
-5. Auto-provisioning creates user records
-6. Admin assigns users to teams
-7. Users generate API keys for programmatic access
-```
-
-#### Operational Flow
-```
-Dex Login → User Creation → Team Assignment → Budget Allocation → Key Generation → API Usage → Usage Tracking → Budget Alerts
-```
-
-### Permission Hierarchy
-
-1. **System Admin** (Master Key)
-   - Full system control
-   - User/team management
-   - Configuration changes
-
-2. **Organization Admin** (Dex admin group)
-   - User management
-   - Team creation
-   - Budget allocation
-
-3. **Team Owner**
-   - Team member management
-   - Team key generation
-   - Team budget control
-
-4. **Team Member**
-   - Personal key generation
-   - API usage
-   - View team resources
-
-5. **Guest** (Virtual Key)
-   - Limited, scoped access
-   - Temporary usage
-   - Specific model access
-
-## Implementation Roadmap
-
-### Phase 1: Foundation (Weeks 1-2)
-
-#### 1.1 Master Key System
-
-```go
-// config/config.go
-type GeneralSettings struct {
-    MasterKey         string `yaml:"master_key" env:"PLLM_MASTER_KEY"`
-    DefaultAdminEmail string `yaml:"default_admin_email"`
-    EnableAutoUsers   bool   `yaml:"enable_auto_user_creation"`
-}
-```
-
-#### 1.2 Database Schema Updates
-
-```sql
--- Users table additions
-ALTER TABLE users ADD COLUMN 
-    created_via VARCHAR(20) DEFAULT 'manual',
-    dex_subject VARCHAR(255),
-    last_sync_at TIMESTAMP;
-
--- Master keys table
-CREATE TABLE master_keys (
-    id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
-    key_hash VARCHAR(255) UNIQUE NOT NULL,
-    created_at TIMESTAMP DEFAULT NOW(),
-    last_used_at TIMESTAMP,
-    is_active BOOLEAN DEFAULT true
-);
-
--- Audit logs table
-CREATE TABLE audit_logs (
-    id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
-    user_id UUID REFERENCES users(id),
-    action VARCHAR(100) NOT NULL,
-    resource_type VARCHAR(50),
-    resource_id UUID,
-    metadata JSONB,
-    created_at TIMESTAMP DEFAULT NOW()
-);
-```
-
-### Phase 2: Dex Integration Enhancement (Weeks 2-3)
-
-#### 2.1 Auto User Provisioning
-
-```go
-// auth/dex_handler.go
-func HandleDexCallback(claims *AuthClaims) (*User, error) {
-    user := FindUserByEmail(claims.Email)
-    
-    if user == nil && config.EnableAutoUserCreation {
-        user = &User{
-            Email:      claims.Email,
-            Username:   claims.PreferredUsername,
-            Role:       DetermineRoleFromGroups(claims.Groups),
-            CreatedVia: "dex",
-            DexSubject: claims.Subject,
-        }
-        CreateUser(user)
-        AssignToTeamsFromGroups(user, claims.Groups)
-    }
-    
-    return user, nil
-}
-```
-
-#### 2.2 Group Mapping Configuration
-
-```yaml
-# config.yaml
-dex_mapping:
-  group_to_team:
-    "engineering": "Engineering Team"
-    "sales": "Sales Team"
-  group_to_role:
-    "admin": "admin"
-    "developer": "user"
-  auto_create_teams: true
-```
-
-### Phase 3: Unified Key Management (Weeks 3-4)
-
-#### 3.1 Key Type System
-
-```go
-type KeyType string
-
-const (
-    KeyTypeMaster  KeyType = "master"
-    KeyTypeAdmin   KeyType = "admin"
-    KeyTypeTeam    KeyType = "team"
-    KeyTypeUser    KeyType = "user"
-    KeyTypeVirtual KeyType = "virtual"
-)
-
-type UnifiedKey struct {
-    BaseModel
-    Key       string    `gorm:"uniqueIndex"`
-    KeyType   KeyType
-    Name      string
-    OwnerID   *uuid.UUID
-    OwnerType string
-    
-    // Permissions
-    Scopes         []string
-    CanManageUsers bool
-    CanManageTeams bool
-    
-    // Limits
-    MaxBudget *float64
-    TPM       *int
-    RPM       *int
-    
-    // Tracking
-    CurrentSpend float64
-    LastUsedAt   *time.Time
-    ExpiresAt    *time.Time
-}
-```
-
-### Phase 4: Budget & Analytics (Weeks 4-5)
-
-#### 4.1 Usage Tracking Service
-
-```go
-type UsageTracker struct {
-    db *gorm.DB
-}
-
-func (ut *UsageTracker) TrackUsage(req UsageRequest) {
-    ut.trackKeyUsage(req)
-    ut.trackUserUsage(req)
-    ut.trackTeamUsage(req)
-    ut.trackModelUsage(req)
-    ut.checkBudgetLimits(req)
-    ut.sendBudgetAlerts(req)
-}
-```
-
-#### 4.2 Alert System
-
-```go
-type BudgetAlertService struct {
-    webhookClient *WebhookClient
-    emailClient   *EmailClient
-}
-
-func (bas *BudgetAlertService) CheckAndAlert(entity BudgetEntity) {
-    percentage := (entity.CurrentSpend / entity.MaxBudget) * 100
-    
-    for _, threshold := range []float64{50, 75, 90, 100} {
-        if percentage >= threshold && !entity.AlertedAt(threshold) {
-            bas.SendAlert(entity, threshold)
-            entity.MarkAlerted(threshold)
-        }
-    }
-}
-```
-
-### Phase 5: Frontend Enhancement (Weeks 5-6)
-
-#### 5.1 Admin Dashboard
-
-```tsx
-export function AdminDashboard() {
-    return (
-        <>
-            <UserManagement />
-            <TeamManagement />
-            <KeyManagement />
-            <UsageAnalytics />
-            <BudgetMonitoring />
-        </>
-    );
-}
-```
-
-#### 5.2 Self-Service Portal
-
-```tsx
-export function UserPortal() {
-    return (
-        <>
-            <MyKeys />
-            <UsageStats />
-            <TeamMemberships />
-            <BudgetStatus />
-        </>
-    );
-}
-```
-
-### Phase 6: CLI Tools (Week 6)
-
-```bash
-# User management
-pllm user create --email user@example.com --role admin
-pllm user list --team engineering
-pllm user assign-team --user-id xxx --team-id yyy
-
-# Key management
-pllm key generate --type team --team-id xxx
-pllm key revoke --key-id xxx
-pllm key list --user-id xxx
-
-# Team management
-pllm team create --name "Engineering"
-pllm team set-budget --team-id xxx --amount 1000
-```
-
-## Configuration Examples
-
-### Complete Configuration
-
-```yaml
-general_settings:
-  master_key: "${PLLM_MASTER_KEY:pllm_sk_master_}"
-  database_url: "postgresql://user:pass@localhost/pllm"
-  enable_auto_user_creation: true
-  default_admin_email: "admin@example.com"
-
-auth:
-  dex:
-    enabled: true
-    issuer: "http://dex:5556/dex"
-    client_id: "pllm"
-    client_secret: "${DEX_CLIENT_SECRET}"
-    redirect_url: "http://localhost:8080/callback"
-    auto_create_users: true
-    default_role: "user"
-    admin_groups: ["admin", "platform-admin"]
-
-dex_mapping:
-  group_to_team:
-    "engineering": "Engineering Team"
-    "sales": "Sales Team"
-    "support": "Support Team"
-  group_to_role:
-    "admin": "admin"
-    "manager": "manager"
-    "developer": "user"
-    "viewer": "viewer"
-  auto_create_teams: true
-
-budget:
-  enable_alerts: true
-  alert_webhook: "${BUDGET_ALERT_WEBHOOK}"
-  alert_email: "budget-alerts@example.com"
-  alert_thresholds: [50, 75, 90, 100]
-  
-rate_limits:
-  default_tpm: 100000
-  default_rpm: 100
-  default_parallel: 10
-  
-models:
-  default_allowed: ["gpt-4", "gpt-3.5-turbo", "claude-3"]
-  default_blocked: []
-```
-
-### Docker Compose Integration
-
-```yaml
-version: '3.8'
-services:
-  pllm:
-    image: pllm:latest
-    environment:
-      PLLM_MASTER_KEY: ${PLLM_MASTER_KEY}
-      DEX_CLIENT_SECRET: ${DEX_CLIENT_SECRET}
-      DATABASE_URL: postgresql://pllm:password@postgres/pllm
-    depends_on:
-      - postgres
-      - dex
-  
-  dex:
-    image: dexidp/dex:latest
-    volumes:
-      - ./dex-config.yaml:/etc/dex/config.yaml
-    ports:
-      - "5556:5556"
-  
-  postgres:
-    image: postgres:15
-    environment:
-      POSTGRES_DB: pllm
-      POSTGRES_USER: pllm
-      POSTGRES_PASSWORD: password
-    volumes:
-      - postgres_data:/var/lib/postgresql/data
-
-volumes:
-  postgres_data:
-```
-
-## Success Metrics
-
-### Technical Metrics
-- **Authentication Latency**: < 100ms
-- **Key Generation Time**: < 50ms
-- **Budget Check Overhead**: < 10ms
-- **System Uptime**: 99.9%
-
-### Business Metrics
-- **User Provisioning Time**: < 1 minute (from first login)
-- **Budget Visibility**: 100% of usage tracked
-- **Support Tickets**: 50% reduction in auth-related issues
-- **Admin Efficiency**: 75% reduction in manual operations
-
-### Security Metrics
-- **Authentication Coverage**: 100% of API calls
-- **Audit Trail**: Complete for all admin actions
-- **Key Rotation**: Monthly for high-privilege keys
-- **Vulnerability Response**: < 24 hours for critical issues
-
-## Risk Mitigation
-
-### Migration Strategy
-1. **Backward Compatibility**: All changes maintain existing API contracts
-2. **Staged Rollout**: Feature flags for gradual enablement
-3. **Rollback Plan**: Database migrations reversible
-4. **Testing**: Comprehensive test coverage before production
-
-### Security Considerations
-1. **Key Storage**: All keys hashed with bcrypt
-2. **Audit Logging**: Every administrative action logged
-3. **Rate Limiting**: Prevent abuse at multiple levels
-4. **Budget Controls**: Hard limits with automatic enforcement
-
-### Performance Optimization
-1. **Caching**: Redis for session and rate limit data
-2. **Database Indexes**: Optimized for common queries
-3. **Connection Pooling**: Efficient database connections
-4. **Async Processing**: Background jobs for analytics
-
-## Conclusion
-
-This implementation plan provides a comprehensive roadmap for enhancing pLLM's authentication and user management system. By combining the best features from LiteLLM with pLLM's superior Dex integration, we create an enterprise-ready solution that offers:
-
-- **Seamless User Experience**: Auto-provisioning with SSO
-- **Flexible Access Control**: Multiple key types with granular permissions
-- **Comprehensive Monitoring**: Detailed usage tracking and alerts
-- **Operational Excellence**: CLI tools and admin dashboard
-- **Enterprise Security**: Multi-layer authentication with audit trails
-
-The phased approach ensures minimal disruption while progressively adding value, with clear success metrics to measure progress and impact.
\ No newline at end of file
diff --git a/docs/auth.md b/docs/auth.md
index f061e0e..a985601 100644
--- a/docs/auth.md
+++ b/docs/auth.md
@@ -238,6 +238,4 @@ For production deployments:
 4. **Set proper CORS origins**
 5. **Enable audit logging**
 6. **Use PostgreSQL with SSL**
-7. **Secure Redis connection**
-
-For detailed implementation, see [AUTH_IMPLEMENTATION_PLAN.md](AUTH_IMPLEMENTATION_PLAN.md).
\ No newline at end of file
+7. **Secure Redis connection**
\ No newline at end of file
diff --git a/docs/config.md b/docs/config.md
index ab7ed91..32fabf4 100644
--- a/docs/config.md
+++ b/docs/config.md
@@ -97,27 +97,34 @@ model_aliases:
 
 ### Router Configuration
 
-Control request routing and failover:
+Control request routing, load balancing, and failover:
 
 ```yaml
 router:
-  routing_strategy: "latency-based"    # priority, round-robin, latency-based
-  circuit_breaker_enabled: true       # Enable circuit breaker
-  max_retries: 3                      # Retry attempts
-  default_timeout: 60s                # Request timeout
-  health_check_interval: 30s          # Provider health checks
+  # Routing strategy (see Routing Guide for details)
+  routing_strategy: "least-latency"  # priority | least-latency | weighted-round-robin | random
 
-  # Model fallbacks (when primary model fails)
-  fallbacks:
-    my-gpt-4: ["my-gpt-35-turbo", "azure-gpt-4"]
-    my-gpt-35-turbo: ["my-gpt-35-turbo-16k"]
+  # Failover settings
+  fallback_enabled: true
+  circuit_breaker_enabled: true
+  circuit_breaker_threshold: 3       # Failures before opening circuit
+  circuit_breaker_cooldown: 30s      # Cooldown before retry
+
+  # Request settings
+  retry_attempts: 2
+  timeout: 30s
+  health_check_interval: 30s
 
-  # Context window fallbacks (when request is too large)
-  context_window_fallbacks:
-    my-gpt-35-turbo: ["my-gpt-35-turbo-16k"]
-    my-gpt-4: ["my-gpt-4-32k"]
+  # Fallback chains (model -> list of fallbacks)
+  fallbacks:
+    gpt-4-openai: ["gpt-4-azure", "gpt-4-openrouter"]
+    claude-3-opus: ["claude-3-sonnet"]
 ```
 
+::: tip
+For production multi-instance deployments, use `routing_strategy: "least-latency"` with Redis to share performance metrics across pods. See [Routing Guide](/guide/routing) for details.
+:::
+
 ## Authentication Configuration
 
 ### JWT Settings
diff --git a/docs/guide/resilience.md b/docs/guide/resilience.md
new file mode 100644
index 0000000..b19d9b1
--- /dev/null
+++ b/docs/guide/resilience.md
@@ -0,0 +1,557 @@
+# Resilience & Reliability
+
+PLLM implements a comprehensive resilience strategy combining **automatic failover**, **health tracking**, **load balancing**, and **distributed latency tracking** to ensure banking-grade reliability for LLM operations.
+
+## Architecture Overview
+
+```mermaid
+graph TB
+    Request[Incoming Request] --> Handler[API Handler]
+    Handler --> Failover[Failover Manager]
+    Failover --> InstanceRetry[Instance-Level Retry]
+    InstanceRetry --> Health{Health Check}
+    Health -->|Healthy| LB[Load Balancer]
+    Health -->|Unhealthy| NextInstance[Try Next Instance]
+
+    LB --> ReadLatency[Read Distributed Latency<br/>Redis ZSET]
+    LB --> SelectInstance[Select Best Instance]
+    SelectInstance --> Provider[Provider Call]
+
+    Provider -->|Success| RecordSuccess[Record Success]
+    Provider -->|Failure| RecordFailure[Record Failure]
+    RecordFailure --> NextInstance
+
+    NextInstance -->|All Instances Failed| ModelFallback[Model-Level Fallback]
+    ModelFallback --> FallbackModel[Try Fallback Model]
+
+    RecordSuccess --> RecordLatency[Record to Redis ZSET]
+    RecordLatency --> UpdateEMA[Update Cached EMA]
+    UpdateEMA --> Analytics[Background: Usage Analytics]
+```
+
+## Failover System
+
+PLLM's failover system provides **transparent recovery** from failures, ensuring end users receive responses even when individual instances or models fail.
+
+### Two-Level Failover
+
+**1. Instance-Level Retry**
+- Automatically retry requests across multiple instances of the same model
+- Intelligent routing selects best available instance
+- Failed instances are temporarily skipped
+- Configurable retry attempts per instance
+
+**2. Model-Level Fallback**
+- Fall back to different models when all instances fail
+- Configurable fallback chains (e.g., GPT-4 → GPT-4-Turbo → GPT-3.5)
+- Maintains API compatibility across models
+- User-transparent switching
+
+### Configuration
+
+```yaml
+router:
+  # Enable automatic failover
+  enable_failover: true
+
+  # Number of retry attempts per instance (default: 2)
+  instance_retry_attempts: 3
+
+  # Enable model-level fallback
+  enable_model_fallback: true
+
+  # Timeout multiplier for failover attempts (default: 1.5)
+  failover_timeout_multiple: 1.5
+
+  # Model fallback configuration
+  model_fallbacks:
+    gpt-4: gpt-4-turbo
+    gpt-4-turbo: gpt-3.5-turbo
+    claude-3-opus: claude-3-sonnet
+```
+
+### Failover Behavior
+
+**Scenario 1: Instance Failure**
+```
+User requests gpt-4
+  ↓
+Instance 1 (gpt-4) → FAILS (timeout)
+  ↓
+Instance 2 (gpt-4) → FAILS (connection error)
+  ↓
+Instance 3 (gpt-4) → SUCCESS ✓
+  ↓
+User receives response (slower, but no error)
+```
+
+**Scenario 2: Model Failure + Fallback**
+```
+User requests gpt-4
+  ↓
+Instance 1 (gpt-4) → FAILS
+Instance 2 (gpt-4) → FAILS
+Instance 3 (gpt-4) → FAILS
+  ↓ All instances failed
+Fallback to gpt-4-turbo
+  ↓
+Instance 1 (gpt-4-turbo) → SUCCESS ✓
+  ↓
+User receives response (from fallback model)
+```
+
+### End-User Experience
+
+With failover enabled:
+- ✅ **No errors** when individual instances fail
+- ✅ **Automatic recovery** across instances and models
+- ✅ **Slower response** (due to retries) but **successful completion**
+- ✅ **Transparent** - users don't know which instance/model was used
+
+## Health Tracking
+
+PLLM tracks the health of each model instance to make intelligent routing decisions.
+
+### Health Status
+
+Each instance maintains:
+- **Healthy flag**: true/false
+- **Failure count**: consecutive failures
+- **Last error**: most recent error
+- **Last success**: timestamp of last successful request
+
+### Health Degradation
+
+```go
+// After 3 consecutive failures, instance marked unhealthy
+if failureCount >= 3 {
+    instance.Healthy = false
+    logger.Warn("Instance marked as unhealthy")
+}
+```
+
+### Health Recovery
+
+```go
+// On first success, instance marked healthy again
+instance.Healthy = true
+instance.FailureCount = 0
+```
+
+### Impact on Routing
+
+- **Healthy instances**: Eligible for routing
+- **Unhealthy instances**: Filtered out, not considered for requests
+- **Auto-recovery**: Unhealthy instances automatically recover on first success
+
+## Latency Tracking Architecture
+
+PLLM uses **Redis-based distributed latency tracking** to share performance metrics across multiple instances/pods.
+
+### Architecture
+
+```
+Pod 1 (Request 1: 10s latency)
+  ↓
+  RecordLatency() → Redis ZSET "pllm:latency:gpt-4"
+                     ↓
+Pod 2 (Request 2: needs routing decision)
+  ↓
+  GetAverageLatency() ← Redis ZSET "pllm:latency:gpt-4"
+  ↓
+  Sees 10s latency from Pod 1
+  ↓
+  Routes to faster instance
+```
+
+### Implementation
+
+**Storage**: Redis Sorted Set (ZSET)
+- **Key**: `pllm:latency:{model_name}` (e.g., `pllm:latency:gpt-4`)
+- **Score**: Timestamp (for expiry/windowing)
+- **Member**: `{latency_ms}:{unique_nanos}` (e.g., `10000:1733419200123456789`)
+- **Window**: 5 minutes (configurable)
+- **Max Samples**: 1000 per model (configurable)
+
+**On Each Request:**
+```go
+// 1. Handler measures latency
+startTime := time.Now()
+response, err := provider.Call(ctx, request)
+latency := time.Since(startTime)
+
+// 2. Record to distributed tracker (async, 100ms timeout)
+modelManager.RecordRequestEnd("gpt-4", latency, success, err)
+  ↓
+  latencyTracker.RecordLatency(ctx, "gpt-4", latency)
+    ↓
+    redis.ZAdd("pllm:latency:gpt-4", {
+      Score: timestamp,
+      Member: "10000:1733419200123456789"
+    })
+```
+
+**On Route Selection:**
+```go
+// Routing strategy uses distributed latency
+instance, err := modelManager.GetBestInstance(ctx, "gpt-4")
+  ↓
+  routingStrategy.SelectInstance(instances)
+    ↓
+    latencyTracker.GetAverageLatency(ctx, "gpt-4")
+      ↓
+      redis.Get("pllm:latency:avg:gpt-4")  // EMA cached value
+```
+
+### Statistics Available
+
+```go
+stats, _ := latencyTracker.GetLatencyStats(ctx, "gpt-4")
+
+// Returns:
+// - Average: Exponential Moving Average
+// - Min/Max: Across window
+// - P50/P95/P99: Percentiles
+// - SampleCount: Number of samples in window
+// - HealthScore: 0-100 based on P95 latency
+```
+
+### Multi-Instance Benefits
+
+**Before (In-Memory Only):**
+- ❌ Pod 1: Request takes 10s → stored in Pod 1's memory
+- ❌ Pod 2: No knowledge of Pod 1's latency
+- ❌ Pod 2: Routes to same slow instance
+- ❌ Lost latency data on pod restart
+
+**After (Redis-Distributed):**
+- ✅ Pod 1: Request takes 10s → stored in Redis
+- ✅ Pod 2: Reads latency from Redis (sees 10s)
+- ✅ Pod 2: Routes to faster instance
+- ✅ Latency data persists across restarts
+- ✅ Consistent routing across all pods
+
+## Routing Strategies
+
+PLLM supports multiple routing strategies to select the best instance for each request.
+
+### Available Strategies
+
+**1. Priority-Based** (`priority`)
+- Routes to highest priority instance first
+- Static configuration
+- Simple and predictable
+
+**2. Latency-Based** (`latency-based`)
+- Routes to instance with lowest average latency
+- Uses distributed Redis latency tracking
+- Adaptive to real-time performance
+
+**3. Weighted Round-Robin** (`weighted`)
+- Distributes load based on instance weights
+- Balanced distribution
+- Good for equal-capacity instances
+
+**4. Least-Busy** (`least-busy`)
+- Routes to instance with fewest active requests
+- Load-aware routing
+- Prevents overloading single instance
+
+### Configuration
+
+```yaml
+router:
+  routing_strategy: "latency-based"  # or priority, weighted, least-busy
+
+  # Latency tracker settings (optional)
+  latency_tracker:
+    window_size: 5m      # Time window for samples
+    max_samples: 1000    # Max samples per model
+    update_period: 10s   # How often to update aggregates
+```
+
+## Complete Flow Example
+
+**Scenario:** Request to GPT-4 with full failover enabled
+
+```go
+// User makes request
+POST /v1/chat/completions
+{
+  "model": "gpt-4",
+  "messages": [...]
+}
+
+// Handler flow:
+1. ExecuteWithFailover(ctx, "gpt-4", executeFunc)
+   ↓
+2. Get all instances of "gpt-4"
+   ↓
+3. Filter healthy instances (3 available)
+   ↓
+4. Try Instance 1 (priority: 100)
+   ↓ FAILS (timeout)
+   RecordFailure() → failureCount++
+   Remove from healthy list
+   ↓
+5. Try Instance 2 (priority: 90)
+   ↓ FAILS (connection error)
+   RecordFailure() → failureCount++
+   Remove from healthy list
+   ↓
+6. Try Instance 3 (priority: 80)
+   ↓ SUCCESS ✓
+   RecordSuccess() → healthy=true, failureCount=0
+   RecordLatency() → Redis
+   ↓
+7. Return response to user
+   Total attempts: 3
+   Failovers: ["instance:1(timeout)", "instance:2(connection error)"]
+   User sees: Success (slower, but transparent)
+```
+
+## Configuration
+
+### YAML Configuration
+
+```yaml
+router:
+  # Routing strategy
+  routing_strategy: "latency-based"
+
+  # Failover configuration
+  enable_failover: true
+  instance_retry_attempts: 3
+  enable_model_fallback: true
+  failover_timeout_multiple: 1.5
+
+  # Model fallback chains
+  model_fallbacks:
+    gpt-4: gpt-4-turbo
+    gpt-4-turbo: gpt-3.5-turbo
+    claude-3-opus: claude-3-sonnet
+
+# Redis connection (required for distributed latency)
+redis:
+  host: redis
+  port: 6379
+
+models:
+  - name: gpt-4
+    provider: openai
+    priority: 100
+    timeout: 30s
+    enabled: true
+
+  - name: gpt-4
+    provider: openai
+    priority: 90
+    timeout: 30s
+    enabled: true
+
+  - name: gpt-4-turbo
+    provider: openai
+    priority: 100
+    timeout: 30s
+    enabled: true
+```
+
+### Environment Variables
+
+```bash
+# Redis connection
+PLLM_REDIS_HOST=redis
+PLLM_REDIS_PORT=6379
+
+# Failover settings
+PLLM_ENABLE_FAILOVER=true
+PLLM_INSTANCE_RETRY_ATTEMPTS=3
+PLLM_ENABLE_MODEL_FALLBACK=true
+PLLM_FAILOVER_TIMEOUT_MULTIPLE=1.5
+
+# Routing strategy
+PLLM_ROUTING_STRATEGY=latency-based
+```
+
+## Monitoring & Metrics
+
+### Health Status Endpoint
+
+```bash
+curl http://localhost:8080/api/admin/models/stats
+
+{
+  "health": [
+    {
+      "instance_id": "gpt-4-instance-1",
+      "is_healthy": true,
+      "failure_count": 0,
+      "last_success": "2025-01-15T10:30:00Z"
+    },
+    {
+      "instance_id": "gpt-4-instance-2",
+      "is_healthy": false,
+      "failure_count": 3,
+      "last_error": "connection timeout",
+      "last_success": "2025-01-15T10:25:00Z"
+    }
+  ],
+  "metrics": {
+    "total_requests": 1523,
+    "total_tokens": 245000,
+    "active_models": 5
+  }
+}
+```
+
+### Latency Metrics
+
+```bash
+curl http://localhost:8080/api/admin/latency/gpt-4
+
+{
+  "model": "gpt-4",
+  "average_latency_ms": 450,
+  "min_latency_ms": 120,
+  "max_latency_ms": 2300,
+  "p50_ms": 420,
+  "p95_ms": 850,
+  "p99_ms": 1500,
+  "sample_count": 543,
+  "health_score": 95
+}
+```
+
+### Alerting Thresholds
+
+| Metric | Warning | Critical |
+|--------|---------|----------|
+| Instance Health | 1 unhealthy | All unhealthy |
+| Health Score | < 70 | < 50 |
+| Failure Rate | > 5% | > 10% |
+| P95 Latency | > 2s | > 5s |
+| Failover Rate | > 10% | > 25% |
+
+## Best Practices
+
+### 1. Failover Configuration
+- ✅ Enable failover for production environments
+- ✅ Set `instance_retry_attempts` to 2-3 (balances speed vs reliability)
+- ✅ Configure fallback chains with similar capabilities
+- ✅ Order fallbacks by: latency → cost → capability
+- ❌ Don't create circular fallback chains
+- ❌ Don't set retry attempts > 5 (too slow)
+
+### 2. Model Instance Setup
+- ✅ Deploy 2-3 instances per model for redundancy
+- ✅ Use different priorities to prefer certain instances
+- ✅ Set appropriate timeouts per model (longer for complex tasks)
+- ✅ Enable instances across different availability zones
+- ❌ Don't rely on single instance for critical models
+
+### 3. Fallback Chains
+- ✅ Limit to 3-4 models max (avoid long chains)
+- ✅ Include models from different providers (provider diversity)
+- ✅ Test failover chains regularly
+- ✅ Match capabilities (don't fall back from vision to text-only)
+- ❌ Don't create fallback loops
+
+### 4. Latency Tracking
+- ✅ Use Redis for distributed deployments (multi-pod)
+- ✅ Adjust `window_size` based on traffic (5m default)
+- ✅ Monitor latency trends in dashboards
+- ❌ Don't use latency-based routing without Redis in multi-pod setup
+
+## Performance Benchmarks
+
+Based on `internal/services/llm/models/failover_test.go` results:
+
+| Scenario | Success Rate | Attempts | Notes |
+|----------|--------------|----------|-------|
+| Normal operation | 100% | 1 | No failures |
+| Single instance failure | 100% | 2 | Automatic retry to next instance |
+| Two instances fail | 100% | 3 | Succeeds on third instance |
+| All instances fail + fallback | 100% | 4+ | Falls back to different model |
+| Failover disabled | Varies | 1 | No retry, fails immediately |
+
+**Characteristics:**
+- ✅ P95 latency: <100ms (normal operation)
+- ✅ P95 latency: <500ms (with 1-2 failovers)
+- ✅ 100% success rate with proper fallback configuration
+- ✅ Automatic recovery within seconds
+- ✅ Zero data loss during failover
+- ✅ User-transparent recovery
+
+## Troubleshooting
+
+### All Instances Unhealthy
+
+**Symptoms:** All requests failing with "no healthy instances" error
+
+**Diagnosis:**
+1. Check instance health status: `GET /api/admin/models/stats`
+2. Review logs for failure patterns
+3. Verify provider API connectivity
+
+**Solutions:**
+- Wait for auto-recovery (happens on first success)
+- Check provider API status/credentials
+- Verify network connectivity to providers
+- Review rate limits
+
+### High Failover Rate
+
+**Symptoms:** Most requests requiring multiple attempts
+
+**Diagnosis:**
+1. Check latency metrics per instance
+2. Review error patterns in logs
+3. Monitor provider status pages
+
+**Solutions:**
+- Increase timeouts for slow models
+- Add more instances for redundancy
+- Adjust health thresholds
+- Switch to more reliable provider
+
+### Failover Not Working
+
+**Symptoms:** Requests failing despite multiple instances
+
+**Diagnosis:**
+1. Verify `enable_failover: true` in config
+2. Check instance configurations
+3. Review failover settings
+
+**Solutions:**
+```yaml
+# Ensure failover is enabled
+router:
+  enable_failover: true
+  instance_retry_attempts: 3  # Must be > 1
+
+# Check instances are enabled
+models:
+  - name: gpt-4
+    enabled: true  # Must be true
+```
+
+## Testing
+
+Run failover tests:
+
+```bash
+# Full failover test suite
+go test ./internal/services/llm/models -run Failover -v
+
+# Specific scenarios
+go test ./internal/services/llm/models -run TestInstanceLevelFailover -v
+go test ./internal/services/llm/models -run TestModelLevelFallback -v
+go test ./internal/services/llm/models -run TestTransparentFailover -v
+```
+
+## References
+
+- [Failover Pattern - Microsoft Azure](https://docs.microsoft.com/en-us/azure/architecture/patterns/health-endpoint-monitoring)
+- [Health Check Pattern](https://microservices.io/patterns/observability/health-check-api.html)
+- [Load Balancing Algorithms](https://www.nginx.com/blog/choosing-nginx-plus-load-balancing-techniques/)
diff --git a/docs/guide/routing.md b/docs/guide/routing.md
new file mode 100644
index 0000000..e022b82
--- /dev/null
+++ b/docs/guide/routing.md
@@ -0,0 +1,403 @@
+# Model Routing & Load Balancing
+
+PLLM provides intelligent routing to distribute requests across multiple model instances based on latency, priority, or round-robin strategies.
+
+## How Routing Works
+
+When a request comes in:
+1. **Filter instances**: Get all instances for the requested model
+2. **Filter healthy**: Remove instances with circuit breakers open
+3. **Apply strategy**: Select best instance based on configured strategy
+4. **Return instance**: Route request to selected provider
+
+The routing strategy is configured via `router.routing_strategy` in your config.
+
+## Routing Strategies
+
+PLLM supports four routing strategies (implemented in `selectInstanceByStrategy`):
+
+### 1. Priority-Based (Default)
+
+Routes to the highest priority instance (lowest priority number).
+
+```yaml
+router:
+  routing_strategy: "priority"
+
+model_list:
+  - model_name: gpt-4-openai
+    params:
+      model: gpt-4
+      api_key: ${OPENAI_API_KEY}
+    priority: 1  # Try first
+
+  - model_name: gpt-4-azure
+    params:
+      model: azure/gpt4-deployment
+      api_base: https://endpoint.openai.azure.com/
+      api_key: ${AZURE_API_KEY}
+    priority: 2  # Fallback
+```
+
+**Use case:** Simple failover, predictable routing
+
+### 2. Least-Latency (Recommended for Production)
+
+Routes to the instance with the lowest average latency using distributed Redis tracking.
+
+```yaml
+router:
+  routing_strategy: "least-latency"
+
+redis:
+  url: redis://localhost:6379  # Required for distributed latency
+
+model_list:
+  - model_name: gpt-4-openai
+    params:
+      model: gpt-4
+      api_key: ${OPENAI_API_KEY}
+
+  - model_name: gpt-4-azure
+    params:
+      model: azure/gpt4-deployment
+      api_base: https://endpoint.openai.azure.com/
+      api_key: ${AZURE_API_KEY}
+```
+
+**How it works:**
+1. Every request records latency to Redis (`pllm:latency:{model_name}`)
+2. Router queries distributed latency for each instance
+3. Selects instance with lowest average latency
+4. All pods share latency data via Redis
+
+**Use case:** Multi-instance deployments, performance optimization
+
+### 3. Weighted Round-Robin
+
+Distributes requests based on configured weights.
+
+```yaml
+router:
+  routing_strategy: "weighted-round-robin"
+
+model_list:
+  - model_name: gpt-4-openai
+    params:
+      model: gpt-4
+      api_key: ${OPENAI_API_KEY}
+    weight: 70  # 70% of traffic
+
+  - model_name: gpt-4-azure
+    params:
+      model: azure/gpt4-deployment
+      api_base: https://endpoint.openai.azure.com/
+      api_key: ${AZURE_API_KEY}
+    weight: 30  # 30% of traffic
+```
+
+**Use case:** Controlled load distribution, cost optimization
+
+### 4. Random
+
+Randomly selects an available instance.
+
+```yaml
+router:
+  routing_strategy: "random"
+```
+
+**Use case:** Simple load distribution without state
+
+## Distributed Latency Tracking
+
+For multi-instance (Kubernetes) deployments, PLLM uses Redis to share latency metrics across all pods.
+
+### Architecture
+
+```
+Pod 1 (Request with 2s latency)
+  ↓
+  Records to Redis ZSET: pllm:latency:gpt-4-openai
+  ↓
+Pod 2 (New request arrives)
+  ↓
+  Reads latency from Redis
+  ↓
+  Sees: gpt-4-openai = 2s, gpt-4-azure = 500ms
+  ↓
+  Routes to gpt-4-azure (faster)
+```
+
+### Configuration
+
+```yaml
+# Redis required for distributed latency
+redis:
+  url: redis://localhost:6379
+  pool_size: 10
+
+# Enable least-latency routing
+router:
+  routing_strategy: "least-latency"
+```
+
+### Latency Metrics
+
+Each model instance tracks:
+- **Average latency**: Exponential moving average (EMA)
+- **P50/P95/P99**: Percentile latencies
+- **Sample count**: Number of recent requests
+- **Health score**: 0-100 based on P95 latency
+- **Window**: 5 minutes (configurable)
+- **Max samples**: 1000 per model (configurable)
+
+### What Counts as Latency?
+
+Latency includes the **full end-to-end response time**:
+
+1. **Routing time** (~50ms): Selecting best instance
+2. **Network to provider** (~100-500ms): HTTP request
+3. **LLM processing** (variable): Token generation
+4. **Network back** (~100-500ms): Receiving response
+5. **Streaming**: All chunks sent to client
+
+**Example:**
+- Large prompt (10K tokens) to GPT-4
+- LLM takes 25s to process
+- **Recorded latency: 25-26s** (full response time)
+- Other pods see "gpt-4 is slow" and route elsewhere
+
+## Model Aliases
+
+Create user-friendly aliases for groups of models:
+
+```yaml
+model_list:
+  - model_name: gpt-4-openai
+    params:
+      model: gpt-4
+      api_key: ${OPENAI_API_KEY}
+
+  - model_name: gpt-4-azure
+    params:
+      model: azure/gpt4-deployment
+      api_base: https://endpoint.openai.azure.com/
+      api_key: ${AZURE_API_KEY}
+
+  - model_name: claude-3-sonnet
+    params:
+      model: claude-3-sonnet-20240229
+      api_key: ${ANTHROPIC_API_KEY}
+
+# Create aliases
+model_aliases:
+  # Users call "smart" → routes to fastest
+  smart: ["gpt-4-openai", "gpt-4-azure", "claude-3-sonnet"]
+
+  # Provider-specific
+  gpt-4: ["gpt-4-openai", "gpt-4-azure"]
+  claude: ["claude-3-sonnet"]
+```
+
+**Usage:**
+```bash
+# User calls "smart" alias
+curl http://localhost:8080/v1/chat/completions \
+  -H "Authorization: Bearer $API_KEY" \
+  -d '{"model": "smart", "messages": [...]}'
+
+# PLLM routes to fastest of: gpt-4-openai, gpt-4-azure, claude-3-sonnet
+```
+
+## Multi-Instance Routing Example
+
+**Scenario:** 3 Kubernetes pods, multiple GPT-4 backends
+
+```yaml
+router:
+  routing_strategy: "least-latency"
+  circuit_breaker_enabled: true
+
+redis:
+  url: redis://redis-service:6379
+
+model_list:
+  # Primary: OpenAI (fast, expensive)
+  - model_name: gpt-4-openai
+    params:
+      model: gpt-4
+      api_key: ${OPENAI_API_KEY}
+
+  # Secondary: Azure (slower, cheaper)
+  - model_name: gpt-4-azure
+    params:
+      model: azure/gpt4
+      api_base: https://endpoint.openai.azure.com/
+      api_key: ${AZURE_API_KEY}
+
+  # Tertiary: OpenRouter (slowest, cheapest)
+  - model_name: gpt-4-openrouter
+    params:
+      model: openai/gpt-4-turbo
+      api_key: ${OPENROUTER_API_KEY}
+      api_base: https://openrouter.ai/api/v1
+
+model_aliases:
+  gpt-4: ["gpt-4-openai", "gpt-4-azure", "gpt-4-openrouter"]
+```
+
+**Behavior:**
+1. **Initial state**: All instances equal, routes to `gpt-4-openai` (priority)
+2. **After 10 requests**:
+   - `gpt-4-openai`: 800ms average → most traffic
+   - `gpt-4-azure`: 1500ms average → some traffic
+   - `gpt-4-openrouter`: 2000ms average → minimal traffic
+3. **OpenAI degrades**: Latency spikes to 5s
+4. **Automatic shift**: Routes to `gpt-4-azure` (now fastest)
+5. **All pods see shift**: Shared Redis latency
+
+## Health Checks & Circuit Breakers
+
+PLLM automatically excludes unhealthy instances:
+
+```yaml
+router:
+  circuit_breaker_enabled: true
+  circuit_breaker_threshold: 3      # Open after 3 failures
+  circuit_breaker_cooldown: 30s     # Retry after 30s
+  health_check_interval: 30s        # Health check frequency
+```
+
+**Circuit Breaker States:**
+- **CLOSED**: Normal operation, all requests allowed
+- **OPEN**: Too many failures, block all requests
+- **HALF_OPEN**: Testing recovery, allow limited requests
+
+## Monitoring Routing Decisions
+
+```bash
+# View model stats (includes routing metrics)
+curl http://localhost:8080/api/admin/models/stats
+
+# Response includes per-model:
+{
+  "gpt-4-openai": {
+    "health_score": 95,
+    "avg_latency": "823ms",
+    "total_requests": 1523,
+    "requests_minute": 45
+  },
+  "gpt-4-azure": {
+    "health_score": 78,
+    "avg_latency": "1456ms",
+    "total_requests": 892,
+    "requests_minute": 12
+  }
+}
+```
+
+## Best Practices
+
+### 1. Use Unique Model Names
+
+❌ **Wrong:**
+```yaml
+model_list:
+  - model_name: gpt-4  # Same name!
+    params:
+      model: gpt-4
+      api_key: ${OPENAI_API_KEY}
+
+  - model_name: gpt-4  # Same name!
+    params:
+      model: azure/gpt4
+      api_base: https://endpoint.openai.azure.com/
+      api_key: ${AZURE_API_KEY}
+```
+
+✅ **Correct:**
+```yaml
+model_list:
+  - model_name: gpt-4-openai     # Unique!
+    params:
+      model: gpt-4
+      api_key: ${OPENAI_API_KEY}
+
+  - model_name: gpt-4-azure      # Unique!
+    params:
+      model: azure/gpt4
+      api_base: https://endpoint.openai.azure.com/
+      api_key: ${AZURE_API_KEY}
+
+model_aliases:
+  gpt-4: ["gpt-4-openai", "gpt-4-azure"]  # User-friendly
+```
+
+### 2. Multi-Instance Deployments
+
+For Kubernetes/multi-pod deployments:
+- ✅ Use `routing_strategy: "least-latency"`
+- ✅ Configure Redis for distributed tracking
+- ✅ Set appropriate `circuit_breaker_threshold`
+- ✅ Monitor health scores via admin API
+
+### 3. Single Instance Deployments
+
+For single-server deployments:
+- ✅ Use `routing_strategy: "priority"` (simpler)
+- ✅ Redis optional (uses in-memory fallback)
+- ✅ Configure fallback chains
+
+### 4. Cost Optimization
+
+```yaml
+router:
+  routing_strategy: "weighted-round-robin"
+
+model_list:
+  # Expensive but fast
+  - model_name: gpt-4-openai
+    weight: 20  # 20% of traffic
+
+  # Cheaper alternative
+  - model_name: gpt-4-azure
+    weight: 80  # 80% of traffic
+```
+
+## Troubleshooting
+
+### All Requests Go to One Instance
+
+**Cause:** Other instances have higher latency or are unhealthy
+
+**Solution:**
+```bash
+# Check health scores
+curl http://localhost:8080/api/admin/models/stats
+
+# Reset circuit breakers
+curl -X POST http://localhost:8080/api/admin/circuit-breakers/reset
+```
+
+### Latency Not Updating
+
+**Cause:** Redis connection issue
+
+**Solution:**
+```bash
+# Check Redis connectivity
+redis-cli -h localhost ping
+
+# Verify latency data
+redis-cli ZRANGE "pllm:latency:gpt-4-openai" 0 -1 WITHSCORES
+```
+
+### Routing to Wrong Instance
+
+**Cause:** Model name mismatch
+
+**Solution:**
+- Ensure `model_name` is unique per instance
+- Check `model_aliases` configuration
+- Verify user requests match alias or model name
diff --git a/docs/index.md b/docs/index.md
index 001ccd3..8116391 100644
--- a/docs/index.md
+++ b/docs/index.md
@@ -27,7 +27,7 @@ features:
 
   - icon: ⚖️
     title: Smart Load Balancing
-    details: Intelligent routing with round-robin, least-latency, weighted, and priority-based strategies.
+    details: Intelligent routing with distributed latency tracking, automatic failover, and multi-instance support.
 
   - icon: 🛡️
     title: Rate Limiting
diff --git a/e2e/distributed_latency_test.go b/e2e/distributed_latency_test.go
new file mode 100644
index 0000000..bdcb845
--- /dev/null
+++ b/e2e/distributed_latency_test.go
@@ -0,0 +1,378 @@
+package integration
+
+import (
+	"context"
+	"sync"
+	"testing"
+	"time"
+
+	"github.com/alicebob/miniredis/v2"
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/services/data/redis"
+	"github.com/amerfu/pllm/internal/services/llm/models"
+	goredis "github.com/redis/go-redis/v9"
+	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
+	"go.uber.org/zap"
+)
+
+// TestDistributedLatencyTracking simulates multiple PLLM instances (pods)
+// sharing latency data via Redis to make intelligent routing decisions
+func TestDistributedLatencyTracking(t *testing.T) {
+	t.Parallel()
+
+	// Setup shared Redis instance (simulates production Redis)
+	mr, err := miniredis.Run()
+	require.NoError(t, err)
+	defer mr.Close()
+
+	redisClient := goredis.NewClient(&goredis.Options{
+		Addr: mr.Addr(),
+	})
+	defer redisClient.Close()
+
+	logger, _ := zap.NewDevelopment()
+
+	// Create two PLLM instances (simulating two Kubernetes pods)
+	router := config.RouterSettings{
+		RoutingStrategy: "least-latency",
+	}
+
+	pod1 := models.NewModelManager(logger.Named("pod1"), router, redisClient)
+	pod2 := models.NewModelManager(logger.Named("pod2"), router, redisClient)
+
+	// Both pods load the same model configuration
+	modelInstances := []config.ModelInstance{
+		{
+			ID:        "gpt-4-instance-1",
+			ModelName: "gpt-4",
+			Provider:  config.ProviderParams{Type: "openai"},
+			Priority:  1,
+			Enabled:   true,
+		},
+		{
+			ID:        "gpt-4-instance-2",
+			ModelName: "gpt-4",
+			Provider:  config.ProviderParams{Type: "openai"},
+			Priority:  2,
+			Enabled:   true,
+		},
+	}
+
+	err = pod1.LoadModelInstances(modelInstances)
+	require.NoError(t, err)
+	err = pod2.LoadModelInstances(modelInstances)
+	require.NoError(t, err)
+
+	ctx := context.Background()
+
+	t.Run("shared latency across pods", func(t *testing.T) {
+		// Pod 1 processes a request with 10s latency
+		pod1.RecordRequestEnd("gpt-4", 10*time.Second, true, nil)
+
+		// Wait for Redis propagation
+		time.Sleep(150 * time.Millisecond)
+
+		// Pod 2 should see the latency from Pod 1
+		tracker := redis.NewLatencyTracker(redisClient, logger)
+		avg, err := tracker.GetAverageLatency(ctx, "gpt-4")
+		require.NoError(t, err)
+
+		assert.Greater(t, avg, 9*time.Second, "Pod 2 should see latency from Pod 1")
+		assert.Less(t, avg, 11*time.Second)
+
+		t.Logf("Shared latency across pods: %v", avg)
+	})
+
+	t.Run("routing decision based on distributed latency", func(t *testing.T) {
+		tracker := redis.NewLatencyTracker(redisClient, logger)
+		
+		// Clear previous data
+		err := tracker.ClearLatencies(ctx, "gpt-4")
+		require.NoError(t, err)
+
+		// Pod 1 records fast latencies
+		for i := 0; i < 10; i++ {
+			pod1.RecordRequestEnd("gpt-4", 500*time.Millisecond, true, nil)
+		}
+
+		// Pod 2 records slow latencies  
+		for i := 0; i < 10; i++ {
+			pod2.RecordRequestEnd("gpt-4", 5*time.Second, true, nil)
+		}
+
+		time.Sleep(200 * time.Millisecond)
+
+		// Get stats - both pods write to same model key
+		stats, err := tracker.GetLatencyStats(ctx, "gpt-4")
+		require.NoError(t, err)
+
+		t.Logf("Distributed latency stats: avg=%v, p95=%v, p99=%v, samples=%d",
+			stats.Average, stats.P95, stats.P99, stats.SampleCount)
+
+		// Should have samples from both pods (20 total)
+		assert.Greater(t, stats.SampleCount, int64(15), "Should have most samples from both pods")
+		// Average should be between fast and slow
+		assert.Greater(t, stats.Average, 1*time.Second, "Average should reflect mixed latencies")
+		assert.Less(t, stats.Average, 4*time.Second, "Average should reflect mixed latencies")
+	})
+}
+
+// TestMultiPodFailover simulates failover scenario across multiple pods
+func TestMultiPodFailover(t *testing.T) {
+	t.Parallel()
+
+	mr, err := miniredis.Run()
+	require.NoError(t, err)
+	defer mr.Close()
+
+	redisClient := goredis.NewClient(&goredis.Options{
+		Addr: mr.Addr(),
+	})
+	defer redisClient.Close()
+
+	logger, _ := zap.NewDevelopment()
+	tracker := redis.NewLatencyTracker(redisClient, logger)
+
+	ctx := context.Background()
+
+	// Scenario: Multiple models with different latency profiles
+	models := map[string]time.Duration{
+		"gpt-4":          100 * time.Millisecond, // Fast
+		"gpt-4-turbo":    5 * time.Second,        // Slow
+		"claude-3-sonnet": 200 * time.Millisecond, // Medium
+	}
+
+	// Record latencies
+	for model, latency := range models {
+		for i := 0; i < 10; i++ {
+			err := tracker.RecordLatency(ctx, model, latency)
+			require.NoError(t, err)
+		}
+	}
+
+	time.Sleep(100 * time.Millisecond)
+
+	// Get all model stats
+	allStats, err := tracker.GetAllModelStats(ctx)
+	require.NoError(t, err)
+
+	// Verify we can identify the fastest model
+	var fastestModel string
+	var fastestLatency time.Duration = 1 * time.Hour
+
+	for model, stats := range allStats {
+		t.Logf("Model: %s, Avg: %v, P95: %v", model, stats.Average, stats.P95)
+		if stats.Average < fastestLatency {
+			fastestLatency = stats.Average
+			fastestModel = model
+		}
+	}
+
+	assert.Equal(t, "gpt-4", fastestModel, "Should identify gpt-4 as fastest model")
+	assert.Less(t, fastestLatency, 150*time.Millisecond)
+}
+
+// TestConcurrentLatencyUpdates simulates high concurrency across pods
+func TestConcurrentLatencyUpdates(t *testing.T) {
+	t.Parallel()
+
+	mr, err := miniredis.Run()
+	require.NoError(t, err)
+	defer mr.Close()
+
+	redisClient := goredis.NewClient(&goredis.Options{
+		Addr: mr.Addr(),
+	})
+	defer redisClient.Close()
+
+	logger := zap.NewNop() // Silence logs for concurrency test
+	tracker := redis.NewLatencyTracker(redisClient, logger)
+
+	ctx := context.Background()
+	modelName := "gpt-4"
+
+	// Simulate 5 pods, each processing 20 requests concurrently
+	numPods := 5
+	requestsPerPod := 20
+
+	var wg sync.WaitGroup
+	errors := make(chan error, numPods*requestsPerPod)
+
+	for pod := 0; pod < numPods; pod++ {
+		for req := 0; req < requestsPerPod; req++ {
+			wg.Add(1)
+			go func(podID, reqID int) {
+				defer wg.Done()
+
+				// Vary latency slightly per pod
+				baseLatency := time.Duration(100+podID*10) * time.Millisecond
+				latency := baseLatency + time.Duration(reqID)*time.Millisecond
+
+				err := tracker.RecordLatency(ctx, modelName, latency)
+				if err != nil {
+					errors <- err
+				}
+			}(pod, req)
+		}
+	}
+
+	wg.Wait()
+	close(errors)
+
+	// Check for errors
+	for err := range errors {
+		t.Errorf("Concurrent latency update failed: %v", err)
+	}
+
+	// Verify all samples were recorded
+	stats, err := tracker.GetLatencyStats(ctx, modelName)
+	require.NoError(t, err)
+
+	totalExpected := int64(numPods * requestsPerPod)
+	assert.Equal(t, totalExpected, stats.SampleCount,
+		"Should have all samples from all pods")
+
+	t.Logf("Concurrent test results: %d samples, avg=%v, p95=%v",
+		stats.SampleCount, stats.Average, stats.P95)
+}
+
+// TestLatencyBasedRouting validates that routing actually uses distributed latency
+func TestLatencyBasedRouting(t *testing.T) {
+	t.Parallel()
+
+	mr, err := miniredis.Run()
+	require.NoError(t, err)
+	defer mr.Close()
+
+	redisClient := goredis.NewClient(&goredis.Options{
+		Addr: mr.Addr(),
+	})
+	defer redisClient.Close()
+
+	logger, _ := zap.NewDevelopment()
+
+	// Create model manager with least-latency routing
+	router := config.RouterSettings{
+		RoutingStrategy: "least-latency",
+	}
+	manager := models.NewModelManager(logger, router, redisClient)
+
+	// Load two instances of the same model
+	modelInstances := []config.ModelInstance{
+		{
+			ID:        "instance-1",
+			ModelName: "gpt-4",
+			Provider:  config.ProviderParams{Type: "openai"},
+			Priority:  1,
+			Enabled:   true,
+		},
+		{
+			ID:        "instance-2",
+			ModelName: "gpt-4",
+			Provider:  config.ProviderParams{Type: "openai"},
+			Priority:  2,
+			Enabled:   true,
+		},
+	}
+
+	err = manager.LoadModelInstances(modelInstances)
+	require.NoError(t, err)
+
+	// Record different latencies for each instance
+	// Instance 1: 100ms (fast)
+	for i := 0; i < 10; i++ {
+		manager.RecordRequestEnd("gpt-4", 100*time.Millisecond, true, nil)
+	}
+
+	// Instance 2: 2s (slow) - we'd need to mark this differently in production
+	// For now, we're testing that the distributed latency is being read
+	
+	ctx := context.Background()
+	tracker := redis.NewLatencyTracker(redisClient, logger)
+
+	time.Sleep(150 * time.Millisecond)
+
+	// Verify latency was recorded
+	avg, err := tracker.GetAverageLatency(ctx, "gpt-4")
+	require.NoError(t, err)
+	assert.Greater(t, avg, 50*time.Millisecond)
+	assert.Less(t, avg, 200*time.Millisecond)
+
+	t.Logf("Routing will use distributed latency: %v", avg)
+}
+
+// TestHealthScoreCalculation validates health scoring based on latency
+func TestHealthScoreCalculation(t *testing.T) {
+	t.Parallel()
+
+	mr, err := miniredis.Run()
+	require.NoError(t, err)
+	defer mr.Close()
+
+	redisClient := goredis.NewClient(&goredis.Options{
+		Addr: mr.Addr(),
+	})
+	defer redisClient.Close()
+
+	logger, _ := zap.NewDevelopment()
+	tracker := redis.NewLatencyTracker(redisClient, logger)
+
+	ctx := context.Background()
+
+	tests := []struct {
+		name          string
+		model         string
+		latency       time.Duration
+		expectedScore float64
+		scoreDelta    float64
+	}{
+		{
+			name:          "Excellent performance (< 500ms)",
+			model:         "fast-model",
+			latency:       200 * time.Millisecond,
+			expectedScore: 100.0,
+			scoreDelta:    5.0,
+		},
+		{
+			name:          "Good performance (~1s)",
+			model:         "good-model",
+			latency:       900 * time.Millisecond,
+			expectedScore: 82.0,
+			scoreDelta:    10.0,
+		},
+		{
+			name:          "Degraded performance (2-3s)",
+			model:         "degraded-model",
+			latency:       2500 * time.Millisecond,
+			expectedScore: 55.0,
+			scoreDelta:    10.0,
+		},
+		{
+			name:          "Poor performance (> 5s)",
+			model:         "poor-model",
+			latency:       6 * time.Second,
+			expectedScore: 30.0,
+			scoreDelta:    15.0,
+		},
+	}
+
+	for _, tt := range tests {
+		t.Run(tt.name, func(t *testing.T) {
+			// Record latency samples
+			for i := 0; i < 10; i++ {
+				err := tracker.RecordLatency(ctx, tt.model, tt.latency)
+				require.NoError(t, err)
+			}
+
+			// Get health score
+			score, err := tracker.GetHealthScore(ctx, tt.model)
+			require.NoError(t, err)
+
+			assert.InDelta(t, tt.expectedScore, score, tt.scoreDelta,
+				"%s: health score should be around %.0f", tt.name, tt.expectedScore)
+
+			t.Logf("%s: latency=%v, health_score=%.1f", tt.name, tt.latency, score)
+		})
+	}
+}
diff --git a/go.mod b/go.mod
index ca53a7d..3842ffe 100644
--- a/go.mod
+++ b/go.mod
@@ -1,8 +1,6 @@
 module github.com/amerfu/pllm
 
-go 1.23.0
-
-toolchain go1.23.4
+go 1.24.0
 
 require (
 	github.com/alicebob/miniredis/v2 v2.35.0
@@ -15,13 +13,12 @@ require (
 	github.com/joho/godotenv v1.5.1
 	github.com/lib/pq v1.10.9
 	github.com/prometheus/client_golang v1.23.0
-	github.com/redis/go-redis/v9 v9.5.1
+	github.com/redis/go-redis/v9 v9.7.3
 	github.com/spf13/cobra v1.9.1
 	github.com/spf13/viper v1.18.2
 	github.com/stretchr/testify v1.10.0
 	github.com/swaggo/http-swagger v1.3.4
-	github.com/swaggo/swag v1.16.6
-	github.com/testcontainers/testcontainers-go v0.38.0
+	github.com/testcontainers/testcontainers-go v0.39.0
 	github.com/testcontainers/testcontainers-go/modules/postgres v0.38.0
 	go.uber.org/zap v1.27.0
 	golang.org/x/oauth2 v0.30.0
@@ -31,7 +28,7 @@ require (
 )
 
 require (
-	dario.cat/mergo v1.0.1 // indirect
+	dario.cat/mergo v1.0.2 // indirect
 	filippo.io/edwards25519 v1.1.0 // indirect
 	github.com/Azure/go-ansiterm v0.0.0-20210617225240-d185dfc1b5a1 // indirect
 	github.com/KyleBanks/depth v1.2.1 // indirect
@@ -47,8 +44,8 @@ require (
 	github.com/davecgh/go-spew v1.1.2-0.20180830191138-d8f796af33cc // indirect
 	github.com/dgryski/go-rendezvous v0.0.0-20200823014737-9f7001d12a5f // indirect
 	github.com/distribution/reference v0.6.0 // indirect
-	github.com/docker/docker v28.2.2+incompatible // indirect
-	github.com/docker/go-connections v0.5.0 // indirect
+	github.com/docker/docker v28.3.3+incompatible // indirect
+	github.com/docker/go-connections v0.6.0 // indirect
 	github.com/docker/go-units v0.5.0 // indirect
 	github.com/ebitengine/purego v0.8.4 // indirect
 	github.com/felixge/httpsnoop v1.0.4 // indirect
@@ -77,6 +74,7 @@ require (
 	github.com/lufia/plan9stats v0.0.0-20211012122336-39d0f177ccd0 // indirect
 	github.com/magiconair/properties v1.8.10 // indirect
 	github.com/mailru/easyjson v0.9.0 // indirect
+	github.com/mdelapenya/tlscert v0.2.0 // indirect
 	github.com/mitchellh/mapstructure v1.5.0 // indirect
 	github.com/moby/docker-image-spec v1.3.1 // indirect
 	github.com/moby/go-archive v0.1.0 // indirect
@@ -98,7 +96,7 @@ require (
 	github.com/prometheus/procfs v0.16.1 // indirect
 	github.com/sagikazarmark/locafero v0.4.0 // indirect
 	github.com/sagikazarmark/slog-shim v0.1.0 // indirect
-	github.com/shirou/gopsutil/v4 v4.25.5 // indirect
+	github.com/shirou/gopsutil/v4 v4.25.6 // indirect
 	github.com/sirupsen/logrus v1.9.3 // indirect
 	github.com/sourcegraph/conc v0.3.0 // indirect
 	github.com/spf13/afero v1.11.0 // indirect
@@ -107,6 +105,8 @@ require (
 	github.com/stretchr/objx v0.5.2 // indirect
 	github.com/subosito/gotenv v1.6.0 // indirect
 	github.com/swaggo/files v1.0.1 // indirect
+	github.com/swaggo/swag v1.16.6 // indirect
+	github.com/testcontainers/testcontainers-go/modules/redis v0.39.0 // indirect
 	github.com/tklauser/go-sysconf v0.3.12 // indirect
 	github.com/tklauser/numcpus v0.6.1 // indirect
 	github.com/yuin/gopher-lua v1.1.1 // indirect
@@ -123,7 +123,7 @@ require (
 	golang.org/x/mod v0.27.0 // indirect
 	golang.org/x/net v0.43.0 // indirect
 	golang.org/x/sync v0.16.0 // indirect
-	golang.org/x/sys v0.35.0 // indirect
+	golang.org/x/sys v0.36.0 // indirect
 	golang.org/x/text v0.28.0 // indirect
 	golang.org/x/tools v0.36.0 // indirect
 	google.golang.org/grpc v1.75.0 // indirect
diff --git a/go.sum b/go.sum
index dd6a395..e49038a 100644
--- a/go.sum
+++ b/go.sum
@@ -1,5 +1,7 @@
 dario.cat/mergo v1.0.1 h1:Ra4+bf83h2ztPIQYNP99R6m+Y7KfnARDfID+a+vLl4s=
 dario.cat/mergo v1.0.1/go.mod h1:uNxQE+84aUszobStD9th8a29P2fMDhsBdgRYvZOxGmk=
+dario.cat/mergo v1.0.2 h1:85+piFYR1tMbRrLcDwR18y4UKJ3aH1Tbzi24VRW1TK8=
+dario.cat/mergo v1.0.2/go.mod h1:E/hbnu0NxMFBjpMIE34DRGLWqDy0g5FuKDhCb31ngxA=
 filippo.io/edwards25519 v1.1.0 h1:FNf4tywRC1HmFuKW5xopWpigGjJKiJSV0Cqo0cJWDaA=
 filippo.io/edwards25519 v1.1.0/go.mod h1:BxyFTGdWcka3PhytdK4V28tE5sGfRvvvRV7EaN4VDT4=
 github.com/AdaLogics/go-fuzz-headers v0.0.0-20240806141605-e8a1dd7889d6 h1:He8afgbRMd7mFxO99hRNu+6tazq8nFF9lIwo9JFroBk=
@@ -47,8 +49,12 @@ github.com/distribution/reference v0.6.0 h1:0IXCQ5g4/QMHHkarYzh5l+u8T3t73zM5Qvfr
 github.com/distribution/reference v0.6.0/go.mod h1:BbU0aIcezP1/5jX/8MP0YiH4SdvB5Y4f/wlDRiLyi3E=
 github.com/docker/docker v28.2.2+incompatible h1:CjwRSksz8Yo4+RmQ339Dp/D2tGO5JxwYeqtMOEe0LDw=
 github.com/docker/docker v28.2.2+incompatible/go.mod h1:eEKB0N0r5NX/I1kEveEz05bcu8tLC/8azJZsviup8Sk=
+github.com/docker/docker v28.3.3+incompatible h1:Dypm25kh4rmk49v1eiVbsAtpAsYURjYkaKubwuBdxEI=
+github.com/docker/docker v28.3.3+incompatible/go.mod h1:eEKB0N0r5NX/I1kEveEz05bcu8tLC/8azJZsviup8Sk=
 github.com/docker/go-connections v0.5.0 h1:USnMq7hx7gwdVZq1L49hLXaFtUdTADjXGp+uj1Br63c=
 github.com/docker/go-connections v0.5.0/go.mod h1:ov60Kzw0kKElRwhNs9UlUHAE/F9Fe6GLaXnqyDdmEXc=
+github.com/docker/go-connections v0.6.0 h1:LlMG9azAe1TqfR7sO+NJttz1gy6KO7VJBh+pMmjSD94=
+github.com/docker/go-connections v0.6.0/go.mod h1:AahvXYshr6JgfUJGdDCs2b5EZG/vmaMAntpSFH5BFKE=
 github.com/docker/go-units v0.5.0 h1:69rxXcBk27SvSaaxTtLh/8llcHD8vYHT7WSdRZ/jvr4=
 github.com/docker/go-units v0.5.0/go.mod h1:fgPhTUdO+D/Jk86RDLlptpiXQzgHJF7gydDDbaIK4Dk=
 github.com/ebitengine/purego v0.8.4 h1:CF7LEKg5FFOsASUj0+QwaXf8Ht6TlFxg09+S9wz0omw=
@@ -189,6 +195,8 @@ github.com/prometheus/procfs v0.16.1 h1:hZ15bTNuirocR6u0JZ6BAHHmwS1p8B4P6MRqxtzM
 github.com/prometheus/procfs v0.16.1/go.mod h1:teAbpZRB1iIAJYREa1LsoWUXykVXA1KlTmWl8x/U+Is=
 github.com/redis/go-redis/v9 v9.5.1 h1:H1X4D3yHPaYrkL5X06Wh6xNVM/pX0Ft4RV0vMGvLBh8=
 github.com/redis/go-redis/v9 v9.5.1/go.mod h1:hdY0cQFCN4fnSYT6TkisLufl/4W5UIXyv0b/CLO2V2M=
+github.com/redis/go-redis/v9 v9.7.3 h1:YpPyAayJV+XErNsatSElgRZZVCwXX9QzkKYNvO7x0wM=
+github.com/redis/go-redis/v9 v9.7.3/go.mod h1:bGUrSggJ9X9GUmZpZNEOQKaANxSGgOEBRltRTZHSvrA=
 github.com/rogpeppe/go-internal v1.13.1 h1:KvO1DLK/DRN07sQ1LQKScxyZJuNnedQ5/wKSR38lUII=
 github.com/rogpeppe/go-internal v1.13.1/go.mod h1:uMEvuHeurkdAXX61udpOXGD/AzZDWNMNyH2VO9fmH0o=
 github.com/russross/blackfriday/v2 v2.1.0/go.mod h1:+Rmxgy9KzJVeS9/2gXHxylqXiyQDYRxCVz55jmeOWTM=
@@ -198,6 +206,8 @@ github.com/sagikazarmark/slog-shim v0.1.0 h1:diDBnUNK9N/354PgrxMywXnAwEr1QZcOr6g
 github.com/sagikazarmark/slog-shim v0.1.0/go.mod h1:SrcSrq8aKtyuqEI1uvTDTK1arOWRIczQRv+GVI1AkeQ=
 github.com/shirou/gopsutil/v4 v4.25.5 h1:rtd9piuSMGeU8g1RMXjZs9y9luK5BwtnG7dZaQUJAsc=
 github.com/shirou/gopsutil/v4 v4.25.5/go.mod h1:PfybzyydfZcN+JMMjkF6Zb8Mq1A/VcogFFg7hj50W9c=
+github.com/shirou/gopsutil/v4 v4.25.6 h1:kLysI2JsKorfaFPcYmcJqbzROzsBWEOAtw6A7dIfqXs=
+github.com/shirou/gopsutil/v4 v4.25.6/go.mod h1:PfybzyydfZcN+JMMjkF6Zb8Mq1A/VcogFFg7hj50W9c=
 github.com/sirupsen/logrus v1.9.3 h1:dueUQJ1C2q9oE3F7wvmSGAaVtTmUizReu6fjN8uqzbQ=
 github.com/sirupsen/logrus v1.9.3/go.mod h1:naHLuLoDiP4jHNo9R0sCBMtWGeIprob74mVsIT4qYEQ=
 github.com/sourcegraph/conc v0.3.0 h1:OQTbbt6P72L20UqAkXXuLOj79LfEanQ+YQFNpLA9ySo=
@@ -234,8 +244,12 @@ github.com/swaggo/swag v1.16.6 h1:qBNcx53ZaX+M5dxVyTrgQ0PJ/ACK+NzhwcbieTt+9yI=
 github.com/swaggo/swag v1.16.6/go.mod h1:ngP2etMK5a0P3QBizic5MEwpRmluJZPHjXcMoj4Xesg=
 github.com/testcontainers/testcontainers-go v0.38.0 h1:d7uEapLcv2P8AvH8ahLqDMMxda2W9gQN1nRbHS28HBw=
 github.com/testcontainers/testcontainers-go v0.38.0/go.mod h1:C52c9MoHpWO+C4aqmgSU+hxlR5jlEayWtgYrb8Pzz1w=
+github.com/testcontainers/testcontainers-go v0.39.0 h1:uCUJ5tA+fcxbFAB0uP3pIK3EJ2IjjDUHFSZ1H1UxAts=
+github.com/testcontainers/testcontainers-go v0.39.0/go.mod h1:qmHpkG7H5uPf/EvOORKvS6EuDkBUPE3zpVGaH9NL7f8=
 github.com/testcontainers/testcontainers-go/modules/postgres v0.38.0 h1:KFdx9A0yF94K70T6ibSuvgkQQeX1xKlZVF3hEagXEtY=
 github.com/testcontainers/testcontainers-go/modules/postgres v0.38.0/go.mod h1:T/QRECND6N6tAKMxF1Za+G2tpwnGEHcODzHRsgIpw9M=
+github.com/testcontainers/testcontainers-go/modules/redis v0.39.0 h1:p54qELdCx4Gftkxzf44k9RJRRhaO/S5ehP9zo8SUTLM=
+github.com/testcontainers/testcontainers-go/modules/redis v0.39.0/go.mod h1:P1mTbHruHqAU2I26y0RADz1BitF59FLbQr7ceqN9bt4=
 github.com/tklauser/go-sysconf v0.3.12 h1:0QaGUFOdQaIVdPgfITYzaTegZvdCjmYO52cSFAEVmqU=
 github.com/tklauser/go-sysconf v0.3.12/go.mod h1:Ho14jnntGE1fpdOqQEEaiKRpvIavV0hSfmBq8nJbHYI=
 github.com/tklauser/numcpus v0.6.1 h1:ng9scYS7az0Bk4OZLvrNXNSAO2Pxr1XXRAPyjhIx+Fk=
@@ -317,6 +331,8 @@ golang.org/x/sys v0.8.0/go.mod h1:oPkhp1MJrh7nUepCBck5+mAzfO9JrbApNNgaTdGDITg=
 golang.org/x/sys v0.11.0/go.mod h1:oPkhp1MJrh7nUepCBck5+mAzfO9JrbApNNgaTdGDITg=
 golang.org/x/sys v0.35.0 h1:vz1N37gP5bs89s7He8XuIYXpyY0+QlsKmzipCbUtyxI=
 golang.org/x/sys v0.35.0/go.mod h1:BJP2sWEmIv4KK5OTEluFJCKSidICx8ciO85XgH3Ak8k=
+golang.org/x/sys v0.36.0 h1:KVRy2GtZBrk1cBYA7MKu5bEZFxQk4NIDV6RLVcC8o0k=
+golang.org/x/sys v0.36.0/go.mod h1:OgkHotnGiDImocRcuBABYBEXf8A9a87e/uXjp9XT3ks=
 golang.org/x/term v0.0.0-20201126162022-7de9c90e9dd1/go.mod h1:bj7SfCRtBDWHUb9snDiAeCFNEtKQo2Wmx5Cou7ajbmo=
 golang.org/x/term v0.0.0-20210927222741-03fcf44c2211/go.mod h1:jbD1KX2456YbFQfuXm/mYQcufACuNUgVhRMnK/tPxf8=
 golang.org/x/term v0.5.0/go.mod h1:jMB1sMXY+tzblOD4FWmEbocvup2/aLOaQEp7JmGp78k=
diff --git a/internal/docs/embed.go b/internal/api/docs/embed.go
similarity index 100%
rename from internal/docs/embed.go
rename to internal/api/docs/embed.go
diff --git a/internal/docs/handler.go b/internal/api/docs/handler.go
similarity index 98%
rename from internal/docs/handler.go
rename to internal/api/docs/handler.go
index 252731f..4f9e23e 100644
--- a/internal/docs/handler.go
+++ b/internal/api/docs/handler.go
@@ -7,7 +7,7 @@ import (
 	"path"
 	"strings"
 
-	"github.com/amerfu/pllm/internal/config"
+	"github.com/amerfu/pllm/internal/core/config"
 	"go.uber.org/zap"
 )
 
diff --git a/internal/handlers/admin.go b/internal/api/handlers/admin.go
similarity index 83%
rename from internal/handlers/admin.go
rename to internal/api/handlers/admin.go
index 92b5140..9c8a578 100644
--- a/internal/handlers/admin.go
+++ b/internal/api/handlers/admin.go
@@ -4,15 +4,15 @@ import (
 	"encoding/json"
 	"net/http"
 
-	"github.com/amerfu/pllm/internal/services"
-	"github.com/amerfu/pllm/internal/services/models"
+	"github.com/amerfu/pllm/internal/services/monitoring/metrics"
+	"github.com/amerfu/pllm/internal/services/llm/models"
 	"go.uber.org/zap"
 )
 
 type AdminHandler struct {
 	logger         *zap.Logger
 	modelManager   *models.ModelManager
-	metricsEmitter *services.MetricEventEmitter
+	metricsEmitter *metrics.MetricEventEmitter
 }
 
 func NewAdminHandler(logger *zap.Logger, modelManager *models.ModelManager) *AdminHandler {
@@ -22,7 +22,7 @@ func NewAdminHandler(logger *zap.Logger, modelManager *models.ModelManager) *Adm
 	}
 }
 
-func NewAdminHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, metricsEmitter *services.MetricEventEmitter) *AdminHandler {
+func NewAdminHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, metricsEmitter *metrics.MetricEventEmitter) *AdminHandler {
 	return &AdminHandler{
 		logger:         logger,
 		modelManager:   modelManager,
diff --git a/internal/handlers/admin/auth.go b/internal/api/handlers/admin/auth.go
similarity index 97%
rename from internal/handlers/admin/auth.go
rename to internal/api/handlers/admin/auth.go
index 1eb5ce6..7227951 100644
--- a/internal/handlers/admin/auth.go
+++ b/internal/api/handlers/admin/auth.go
@@ -8,9 +8,9 @@ import (
 	"go.uber.org/zap"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/auth"
-	"github.com/amerfu/pllm/internal/middleware"
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/auth"
+	"github.com/amerfu/pllm/internal/infrastructure/middleware"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 type AuthHandler struct {
diff --git a/internal/handlers/admin/base.go b/internal/api/handlers/admin/base.go
similarity index 100%
rename from internal/handlers/admin/base.go
rename to internal/api/handlers/admin/base.go
diff --git a/internal/handlers/admin/guardrails.go b/internal/api/handlers/admin/guardrails.go
similarity index 99%
rename from internal/handlers/admin/guardrails.go
rename to internal/api/handlers/admin/guardrails.go
index 0a0a4de..c35e8f4 100644
--- a/internal/handlers/admin/guardrails.go
+++ b/internal/api/handlers/admin/guardrails.go
@@ -9,8 +9,8 @@ import (
 	"github.com/go-chi/chi/v5"
 	"go.uber.org/zap"
 
-	"github.com/amerfu/pllm/internal/config"
-	"github.com/amerfu/pllm/internal/services/guardrails"
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/services/integrations/guardrails"
 )
 
 // GuardrailsHandler handles guardrails admin endpoints
diff --git a/internal/handlers/admin/keys.go b/internal/api/handlers/admin/keys.go
similarity index 98%
rename from internal/handlers/admin/keys.go
rename to internal/api/handlers/admin/keys.go
index 1b5c36b..3a0db69 100644
--- a/internal/handlers/admin/keys.go
+++ b/internal/api/handlers/admin/keys.go
@@ -12,11 +12,11 @@ import (
 	"go.uber.org/zap"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/middleware"
-	"github.com/amerfu/pllm/internal/models"
-	"github.com/amerfu/pllm/internal/services/audit"
-	"github.com/amerfu/pllm/internal/services/budget"
-	"github.com/amerfu/pllm/internal/services/key"
+	"github.com/amerfu/pllm/internal/infrastructure/middleware"
+	"github.com/amerfu/pllm/internal/core/models"
+	"github.com/amerfu/pllm/internal/services/monitoring/audit"
+	"github.com/amerfu/pllm/internal/services/data/budget"
+	"github.com/amerfu/pllm/internal/services/integrations/key"
 )
 
 // KeyHandler handles admin key management operations
diff --git a/internal/handlers/admin/keys_test.go b/internal/api/handlers/admin/keys_test.go
similarity index 97%
rename from internal/handlers/admin/keys_test.go
rename to internal/api/handlers/admin/keys_test.go
index e362ae3..03617f6 100644
--- a/internal/handlers/admin/keys_test.go
+++ b/internal/api/handlers/admin/keys_test.go
@@ -14,11 +14,11 @@ import (
 	"github.com/stretchr/testify/require"
 	"go.uber.org/zap"
 
-	"github.com/amerfu/pllm/internal/middleware"
-	"github.com/amerfu/pllm/internal/models"
-	"github.com/amerfu/pllm/internal/services/budget"
-	"github.com/amerfu/pllm/internal/services/key"
-	"github.com/amerfu/pllm/internal/testutil"
+	"github.com/amerfu/pllm/internal/infrastructure/middleware"
+	"github.com/amerfu/pllm/internal/core/models"
+	"github.com/amerfu/pllm/internal/services/data/budget"
+	"github.com/amerfu/pllm/internal/services/integrations/key"
+	"github.com/amerfu/pllm/internal/infrastructure/testutil"
 )
 
 // newTestLogger creates a test logger
diff --git a/internal/handlers/admin/oauth.go b/internal/api/handlers/admin/oauth.go
similarity index 99%
rename from internal/handlers/admin/oauth.go
rename to internal/api/handlers/admin/oauth.go
index 0dff6b2..80cb5f9 100644
--- a/internal/handlers/admin/oauth.go
+++ b/internal/api/handlers/admin/oauth.go
@@ -9,8 +9,8 @@ import (
 	"strings"
 	"time"
 
-	"github.com/amerfu/pllm/internal/models"
-	"github.com/amerfu/pllm/internal/services/team"
+	"github.com/amerfu/pllm/internal/core/models"
+	"github.com/amerfu/pllm/internal/services/integrations/team"
 	"go.uber.org/zap"
 	"gorm.io/gorm"
 )
diff --git a/internal/handlers/admin/others.go b/internal/api/handlers/admin/others.go
similarity index 98%
rename from internal/handlers/admin/others.go
rename to internal/api/handlers/admin/others.go
index 8217067..dbc9bf0 100644
--- a/internal/handlers/admin/others.go
+++ b/internal/api/handlers/admin/others.go
@@ -11,9 +11,9 @@ import (
 	"go.uber.org/zap"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/config"
-	"github.com/amerfu/pllm/internal/models"
-	"github.com/amerfu/pllm/internal/services/audit"
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/core/models"
+	"github.com/amerfu/pllm/internal/services/monitoring/audit"
 )
 
 // AnalyticsHandler handles analytics endpoints
@@ -959,19 +959,11 @@ func (h *SystemHandler) GetAuthConfig(w http.ResponseWriter, r *http.Request) {
 func (h *SystemHandler) GetConfig(w http.ResponseWriter, r *http.Request) {
 	cfg := config.Get()
 	
-	// Build router configuration including fallbacks
+	// Build router configuration
 	routerConfig := map[string]interface{}{
-		"routing_strategy":          cfg.Router.RoutingStrategy,
-		"circuit_breaker_enabled":   cfg.Router.CircuitBreakerEnabled,
-		"circuit_breaker_threshold": cfg.Router.CircuitBreakerThreshold,
-		"circuit_breaker_cooldown":  cfg.Router.CircuitBreakerCooldown,
+		"routing_strategy": cfg.Router.RoutingStrategy,
 	}
-	
-	// Add fallbacks if they exist
-	if len(cfg.Router.Fallbacks) > 0 {
-		routerConfig["fallbacks"] = cfg.Router.Fallbacks
-	}
-	
+
 	h.sendJSON(w, http.StatusOK, map[string]interface{}{
 		"config": map[string]interface{}{
 			"master_key_configured": cfg.Auth.MasterKey != "",
diff --git a/internal/handlers/admin/providers.go b/internal/api/handlers/admin/providers.go
similarity index 100%
rename from internal/handlers/admin/providers.go
rename to internal/api/handlers/admin/providers.go
diff --git a/internal/handlers/admin/teams.go b/internal/api/handlers/admin/teams.go
similarity index 97%
rename from internal/handlers/admin/teams.go
rename to internal/api/handlers/admin/teams.go
index 2e1889b..022adfb 100644
--- a/internal/handlers/admin/teams.go
+++ b/internal/api/handlers/admin/teams.go
@@ -10,10 +10,10 @@ import (
 	"go.uber.org/zap"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/middleware"
-	"github.com/amerfu/pllm/internal/services/audit"
-	"github.com/amerfu/pllm/internal/services/budget"
-	"github.com/amerfu/pllm/internal/services/team"
+	"github.com/amerfu/pllm/internal/infrastructure/middleware"
+	"github.com/amerfu/pllm/internal/services/monitoring/audit"
+	"github.com/amerfu/pllm/internal/services/data/budget"
+	"github.com/amerfu/pllm/internal/services/integrations/team"
 )
 
 type TeamHandler struct {
diff --git a/internal/handlers/admin/users.go b/internal/api/handlers/admin/users.go
similarity index 99%
rename from internal/handlers/admin/users.go
rename to internal/api/handlers/admin/users.go
index 32b1658..812cd12 100644
--- a/internal/handlers/admin/users.go
+++ b/internal/api/handlers/admin/users.go
@@ -6,7 +6,7 @@ import (
 	"net/http"
 	"time"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 	"github.com/go-chi/chi/v5"
 	"github.com/google/uuid"
 	"go.uber.org/zap"
diff --git a/internal/handlers/audio.go b/internal/api/handlers/audio.go
similarity index 96%
rename from internal/handlers/audio.go
rename to internal/api/handlers/audio.go
index 882b481..888936e 100644
--- a/internal/handlers/audio.go
+++ b/internal/api/handlers/audio.go
@@ -5,16 +5,16 @@ import (
 	"fmt"
 	"net/http"
 
-	"github.com/amerfu/pllm/internal/services"
-	"github.com/amerfu/pllm/internal/services/models"
-	"github.com/amerfu/pllm/internal/services/providers"
+	"github.com/amerfu/pllm/internal/services/monitoring/metrics"
+	"github.com/amerfu/pllm/internal/services/llm/models"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
 	"go.uber.org/zap"
 )
 
 type AudioHandler struct {
 	logger         *zap.Logger
 	modelManager   *models.ModelManager
-	metricsEmitter *services.MetricEventEmitter
+	metricsEmitter *metrics.MetricEventEmitter
 }
 
 func NewAudioHandler(logger *zap.Logger, modelManager *models.ModelManager) *AudioHandler {
@@ -24,7 +24,7 @@ func NewAudioHandler(logger *zap.Logger, modelManager *models.ModelManager) *Aud
 	}
 }
 
-func NewAudioHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, metricsEmitter *services.MetricEventEmitter) *AudioHandler {
+func NewAudioHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, metricsEmitter *metrics.MetricEventEmitter) *AudioHandler {
 	return &AudioHandler{
 		logger:         logger,
 		modelManager:   modelManager,
diff --git a/internal/handlers/auth.go b/internal/api/handlers/auth.go
similarity index 98%
rename from internal/handlers/auth.go
rename to internal/api/handlers/auth.go
index 34635d7..f506f93 100644
--- a/internal/handlers/auth.go
+++ b/internal/api/handlers/auth.go
@@ -10,9 +10,9 @@ import (
 	"go.uber.org/zap"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/auth"
-	"github.com/amerfu/pllm/internal/middleware"
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/auth"
+	"github.com/amerfu/pllm/internal/infrastructure/middleware"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 type AuthHandler struct {
diff --git a/internal/handlers/auth_refresh_test.go b/internal/api/handlers/auth_refresh_test.go
similarity index 99%
rename from internal/handlers/auth_refresh_test.go
rename to internal/api/handlers/auth_refresh_test.go
index 64220dd..b163658 100644
--- a/internal/handlers/auth_refresh_test.go
+++ b/internal/api/handlers/auth_refresh_test.go
@@ -12,7 +12,7 @@ import (
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 
-	"github.com/amerfu/pllm/internal/handlers/admin"
+	"github.com/amerfu/pllm/internal/api/handlers/admin"
 	"go.uber.org/zap"
 )
 
diff --git a/internal/handlers/chat.go b/internal/api/handlers/chat.go
similarity index 75%
rename from internal/handlers/chat.go
rename to internal/api/handlers/chat.go
index 6501f66..5645c70 100644
--- a/internal/handlers/chat.go
+++ b/internal/api/handlers/chat.go
@@ -1,22 +1,23 @@
 package handlers
 
 import (
+	"context"
 	"encoding/json"
 	"fmt"
 	"net/http"
 	"time"
 
-	"github.com/amerfu/pllm/internal/middleware"
-	"github.com/amerfu/pllm/internal/services"
-	"github.com/amerfu/pllm/internal/services/models"
-	"github.com/amerfu/pllm/internal/services/providers"
+	"github.com/amerfu/pllm/internal/infrastructure/middleware"
+	"github.com/amerfu/pllm/internal/services/monitoring/metrics"
+	"github.com/amerfu/pllm/internal/services/llm/models"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
 	"go.uber.org/zap"
 )
 
 type ChatHandler struct {
 	logger         *zap.Logger
 	modelManager   *models.ModelManager
-	metricsEmitter *services.MetricEventEmitter
+	metricsEmitter *metrics.MetricEventEmitter
 }
 
 func NewChatHandler(logger *zap.Logger, modelManager *models.ModelManager) *ChatHandler {
@@ -26,7 +27,7 @@ func NewChatHandler(logger *zap.Logger, modelManager *models.ModelManager) *Chat
 	}
 }
 
-func NewChatHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, metricsEmitter *services.MetricEventEmitter) *ChatHandler {
+func NewChatHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, metricsEmitter *metrics.MetricEventEmitter) *ChatHandler {
 	return &ChatHandler{
 		logger:         logger,
 		modelManager:   modelManager,
@@ -80,57 +81,82 @@ func (h *ChatHandler) ChatCompletions(w http.ResponseWriter, r *http.Request) {
 
 	// Track request start for adaptive routing
 	h.modelManager.RecordRequestStart(request.Model)
-
-	// Get best instance for the model
-	// Use adaptive routing for better high-load handling
 	startTime := time.Now()
-	instance, err := h.modelManager.GetBestInstanceAdaptive(r.Context(), request.Model)
+
+	// Execute with automatic failover
+	result, err := h.modelManager.ExecuteWithFailover(r.Context(), &models.FailoverRequest{
+		ModelName: request.Model,
+		ExecuteFunc: func(ctx context.Context, instance *models.ModelInstance) (interface{}, error) {
+			// Create a copy of the request with the provider's actual model name
+			providerRequest := request
+			providerRequest.Model = instance.Config.Provider.Model
+
+			// Handle streaming separately
+			if request.Stream {
+				// For streaming, we return a special marker that tells the handler to stream
+				return map[string]interface{}{
+					"__streaming__": true,
+					"instance":      instance,
+					"request":       &providerRequest,
+				}, nil
+			}
+
+			// Forward request to provider (non-streaming)
+			response, err := instance.Provider.ChatCompletion(ctx, &providerRequest)
+			if err != nil {
+				instance.RecordError(err)
+				return nil, err
+			}
+
+			// Record successful request
+			totalTokens := int32(response.Usage.TotalTokens)
+			latencyMs := time.Since(startTime).Milliseconds()
+			instance.RecordRequest(totalTokens, latencyMs)
+
+			return response, nil
+		},
+	})
+
 	if err != nil {
-		// Record failure for adaptive components
+		// All failover attempts failed
 		h.modelManager.RecordRequestEnd(request.Model, time.Since(startTime), false, err)
-		h.logger.Error("Failed to get model instance",
+		h.logger.Error("Request failed after all failover attempts",
 			zap.String("model", request.Model),
 			zap.Error(err))
-		h.sendError(w, http.StatusServiceUnavailable, "No instance available for model: "+request.Model)
+		h.sendError(w, http.StatusServiceUnavailable, "Request failed: "+err.Error())
 		return
 	}
 
-	h.logger.Info("Selected instance for request",
-		zap.String("requested_model", request.Model),
-		zap.String("instance_id", instance.Config.ID),
-		zap.String("provider_model", instance.Config.Provider.Model),
-		zap.Bool("stream", request.Stream))
-
-	// Handle streaming
-	if request.Stream {
-		h.logger.Info("Routing to streaming handler")
-		h.handleStreamingChat(w, r, &request, instance, startTime)
-		return
+	// Log failover information if any failovers occurred
+	if len(result.Failovers) > 0 {
+		h.logger.Info("Request succeeded after failover",
+			zap.String("requested_model", request.Model),
+			zap.String("final_instance", result.Instance.Config.ID),
+			zap.Int("attempts", result.AttemptCount),
+			zap.Strings("failovers", result.Failovers))
 	}
 
-	// Create a copy of the request with the provider's actual model name
-	// Users call with their custom model name (e.g., "my-gpt-4")
-	// But we need to send the actual provider model name (e.g., "gpt-4")
-	providerRequest := request
-	providerRequest.Model = instance.Config.Provider.Model
+	// Check if this is a streaming request
+	if responseMap, ok := result.Response.(map[string]interface{}); ok {
+		if isStreaming, exists := responseMap["__streaming__"]; exists && isStreaming == true {
+			// Extract instance and request from response
+			instance := responseMap["instance"].(*models.ModelInstance)
+			providerRequest := responseMap["request"].(*providers.ChatRequest)
+			
+			h.logger.Info("Routing to streaming handler after failover",
+				zap.String("requested_model", request.Model),
+				zap.String("instance_id", instance.Config.ID),
+				zap.Int("failover_attempts", result.AttemptCount))
+			
+			h.handleStreamingChat(w, r, providerRequest, instance, startTime)
+			return
+		}
+	}
 
-	// Forward request to provider
-	response, err := instance.Provider.ChatCompletion(r.Context(), &providerRequest)
+	// Non-streaming response
+	response := result.Response.(*providers.ChatResponse)
 	latency := time.Since(startTime)
-	latencyMs := latency.Milliseconds()
-
-	if err != nil {
-		instance.RecordError(err)
-		// Record failure for adaptive components
-		h.modelManager.RecordRequestEnd(request.Model, latency, false, err)
-		h.logger.Error("Provider request failed", zap.Error(err))
-		h.sendError(w, http.StatusInternalServerError, "Provider request failed")
-		return
-	}
 
-	// Record successful request
-	totalTokens := int32(response.Usage.TotalTokens)
-	instance.RecordRequest(totalTokens, latencyMs)
 	// Record success for adaptive components
 	h.modelManager.RecordRequestEnd(request.Model, latency, true, nil)
 
diff --git a/internal/handlers/dashboard.go b/internal/api/handlers/dashboard.go
similarity index 99%
rename from internal/handlers/dashboard.go
rename to internal/api/handlers/dashboard.go
index fe547f8..d049b75 100644
--- a/internal/handlers/dashboard.go
+++ b/internal/api/handlers/dashboard.go
@@ -9,7 +9,7 @@ import (
 	"go.uber.org/zap"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 type DashboardHandler struct {
diff --git a/internal/handlers/dashboard_test.go b/internal/api/handlers/dashboard_test.go
similarity index 99%
rename from internal/handlers/dashboard_test.go
rename to internal/api/handlers/dashboard_test.go
index bae7fe9..58c6d98 100644
--- a/internal/handlers/dashboard_test.go
+++ b/internal/api/handlers/dashboard_test.go
@@ -14,8 +14,8 @@ import (
 	"go.uber.org/zap"
 	"gorm.io/datatypes"
 
-	"github.com/amerfu/pllm/internal/models"
-	"github.com/amerfu/pllm/internal/testutil"
+	"github.com/amerfu/pllm/internal/core/models"
+	"github.com/amerfu/pllm/internal/infrastructure/testutil"
 )
 
 func TestDashboardHandler_GetDashboardMetrics(t *testing.T) {
diff --git a/internal/handlers/embeddings.go b/internal/api/handlers/embeddings.go
similarity index 89%
rename from internal/handlers/embeddings.go
rename to internal/api/handlers/embeddings.go
index 3a40b8f..fb6241a 100644
--- a/internal/handlers/embeddings.go
+++ b/internal/api/handlers/embeddings.go
@@ -5,16 +5,16 @@ import (
 	"fmt"
 	"net/http"
 
-	"github.com/amerfu/pllm/internal/services"
-	"github.com/amerfu/pllm/internal/services/models"
-	"github.com/amerfu/pllm/internal/services/providers"
+	"github.com/amerfu/pllm/internal/services/monitoring/metrics"
+	"github.com/amerfu/pllm/internal/services/llm/models"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
 	"go.uber.org/zap"
 )
 
 type EmbeddingsHandler struct {
 	logger         *zap.Logger
 	modelManager   *models.ModelManager
-	metricsEmitter *services.MetricEventEmitter
+	metricsEmitter *metrics.MetricEventEmitter
 }
 
 func NewEmbeddingsHandler(logger *zap.Logger, modelManager *models.ModelManager) *EmbeddingsHandler {
@@ -24,7 +24,7 @@ func NewEmbeddingsHandler(logger *zap.Logger, modelManager *models.ModelManager)
 	}
 }
 
-func NewEmbeddingsHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, metricsEmitter *services.MetricEventEmitter) *EmbeddingsHandler {
+func NewEmbeddingsHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, metricsEmitter *metrics.MetricEventEmitter) *EmbeddingsHandler {
 	return &EmbeddingsHandler{
 		logger:         logger,
 		modelManager:   modelManager,
diff --git a/internal/handlers/files.go b/internal/api/handlers/files.go
similarity index 95%
rename from internal/handlers/files.go
rename to internal/api/handlers/files.go
index a8664cd..edbf432 100644
--- a/internal/handlers/files.go
+++ b/internal/api/handlers/files.go
@@ -9,9 +9,9 @@ import (
 	"strings"
 	"time"
 
-	"github.com/amerfu/pllm/internal/services"
-	"github.com/amerfu/pllm/internal/services/models"
-	"github.com/amerfu/pllm/internal/services/providers"
+	"github.com/amerfu/pllm/internal/services/monitoring/metrics"
+	"github.com/amerfu/pllm/internal/services/llm/models"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
 	"github.com/go-chi/chi/v5"
 	"go.uber.org/zap"
 )
@@ -19,7 +19,7 @@ import (
 type FilesHandler struct {
 	logger         *zap.Logger
 	modelManager   *models.ModelManager
-	metricsEmitter *services.MetricEventEmitter
+	metricsEmitter *metrics.MetricEventEmitter
 }
 
 func NewFilesHandler(logger *zap.Logger, modelManager *models.ModelManager) *FilesHandler {
@@ -29,7 +29,7 @@ func NewFilesHandler(logger *zap.Logger, modelManager *models.ModelManager) *Fil
 	}
 }
 
-func NewFilesHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, metricsEmitter *services.MetricEventEmitter) *FilesHandler {
+func NewFilesHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, metricsEmitter *metrics.MetricEventEmitter) *FilesHandler {
 	return &FilesHandler{
 		logger:         logger,
 		modelManager:   modelManager,
diff --git a/internal/handlers/health.go b/internal/api/handlers/health.go
similarity index 94%
rename from internal/handlers/health.go
rename to internal/api/handlers/health.go
index 6494e62..60c6695 100644
--- a/internal/handlers/health.go
+++ b/internal/api/handlers/health.go
@@ -5,8 +5,8 @@ import (
 	"log"
 	"net/http"
 
-	"github.com/amerfu/pllm/internal/database"
-	"github.com/amerfu/pllm/internal/services/cache"
+	"github.com/amerfu/pllm/internal/core/database"
+	"github.com/amerfu/pllm/internal/services/data/cache"
 )
 
 type HealthResponse struct {
diff --git a/internal/handlers/images.go b/internal/api/handlers/images.go
similarity index 94%
rename from internal/handlers/images.go
rename to internal/api/handlers/images.go
index ae447ad..7e4e3e4 100644
--- a/internal/handlers/images.go
+++ b/internal/api/handlers/images.go
@@ -5,16 +5,16 @@ import (
 	"fmt"
 	"net/http"
 
-	"github.com/amerfu/pllm/internal/services"
-	"github.com/amerfu/pllm/internal/services/models"
-	"github.com/amerfu/pllm/internal/services/providers"
+	"github.com/amerfu/pllm/internal/services/monitoring/metrics"
+	"github.com/amerfu/pllm/internal/services/llm/models"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
 	"go.uber.org/zap"
 )
 
 type ImagesHandler struct {
 	logger         *zap.Logger
 	modelManager   *models.ModelManager
-	metricsEmitter *services.MetricEventEmitter
+	metricsEmitter *metrics.MetricEventEmitter
 }
 
 func NewImagesHandler(logger *zap.Logger, modelManager *models.ModelManager) *ImagesHandler {
@@ -24,7 +24,7 @@ func NewImagesHandler(logger *zap.Logger, modelManager *models.ModelManager) *Im
 	}
 }
 
-func NewImagesHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, metricsEmitter *services.MetricEventEmitter) *ImagesHandler {
+func NewImagesHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, metricsEmitter *metrics.MetricEventEmitter) *ImagesHandler {
 	return &ImagesHandler{
 		logger:         logger,
 		modelManager:   modelManager,
diff --git a/internal/handlers/llm_auth_test.go b/internal/api/handlers/llm_auth_test.go
similarity index 96%
rename from internal/handlers/llm_auth_test.go
rename to internal/api/handlers/llm_auth_test.go
index d96d564..f0a6dfb 100644
--- a/internal/handlers/llm_auth_test.go
+++ b/internal/api/handlers/llm_auth_test.go
@@ -16,14 +16,14 @@ import (
 	"go.uber.org/zap"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/auth"
-	"github.com/amerfu/pllm/internal/config"
-	"github.com/amerfu/pllm/internal/middleware"
-	"github.com/amerfu/pllm/internal/models"
-	"github.com/amerfu/pllm/internal/services/key"
-	modelsService "github.com/amerfu/pllm/internal/services/models"
-	"github.com/amerfu/pllm/internal/services/providers"
-	"github.com/amerfu/pllm/internal/testutil"
+	"github.com/amerfu/pllm/internal/core/auth"
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/infrastructure/middleware"
+	"github.com/amerfu/pllm/internal/core/models"
+	"github.com/amerfu/pllm/internal/services/integrations/key"
+	modelsService "github.com/amerfu/pllm/internal/services/llm/models"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
+	"github.com/amerfu/pllm/internal/infrastructure/testutil"
 )
 
 // newTestLoggerLLM creates a test logger for LLM tests
@@ -38,10 +38,8 @@ func newTestLoggerLLM(t *testing.T) *zap.Logger {
 func createMockModelManager() *modelsService.ModelManager {
 	// Create a minimal mock that won't panic
 	logger, _ := zap.NewDevelopment()
-	router := config.RouterSettings{
-		CircuitBreakerEnabled: false,
-	}
-	manager := modelsService.NewModelManager(logger, router)
+	router := config.RouterSettings{}
+	manager := modelsService.NewModelManager(logger, router, nil)
 	return manager
 }
 
diff --git a/internal/handlers/messages.go b/internal/api/handlers/messages.go
similarity index 97%
rename from internal/handlers/messages.go
rename to internal/api/handlers/messages.go
index f194452..41f3ee3 100644
--- a/internal/handlers/messages.go
+++ b/internal/api/handlers/messages.go
@@ -6,17 +6,17 @@ import (
 	"net/http"
 	"time"
 
-	"github.com/amerfu/pllm/internal/middleware"
-	"github.com/amerfu/pllm/internal/services"
-	"github.com/amerfu/pllm/internal/services/models"
-	"github.com/amerfu/pllm/internal/services/providers"
+	"github.com/amerfu/pllm/internal/infrastructure/middleware"
+	"github.com/amerfu/pllm/internal/services/monitoring/metrics"
+	"github.com/amerfu/pllm/internal/services/llm/models"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
 	"go.uber.org/zap"
 )
 
 type MessagesHandler struct {
 	logger         *zap.Logger
 	modelManager   *models.ModelManager
-	metricsEmitter *services.MetricEventEmitter
+	metricsEmitter *metrics.MetricEventEmitter
 }
 
 func NewMessagesHandler(logger *zap.Logger, modelManager *models.ModelManager) *MessagesHandler {
@@ -26,7 +26,7 @@ func NewMessagesHandler(logger *zap.Logger, modelManager *models.ModelManager) *
 	}
 }
 
-func NewMessagesHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, metricsEmitter *services.MetricEventEmitter) *MessagesHandler {
+func NewMessagesHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, metricsEmitter *metrics.MetricEventEmitter) *MessagesHandler {
 	return &MessagesHandler{
 		logger:         logger,
 		modelManager:   modelManager,
diff --git a/internal/handlers/messages_test.go b/internal/api/handlers/messages_test.go
similarity index 98%
rename from internal/handlers/messages_test.go
rename to internal/api/handlers/messages_test.go
index b6ebb86..0a752bd 100644
--- a/internal/handlers/messages_test.go
+++ b/internal/api/handlers/messages_test.go
@@ -10,9 +10,9 @@ import (
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 
-	"github.com/amerfu/pllm/internal/middleware"
-	"github.com/amerfu/pllm/internal/services/providers"
-	"github.com/amerfu/pllm/internal/testutil"
+	"github.com/amerfu/pllm/internal/infrastructure/middleware"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
+	"github.com/amerfu/pllm/internal/infrastructure/testutil"
 )
 
 
diff --git a/internal/handlers/model_management.go b/internal/api/handlers/model_management.go
similarity index 99%
rename from internal/handlers/model_management.go
rename to internal/api/handlers/model_management.go
index 25707e3..06da78e 100644
--- a/internal/handlers/model_management.go
+++ b/internal/api/handlers/model_management.go
@@ -5,7 +5,7 @@ import (
 	"net/http"
 
 	"github.com/go-chi/chi/v5"
-	"github.com/amerfu/pllm/internal/config"
+	"github.com/amerfu/pllm/internal/core/config"
 )
 
 // ModelManagementHandler handles model pricing and configuration endpoints
diff --git a/internal/handlers/models.go b/internal/api/handlers/models.go
similarity index 91%
rename from internal/handlers/models.go
rename to internal/api/handlers/models.go
index 2c56eba..576ee8e 100644
--- a/internal/handlers/models.go
+++ b/internal/api/handlers/models.go
@@ -4,10 +4,10 @@ import (
 	"encoding/json"
 	"net/http"
 
-	"github.com/amerfu/pllm/internal/config"
-	"github.com/amerfu/pllm/internal/services"
-	"github.com/amerfu/pllm/internal/services/models"
-	"github.com/amerfu/pllm/internal/services/providers"
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/services/monitoring/metrics"
+	"github.com/amerfu/pllm/internal/services/llm/models"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
 	"go.uber.org/zap"
 )
 
@@ -15,7 +15,7 @@ type ModelsHandler struct {
 	logger         *zap.Logger
 	modelManager   *models.ModelManager
 	pricingManager *config.ModelPricingManager
-	metricsEmitter *services.MetricEventEmitter
+	metricsEmitter *metrics.MetricEventEmitter
 }
 
 func NewModelsHandler(logger *zap.Logger, modelManager *models.ModelManager, pricingManager *config.ModelPricingManager) *ModelsHandler {
@@ -26,7 +26,7 @@ func NewModelsHandler(logger *zap.Logger, modelManager *models.ModelManager, pri
 	}
 }
 
-func NewModelsHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, pricingManager *config.ModelPricingManager, metricsEmitter *services.MetricEventEmitter) *ModelsHandler {
+func NewModelsHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, pricingManager *config.ModelPricingManager, metricsEmitter *metrics.MetricEventEmitter) *ModelsHandler {
 	return &ModelsHandler{
 		logger:         logger,
 		modelManager:   modelManager,
diff --git a/internal/handlers/moderation.go b/internal/api/handlers/moderation.go
similarity index 85%
rename from internal/handlers/moderation.go
rename to internal/api/handlers/moderation.go
index 089c57f..44206ce 100644
--- a/internal/handlers/moderation.go
+++ b/internal/api/handlers/moderation.go
@@ -4,16 +4,16 @@ import (
 	"encoding/json"
 	"net/http"
 
-	"github.com/amerfu/pllm/internal/services"
-	"github.com/amerfu/pllm/internal/services/models"
-	"github.com/amerfu/pllm/internal/services/providers"
+	"github.com/amerfu/pllm/internal/services/monitoring/metrics"
+	"github.com/amerfu/pllm/internal/services/llm/models"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
 	"go.uber.org/zap"
 )
 
 type ModerationHandler struct {
 	logger         *zap.Logger
 	modelManager   *models.ModelManager
-	metricsEmitter *services.MetricEventEmitter
+	metricsEmitter *metrics.MetricEventEmitter
 }
 
 func NewModerationHandler(logger *zap.Logger, modelManager *models.ModelManager) *ModerationHandler {
@@ -23,7 +23,7 @@ func NewModerationHandler(logger *zap.Logger, modelManager *models.ModelManager)
 	}
 }
 
-func NewModerationHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, metricsEmitter *services.MetricEventEmitter) *ModerationHandler {
+func NewModerationHandlerWithMetrics(logger *zap.Logger, modelManager *models.ModelManager, metricsEmitter *metrics.MetricEventEmitter) *ModerationHandler {
 	return &ModerationHandler{
 		logger:         logger,
 		modelManager:   modelManager,
diff --git a/internal/handlers/realtime.go b/internal/api/handlers/realtime.go
similarity index 98%
rename from internal/handlers/realtime.go
rename to internal/api/handlers/realtime.go
index b17b776..d77d1be 100644
--- a/internal/handlers/realtime.go
+++ b/internal/api/handlers/realtime.go
@@ -7,10 +7,10 @@ import (
 	"net/http"
 	"time"
 
-	"github.com/amerfu/pllm/internal/models"
-	modelsService "github.com/amerfu/pllm/internal/services/models"
-	"github.com/amerfu/pllm/internal/services/providers"
-	"github.com/amerfu/pllm/internal/services/realtime"
+	"github.com/amerfu/pllm/internal/core/models"
+	modelsService "github.com/amerfu/pllm/internal/services/llm/models"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
+	"github.com/amerfu/pllm/internal/services/llm/realtime"
 	"github.com/go-chi/chi/v5"
 	"github.com/google/uuid"
 	"github.com/gorilla/websocket"
diff --git a/internal/handlers/realtime_basic_test.go b/internal/api/handlers/realtime_basic_test.go
similarity index 98%
rename from internal/handlers/realtime_basic_test.go
rename to internal/api/handlers/realtime_basic_test.go
index 4ea9d5d..a4a8c82 100644
--- a/internal/handlers/realtime_basic_test.go
+++ b/internal/api/handlers/realtime_basic_test.go
@@ -8,8 +8,8 @@ import (
 	"testing"
 	"time"
 
-	"github.com/amerfu/pllm/internal/models"
-	"github.com/amerfu/pllm/internal/services/realtime"
+	"github.com/amerfu/pllm/internal/core/models"
+	"github.com/amerfu/pllm/internal/services/llm/realtime"
 	"github.com/go-chi/chi/v5"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
diff --git a/internal/router/admin.go b/internal/api/router/admin.go
similarity index 97%
rename from internal/router/admin.go
rename to internal/api/router/admin.go
index 9f1667c..cf49b02 100644
--- a/internal/router/admin.go
+++ b/internal/api/router/admin.go
@@ -4,14 +4,14 @@ import (
 	"log"
 	"net/http"
 
-	"github.com/amerfu/pllm/internal/auth"
-	"github.com/amerfu/pllm/internal/config"
-	"github.com/amerfu/pllm/internal/handlers"
-	"github.com/amerfu/pllm/internal/handlers/admin"
-	"github.com/amerfu/pllm/internal/middleware"
-	"github.com/amerfu/pllm/internal/services/budget"
-	"github.com/amerfu/pllm/internal/services/guardrails"
-	"github.com/amerfu/pllm/internal/services/team"
+	"github.com/amerfu/pllm/internal/core/auth"
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/api/handlers"
+	"github.com/amerfu/pllm/internal/api/handlers/admin"
+	"github.com/amerfu/pllm/internal/infrastructure/middleware"
+	"github.com/amerfu/pllm/internal/services/data/budget"
+	"github.com/amerfu/pllm/internal/services/integrations/guardrails"
+	"github.com/amerfu/pllm/internal/services/integrations/team"
 	"github.com/go-chi/chi/v5"
 	chiMiddleware "github.com/go-chi/chi/v5/middleware"
 	"github.com/go-chi/cors"
diff --git a/internal/router/metrics.go b/internal/api/router/metrics.go
similarity index 95%
rename from internal/router/metrics.go
rename to internal/api/router/metrics.go
index 278ce5b..6c17040 100644
--- a/internal/router/metrics.go
+++ b/internal/api/router/metrics.go
@@ -4,7 +4,7 @@ import (
 	"log"
 	"net/http"
 
-	"github.com/amerfu/pllm/internal/config"
+	"github.com/amerfu/pllm/internal/core/config"
 	"github.com/go-chi/chi/v5"
 	chiMiddleware "github.com/go-chi/chi/v5/middleware"
 	"github.com/prometheus/client_golang/prometheus/promhttp"
diff --git a/internal/router/router.go b/internal/api/router/router.go
similarity index 94%
rename from internal/router/router.go
rename to internal/api/router/router.go
index ac8e3ad..4b0775a 100644
--- a/internal/router/router.go
+++ b/internal/api/router/router.go
@@ -5,22 +5,22 @@ import (
 	"net/http"
 	"time"
 
-	"github.com/amerfu/pllm/internal/auth"
-	"github.com/amerfu/pllm/internal/config"
-	"github.com/amerfu/pllm/internal/docs"
-	"github.com/amerfu/pllm/internal/handlers"
-	"github.com/amerfu/pllm/internal/handlers/admin"
-	"github.com/amerfu/pllm/internal/middleware"
-	"github.com/amerfu/pllm/internal/services"
-	"github.com/amerfu/pllm/internal/services/budget"
-	"github.com/amerfu/pllm/internal/services/cache"
-	"github.com/amerfu/pllm/internal/services/guardrails"
-	"github.com/amerfu/pllm/internal/services/key"
-	"github.com/amerfu/pllm/internal/services/models"
-	"github.com/amerfu/pllm/internal/services/realtime"
-	redisService "github.com/amerfu/pllm/internal/services/redis"
-	"github.com/amerfu/pllm/internal/services/team"
-	"github.com/amerfu/pllm/internal/ui"
+	"github.com/amerfu/pllm/internal/core/auth"
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/api/docs"
+	"github.com/amerfu/pllm/internal/api/handlers"
+	"github.com/amerfu/pllm/internal/api/handlers/admin"
+	"github.com/amerfu/pllm/internal/infrastructure/middleware"
+	"github.com/amerfu/pllm/internal/services/monitoring/metrics"
+	"github.com/amerfu/pllm/internal/services/data/budget"
+	"github.com/amerfu/pllm/internal/services/data/cache"
+	"github.com/amerfu/pllm/internal/services/integrations/guardrails"
+	"github.com/amerfu/pllm/internal/services/integrations/key"
+	"github.com/amerfu/pllm/internal/services/llm/models"
+	"github.com/amerfu/pllm/internal/services/llm/realtime"
+	redisService "github.com/amerfu/pllm/internal/services/data/redis"
+	"github.com/amerfu/pllm/internal/services/integrations/team"
+	"github.com/amerfu/pllm/internal/api/ui"
 	"github.com/go-chi/chi/v5"
 	chiMiddleware "github.com/go-chi/chi/v5/middleware"
 	"github.com/go-chi/cors"
@@ -96,10 +96,10 @@ func NewRouter(cfg *config.Config, logger *zap.Logger, modelManager *models.Mode
 	}
 
 	// Initialize metrics service if database and Redis are available
-	var metricsService *services.MetricsService
-	var metricsEmitter *services.MetricEventEmitter
+	var metricsService *metrics.MetricsService
+	var metricsEmitter *metrics.MetricEventEmitter
 	if db != nil {
-		metricsConfig := &services.MetricsServiceConfig{
+		metricsConfig := &metrics.MetricsServiceConfig{
 			DB:                db,
 			Redis:             redisClient,
 			Logger:            logger,
@@ -111,7 +111,7 @@ func NewRouter(cfg *config.Config, logger *zap.Logger, modelManager *models.Mode
 			MonitoringPort:    8082,
 		}
 
-		metricsService, err = services.NewMetricsService(metricsConfig)
+		metricsService, err = metrics.NewMetricsService(metricsConfig)
 		if err != nil {
 			logger.Warn("Failed to initialize metrics service", zap.Error(err))
 		} else {
@@ -131,7 +131,7 @@ func NewRouter(cfg *config.Config, logger *zap.Logger, modelManager *models.Mode
 		zap.Bool("db_exists", db != nil),
 		zap.Bool("model_manager_exists", modelManager != nil))
 	if db != nil && modelManager != nil {
-		historicalCollector := services.NewMetricsCollector(db, logger, modelManager)
+		historicalCollector := metrics.NewMetricsCollector(db, logger, modelManager)
 		historicalCollector.Start()
 		logger.Info("Historical metrics collector started")
 	} else {
diff --git a/internal/api/router/router_integration_test.go b/internal/api/router/router_integration_test.go
new file mode 100644
index 0000000..6bde14e
--- /dev/null
+++ b/internal/api/router/router_integration_test.go
@@ -0,0 +1,458 @@
+package router
+
+import (
+	"bytes"
+	"encoding/json"
+	"net/http"
+	"net/http/httptest"
+	"sync"
+	"testing"
+	"time"
+
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/core/database"
+	"github.com/amerfu/pllm/pkg/logger"
+	"github.com/amerfu/pllm/internal/services/data/cache"
+	"github.com/amerfu/pllm/internal/services/llm/models"
+	"github.com/amerfu/pllm/internal/infrastructure/testutil"
+	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
+	"gorm.io/gorm"
+)
+
+// TestRouterIntegration tests end-to-end router functionality
+func TestRouterIntegration(t *testing.T) {
+	// Setup test database
+	db, cleanup := testutil.NewTestDB(t)
+	defer cleanup()
+
+	// Set global DB for health checks
+	oldDB := database.DB
+	database.DB = db
+	defer func() { database.DB = oldDB }()
+
+	// Setup Redis using test container
+	_, redisURL, redisCleanup := testutil.NewTestRedisWithURL(t)
+	defer redisCleanup()
+
+	// Initialize cache for health checks
+	cache.Initialize(&cache.Config{
+		RedisURL: redisURL,
+		TTL:      5 * time.Minute,
+	})
+
+	// Setup test config
+	cfg := &config.Config{
+		Redis: config.RedisConfig{
+			URL:      redisURL,
+			Password: "",
+			DB:       0,
+		},
+		Auth: config.AuthConfig{
+			MasterKey: "test-master-key-123",
+		},
+		JWT: config.JWTConfig{
+			SecretKey:           "test-jwt-secret-key-for-testing",
+			AccessTokenDuration: time.Hour,
+		},
+		CORS: config.CORSConfig{
+			AllowedOrigins:   []string{"*"},
+			AllowedMethods:   []string{"GET", "POST", "PUT", "DELETE", "OPTIONS"},
+			AllowedHeaders:   []string{"*"},
+			ExposedHeaders:   []string{"*"},
+			AllowCredentials: true,
+			MaxAge:           3600,
+		},
+		RateLimit: config.RateLimitConfig{
+			Enabled: true,
+		},
+		Cache: config.CacheConfig{
+			Enabled: false, // Disable for testing
+		},
+	}
+
+	// Setup logger
+	logger := logger.NewLogger("test", "info")
+
+	// Setup model manager with test models
+	routerSettings := config.RouterSettings{
+		RoutingStrategy:     "weighted",
+		HealthCheckInterval: 30 * time.Second,
+		EnableLoadBalancing: true,
+		MaxRetries:          3,
+		DefaultTimeout:      5 * time.Second,
+	}
+	modelManager := models.NewModelManager(logger, routerSettings, nil)
+	
+	// Load test model instances
+	testInstances := []config.ModelInstance{
+		{
+			ID:           "gpt-4-instance-1",
+			ModelName:    "gpt-4",
+			InstanceName: "gpt-4-instance-1",
+			Provider: config.ProviderParams{
+				Type:     "openai",
+				BaseURL:  "https://api.openai.com/v1",
+				APIKey:   "test-key-1",
+			},
+			Weight:   10,
+			Priority: 50,
+		},
+		{
+			ID:           "gpt-3.5-turbo-instance-1",
+			ModelName:    "gpt-3.5-turbo",
+			InstanceName: "gpt-3.5-turbo-instance-1",
+			Provider: config.ProviderParams{
+				Type:     "openai",
+				BaseURL:  "https://api.openai.com/v1",
+				APIKey:   "test-key-2",
+			},
+			Weight:   10,
+			Priority: 50,
+		},
+	}
+	err := modelManager.LoadModelInstances(testInstances)
+	require.NoError(t, err)
+
+	// Create pricing manager for tests
+	pricingManager := config.GetPricingManager()
+
+	// Create router
+	router := NewRouter(cfg, logger, modelManager, db, pricingManager)
+
+	t.Run("Health Endpoints", func(t *testing.T) {
+		testHealthEndpoints(t, router)
+	})
+
+	t.Run("Authentication Flow", func(t *testing.T) {
+		testAuthenticationFlow(t, router, db)
+	})
+
+	t.Run("Load Balancing", func(t *testing.T) {
+		testLoadBalancing(t, router)
+	})
+
+	t.Run("Concurrent Request Handling", func(t *testing.T) {
+		testConcurrentRequests(t, router, db)
+	})
+
+	t.Run("Redis Integration", func(t *testing.T) {
+		testRedisIntegration(t, router)
+	})
+}
+
+func testHealthEndpoints(t *testing.T, router http.Handler) {
+	tests := []struct {
+		name     string
+		endpoint string
+		expected int
+	}{
+		{"Health Check", "/health", http.StatusOK},
+		{"Ready Check", "/ready", http.StatusOK},
+		{"Metrics", "/metrics", http.StatusOK},
+	}
+
+	for _, tt := range tests {
+		t.Run(tt.name, func(t *testing.T) {
+			req := httptest.NewRequest("GET", tt.endpoint, nil)
+			w := httptest.NewRecorder()
+			router.ServeHTTP(w, req)
+			assert.Equal(t, tt.expected, w.Code)
+		})
+	}
+}
+
+func testAuthenticationFlow(t *testing.T, router http.Handler, db *gorm.DB) {
+	// Test master key authentication
+	t.Run("Master Key Auth", func(t *testing.T) {
+		req := httptest.NewRequest("GET", "/v1/models", nil)
+		req.Header.Set("Authorization", "Bearer test-master-key-123")
+		w := httptest.NewRecorder()
+		router.ServeHTTP(w, req)
+		assert.Equal(t, http.StatusOK, w.Code)
+	})
+
+	// Test invalid authentication
+	t.Run("Invalid Auth", func(t *testing.T) {
+		req := httptest.NewRequest("GET", "/v1/models", nil)
+		req.Header.Set("Authorization", "Bearer invalid-key")
+		w := httptest.NewRecorder()
+		router.ServeHTTP(w, req)
+		assert.Equal(t, http.StatusUnauthorized, w.Code)
+	})
+
+	// Test missing authentication
+	t.Run("Missing Auth", func(t *testing.T) {
+		req := httptest.NewRequest("GET", "/v1/models", nil)
+		w := httptest.NewRecorder()
+		router.ServeHTTP(w, req)
+		assert.Equal(t, http.StatusUnauthorized, w.Code)
+	})
+}
+
+func testLoadBalancing(t *testing.T, router http.Handler) {
+	// Test model selection and load distribution
+	t.Run("Model Selection", func(t *testing.T) {
+		chatRequest := map[string]interface{}{
+			"model": "gpt-4",
+			"messages": []map[string]interface{}{
+				{"role": "user", "content": "Hello, world!"},
+			},
+			"max_tokens": 10,
+		}
+
+		body, _ := json.Marshal(chatRequest)
+		req := httptest.NewRequest("POST", "/v1/chat/completions", bytes.NewReader(body))
+		req.Header.Set("Authorization", "Bearer test-master-key-123")
+		req.Header.Set("Content-Type", "application/json")
+		
+		w := httptest.NewRecorder()
+		router.ServeHTTP(w, req)
+
+		// Should get an error response (either 401 for missing key/budget or 503 for no providers)
+		// but this proves routing logic works without crashing
+		assert.True(t, w.Code >= 400, "Should return error status, got %d", w.Code)
+	})
+}
+
+func testConcurrentRequests(t *testing.T, router http.Handler, db *gorm.DB) {
+	// Test high concurrent load
+	const numRequests = 100
+	const numWorkers = 10
+
+	var wg sync.WaitGroup
+	results := make(chan int, numRequests)
+
+	// Create worker pool
+	requests := make(chan int, numRequests)
+	for i := 0; i < numWorkers; i++ {
+		wg.Add(1)
+		go func() {
+			defer wg.Done()
+			for range requests {
+				req := httptest.NewRequest("GET", "/health", nil)
+				w := httptest.NewRecorder()
+				router.ServeHTTP(w, req)
+				results <- w.Code
+			}
+		}()
+	}
+
+	// Send requests
+	start := time.Now()
+	for i := 0; i < numRequests; i++ {
+		requests <- i
+	}
+	close(requests)
+
+	// Wait for completion
+	wg.Wait()
+	close(results)
+	duration := time.Since(start)
+
+	// Collect results
+	statusCodes := make(map[int]int)
+	for code := range results {
+		statusCodes[code]++
+	}
+
+	// Assertions for banking-grade performance
+	assert.True(t, duration < 5*time.Second, "Should handle %d requests in <5s, took %v", numRequests, duration)
+	assert.Equal(t, numRequests, statusCodes[200], "All health checks should succeed")
+	
+	// Calculate requests per second
+	rps := float64(numRequests) / duration.Seconds()
+	assert.True(t, rps > 20, "Should achieve >20 RPS, got %.2f", rps)
+	
+	t.Logf("Handled %d concurrent requests in %v (%.2f RPS)", numRequests, duration, rps)
+}
+
+func testRedisIntegration(t *testing.T, router http.Handler) {
+	// Test Redis connectivity and caching
+	t.Run("Redis Health", func(t *testing.T) {
+		// This is indirectly tested by router startup
+		// If Redis was down, router creation would fail
+		assert.NotNil(t, router, "Router should initialize with Redis")
+	})
+}
+
+// TestRouterLatencyRequirements tests banking-specific latency requirements
+func TestRouterLatencyRequirements(t *testing.T) {
+	// Setup minimal router for latency testing
+	db, cleanup := testutil.NewTestDB(t)
+	defer cleanup()
+
+	// Set global DB for health checks
+	oldDB := database.DB
+	database.DB = db
+	defer func() { database.DB = oldDB }()
+
+	_, redisURL, redisCleanup := testutil.NewTestRedisWithURL(t)
+	defer redisCleanup()
+
+	// Initialize cache for health checks
+	cache.Initialize(&cache.Config{
+		RedisURL: redisURL,
+		TTL:      5 * time.Minute,
+	})
+
+	cfg := &config.Config{
+		Redis: config.RedisConfig{URL: redisURL},
+		Auth:  config.AuthConfig{MasterKey: "test-key"},
+		JWT:   config.JWTConfig{SecretKey: "test-jwt-secret", AccessTokenDuration: time.Hour},
+		CORS:  config.CORSConfig{AllowedOrigins: []string{"*"}},
+	}
+
+	logger := logger.NewLogger("test", "info")
+	routerSettings := config.RouterSettings{
+		RoutingStrategy:     "weighted",
+		HealthCheckInterval: 30 * time.Second,
+		EnableLoadBalancing: true,
+		MaxRetries:          3,
+		DefaultTimeout:      5 * time.Second,
+	}
+	modelManager := models.NewModelManager(logger, routerSettings, nil)
+	pricingManager := config.GetPricingManager()
+	router := NewRouter(cfg, logger, modelManager, db, pricingManager)
+
+	// Banking latency requirements
+	const (
+		p95Target = 100 * time.Millisecond  // 95th percentile under 100ms
+		p99Target = 500 * time.Millisecond  // 99th percentile under 500ms
+		maxTarget = 2 * time.Second         // No request over 2s
+	)
+
+	latencies := make([]time.Duration, 1000)
+
+	// Measure latencies
+	for i := 0; i < 1000; i++ {
+		start := time.Now()
+		
+		req := httptest.NewRequest("GET", "/health", nil)
+		w := httptest.NewRecorder()
+		router.ServeHTTP(w, req)
+		
+		latencies[i] = time.Since(start)
+		assert.Equal(t, http.StatusOK, w.Code)
+	}
+
+	// Calculate percentiles
+	latenciesCopy := make([]time.Duration, len(latencies))
+	copy(latenciesCopy, latencies)
+	
+	// Sort for percentile calculation
+	for i := 0; i < len(latenciesCopy)-1; i++ {
+		for j := i + 1; j < len(latenciesCopy); j++ {
+			if latenciesCopy[i] > latenciesCopy[j] {
+				latenciesCopy[i], latenciesCopy[j] = latenciesCopy[j], latenciesCopy[i]
+			}
+		}
+	}
+
+	p95 := latenciesCopy[int(0.95*float64(len(latenciesCopy)))]
+	p99 := latenciesCopy[int(0.99*float64(len(latenciesCopy)))]
+	max := latenciesCopy[len(latenciesCopy)-1]
+
+	// Banking-grade assertions
+	assert.True(t, p95 < p95Target, "P95 latency %v should be < %v", p95, p95Target)
+	assert.True(t, p99 < p99Target, "P99 latency %v should be < %v", p99, p99Target)
+	assert.True(t, max < maxTarget, "Max latency %v should be < %v", max, maxTarget)
+
+	t.Logf("Latency Results: P95=%v, P99=%v, Max=%v", p95, p99, max)
+}
+
+// TestRouterFailover tests failover scenarios critical for banking
+func TestRouterFailover(t *testing.T) {
+	db, cleanup := testutil.NewTestDB(t)
+	defer cleanup()
+
+	// Set global DB for health checks
+	oldDB := database.DB
+	database.DB = db
+	defer func() { database.DB = oldDB }()
+
+	_, redisURL, redisCleanup := testutil.NewTestRedisWithURL(t)
+	defer redisCleanup()
+
+	// Initialize cache for health checks
+	cache.Initialize(&cache.Config{
+		RedisURL: redisURL,
+		TTL:      5 * time.Minute,
+	})
+
+	cfg := &config.Config{
+		Redis: config.RedisConfig{URL: redisURL},
+		Auth:  config.AuthConfig{MasterKey: "test-key"},
+		JWT:   config.JWTConfig{SecretKey: "test-jwt-secret", AccessTokenDuration: time.Hour},
+	}
+
+	logger := logger.NewLogger("test", "info")
+	routerSettings := config.RouterSettings{
+		RoutingStrategy:     "weighted",
+		HealthCheckInterval: 30 * time.Second,
+		EnableLoadBalancing: true,
+		MaxRetries:          3,
+		DefaultTimeout:      5 * time.Second,
+	}
+	modelManager := models.NewModelManager(logger, routerSettings, nil)
+	pricingManager := config.GetPricingManager()
+
+	// Load test model instances for failover testing
+	testInstances := []config.ModelInstance{
+		{
+			ID:           "primary-model-instance",
+			ModelName:    "primary-model",
+			InstanceName: "primary-model-instance",
+			Provider: config.ProviderParams{
+				Type:     "openai",
+				BaseURL:  "https://api.openai.com/v1",
+				APIKey:   "primary-key",
+			},
+			Weight:   10,
+			Priority: 50,
+		},
+		{
+			ID:           "backup-model-instance",
+			ModelName:    "backup-model",
+			InstanceName: "backup-model-instance",
+			Provider: config.ProviderParams{
+				Type:     "openai",
+				BaseURL:  "https://api.openai.com/v1",
+				APIKey:   "backup-key",
+			},
+			Weight:   10,
+			Priority: 50,
+		},
+	}
+	err := modelManager.LoadModelInstances(testInstances)
+	require.NoError(t, err)
+
+	router := NewRouter(cfg, logger, modelManager, db, pricingManager)
+
+	t.Run("Model Failover", func(t *testing.T) {
+		// Test that requests to unavailable models fail gracefully
+		chatRequest := map[string]interface{}{
+			"model": "unavailable-model",
+			"messages": []map[string]interface{}{
+				{"role": "user", "content": "test"},
+			},
+		}
+
+		body, _ := json.Marshal(chatRequest)
+		req := httptest.NewRequest("POST", "/v1/chat/completions", bytes.NewReader(body))
+		req.Header.Set("Authorization", "Bearer test-master-key-123")
+		req.Header.Set("Content-Type", "application/json")
+
+		w := httptest.NewRecorder()
+		router.ServeHTTP(w, req)
+
+		// Should fail gracefully, not crash
+		assert.True(t, w.Code >= 400, "Should handle model unavailability gracefully")
+
+		// Response should be JSON
+		var response map[string]interface{}
+		err := json.Unmarshal(w.Body.Bytes(), &response)
+		assert.NoError(t, err, "Response should be valid JSON")
+		assert.Contains(t, response, "error", "Should contain error field")
+	})
+}
\ No newline at end of file
diff --git a/internal/ui/embed.go b/internal/api/ui/embed.go
similarity index 100%
rename from internal/ui/embed.go
rename to internal/api/ui/embed.go
diff --git a/internal/ui/handler.go b/internal/api/ui/handler.go
similarity index 98%
rename from internal/ui/handler.go
rename to internal/api/ui/handler.go
index 5f83b34..6e408ef 100644
--- a/internal/ui/handler.go
+++ b/internal/api/ui/handler.go
@@ -5,7 +5,7 @@ import (
 	"path"
 	"strings"
 
-	"github.com/amerfu/pllm/internal/config"
+	"github.com/amerfu/pllm/internal/core/config"
 	"go.uber.org/zap"
 )
 
diff --git a/internal/auth/auth_test.go b/internal/core/auth/auth_test.go
similarity index 98%
rename from internal/auth/auth_test.go
rename to internal/core/auth/auth_test.go
index aeae249..eb51ef5 100644
--- a/internal/auth/auth_test.go
+++ b/internal/core/auth/auth_test.go
@@ -9,9 +9,9 @@ import (
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 
-	"github.com/amerfu/pllm/internal/models"
-	"github.com/amerfu/pllm/internal/services/key"
-	"github.com/amerfu/pllm/internal/testutil"
+	"github.com/amerfu/pllm/internal/core/models"
+	"github.com/amerfu/pllm/internal/services/integrations/key"
+	"github.com/amerfu/pllm/internal/infrastructure/testutil"
 )
 
 
diff --git a/internal/auth/cache.go b/internal/core/auth/cache.go
similarity index 100%
rename from internal/auth/cache.go
rename to internal/core/auth/cache.go
diff --git a/internal/auth/cached_service.go b/internal/core/auth/cached_service.go
similarity index 99%
rename from internal/auth/cached_service.go
rename to internal/core/auth/cached_service.go
index 8f06c2a..b0ec1bb 100644
--- a/internal/auth/cached_service.go
+++ b/internal/core/auth/cached_service.go
@@ -9,7 +9,7 @@ import (
 	"github.com/google/uuid"
 	"go.uber.org/zap"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 // CachedAuthService wraps AuthService with caching capabilities
diff --git a/internal/auth/dex.go b/internal/core/auth/dex.go
similarity index 100%
rename from internal/auth/dex.go
rename to internal/core/auth/dex.go
diff --git a/internal/auth/jwt.go b/internal/core/auth/jwt.go
similarity index 100%
rename from internal/auth/jwt.go
rename to internal/core/auth/jwt.go
diff --git a/internal/auth/master.go b/internal/core/auth/master.go
similarity index 99%
rename from internal/auth/master.go
rename to internal/core/auth/master.go
index 30ca415..3bb4e0f 100644
--- a/internal/auth/master.go
+++ b/internal/core/auth/master.go
@@ -9,7 +9,7 @@ import (
 	"github.com/google/uuid"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 // MasterKeyService handles master key operations
diff --git a/internal/auth/permissions.go b/internal/core/auth/permissions.go
similarity index 99%
rename from internal/auth/permissions.go
rename to internal/core/auth/permissions.go
index d20241d..a4abace 100644
--- a/internal/auth/permissions.go
+++ b/internal/core/auth/permissions.go
@@ -4,7 +4,7 @@ import (
 	"context"
 	"sync"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 	"github.com/google/uuid"
 )
 
diff --git a/internal/auth/service.go b/internal/core/auth/service.go
similarity index 99%
rename from internal/auth/service.go
rename to internal/core/auth/service.go
index 7d20ffd..0d1bfe7 100644
--- a/internal/auth/service.go
+++ b/internal/core/auth/service.go
@@ -12,7 +12,7 @@ import (
 	"github.com/google/uuid"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 // Forward declarations to avoid circular imports
diff --git a/internal/config/config.go b/internal/core/config/config.go
similarity index 100%
rename from internal/config/config.go
rename to internal/core/config/config.go
diff --git a/internal/config/guardrails.go b/internal/core/config/guardrails.go
similarity index 100%
rename from internal/config/guardrails.go
rename to internal/core/config/guardrails.go
diff --git a/internal/config/model_config.go b/internal/core/config/model_config.go
similarity index 87%
rename from internal/config/model_config.go
rename to internal/core/config/model_config.go
index 88e380b..ae3025f 100644
--- a/internal/config/model_config.go
+++ b/internal/core/config/model_config.go
@@ -98,20 +98,18 @@ type ModelInfo struct {
 type RouterSettings struct {
 	RoutingStrategy     string        `mapstructure:"routing_strategy" json:"routing_strategy"` // "simple", "least-busy", "usage-based", "latency-based", "priority", "weighted"
 	AllowedFailures     int           `mapstructure:"allowed_failures" json:"allowed_failures"` // Before marking unhealthy
-	FallbackModels      []string      `mapstructure:"fallback_models" json:"fallback_models"`   // Model names to fallback to
 	CacheTTL            time.Duration `mapstructure:"cache_ttl" json:"cache_ttl"`               // Cache duration
 	DefaultTimeout      time.Duration `mapstructure:"default_timeout" json:"default_timeout"`
 	MaxRetries          int           `mapstructure:"max_retries" json:"max_retries"`
 	EnableLoadBalancing bool          `mapstructure:"enable_load_balancing" json:"enable_load_balancing"`
 	HealthCheckInterval time.Duration `mapstructure:"health_check_interval" json:"health_check_interval"`
 
-	// Simple fallback configuration: model -> list of fallback models
-	Fallbacks map[string][]string `mapstructure:"fallbacks" json:"fallbacks"`
-
-	// Circuit breaker settings
-	CircuitBreakerEnabled   bool          `mapstructure:"circuit_breaker_enabled" json:"circuit_breaker_enabled"`
-	CircuitBreakerThreshold int           `mapstructure:"circuit_breaker_threshold" json:"circuit_breaker_threshold"` // Failures before opening
-	CircuitBreakerCooldown  time.Duration `mapstructure:"circuit_breaker_cooldown" json:"circuit_breaker_cooldown"`   // Time before retry
+	// Failover configuration
+	EnableFailover          bool              `mapstructure:"enable_failover" json:"enable_failover"`                       // Enable automatic failover
+	InstanceRetryAttempts   int               `mapstructure:"instance_retry_attempts" json:"instance_retry_attempts"`       // Retry attempts per instance (default: 2)
+	ModelFallbacks          map[string]string `mapstructure:"model_fallbacks" json:"model_fallbacks"`                       // Map of model -> fallback model
+	FailoverTimeoutMultiple float64           `mapstructure:"failover_timeout_multiple" json:"failover_timeout_multiple"`   // Timeout multiplier for failover attempts (default: 1.5)
+	EnableModelFallback     bool              `mapstructure:"enable_model_fallback" json:"enable_model_fallback"`           // Enable fallback to different models
 }
 
 // ModelGroup represents a logical grouping of model instances
diff --git a/internal/config/model_prices_and_context_window.json b/internal/core/config/model_prices_and_context_window.json
similarity index 100%
rename from internal/config/model_prices_and_context_window.json
rename to internal/core/config/model_prices_and_context_window.json
diff --git a/internal/config/model_pricing.go b/internal/core/config/model_pricing.go
similarity index 100%
rename from internal/config/model_pricing.go
rename to internal/core/config/model_pricing.go
diff --git a/internal/config/new_model_config.go b/internal/core/config/new_model_config.go
similarity index 100%
rename from internal/config/new_model_config.go
rename to internal/core/config/new_model_config.go
diff --git a/internal/database/connection.go b/internal/core/database/connection.go
similarity index 99%
rename from internal/database/connection.go
rename to internal/core/database/connection.go
index 96e700f..4f29c32 100644
--- a/internal/database/connection.go
+++ b/internal/core/database/connection.go
@@ -7,7 +7,7 @@ import (
 	"os"
 	"time"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 	"gorm.io/driver/postgres"
 	"gorm.io/gorm"
 	"gorm.io/gorm/logger"
diff --git a/internal/database/migrate.go b/internal/core/database/migrate.go
similarity index 97%
rename from internal/database/migrate.go
rename to internal/core/database/migrate.go
index 1dc22b4..afb101e 100644
--- a/internal/database/migrate.go
+++ b/internal/core/database/migrate.go
@@ -6,7 +6,7 @@ import (
 
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 // AutoMigrate runs database migrations
diff --git a/internal/database/migrations/002_add_dex_id.sql b/internal/core/database/migrations/002_add_dex_id.sql
similarity index 100%
rename from internal/database/migrations/002_add_dex_id.sql
rename to internal/core/database/migrations/002_add_dex_id.sql
diff --git a/internal/database/migrations/003_remove_password_column.sql b/internal/core/database/migrations/003_remove_password_column.sql
similarity index 100%
rename from internal/database/migrations/003_remove_password_column.sql
rename to internal/core/database/migrations/003_remove_password_column.sql
diff --git a/internal/database/seed.go b/internal/core/database/seed.go
similarity index 99%
rename from internal/database/seed.go
rename to internal/core/database/seed.go
index 1b9ece0..6727a3a 100644
--- a/internal/database/seed.go
+++ b/internal/core/database/seed.go
@@ -8,7 +8,7 @@ import (
 	"github.com/google/uuid"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 type Seeder struct {
diff --git a/internal/models/audit.go b/internal/core/models/audit.go
similarity index 100%
rename from internal/models/audit.go
rename to internal/core/models/audit.go
diff --git a/internal/models/base.go b/internal/core/models/base.go
similarity index 100%
rename from internal/models/base.go
rename to internal/core/models/base.go
diff --git a/internal/models/budget.go b/internal/core/models/budget.go
similarity index 100%
rename from internal/models/budget.go
rename to internal/core/models/budget.go
diff --git a/internal/models/key.go b/internal/core/models/key.go
similarity index 100%
rename from internal/models/key.go
rename to internal/core/models/key.go
diff --git a/internal/models/metrics.go b/internal/core/models/metrics.go
similarity index 100%
rename from internal/models/metrics.go
rename to internal/core/models/metrics.go
diff --git a/internal/models/model_pricing.go b/internal/core/models/model_pricing.go
similarity index 100%
rename from internal/models/model_pricing.go
rename to internal/core/models/model_pricing.go
diff --git a/internal/models/provider.go b/internal/core/models/provider.go
similarity index 98%
rename from internal/models/provider.go
rename to internal/core/models/provider.go
index 14fb593..a08f208 100644
--- a/internal/models/provider.go
+++ b/internal/core/models/provider.go
@@ -193,8 +193,6 @@ type RouterSettings struct {
 	Timeout                int                   `json:"timeout"`
 	AllowedFails           int                   `json:"allowed_fails"`
 	CooldownTime           int                   `json:"cooldown_time"`
-	Fallbacks              map[string][]string   `json:"fallbacks"`
-	ContextWindowFallbacks map[string][]string   `json:"context_window_fallbacks"`
 	ModelGroupAlias        map[string]string     `json:"model_group_alias"`
 	RedisHost              string                `json:"redis_host,omitempty"`
 	RedisPassword          string                `json:"-"`
diff --git a/internal/models/realtime.go b/internal/core/models/realtime.go
similarity index 100%
rename from internal/models/realtime.go
rename to internal/core/models/realtime.go
diff --git a/internal/models/realtime_simple_test.go b/internal/core/models/realtime_simple_test.go
similarity index 100%
rename from internal/models/realtime_simple_test.go
rename to internal/core/models/realtime_simple_test.go
diff --git a/internal/models/team.go b/internal/core/models/team.go
similarity index 100%
rename from internal/models/team.go
rename to internal/core/models/team.go
diff --git a/internal/models/usage.go b/internal/core/models/usage.go
similarity index 100%
rename from internal/models/usage.go
rename to internal/core/models/usage.go
diff --git a/internal/models/user.go b/internal/core/models/user.go
similarity index 100%
rename from internal/models/user.go
rename to internal/core/models/user.go
diff --git a/internal/middleware/auth.go b/internal/infrastructure/middleware/auth.go
similarity index 99%
rename from internal/middleware/auth.go
rename to internal/infrastructure/middleware/auth.go
index ec6a410..83f0e26 100644
--- a/internal/middleware/auth.go
+++ b/internal/infrastructure/middleware/auth.go
@@ -10,8 +10,8 @@ import (
 	"github.com/google/uuid"
 	"go.uber.org/zap"
 
-	"github.com/amerfu/pllm/internal/auth"
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/auth"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 type contextKey string
diff --git a/internal/middleware/budget_async.go b/internal/infrastructure/middleware/budget_async.go
similarity index 96%
rename from internal/middleware/budget_async.go
rename to internal/infrastructure/middleware/budget_async.go
index 21159f2..f853ee2 100644
--- a/internal/middleware/budget_async.go
+++ b/internal/infrastructure/middleware/budget_async.go
@@ -11,11 +11,11 @@ import (
 	"strings"
 	"time"
 
-	"github.com/amerfu/pllm/internal/auth"
-	"github.com/amerfu/pllm/internal/config"
-	"github.com/amerfu/pllm/internal/services/cache"
-	"github.com/amerfu/pllm/internal/services/providers"
-	redisService "github.com/amerfu/pllm/internal/services/redis"
+	"github.com/amerfu/pllm/internal/core/auth"
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/services/data/cache"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
+	redisService "github.com/amerfu/pllm/internal/services/data/redis"
 	"github.com/google/uuid"
 	"go.uber.org/zap"
 )
@@ -83,6 +83,12 @@ func (m *AsyncBudgetMiddleware) EnforceBudgetAsync(next http.Handler) http.Handl
 			return
 		}
 
+		// Check if master key is being used (bypasses budget checks)
+		if IsMasterKey(r.Context()) {
+			next.ServeHTTP(w, r)
+			return
+		}
+
 		// Get user/key context from authentication
 		userID, hasUser := GetUserID(r.Context())
 		key, hasKey := GetKey(r.Context())
diff --git a/internal/middleware/cache.go b/internal/infrastructure/middleware/cache.go
similarity index 98%
rename from internal/middleware/cache.go
rename to internal/infrastructure/middleware/cache.go
index 052512d..b7ac011 100644
--- a/internal/middleware/cache.go
+++ b/internal/infrastructure/middleware/cache.go
@@ -11,8 +11,8 @@ import (
 	"strings"
 	"time"
 
-	"github.com/amerfu/pllm/internal/config"
-	"github.com/amerfu/pllm/internal/services/cache"
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/services/data/cache"
 	"go.uber.org/zap"
 )
 
diff --git a/internal/middleware/guardrails.go b/internal/infrastructure/middleware/guardrails.go
similarity index 97%
rename from internal/middleware/guardrails.go
rename to internal/infrastructure/middleware/guardrails.go
index 9a17a0b..9eaf89c 100644
--- a/internal/middleware/guardrails.go
+++ b/internal/infrastructure/middleware/guardrails.go
@@ -8,9 +8,9 @@ import (
 
 	"go.uber.org/zap"
 
-	"github.com/amerfu/pllm/internal/models"
-	"github.com/amerfu/pllm/internal/services/guardrails"
-	"github.com/amerfu/pllm/internal/services/providers"
+	"github.com/amerfu/pllm/internal/core/models"
+	"github.com/amerfu/pllm/internal/services/integrations/guardrails"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
 )
 
 // GuardrailsMiddleware handles guardrails execution in the request pipeline
diff --git a/internal/middleware/logger.go b/internal/infrastructure/middleware/logger.go
similarity index 100%
rename from internal/middleware/logger.go
rename to internal/infrastructure/middleware/logger.go
diff --git a/internal/middleware/metrics.go b/internal/infrastructure/middleware/metrics.go
similarity index 100%
rename from internal/middleware/metrics.go
rename to internal/infrastructure/middleware/metrics.go
diff --git a/internal/middleware/metrics_middleware.go b/internal/infrastructure/middleware/metrics_middleware.go
similarity index 93%
rename from internal/middleware/metrics_middleware.go
rename to internal/infrastructure/middleware/metrics_middleware.go
index 00522de..69390bc 100644
--- a/internal/middleware/metrics_middleware.go
+++ b/internal/infrastructure/middleware/metrics_middleware.go
@@ -5,19 +5,19 @@ import (
 	"net/http"
 	"time"
 
-	"github.com/amerfu/pllm/internal/services"
+	"github.com/amerfu/pllm/internal/services/monitoring/metrics"
 	"github.com/google/uuid"
 	"go.uber.org/zap"
 )
 
 // AsyncMetricsMiddleware emits metric events without blocking requests
 type AsyncMetricsMiddleware struct {
-	emitter *services.MetricEventEmitter
+	emitter *metrics.MetricEventEmitter
 	logger  *zap.Logger
 }
 
 // NewAsyncMetricsMiddleware creates a new async metrics middleware
-func NewAsyncMetricsMiddleware(emitter *services.MetricEventEmitter, logger *zap.Logger) *AsyncMetricsMiddleware {
+func NewAsyncMetricsMiddleware(emitter *metrics.MetricEventEmitter, logger *zap.Logger) *AsyncMetricsMiddleware {
 	return &AsyncMetricsMiddleware{
 		emitter: emitter,
 		logger:  logger,
@@ -188,7 +188,7 @@ func SetUserInfo(ctx context.Context, userID, teamID, keyID string) {
 }
 
 // EmitRequestEvent emits a request start event
-func EmitRequestEvent(ctx context.Context, emitter *services.MetricEventEmitter) {
+func EmitRequestEvent(ctx context.Context, emitter *metrics.MetricEventEmitter) {
 	if metricsCtx := GetMetricsContext(ctx); metricsCtx != nil {
 		emitter.EmitRequest(
 			metricsCtx.ModelName,
@@ -201,7 +201,7 @@ func EmitRequestEvent(ctx context.Context, emitter *services.MetricEventEmitter)
 }
 
 // EmitDetailedResponse emits a detailed response event with token/cost information
-func EmitDetailedResponse(ctx context.Context, emitter *services.MetricEventEmitter,
+func EmitDetailedResponse(ctx context.Context, emitter *metrics.MetricEventEmitter,
 	tokens, promptTokens, outputTokens int64, cost float64, cacheHit bool) {
 	if metricsCtx := GetMetricsContext(ctx); metricsCtx != nil {
 		latency := time.Since(metricsCtx.StartTime).Milliseconds()
diff --git a/internal/infrastructure/middleware/middleware_test.go b/internal/infrastructure/middleware/middleware_test.go
new file mode 100644
index 0000000..a3d582d
--- /dev/null
+++ b/internal/infrastructure/middleware/middleware_test.go
@@ -0,0 +1,476 @@
+package middleware
+
+import (
+	"context"
+	"net/http"
+	"net/http/httptest"
+	"strings"
+	"sync"
+	"testing"
+	"time"
+
+	"github.com/amerfu/pllm/internal/core/auth"
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/pkg/logger"
+	redisService "github.com/amerfu/pllm/internal/services/data/redis"
+	"github.com/amerfu/pllm/internal/services/monitoring/metrics"
+	"github.com/amerfu/pllm/internal/infrastructure/testutil"
+	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
+)
+
+// TestAuthMiddleware tests authentication middleware
+func TestAuthMiddleware(t *testing.T) {
+	db, cleanup := testutil.NewTestDB(t)
+	defer cleanup()
+
+	// Setup auth services
+	masterKeyService := auth.NewMasterKeyService(&auth.MasterKeyConfig{
+		DB:          db,
+		MasterKey:   "test-master-key",
+		JWTSecret:   []byte("test-jwt-secret"),
+		JWTIssuer:   "pllm",
+		TokenExpiry: 24 * time.Hour,
+	})
+
+	authService, err := auth.NewAuthService(&auth.AuthConfig{
+		DB:               db,
+		JWTSecret:        "test-jwt-secret",
+		JWTIssuer:        "pllm",
+		TokenExpiry:      time.Hour,
+		MasterKeyService: masterKeyService,
+	})
+	require.NoError(t, err)
+
+	logger := logger.NewLogger("test", "info")
+
+	middleware := NewAuthMiddleware(&AuthConfig{
+		Logger:           logger,
+		AuthService:      authService,
+		MasterKeyService: masterKeyService,
+		RequireAuth:      true,
+	})
+
+	// Test handler
+	testHandler := http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
+		w.WriteHeader(http.StatusOK)
+		w.Write([]byte("success"))
+	})
+
+	t.Run("Valid Master Key", func(t *testing.T) {
+		req := httptest.NewRequest("GET", "/test", nil)
+		req.Header.Set("Authorization", "Bearer test-master-key")
+		w := httptest.NewRecorder()
+
+		handler := middleware.Authenticate(testHandler)
+		handler.ServeHTTP(w, req)
+
+		assert.Equal(t, http.StatusOK, w.Code)
+		assert.Equal(t, "success", w.Body.String())
+	})
+
+	t.Run("Invalid Key", func(t *testing.T) {
+		req := httptest.NewRequest("GET", "/test", nil)
+		req.Header.Set("Authorization", "Bearer invalid-key")
+		w := httptest.NewRecorder()
+
+		handler := middleware.Authenticate(testHandler)
+		handler.ServeHTTP(w, req)
+
+		assert.Equal(t, http.StatusUnauthorized, w.Code)
+	})
+
+	t.Run("Missing Authorization", func(t *testing.T) {
+		req := httptest.NewRequest("GET", "/test", nil)
+		w := httptest.NewRecorder()
+
+		handler := middleware.Authenticate(testHandler)
+		handler.ServeHTTP(w, req)
+
+		assert.Equal(t, http.StatusUnauthorized, w.Code)
+	})
+
+	t.Run("Concurrent Authentication", func(t *testing.T) {
+		// Test auth middleware under concurrent load
+		const numRequests = 100
+		var wg sync.WaitGroup
+		results := make(chan int, numRequests)
+
+		handler := middleware.Authenticate(testHandler)
+
+		for i := 0; i < numRequests; i++ {
+			wg.Add(1)
+			go func() {
+				defer wg.Done()
+				req := httptest.NewRequest("GET", "/test", nil)
+				req.Header.Set("Authorization", "Bearer test-master-key")
+				w := httptest.NewRecorder()
+				handler.ServeHTTP(w, req)
+				results <- w.Code
+			}()
+		}
+
+		wg.Wait()
+		close(results)
+
+		// All requests should succeed
+		successCount := 0
+		for code := range results {
+			if code == http.StatusOK {
+				successCount++
+			}
+		}
+
+		assert.Equal(t, numRequests, successCount, "All concurrent auth requests should succeed")
+	})
+}
+
+// TestRateLimitMiddleware tests rate limiting
+func TestRateLimitMiddleware(t *testing.T) {
+	cfg := &config.Config{
+		RateLimit: config.RateLimitConfig{
+			Enabled:   true,
+			GlobalRPM: 10,
+		},
+	}
+
+	logger := logger.NewLogger("test", "info")
+	middleware := NewRateLimitMiddleware(cfg, logger)
+
+	testHandler := http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
+		w.WriteHeader(http.StatusOK)
+	})
+
+	t.Run("Normal Rate", func(t *testing.T) {
+		handler := middleware.Handler(testHandler)
+
+		// Should allow normal rate
+		for i := 0; i < 5; i++ {
+			req := httptest.NewRequest("GET", "/test", nil)
+			req.RemoteAddr = "127.0.0.1:12345"
+			w := httptest.NewRecorder()
+			handler.ServeHTTP(w, req)
+			assert.Equal(t, http.StatusOK, w.Code)
+		}
+	})
+
+	t.Run("Rate Limit Exceeded", func(t *testing.T) {
+		handler := middleware.Handler(testHandler)
+
+		// Exceed rate limit
+		for i := 0; i < 20; i++ {
+			req := httptest.NewRequest("GET", "/test", nil)
+			req.RemoteAddr = "127.0.0.2:12345"
+			w := httptest.NewRecorder()
+			handler.ServeHTTP(w, req)
+
+			if i < 10 {
+				assert.Equal(t, http.StatusOK, w.Code, "Request %d should succeed", i)
+			} else {
+				assert.Equal(t, http.StatusTooManyRequests, w.Code, "Request %d should be rate limited", i)
+			}
+		}
+	})
+}
+
+// TestBudgetMiddleware tests budget enforcement
+func TestBudgetMiddleware(t *testing.T) {
+	// Setup test dependencies
+	db, cleanup := testutil.NewTestDB(t)
+	defer cleanup()
+
+	// Setup Redis client using test container
+	redisClient, redisCleanup := testutil.NewTestRedis(t)
+	defer redisCleanup()
+
+	// Clear test Redis DB
+	redisClient.FlushDB(context.Background())
+
+	logger := logger.NewLogger("test", "info")
+
+	// Setup auth service
+	masterKeyService := auth.NewMasterKeyService(&auth.MasterKeyConfig{
+		DB:          db,
+		MasterKey:   "test-master-key",
+		JWTSecret:   []byte("test-jwt-secret"),
+		JWTIssuer:   "pllm",
+		TokenExpiry: 24 * time.Hour,
+	})
+
+	authService, err := auth.NewAuthService(&auth.AuthConfig{
+		DB:               db,
+		JWTSecret:        "test-jwt-secret",
+		JWTIssuer:        "pllm",
+		TokenExpiry:      time.Hour,
+		MasterKeyService: masterKeyService,
+	})
+	require.NoError(t, err)
+
+	// Setup pricing manager - using nil for tests
+
+	// Setup budget middleware
+	middleware := NewAsyncBudgetMiddleware(&AsyncBudgetConfig{
+		Logger:      logger,
+		AuthService: authService,
+		BudgetCache: redisService.NewBudgetCache(redisClient, logger, 5*time.Minute),
+		EventPub:    redisService.NewEventPublisher(redisClient, logger),
+		UsageQueue: redisService.NewUsageQueue(&redisService.UsageQueueConfig{
+			Client:     redisClient,
+			Logger:     logger,
+			QueueName:  "test_usage_queue",
+			BatchSize:  10,
+			MaxRetries: 3,
+		}),
+		PricingManager: nil,
+	})
+
+	testHandler := http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
+		w.WriteHeader(http.StatusOK)
+		w.Write([]byte("success"))
+	})
+
+	// Setup auth middleware to set context
+	authMiddleware := NewAuthMiddleware(&AuthConfig{
+		Logger:           logger,
+		AuthService:      authService,
+		MasterKeyService: masterKeyService,
+		RequireAuth:      true,
+	})
+
+	t.Run("Budget Check with Master Key", func(t *testing.T) {
+		req := httptest.NewRequest("POST", "/v1/chat/completions", strings.NewReader(`{
+			"model": "gpt-4",
+			"messages": [{"role": "user", "content": "test"}],
+			"max_tokens": 10
+		}`))
+		req.Header.Set("Authorization", "Bearer test-master-key")
+		req.Header.Set("Content-Type", "application/json")
+
+		w := httptest.NewRecorder()
+		// Chain auth middleware before budget middleware
+		handler := authMiddleware.Authenticate(middleware.EnforceBudgetAsync(testHandler))
+		handler.ServeHTTP(w, req)
+
+		// Master key should bypass budget checks
+		if w.Code != http.StatusOK {
+			t.Logf("Response body: %s", w.Body.String())
+		}
+		assert.Equal(t, http.StatusOK, w.Code)
+	})
+
+	t.Run("Concurrent Budget Checks", func(t *testing.T) {
+		// Test budget middleware under concurrent load
+		const numRequests = 50
+		var wg sync.WaitGroup
+		results := make(chan int, numRequests)
+
+		// Chain auth middleware before budget middleware
+		handler := authMiddleware.Authenticate(middleware.EnforceBudgetAsync(testHandler))
+
+		for i := 0; i < numRequests; i++ {
+			wg.Add(1)
+			go func() {
+				defer wg.Done()
+				req := httptest.NewRequest("POST", "/v1/chat/completions", strings.NewReader(`{
+					"model": "gpt-4",
+					"messages": [{"role": "user", "content": "test"}],
+					"max_tokens": 10
+				}`))
+				req.Header.Set("Authorization", "Bearer test-master-key")
+				req.Header.Set("Content-Type", "application/json")
+
+				w := httptest.NewRecorder()
+				handler.ServeHTTP(w, req)
+				results <- w.Code
+			}()
+		}
+
+		wg.Wait()
+		close(results)
+
+		// Count results
+		statusCodes := make(map[int]int)
+		for code := range results {
+			statusCodes[code]++
+		}
+
+		// Most should succeed (master key bypasses budget)
+		assert.True(t, statusCodes[200] > numRequests*0.8, "Most requests should succeed")
+	})
+}
+
+// TestCacheMiddleware tests response caching
+func TestCacheMiddleware(t *testing.T) {
+	cfg := &config.Config{
+		Cache: config.CacheConfig{
+			Enabled: true,
+			TTL:     time.Minute,
+			MaxSize: 100,
+		},
+	}
+
+	logger := logger.NewLogger("test", "info")
+	middleware := NewCacheMiddleware(cfg, logger)
+
+	responseContent := "test response content"
+	testHandler := http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
+		w.Header().Set("Content-Type", "application/json")
+		w.WriteHeader(http.StatusOK)
+		w.Write([]byte(responseContent))
+	})
+
+	t.Run("Cache Miss and Hit", func(t *testing.T) {
+		handler := middleware.Handler(testHandler)
+
+		// First request - cache miss
+		req1 := httptest.NewRequest("GET", "/test?param=value", nil)
+		w1 := httptest.NewRecorder()
+		handler.ServeHTTP(w1, req1)
+
+		assert.Equal(t, http.StatusOK, w1.Code)
+		assert.Equal(t, responseContent, w1.Body.String())
+
+		// Second request - cache hit
+		req2 := httptest.NewRequest("GET", "/test?param=value", nil)
+		w2 := httptest.NewRecorder()
+		handler.ServeHTTP(w2, req2)
+
+		assert.Equal(t, http.StatusOK, w2.Code)
+		assert.Equal(t, responseContent, w2.Body.String())
+	})
+
+	t.Run("Different URLs Not Cached", func(t *testing.T) {
+		handler := middleware.Handler(testHandler)
+
+		// Different URLs should not share cache
+		req1 := httptest.NewRequest("GET", "/test1", nil)
+		w1 := httptest.NewRecorder()
+		handler.ServeHTTP(w1, req1)
+
+		req2 := httptest.NewRequest("GET", "/test2", nil)
+		w2 := httptest.NewRecorder()
+		handler.ServeHTTP(w2, req2)
+
+		assert.Equal(t, http.StatusOK, w1.Code)
+		assert.Equal(t, http.StatusOK, w2.Code)
+	})
+}
+
+// TestMiddlewareChain tests multiple middlewares working together
+func TestMiddlewareChain(t *testing.T) {
+	db, cleanup := testutil.NewTestDB(t)
+	defer cleanup()
+
+	// Setup all middleware components
+	logger := logger.NewLogger("test", "info")
+
+	// Auth setup
+	masterKeyService := auth.NewMasterKeyService(&auth.MasterKeyConfig{
+		DB:          db,
+		MasterKey:   "test-master-key",
+		JWTSecret:   []byte("test-jwt-secret"),
+		JWTIssuer:   "pllm",
+		TokenExpiry: 24 * time.Hour,
+	})
+
+	authService, err := auth.NewAuthService(&auth.AuthConfig{
+		DB:               db,
+		JWTSecret:        "test-jwt-secret",
+		JWTIssuer:        "pllm",
+		TokenExpiry:      time.Hour,
+		MasterKeyService: masterKeyService,
+	})
+	require.NoError(t, err)
+
+	// Middleware setup
+	authMiddleware := NewAuthMiddleware(&AuthConfig{
+		Logger:           logger,
+		AuthService:      authService,
+		MasterKeyService: masterKeyService,
+		RequireAuth:      true,
+	})
+
+	rateLimitConfig := &config.Config{
+		RateLimit: config.RateLimitConfig{
+			Enabled:   true,
+			GlobalRPM: 60,
+		},
+	}
+	rateLimitMiddleware := NewRateLimitMiddleware(rateLimitConfig, logger)
+
+	testHandler := http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
+		w.WriteHeader(http.StatusOK)
+		w.Write([]byte("success"))
+	})
+
+	t.Run("Full Middleware Chain", func(t *testing.T) {
+		// Chain middlewares: rate limit -> auth -> handler
+		handler := rateLimitMiddleware.Handler(
+			authMiddleware.Authenticate(testHandler),
+		)
+
+		// Valid request should pass through all middleware
+		req := httptest.NewRequest("GET", "/test", nil)
+		req.Header.Set("Authorization", "Bearer test-master-key")
+		w := httptest.NewRecorder()
+
+		handler.ServeHTTP(w, req)
+
+		assert.Equal(t, http.StatusOK, w.Code)
+		assert.Equal(t, "success", w.Body.String())
+	})
+
+	t.Run("Auth Failure in Chain", func(t *testing.T) {
+		handler := rateLimitMiddleware.Handler(
+			authMiddleware.Authenticate(testHandler),
+		)
+
+		// Invalid auth should be rejected before reaching handler
+		req := httptest.NewRequest("GET", "/test", nil)
+		req.Header.Set("Authorization", "Bearer invalid-key")
+		w := httptest.NewRecorder()
+
+		handler.ServeHTTP(w, req)
+
+		assert.Equal(t, http.StatusUnauthorized, w.Code)
+		assert.NotEqual(t, "success", w.Body.String())
+	})
+}
+
+// TestMiddlewarePerformance tests middleware performance under load
+func TestMiddlewarePerformance(t *testing.T) {
+	logger := logger.NewLogger("test", "info")
+
+	// Setup Redis for metrics using test container
+	redisClient, cleanup := testutil.NewTestRedis(t)
+	defer cleanup()
+
+	// Create a metrics emitter for testing
+	emitter := metrics.NewMetricEventEmitter(redisClient, logger)
+	metricsMiddleware := NewAsyncMetricsMiddleware(emitter, logger)
+
+	testHandler := http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
+		w.WriteHeader(http.StatusOK)
+	})
+
+	const numRequests = 1000
+	start := time.Now()
+
+	handler := metricsMiddleware.Middleware(testHandler)
+
+	for i := 0; i < numRequests; i++ {
+		req := httptest.NewRequest("GET", "/test", nil)
+		w := httptest.NewRecorder()
+		handler.ServeHTTP(w, req)
+		assert.Equal(t, http.StatusOK, w.Code)
+	}
+
+	duration := time.Since(start)
+	rps := float64(numRequests) / duration.Seconds()
+
+	// Banking-grade performance requirement
+	assert.True(t, rps > 1000, "Middleware should handle >1000 RPS, got %.2f", rps)
+	assert.True(t, duration < 5*time.Second, "Should process %d requests in <5s, took %v", numRequests, duration)
+
+	t.Logf("Middleware Performance: %d requests in %v (%.2f RPS)", numRequests, duration, rps)
+}
\ No newline at end of file
diff --git a/internal/middleware/ratelimit.go b/internal/infrastructure/middleware/ratelimit.go
similarity index 97%
rename from internal/middleware/ratelimit.go
rename to internal/infrastructure/middleware/ratelimit.go
index 4d0e497..33139d1 100644
--- a/internal/middleware/ratelimit.go
+++ b/internal/infrastructure/middleware/ratelimit.go
@@ -8,9 +8,9 @@ import (
 	"strings"
 	"time"
 
-	"github.com/amerfu/pllm/internal/config"
-	"github.com/amerfu/pllm/internal/services/cache"
-	"github.com/amerfu/pllm/internal/services/ratelimit"
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/services/data/cache"
+	"github.com/amerfu/pllm/internal/services/monitoring/ratelimit"
 	"github.com/go-chi/chi/v5"
 	"go.uber.org/zap"
 )
diff --git a/internal/middleware/rbac.go b/internal/infrastructure/middleware/rbac.go
similarity index 99%
rename from internal/middleware/rbac.go
rename to internal/infrastructure/middleware/rbac.go
index 3606b8f..e4ac008 100644
--- a/internal/middleware/rbac.go
+++ b/internal/infrastructure/middleware/rbac.go
@@ -4,8 +4,8 @@ import (
 	"encoding/json"
 	"net/http"
 
-	"github.com/amerfu/pllm/internal/auth"
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/auth"
+	"github.com/amerfu/pllm/internal/core/models"
 	"github.com/go-chi/chi/v5"
 	"github.com/google/uuid"
 	"go.uber.org/zap"
diff --git a/internal/middleware/streaming.go b/internal/infrastructure/middleware/streaming.go
similarity index 100%
rename from internal/middleware/streaming.go
rename to internal/infrastructure/middleware/streaming.go
diff --git a/internal/infrastructure/testutil/database.go b/internal/infrastructure/testutil/database.go
new file mode 100644
index 0000000..6eb2328
--- /dev/null
+++ b/internal/infrastructure/testutil/database.go
@@ -0,0 +1,154 @@
+package testutil
+
+import (
+	"context"
+	"fmt"
+	"testing"
+	"time"
+
+	"github.com/redis/go-redis/v9"
+	"github.com/stretchr/testify/require"
+	"github.com/testcontainers/testcontainers-go"
+	"github.com/testcontainers/testcontainers-go/modules/postgres"
+	testredis "github.com/testcontainers/testcontainers-go/modules/redis"
+	"github.com/testcontainers/testcontainers-go/wait"
+	postgresdriver "gorm.io/driver/postgres"
+	"gorm.io/gorm"
+
+	"github.com/amerfu/pllm/internal/core/models"
+)
+
+// NewTestDB creates a PostgreSQL test database using Testcontainers
+func NewTestDB(t *testing.T) (*gorm.DB, func()) {
+	ctx := context.Background()
+
+	// Start PostgreSQL container with Testcontainers and proper wait strategies
+	container, err := postgres.Run(ctx,
+		"postgres:16-alpine",
+		postgres.WithDatabase("testdb"),
+		postgres.WithUsername("test"),
+		postgres.WithPassword("test"),
+		testcontainers.WithWaitStrategy(
+			wait.ForLog("database system is ready to accept connections").
+				WithOccurrence(2).
+				WithStartupTimeout(30*time.Second)),
+	)
+	require.NoError(t, err, "Failed to start PostgreSQL container")
+
+	// Get connection string
+	connStr, err := container.ConnectionString(ctx, "sslmode=disable")
+	require.NoError(t, err, "Failed to get connection string")
+
+	// Add a small delay to ensure PostgreSQL is fully ready
+	time.Sleep(1 * time.Second)
+
+	// Connect with GORM
+	db, err := gorm.Open(postgresdriver.Open(connStr), &gorm.Config{})
+	require.NoError(t, err, "Failed to connect to test database")
+
+	// Auto-migrate all models
+	err = db.AutoMigrate(
+		&models.User{},
+		&models.Team{},
+		&models.Key{},
+		&models.Usage{},
+		&models.TeamMember{},
+		&models.Audit{},
+		&models.SystemMetrics{},
+		&models.ModelMetrics{},
+		&models.UserMetrics{},
+		&models.TeamMetrics{},
+	)
+	require.NoError(t, err, "Failed to migrate test database")
+
+	// Return cleanup function that terminates the container
+	cleanup := func() {
+		if err := container.Terminate(ctx); err != nil {
+			t.Logf("Failed to terminate PostgreSQL container: %v", err)
+		}
+	}
+
+	return db, cleanup
+}
+
+// NewTestRedis creates a Redis test instance using Testcontainers
+func NewTestRedis(t *testing.T) (*redis.Client, func()) {
+	ctx := context.Background()
+
+	// Start Redis container with Testcontainers
+	container, err := testredis.Run(ctx,
+		"redis:7-alpine",
+		testcontainers.WithWaitStrategy(
+			wait.ForLog("Ready to accept connections").
+				WithStartupTimeout(30*time.Second)),
+	)
+	require.NoError(t, err, "Failed to start Redis container")
+
+	// Get connection string
+	connStr, err := container.ConnectionString(ctx)
+	require.NoError(t, err, "Failed to get Redis connection string")
+
+	// Parse Redis URL
+	opt, err := redis.ParseURL(connStr)
+	require.NoError(t, err, "Failed to parse Redis URL")
+
+	// Create Redis client
+	client := redis.NewClient(opt)
+
+	// Test connection
+	err = client.Ping(ctx).Err()
+	require.NoError(t, err, "Failed to ping Redis")
+
+	// Return cleanup function that terminates the container
+	cleanup := func() {
+		client.Close()
+		if err := container.Terminate(ctx); err != nil {
+			t.Logf("Failed to terminate Redis container: %v", err)
+		}
+	}
+
+	return client, cleanup
+}
+
+// NewTestRedisWithURL creates a Redis test instance and returns client with connection URL
+func NewTestRedisWithURL(t *testing.T) (*redis.Client, string, func()) {
+	ctx := context.Background()
+
+	// Start Redis container
+	container, err := testredis.Run(ctx,
+		"redis:7-alpine",
+		testcontainers.WithWaitStrategy(
+			wait.ForLog("Ready to accept connections").
+				WithStartupTimeout(30*time.Second)),
+	)
+	require.NoError(t, err, "Failed to start Redis container")
+
+	// Get connection details
+	host, err := container.Host(ctx)
+	require.NoError(t, err, "Failed to get Redis host")
+
+	port, err := container.MappedPort(ctx, "6379/tcp")
+	require.NoError(t, err, "Failed to get Redis port")
+
+	// Build connection URL
+	connURL := fmt.Sprintf("redis://%s:%s", host, port.Port())
+
+	// Parse and create client
+	opt, err := redis.ParseURL(connURL)
+	require.NoError(t, err, "Failed to parse Redis URL")
+
+	client := redis.NewClient(opt)
+
+	// Test connection
+	err = client.Ping(ctx).Err()
+	require.NoError(t, err, "Failed to ping Redis")
+
+	cleanup := func() {
+		client.Close()
+		if err := container.Terminate(ctx); err != nil {
+			t.Logf("Failed to terminate Redis container: %v", err)
+		}
+	}
+
+	return client, connURL, cleanup
+}
\ No newline at end of file
diff --git a/internal/services/circuitbreaker/adaptive.go b/internal/services/circuitbreaker/adaptive.go
deleted file mode 100644
index 53ca830..0000000
--- a/internal/services/circuitbreaker/adaptive.go
+++ /dev/null
@@ -1,292 +0,0 @@
-package circuitbreaker
-
-import (
-	"sync"
-	"time"
-)
-
-// AdaptiveBreaker is a circuit breaker that considers both failures and latency
-type AdaptiveBreaker struct {
-	mu sync.RWMutex
-
-	// Failure tracking
-	failures        int
-	lastFailureTime time.Time
-
-	// Latency tracking
-	latencyWindow []time.Duration
-	windowSize    int
-	slowRequests  int
-
-	// Circuit state
-	state State // CLOSED, OPEN, HALF_OPEN
-
-	// Configuration
-	failureThreshold  int
-	latencyThreshold  time.Duration // Requests slower than this count as "slow"
-	slowRequestLimit  int           // Number of slow requests before opening
-	cooldownPeriod    time.Duration
-	halfOpenRequests  int // Requests allowed in half-open state
-	halfOpenSuccesses int // Successes needed to close circuit
-
-	// Metrics
-	totalRequests     int64
-	currentConcurrent int32
-	maxConcurrent     int32
-}
-
-type State int
-
-const (
-	StateClosed State = iota
-	StateOpen
-	StateHalfOpen
-)
-
-// NewAdaptiveBreaker creates a new adaptive circuit breaker
-func NewAdaptiveBreaker(failureThreshold int, latencyThreshold time.Duration, slowRequestLimit int) *AdaptiveBreaker {
-	return &AdaptiveBreaker{
-		failureThreshold:  failureThreshold,
-		latencyThreshold:  latencyThreshold,
-		slowRequestLimit:  slowRequestLimit,
-		cooldownPeriod:    30 * time.Second,
-		windowSize:        100,
-		latencyWindow:     make([]time.Duration, 0, 100),
-		halfOpenRequests:  3,
-		halfOpenSuccesses: 2,
-		state:             StateClosed,
-	}
-}
-
-// CanRequest checks if a request should be allowed
-func (ab *AdaptiveBreaker) CanRequest() bool {
-	ab.mu.Lock()
-	defer ab.mu.Unlock()
-
-	switch ab.state {
-	case StateClosed:
-		return true
-
-	case StateOpen:
-		// Check if cooldown has passed
-		if time.Since(ab.lastFailureTime) > ab.cooldownPeriod {
-			ab.state = StateHalfOpen
-			ab.halfOpenRequests = 3
-			ab.halfOpenSuccesses = 0
-			return true
-		}
-		return false
-
-	case StateHalfOpen:
-		// Allow limited requests in half-open state
-		if ab.halfOpenRequests > 0 {
-			ab.halfOpenRequests--
-			return true
-		}
-		return false
-
-	default:
-		return false
-	}
-}
-
-// RecordSuccess records a successful request with its latency
-func (ab *AdaptiveBreaker) RecordSuccess(latency time.Duration) {
-	ab.mu.Lock()
-	defer ab.mu.Unlock()
-
-	ab.totalRequests++
-
-	// Track latency
-	ab.addLatency(latency)
-
-	// Check if this was a slow request
-	if latency > ab.latencyThreshold {
-		ab.slowRequests++
-
-		// Check if we should open due to slow requests
-		if ab.slowRequests >= ab.slowRequestLimit && ab.state == StateClosed {
-			ab.openCircuit("too many slow requests")
-			return
-		}
-	} else {
-		// Reset slow request counter on fast request
-		if ab.slowRequests > 0 {
-			ab.slowRequests--
-		}
-	}
-
-	// Handle state transitions
-	switch ab.state {
-	case StateHalfOpen:
-		ab.halfOpenSuccesses++
-		if ab.halfOpenSuccesses >= 2 {
-			// Circuit has recovered
-			ab.state = StateClosed
-			ab.failures = 0
-			ab.slowRequests = 0
-		}
-
-	case StateClosed:
-		// Reset failure counter on success
-		if ab.failures > 0 {
-			ab.failures--
-		}
-	}
-}
-
-// RecordFailure records a failed request
-func (ab *AdaptiveBreaker) RecordFailure() {
-	ab.mu.Lock()
-	defer ab.mu.Unlock()
-
-	ab.totalRequests++
-	ab.failures++
-	ab.lastFailureTime = time.Now()
-
-	switch ab.state {
-	case StateClosed:
-		if ab.failures >= ab.failureThreshold {
-			ab.openCircuit("too many failures")
-		}
-
-	case StateHalfOpen:
-		// Failed during recovery, reopen
-		ab.openCircuit("failed in half-open state")
-	}
-}
-
-// RecordTimeout records a timeout (counts as both failure and slow)
-func (ab *AdaptiveBreaker) RecordTimeout() {
-	ab.mu.Lock()
-	defer ab.mu.Unlock()
-
-	ab.totalRequests++
-	ab.failures++
-	ab.slowRequests++
-	ab.lastFailureTime = time.Now()
-
-	// Timeouts are critical - open immediately in any state
-	ab.openCircuit("timeout detected")
-}
-
-// StartRequest increments concurrent request counter
-func (ab *AdaptiveBreaker) StartRequest() {
-	ab.mu.Lock()
-	defer ab.mu.Unlock()
-
-	ab.currentConcurrent++
-	if ab.currentConcurrent > ab.maxConcurrent {
-		ab.maxConcurrent = ab.currentConcurrent
-	}
-}
-
-// EndRequest decrements concurrent request counter
-func (ab *AdaptiveBreaker) EndRequest() {
-	ab.mu.Lock()
-	defer ab.mu.Unlock()
-
-	if ab.currentConcurrent > 0 {
-		ab.currentConcurrent--
-	}
-}
-
-// GetConcurrent returns the current number of concurrent requests
-func (ab *AdaptiveBreaker) GetConcurrent() int32 {
-	ab.mu.RLock()
-	defer ab.mu.RUnlock()
-	return ab.currentConcurrent
-}
-
-// GetAverageLatency returns the average latency from the window
-func (ab *AdaptiveBreaker) GetAverageLatency() time.Duration {
-	ab.mu.RLock()
-	defer ab.mu.RUnlock()
-
-	if len(ab.latencyWindow) == 0 {
-		return 0
-	}
-
-	var total time.Duration
-	for _, lat := range ab.latencyWindow {
-		total += lat
-	}
-
-	return total / time.Duration(len(ab.latencyWindow))
-}
-
-// GetP95Latency returns the 95th percentile latency
-func (ab *AdaptiveBreaker) GetP95Latency() time.Duration {
-	ab.mu.RLock()
-	defer ab.mu.RUnlock()
-
-	if len(ab.latencyWindow) == 0 {
-		return 0
-	}
-
-	// Simple P95 calculation (not perfectly accurate but fast)
-	index := int(float64(len(ab.latencyWindow)) * 0.95)
-	if index >= len(ab.latencyWindow) {
-		index = len(ab.latencyWindow) - 1
-	}
-
-	return ab.latencyWindow[index]
-}
-
-// GetState returns current circuit state and metrics
-func (ab *AdaptiveBreaker) GetState() map[string]interface{} {
-	ab.mu.RLock()
-	defer ab.mu.RUnlock()
-
-	return map[string]interface{}{
-		"state":          ab.state.String(),
-		"failures":       ab.failures,
-		"slow_requests":  ab.slowRequests,
-		"avg_latency":    ab.GetAverageLatency().String(),
-		"p95_latency":    ab.GetP95Latency().String(),
-		"concurrent":     ab.currentConcurrent,
-		"max_concurrent": ab.maxConcurrent,
-		"total_requests": ab.totalRequests,
-	}
-}
-
-// Reset manually resets the circuit breaker
-func (ab *AdaptiveBreaker) Reset() {
-	ab.mu.Lock()
-	defer ab.mu.Unlock()
-
-	ab.state = StateClosed
-	ab.failures = 0
-	ab.slowRequests = 0
-	ab.latencyWindow = make([]time.Duration, 0, ab.windowSize)
-}
-
-// Private methods
-
-func (ab *AdaptiveBreaker) openCircuit(reason string) {
-	ab.state = StateOpen
-	ab.lastFailureTime = time.Now()
-	// Log reason if needed
-}
-
-func (ab *AdaptiveBreaker) addLatency(latency time.Duration) {
-	// Maintain a sliding window of latencies
-	if len(ab.latencyWindow) >= ab.windowSize {
-		// Remove oldest
-		ab.latencyWindow = ab.latencyWindow[1:]
-	}
-	ab.latencyWindow = append(ab.latencyWindow, latency)
-}
-
-func (s State) String() string {
-	switch s {
-	case StateClosed:
-		return "CLOSED"
-	case StateOpen:
-		return "OPEN"
-	case StateHalfOpen:
-		return "HALF_OPEN"
-	default:
-		return "UNKNOWN"
-	}
-}
diff --git a/internal/services/circuitbreaker/adaptive_test.go b/internal/services/circuitbreaker/adaptive_test.go
deleted file mode 100644
index 037a142..0000000
--- a/internal/services/circuitbreaker/adaptive_test.go
+++ /dev/null
@@ -1,678 +0,0 @@
-package circuitbreaker
-
-import (
-	"sync"
-	"testing"
-	"time"
-
-	"github.com/stretchr/testify/assert"
-)
-
-func TestNewAdaptiveBreaker(t *testing.T) {
-	breaker := NewAdaptiveBreaker(3, 1*time.Second, 2)
-
-	assert.Equal(t, 3, breaker.failureThreshold)
-	assert.Equal(t, 1*time.Second, breaker.latencyThreshold)
-	assert.Equal(t, 2, breaker.slowRequestLimit)
-	assert.Equal(t, 30*time.Second, breaker.cooldownPeriod)
-	assert.Equal(t, 100, breaker.windowSize)
-	assert.Equal(t, StateClosed, breaker.state)
-	assert.Equal(t, 3, breaker.halfOpenRequests)
-	assert.Equal(t, 2, breaker.halfOpenSuccesses)
-}
-
-func TestAdaptiveBreaker_CanRequest(t *testing.T) {
-	breaker := NewAdaptiveBreaker(3, 1*time.Second, 2)
-
-	t.Run("allows requests when closed", func(t *testing.T) {
-		assert.True(t, breaker.CanRequest())
-		assert.Equal(t, StateClosed, breaker.state)
-	})
-
-	t.Run("blocks requests when open", func(t *testing.T) {
-		// Force open state
-		breaker.mu.Lock()
-		breaker.state = StateOpen
-		breaker.lastFailureTime = time.Now()
-		breaker.mu.Unlock()
-
-		assert.False(t, breaker.CanRequest())
-	})
-
-	t.Run("transitions to half-open after cooldown", func(t *testing.T) {
-		// Set open state with old failure time
-		breaker.mu.Lock()
-		breaker.state = StateOpen
-		breaker.lastFailureTime = time.Now().Add(-31 * time.Second) // Past cooldown
-		breaker.mu.Unlock()
-
-		assert.True(t, breaker.CanRequest())
-		assert.Equal(t, StateHalfOpen, breaker.state)
-	})
-
-	t.Run("limits requests in half-open state", func(t *testing.T) {
-		breaker.mu.Lock()
-		breaker.state = StateHalfOpen
-		breaker.halfOpenRequests = 2
-		breaker.mu.Unlock()
-
-		// Should allow limited requests
-		assert.True(t, breaker.CanRequest())
-		assert.Equal(t, 1, breaker.halfOpenRequests)
-
-		assert.True(t, breaker.CanRequest())
-		assert.Equal(t, 0, breaker.halfOpenRequests)
-
-		// No more requests allowed
-		assert.False(t, breaker.CanRequest())
-	})
-}
-
-func TestAdaptiveBreaker_RecordSuccess(t *testing.T) {
-	breaker := NewAdaptiveBreaker(3, 500*time.Millisecond, 2)
-
-	t.Run("records fast success", func(t *testing.T) {
-		breaker.RecordSuccess(100 * time.Millisecond)
-
-		assert.Equal(t, int64(1), breaker.totalRequests)
-		assert.Equal(t, StateClosed, breaker.state)
-		assert.Equal(t, 0, breaker.slowRequests)
-	})
-
-	t.Run("records slow success", func(t *testing.T) {
-		breaker.RecordSuccess(1 * time.Second) // Slow
-
-		assert.Equal(t, int64(2), breaker.totalRequests)
-		assert.Equal(t, 1, breaker.slowRequests)
-		assert.Equal(t, StateClosed, breaker.state) // Still closed, need 2 slow requests
-	})
-
-	t.Run("opens circuit on too many slow requests", func(t *testing.T) {
-		breaker.RecordSuccess(2 * time.Second) // Another slow request
-
-		assert.Equal(t, 2, breaker.slowRequests)
-		assert.Equal(t, StateOpen, breaker.state)
-	})
-
-	t.Run("reduces slow count on fast requests", func(t *testing.T) {
-		breaker.Reset()
-
-		// Record slow requests
-		breaker.RecordSuccess(1 * time.Second)
-		assert.Equal(t, 1, breaker.slowRequests)
-
-		// Fast request should reduce slow count
-		breaker.RecordSuccess(100 * time.Millisecond)
-		assert.Equal(t, 0, breaker.slowRequests)
-	})
-
-	t.Run("transitions from half-open to closed", func(t *testing.T) {
-		breaker.Reset()
-		breaker.mu.Lock()
-		breaker.state = StateHalfOpen
-		breaker.halfOpenSuccesses = 1
-		breaker.mu.Unlock()
-
-		breaker.RecordSuccess(100 * time.Millisecond)
-
-		// Should close after 2 successes in half-open state
-		assert.Equal(t, StateClosed, breaker.state)
-		assert.Equal(t, 0, breaker.failures)
-		assert.Equal(t, 0, breaker.slowRequests)
-	})
-
-	t.Run("reduces failure count in closed state", func(t *testing.T) {
-		breaker.Reset()
-		breaker.mu.Lock()
-		breaker.failures = 2
-		breaker.mu.Unlock()
-
-		breaker.RecordSuccess(100 * time.Millisecond)
-
-		assert.Equal(t, 1, breaker.failures)
-	})
-
-	t.Run("tracks latency window", func(t *testing.T) {
-		breaker.Reset()
-
-		latencies := []time.Duration{
-			100 * time.Millisecond,
-			200 * time.Millisecond,
-			300 * time.Millisecond,
-		}
-
-		for _, lat := range latencies {
-			breaker.RecordSuccess(lat)
-		}
-
-		assert.Len(t, breaker.latencyWindow, 3)
-		assert.Equal(t, latencies, breaker.latencyWindow)
-	})
-}
-
-func TestAdaptiveBreaker_RecordFailure(t *testing.T) {
-	breaker := NewAdaptiveBreaker(2, 1*time.Second, 3)
-
-	t.Run("increments failure count", func(t *testing.T) {
-		breaker.RecordFailure()
-
-		assert.Equal(t, 1, breaker.failures)
-		assert.Equal(t, int64(1), breaker.totalRequests)
-		assert.Equal(t, StateClosed, breaker.state)
-	})
-
-	t.Run("opens circuit on threshold", func(t *testing.T) {
-		breaker.RecordFailure() // Second failure
-
-		assert.Equal(t, 2, breaker.failures)
-		assert.Equal(t, StateOpen, breaker.state)
-	})
-
-	t.Run("reopens circuit in half-open state", func(t *testing.T) {
-		breaker.Reset()
-		breaker.mu.Lock()
-		breaker.state = StateHalfOpen
-		breaker.mu.Unlock()
-
-		breaker.RecordFailure()
-
-		assert.Equal(t, StateOpen, breaker.state)
-	})
-
-	t.Run("records failure timestamp", func(t *testing.T) {
-		before := time.Now()
-		breaker.RecordFailure()
-		after := time.Now()
-
-		assert.True(t, breaker.lastFailureTime.After(before) || breaker.lastFailureTime.Equal(before))
-		assert.True(t, breaker.lastFailureTime.Before(after) || breaker.lastFailureTime.Equal(after))
-	})
-}
-
-func TestAdaptiveBreaker_RecordTimeout(t *testing.T) {
-	breaker := NewAdaptiveBreaker(5, 1*time.Second, 5)
-
-	t.Run("counts as both failure and slow request", func(t *testing.T) {
-		breaker.RecordTimeout()
-
-		assert.Equal(t, 1, breaker.failures)
-		assert.Equal(t, 1, breaker.slowRequests)
-		assert.Equal(t, int64(1), breaker.totalRequests)
-	})
-
-	t.Run("opens circuit immediately", func(t *testing.T) {
-		breaker.Reset()
-
-		breaker.RecordTimeout()
-
-		assert.Equal(t, StateOpen, breaker.state)
-	})
-
-	t.Run("opens even in half-open state", func(t *testing.T) {
-		breaker.Reset()
-		breaker.mu.Lock()
-		breaker.state = StateHalfOpen
-		breaker.mu.Unlock()
-
-		breaker.RecordTimeout()
-
-		assert.Equal(t, StateOpen, breaker.state)
-	})
-}
-
-func TestAdaptiveBreaker_ConcurrentRequests(t *testing.T) {
-	breaker := NewAdaptiveBreaker(5, 1*time.Second, 5)
-
-	t.Run("tracks concurrent requests", func(t *testing.T) {
-		breaker.StartRequest()
-		breaker.StartRequest()
-
-		assert.Equal(t, int32(2), breaker.GetConcurrent())
-		assert.Equal(t, int32(2), breaker.maxConcurrent)
-
-		breaker.EndRequest()
-		assert.Equal(t, int32(1), breaker.GetConcurrent())
-
-		breaker.EndRequest()
-		assert.Equal(t, int32(0), breaker.GetConcurrent())
-	})
-
-	t.Run("handles ending more than started", func(t *testing.T) {
-		breaker.EndRequest() // Should handle gracefully
-		assert.Equal(t, int32(0), breaker.GetConcurrent())
-	})
-
-	t.Run("tracks maximum concurrent", func(t *testing.T) {
-		for i := 0; i < 5; i++ {
-			breaker.StartRequest()
-		}
-
-		assert.Equal(t, int32(5), breaker.maxConcurrent)
-
-		// Add more to increase max
-		breaker.StartRequest()
-		assert.Equal(t, int32(6), breaker.maxConcurrent)
-	})
-}
-
-func TestAdaptiveBreaker_LatencyMetrics(t *testing.T) {
-	breaker := NewAdaptiveBreaker(5, 1*time.Second, 5)
-
-	t.Run("calculates average latency", func(t *testing.T) {
-		latencies := []time.Duration{
-			100 * time.Millisecond,
-			200 * time.Millisecond,
-			300 * time.Millisecond,
-		}
-
-		for _, lat := range latencies {
-			breaker.RecordSuccess(lat)
-		}
-
-		expected := 200 * time.Millisecond // Average
-		assert.Equal(t, expected, breaker.GetAverageLatency())
-	})
-
-	t.Run("handles empty latency window", func(t *testing.T) {
-		emptyBreaker := NewAdaptiveBreaker(5, 1*time.Second, 5)
-		assert.Equal(t, time.Duration(0), emptyBreaker.GetAverageLatency())
-		assert.Equal(t, time.Duration(0), emptyBreaker.GetP95Latency())
-	})
-
-	t.Run("calculates P95 latency", func(t *testing.T) {
-		breaker.Reset()
-
-		// Add many latency samples
-		for i := 0; i < 20; i++ {
-			lat := time.Duration(i*10) * time.Millisecond
-			breaker.RecordSuccess(lat)
-		}
-
-		p95 := breaker.GetP95Latency()
-		// P95 should be around the 95th percentile
-		assert.True(t, p95 > 0)
-		assert.True(t, p95 <= 200*time.Millisecond) // Max latency we added
-	})
-
-	t.Run("maintains window size limit", func(t *testing.T) {
-		breaker.Reset()
-		windowSize := breaker.windowSize
-
-		// Add more samples than window size
-		for i := 0; i < windowSize+10; i++ {
-			breaker.RecordSuccess(time.Duration(i) * time.Millisecond)
-		}
-
-		assert.Equal(t, windowSize, len(breaker.latencyWindow))
-	})
-}
-
-func TestAdaptiveBreaker_GetState(t *testing.T) {
-	breaker := NewAdaptiveBreaker(3, 500*time.Millisecond, 2)
-
-	t.Run("returns initial state", func(t *testing.T) {
-		state := breaker.GetState()
-
-		assert.Equal(t, "CLOSED", state["state"])
-		assert.Equal(t, 0, state["failures"])
-		assert.Equal(t, 0, state["slow_requests"])
-		assert.Equal(t, int32(0), state["concurrent"])
-		assert.Equal(t, int32(0), state["max_concurrent"])
-		assert.Equal(t, int64(0), state["total_requests"])
-	})
-
-	t.Run("returns state after activity", func(t *testing.T) {
-		breaker.StartRequest()
-		breaker.RecordFailure()
-		breaker.RecordSuccess(1 * time.Second)
-
-		state := breaker.GetState()
-
-		assert.Equal(t, "CLOSED", state["state"])
-		assert.Equal(t, 0, state["failures"]) // RecordSuccess reduces failures when closed
-		assert.Equal(t, 1, state["slow_requests"])
-		assert.Equal(t, int32(1), state["concurrent"])
-		assert.Equal(t, int64(2), state["total_requests"])
-	})
-}
-
-func TestAdaptiveBreaker_Reset(t *testing.T) {
-	breaker := NewAdaptiveBreaker(3, 500*time.Millisecond, 2)
-
-	// Add some state
-	breaker.RecordFailure()
-	breaker.RecordSuccess(1 * time.Second)
-	breaker.StartRequest()
-
-	breaker.Reset()
-
-	assert.Equal(t, StateClosed, breaker.state)
-	assert.Equal(t, 0, breaker.failures)
-	assert.Equal(t, 0, breaker.slowRequests)
-	assert.Len(t, breaker.latencyWindow, 0)
-	// Note: concurrent requests and total requests are not reset
-}
-
-func TestAdaptiveBreaker_StateTransitions(t *testing.T) {
-	breaker := NewAdaptiveBreaker(2, 500*time.Millisecond, 2)
-
-	t.Run("closed -> open -> half-open -> closed", func(t *testing.T) {
-		// Start closed
-		assert.Equal(t, StateClosed, breaker.state)
-		assert.True(t, breaker.CanRequest())
-
-		// Trigger failures to open
-		breaker.RecordFailure()
-		breaker.RecordFailure()
-		assert.Equal(t, StateOpen, breaker.state)
-		assert.False(t, breaker.CanRequest())
-
-		// Force cooldown to pass
-		breaker.mu.Lock()
-		breaker.lastFailureTime = time.Now().Add(-31 * time.Second)
-		breaker.mu.Unlock()
-
-		// Should transition to half-open
-		assert.True(t, breaker.CanRequest())
-		assert.Equal(t, StateHalfOpen, breaker.state)
-
-		// Record successes to close
-		breaker.RecordSuccess(100 * time.Millisecond)
-		breaker.RecordSuccess(100 * time.Millisecond)
-		assert.Equal(t, StateClosed, breaker.state)
-	})
-
-	t.Run("half-open -> open on failure", func(t *testing.T) {
-		breaker.Reset()
-		breaker.mu.Lock()
-		breaker.state = StateHalfOpen
-		breaker.mu.Unlock()
-
-		breaker.RecordFailure()
-		assert.Equal(t, StateOpen, breaker.state)
-	})
-
-	t.Run("closed -> open on slow requests", func(t *testing.T) {
-		breaker.Reset()
-
-		// Record slow requests
-		breaker.RecordSuccess(1 * time.Second)
-		assert.Equal(t, StateClosed, breaker.state)
-
-		breaker.RecordSuccess(1 * time.Second)
-		assert.Equal(t, StateOpen, breaker.state)
-	})
-}
-
-func TestAdaptiveBreaker_ConcurrentAccess(t *testing.T) {
-	if testing.Short() {
-		t.Skip("Skipping concurrent access test in short mode")
-	}
-
-	breaker := NewAdaptiveBreaker(20, 500*time.Millisecond, 10)
-	const numGoroutines = 10
-	const operationsPerGoroutine = 5
-
-	var wg sync.WaitGroup
-
-	// Test concurrent operations
-	for i := 0; i < numGoroutines; i++ {
-		wg.Add(1)
-		go func(id int) {
-			defer wg.Done()
-			for j := 0; j < operationsPerGoroutine; j++ {
-				switch j % 6 {
-				case 0:
-					breaker.StartRequest()
-				case 1:
-					breaker.EndRequest()
-				case 2:
-					breaker.RecordSuccess(time.Duration(j*10) * time.Millisecond)
-				case 3:
-					breaker.RecordFailure()
-				case 4:
-					breaker.CanRequest()
-				case 5:
-					breaker.GetState()
-				}
-			}
-		}(i)
-	}
-
-	wg.Wait()
-
-	// Verify state consistency
-	state := breaker.GetState()
-	failures := state["failures"].(int)
-	slowRequests := state["slow_requests"].(int)
-	totalRequests := state["total_requests"].(int64)
-
-	assert.True(t, failures >= 0)
-	assert.True(t, slowRequests >= 0)
-	assert.True(t, totalRequests >= 0)
-
-	// State should be valid
-	stateStr := state["state"].(string)
-	assert.Contains(t, []string{"CLOSED", "OPEN", "HALF_OPEN"}, stateStr)
-}
-
-func TestState_String(t *testing.T) {
-	tests := []struct {
-		state    State
-		expected string
-	}{
-		{StateClosed, "CLOSED"},
-		{StateOpen, "OPEN"},
-		{StateHalfOpen, "HALF_OPEN"},
-		{State(999), "UNKNOWN"}, // Invalid state
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.expected, func(t *testing.T) {
-			assert.Equal(t, tt.expected, tt.state.String())
-		})
-	}
-}
-
-// Benchmark tests
-func BenchmarkAdaptiveBreaker_CanRequest(b *testing.B) {
-	breaker := NewAdaptiveBreaker(5, 1*time.Second, 3)
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		breaker.CanRequest()
-	}
-}
-
-func BenchmarkAdaptiveBreaker_RecordSuccess(b *testing.B) {
-	breaker := NewAdaptiveBreaker(5, 1*time.Second, 3)
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		breaker.RecordSuccess(100 * time.Millisecond)
-	}
-}
-
-func BenchmarkAdaptiveBreaker_RecordFailure(b *testing.B) {
-	breaker := NewAdaptiveBreaker(5, 1*time.Second, 3)
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		breaker.RecordFailure()
-		if i%5 == 4 {
-			breaker.Reset() // Reset to avoid staying open
-		}
-	}
-}
-
-func BenchmarkAdaptiveBreaker_ConcurrentAccess(b *testing.B) {
-	breaker := NewAdaptiveBreaker(10, 1*time.Second, 5)
-
-	b.ResetTimer()
-	b.RunParallel(func(pb *testing.PB) {
-		i := 0
-		for pb.Next() {
-			switch i % 4 {
-			case 0:
-				breaker.CanRequest()
-			case 1:
-				breaker.RecordSuccess(100 * time.Millisecond)
-			case 2:
-				breaker.RecordFailure()
-			case 3:
-				breaker.GetState()
-			}
-			i++
-		}
-	})
-}
-
-// Edge case tests
-func TestAdaptiveBreaker_EdgeCases(t *testing.T) {
-	t.Run("zero thresholds", func(t *testing.T) {
-		breaker := NewAdaptiveBreaker(0, 0, 0)
-
-		// Should handle gracefully
-		breaker.RecordSuccess(1 * time.Second)
-		breaker.RecordFailure()
-		assert.True(t, breaker.CanRequest() || !breaker.CanRequest()) // Either state is valid
-	})
-
-	t.Run("very high thresholds", func(t *testing.T) {
-		breaker := NewAdaptiveBreaker(1000, 1*time.Hour, 1000)
-
-		// Should take many failures to open
-		for i := 0; i < 100; i++ {
-			breaker.RecordFailure()
-		}
-
-		assert.Equal(t, StateClosed, breaker.state) // Should still be closed
-	})
-
-	t.Run("negative latency", func(t *testing.T) {
-		breaker := NewAdaptiveBreaker(5, 1*time.Second, 3)
-
-		// Should handle negative latency gracefully
-		breaker.RecordSuccess(-1 * time.Second)
-		assert.Equal(t, StateClosed, breaker.state)
-	})
-
-	t.Run("very large latency values", func(t *testing.T) {
-		breaker := NewAdaptiveBreaker(5, 1*time.Second, 2)
-
-		breaker.RecordSuccess(1 * time.Hour) // Very slow
-		breaker.RecordSuccess(2 * time.Hour) // Very slow
-
-		assert.Equal(t, StateOpen, breaker.state)
-	})
-}
-
-// Test latency window behavior
-func TestAdaptiveBreaker_LatencyWindow(t *testing.T) {
-	breaker := NewAdaptiveBreaker(5, 1*time.Second, 5)
-	breaker.windowSize = 5 // Small window for testing
-
-	t.Run("window sliding behavior", func(t *testing.T) {
-		// Fill window
-		for i := 0; i < 5; i++ {
-			lat := time.Duration(i*100) * time.Millisecond
-			breaker.RecordSuccess(lat)
-		}
-
-		assert.Len(t, breaker.latencyWindow, 5)
-		assert.Equal(t, 0*time.Millisecond, breaker.latencyWindow[0])
-		assert.Equal(t, 400*time.Millisecond, breaker.latencyWindow[4])
-
-		// Add one more to trigger sliding
-		breaker.RecordSuccess(500 * time.Millisecond)
-
-		assert.Len(t, breaker.latencyWindow, 5)
-		assert.Equal(t, 100*time.Millisecond, breaker.latencyWindow[0]) // First element removed
-		assert.Equal(t, 500*time.Millisecond, breaker.latencyWindow[4]) // New element added
-	})
-
-	t.Run("average calculation with sliding window", func(t *testing.T) {
-		breaker.Reset()
-		breaker.windowSize = 3
-
-		// Add initial values
-		breaker.RecordSuccess(100 * time.Millisecond)
-		breaker.RecordSuccess(200 * time.Millisecond)
-		breaker.RecordSuccess(300 * time.Millisecond)
-
-		avg := breaker.GetAverageLatency()
-		assert.Equal(t, 200*time.Millisecond, avg)
-
-		// Add another value (should remove first)
-		breaker.RecordSuccess(400 * time.Millisecond)
-
-		avg = breaker.GetAverageLatency()
-		assert.Equal(t, 300*time.Millisecond, avg) // (200+300+400)/3
-	})
-}
-
-// Test half-open state behavior
-func TestAdaptiveBreaker_HalfOpenBehavior(t *testing.T) {
-	breaker := NewAdaptiveBreaker(2, 500*time.Millisecond, 2)
-
-	// Open the circuit
-	breaker.RecordFailure()
-	breaker.RecordFailure()
-	assert.Equal(t, StateOpen, breaker.state)
-
-	// Force transition to half-open
-	breaker.mu.Lock()
-	breaker.lastFailureTime = time.Now().Add(-31 * time.Second)
-	breaker.mu.Unlock()
-
-	// Transition to half-open
-	assert.True(t, breaker.CanRequest())
-	assert.Equal(t, StateHalfOpen, breaker.state)
-	// Check the actual value of halfOpenRequests
-	if breaker.halfOpenRequests == 2 {
-		assert.Equal(t, 2, breaker.halfOpenRequests)
-	} else {
-		// If it's 3, that means the CanRequest didn't decrement yet
-		assert.Equal(t, 3, breaker.halfOpenRequests)
-	}
-
-	t.Run("allows limited requests in half-open", func(t *testing.T) {
-		// Test based on current state
-		if breaker.halfOpenRequests == 3 {
-			// We have 3 requests available
-			assert.True(t, breaker.CanRequest())  // 2 left
-			assert.True(t, breaker.CanRequest())  // 1 left
-			assert.True(t, breaker.CanRequest())  // 0 left
-			assert.False(t, breaker.CanRequest()) // None left
-		} else {
-			// We have 2 requests available
-			assert.True(t, breaker.CanRequest())  // 1 left
-			assert.True(t, breaker.CanRequest())  // 0 left
-			assert.False(t, breaker.CanRequest()) // None left
-		}
-	})
-
-	t.Run("transitions to closed on enough successes", func(t *testing.T) {
-		// Reset half-open state
-		breaker.mu.Lock()
-		breaker.state = StateHalfOpen
-		breaker.halfOpenSuccesses = 0
-		breaker.mu.Unlock()
-
-		breaker.RecordSuccess(100 * time.Millisecond) // 1 success
-		assert.Equal(t, StateHalfOpen, breaker.state)
-
-		breaker.RecordSuccess(100 * time.Millisecond) // 2 successes
-		assert.Equal(t, StateClosed, breaker.state)
-	})
-
-	t.Run("transitions to open on failure", func(t *testing.T) {
-		// Reset to half-open
-		breaker.mu.Lock()
-		breaker.state = StateHalfOpen
-		breaker.mu.Unlock()
-
-		breaker.RecordFailure()
-		assert.Equal(t, StateOpen, breaker.state)
-	})
-}
diff --git a/internal/services/circuitbreaker/breaker.go b/internal/services/circuitbreaker/breaker.go
deleted file mode 100644
index 2fd32e6..0000000
--- a/internal/services/circuitbreaker/breaker.go
+++ /dev/null
@@ -1,186 +0,0 @@
-package circuitbreaker
-
-import (
-	"sync"
-	"time"
-)
-
-// SimpleBreaker is a basic circuit breaker that tracks failures and opens after a threshold
-type SimpleBreaker struct {
-	mu              sync.RWMutex
-	failures        int
-	lastFailureTime time.Time
-	isOpen          bool
-
-	// Configuration
-	threshold int
-	cooldown  time.Duration
-}
-
-// New creates a new circuit breaker
-func New(threshold int, cooldown time.Duration) *SimpleBreaker {
-	if threshold <= 0 {
-		threshold = 5 // Default: 5 failures
-	}
-	if cooldown <= 0 {
-		cooldown = 30 * time.Second // Default: 30 seconds
-	}
-
-	return &SimpleBreaker{
-		threshold: threshold,
-		cooldown:  cooldown,
-	}
-}
-
-// IsOpen checks if the circuit is open (blocking requests)
-func (b *SimpleBreaker) IsOpen() bool {
-	b.mu.RLock()
-	defer b.mu.RUnlock()
-
-	if !b.isOpen {
-		return false
-	}
-
-	// Check if cooldown period has passed
-	if time.Since(b.lastFailureTime) > b.cooldown {
-		// Reset the circuit breaker
-		b.mu.RUnlock()
-		b.mu.Lock()
-		b.isOpen = false
-		b.failures = 0
-		b.mu.Unlock()
-		b.mu.RLock()
-		return false
-	}
-
-	return true
-}
-
-// RecordSuccess resets the failure counter
-func (b *SimpleBreaker) RecordSuccess() {
-	b.mu.Lock()
-	defer b.mu.Unlock()
-
-	b.failures = 0
-	b.isOpen = false
-}
-
-// RecordFailure increments the failure counter and opens the circuit if threshold is reached
-func (b *SimpleBreaker) RecordFailure() {
-	b.mu.Lock()
-	defer b.mu.Unlock()
-
-	b.failures++
-	b.lastFailureTime = time.Now()
-
-	if b.failures >= b.threshold {
-		b.isOpen = true
-	}
-}
-
-// Reset manually resets the circuit breaker
-func (b *SimpleBreaker) Reset() {
-	b.mu.Lock()
-	defer b.mu.Unlock()
-
-	b.failures = 0
-	b.isOpen = false
-}
-
-// GetState returns current state for monitoring
-func (b *SimpleBreaker) GetState() (isOpen bool, failures int) {
-	b.mu.RLock()
-	defer b.mu.RUnlock()
-
-	return b.isOpen, b.failures
-}
-
-// Manager manages circuit breakers for multiple models
-type Manager struct {
-	mu       sync.RWMutex
-	breakers map[string]*SimpleBreaker
-
-	// Default configuration
-	defaultThreshold int
-	defaultCooldown  time.Duration
-}
-
-// NewManager creates a new circuit breaker manager
-func NewManager(threshold int, cooldown time.Duration) *Manager {
-	return &Manager{
-		breakers:         make(map[string]*SimpleBreaker),
-		defaultThreshold: threshold,
-		defaultCooldown:  cooldown,
-	}
-}
-
-// GetBreaker gets or creates a circuit breaker for a model
-func (m *Manager) GetBreaker(model string) *SimpleBreaker {
-	m.mu.RLock()
-	breaker, exists := m.breakers[model]
-	m.mu.RUnlock()
-
-	if exists {
-		return breaker
-	}
-
-	// Create new breaker
-	m.mu.Lock()
-	defer m.mu.Unlock()
-
-	// Double-check after acquiring write lock
-	if breaker, exists = m.breakers[model]; exists {
-		return breaker
-	}
-
-	breaker = New(m.defaultThreshold, m.defaultCooldown)
-	m.breakers[model] = breaker
-	return breaker
-}
-
-// IsOpen checks if circuit is open for a model
-func (m *Manager) IsOpen(model string) bool {
-	return m.GetBreaker(model).IsOpen()
-}
-
-// RecordSuccess records a success for a model
-func (m *Manager) RecordSuccess(model string) {
-	m.GetBreaker(model).RecordSuccess()
-}
-
-// RecordFailure records a failure for a model
-func (m *Manager) RecordFailure(model string) {
-	m.GetBreaker(model).RecordFailure()
-}
-
-// Reset resets a specific model's circuit breaker
-func (m *Manager) Reset(model string) {
-	m.GetBreaker(model).Reset()
-}
-
-// ResetAll resets all circuit breakers
-func (m *Manager) ResetAll() {
-	m.mu.Lock()
-	defer m.mu.Unlock()
-
-	for _, breaker := range m.breakers {
-		breaker.Reset()
-	}
-}
-
-// GetAllStates returns the state of all circuit breakers for monitoring
-func (m *Manager) GetAllStates() map[string]map[string]interface{} {
-	m.mu.RLock()
-	defer m.mu.RUnlock()
-
-	states := make(map[string]map[string]interface{})
-	for model, breaker := range m.breakers {
-		isOpen, failures := breaker.GetState()
-		states[model] = map[string]interface{}{
-			"is_open":  isOpen,
-			"failures": failures,
-		}
-	}
-
-	return states
-}
diff --git a/internal/services/circuitbreaker/breaker_test.go b/internal/services/circuitbreaker/breaker_test.go
deleted file mode 100644
index a9e81aa..0000000
--- a/internal/services/circuitbreaker/breaker_test.go
+++ /dev/null
@@ -1,544 +0,0 @@
-package circuitbreaker
-
-import (
-	"fmt"
-	"sync"
-	"testing"
-	"time"
-
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestNew(t *testing.T) {
-	t.Run("with valid parameters", func(t *testing.T) {
-		breaker := New(5, 30*time.Second)
-		assert.Equal(t, 5, breaker.threshold)
-		assert.Equal(t, 30*time.Second, breaker.cooldown)
-		assert.False(t, breaker.isOpen)
-		assert.Equal(t, 0, breaker.failures)
-	})
-
-	t.Run("with zero threshold uses default", func(t *testing.T) {
-		breaker := New(0, 30*time.Second)
-		assert.Equal(t, 5, breaker.threshold) // Default
-	})
-
-	t.Run("with zero cooldown uses default", func(t *testing.T) {
-		breaker := New(5, 0)
-		assert.Equal(t, 30*time.Second, breaker.cooldown) // Default
-	})
-
-	t.Run("with negative values uses defaults", func(t *testing.T) {
-		breaker := New(-1, -1*time.Second)
-		assert.Equal(t, 5, breaker.threshold)
-		assert.Equal(t, 30*time.Second, breaker.cooldown)
-	})
-}
-
-func TestSimpleBreaker_IsOpen(t *testing.T) {
-	breaker := New(3, 100*time.Millisecond)
-
-	t.Run("starts closed", func(t *testing.T) {
-		assert.False(t, breaker.IsOpen())
-	})
-
-	t.Run("stays closed under threshold", func(t *testing.T) {
-		breaker.RecordFailure()
-		breaker.RecordFailure()
-		assert.False(t, breaker.IsOpen())
-	})
-
-	t.Run("opens when threshold reached", func(t *testing.T) {
-		breaker.RecordFailure() // Third failure
-		assert.True(t, breaker.IsOpen())
-	})
-
-	t.Run("stays open during cooldown", func(t *testing.T) {
-		assert.True(t, breaker.IsOpen())
-		time.Sleep(50 * time.Millisecond) // Half cooldown
-		assert.True(t, breaker.IsOpen())
-	})
-
-	t.Run("closes after cooldown", func(t *testing.T) {
-		time.Sleep(60 * time.Millisecond) // Remaining cooldown + buffer
-		assert.False(t, breaker.IsOpen())
-	})
-}
-
-func TestSimpleBreaker_RecordSuccess(t *testing.T) {
-	breaker := New(3, 100*time.Millisecond)
-
-	t.Run("resets failures when closed", func(t *testing.T) {
-		breaker.RecordFailure()
-		breaker.RecordFailure()
-		assert.Equal(t, 2, breaker.failures)
-
-		breaker.RecordSuccess()
-		assert.Equal(t, 0, breaker.failures)
-		assert.False(t, breaker.isOpen)
-	})
-
-	t.Run("closes circuit and resets failures", func(t *testing.T) {
-		// Open the circuit
-		for i := 0; i < 3; i++ {
-			breaker.RecordFailure()
-		}
-		assert.True(t, breaker.isOpen)
-
-		breaker.RecordSuccess()
-		assert.False(t, breaker.isOpen)
-		assert.Equal(t, 0, breaker.failures)
-	})
-}
-
-func TestSimpleBreaker_RecordFailure(t *testing.T) {
-	breaker := New(3, 100*time.Millisecond)
-
-	t.Run("increments failure count", func(t *testing.T) {
-		breaker.RecordFailure()
-		assert.Equal(t, 1, breaker.failures)
-		assert.False(t, breaker.isOpen)
-
-		breaker.RecordFailure()
-		assert.Equal(t, 2, breaker.failures)
-		assert.False(t, breaker.isOpen)
-	})
-
-	t.Run("opens circuit at threshold", func(t *testing.T) {
-		breaker.RecordFailure() // Third failure
-		assert.Equal(t, 3, breaker.failures)
-		assert.True(t, breaker.isOpen)
-	})
-
-	t.Run("records timestamp of failure", func(t *testing.T) {
-		before := time.Now()
-		breaker.RecordFailure()
-		after := time.Now()
-
-		assert.True(t, breaker.lastFailureTime.After(before) || breaker.lastFailureTime.Equal(before))
-		assert.True(t, breaker.lastFailureTime.Before(after) || breaker.lastFailureTime.Equal(after))
-	})
-}
-
-func TestSimpleBreaker_Reset(t *testing.T) {
-	breaker := New(3, 100*time.Millisecond)
-
-	// Open the circuit
-	for i := 0; i < 3; i++ {
-		breaker.RecordFailure()
-	}
-	assert.True(t, breaker.isOpen)
-
-	breaker.Reset()
-	assert.False(t, breaker.isOpen)
-	assert.Equal(t, 0, breaker.failures)
-}
-
-func TestSimpleBreaker_GetState(t *testing.T) {
-	breaker := New(3, 100*time.Millisecond)
-
-	t.Run("initial state", func(t *testing.T) {
-		isOpen, failures := breaker.GetState()
-		assert.False(t, isOpen)
-		assert.Equal(t, 0, failures)
-	})
-
-	t.Run("after failures", func(t *testing.T) {
-		breaker.RecordFailure()
-		breaker.RecordFailure()
-
-		isOpen, failures := breaker.GetState()
-		assert.False(t, isOpen)
-		assert.Equal(t, 2, failures)
-	})
-
-	t.Run("when open", func(t *testing.T) {
-		breaker.RecordFailure() // Third failure
-
-		isOpen, failures := breaker.GetState()
-		assert.True(t, isOpen)
-		assert.Equal(t, 3, failures)
-	})
-}
-
-func TestSimpleBreaker_ConcurrentAccess(t *testing.T) {
-	breaker := New(100, 100*time.Millisecond)
-	const numGoroutines = 50
-	const operationsPerGoroutine = 20
-
-	var wg sync.WaitGroup
-
-	// Test concurrent failures
-	for i := 0; i < numGoroutines; i++ {
-		wg.Add(1)
-		go func() {
-			defer wg.Done()
-			for j := 0; j < operationsPerGoroutine; j++ {
-				breaker.RecordFailure()
-			}
-		}()
-	}
-
-	wg.Wait()
-
-	// Circuit should be open (threshold is 100, we recorded 1000 failures)
-	assert.True(t, breaker.IsOpen())
-	isOpen, failures := breaker.GetState()
-	assert.True(t, isOpen)
-	assert.Equal(t, numGoroutines*operationsPerGoroutine, failures)
-}
-
-func TestSimpleBreaker_ConcurrentSuccessAndFailure(t *testing.T) {
-	breaker := New(50, 100*time.Millisecond)
-	const numGoroutines = 10
-
-	var wg sync.WaitGroup
-
-	// Half goroutines record failures, half record successes
-	for i := 0; i < numGoroutines; i++ {
-		wg.Add(1)
-		go func(id int) {
-			defer wg.Done()
-			if id%2 == 0 {
-				for j := 0; j < 10; j++ {
-					breaker.RecordFailure()
-				}
-			} else {
-				for j := 0; j < 10; j++ {
-					breaker.RecordSuccess()
-				}
-			}
-		}(i)
-	}
-
-	wg.Wait()
-
-	// The exact state depends on the order of operations
-	// but the breaker should handle concurrent access safely
-	isOpen, failures := breaker.GetState()
-	assert.True(t, failures >= 0)     // Should never be negative
-	assert.True(t, isOpen || !isOpen) // Should be in a valid state
-}
-
-func TestManager(t *testing.T) {
-	t.Run("creates new breakers on demand", func(t *testing.T) {
-		manager := NewManager(3, 100*time.Millisecond)
-		breaker1 := manager.GetBreaker("model1")
-		breaker2 := manager.GetBreaker("model2")
-
-		assert.NotNil(t, breaker1)
-		assert.NotNil(t, breaker2)
-		// Different models should have different breakers (different memory addresses)
-		assert.NotSame(t, breaker1, breaker2)
-	})
-
-	t.Run("returns same breaker for same model", func(t *testing.T) {
-		manager := NewManager(3, 100*time.Millisecond)
-		breaker1 := manager.GetBreaker("model1")
-		breaker2 := manager.GetBreaker("model1")
-
-		assert.Equal(t, breaker1, breaker2)
-	})
-
-	t.Run("IsOpen delegates to breaker", func(t *testing.T) {
-		manager := NewManager(3, 100*time.Millisecond)
-		assert.False(t, manager.IsOpen("model1"))
-
-		// Trip the breaker
-		for i := 0; i < 3; i++ {
-			manager.RecordFailure("model1")
-		}
-
-		assert.True(t, manager.IsOpen("model1"))
-	})
-
-	t.Run("RecordSuccess delegates to breaker", func(t *testing.T) {
-		manager := NewManager(3, 100*time.Millisecond)
-		manager.RecordFailure("model2")
-		manager.RecordFailure("model2")
-
-		breaker := manager.GetBreaker("model2")
-		_, failures := breaker.GetState()
-		assert.Equal(t, 2, failures)
-
-		manager.RecordSuccess("model2")
-		_, failures = breaker.GetState()
-		assert.Equal(t, 0, failures)
-	})
-
-	t.Run("RecordFailure delegates to breaker", func(t *testing.T) {
-		manager := NewManager(3, 100*time.Millisecond)
-		manager.RecordFailure("model3")
-
-		breaker := manager.GetBreaker("model3")
-		_, failures := breaker.GetState()
-		assert.Equal(t, 1, failures)
-	})
-
-	t.Run("Reset delegates to breaker", func(t *testing.T) {
-		manager := NewManager(3, 100*time.Millisecond)
-		// Trip the breaker
-		for i := 0; i < 3; i++ {
-			manager.RecordFailure("model4")
-		}
-		assert.True(t, manager.IsOpen("model4"))
-
-		manager.Reset("model4")
-		assert.False(t, manager.IsOpen("model4"))
-	})
-
-	t.Run("ResetAll resets all breakers", func(t *testing.T) {
-		manager := NewManager(3, 100*time.Millisecond)
-		// Trip multiple breakers
-		for i := 0; i < 3; i++ {
-			manager.RecordFailure("model5")
-			manager.RecordFailure("model6")
-		}
-
-		assert.True(t, manager.IsOpen("model5"))
-		assert.True(t, manager.IsOpen("model6"))
-
-		manager.ResetAll()
-
-		assert.False(t, manager.IsOpen("model5"))
-		assert.False(t, manager.IsOpen("model6"))
-	})
-
-	t.Run("GetAllStates returns all breaker states", func(t *testing.T) {
-		manager := NewManager(3, 100*time.Millisecond)
-		// Create some breakers in different states
-		manager.RecordFailure("model7")
-		manager.RecordFailure("model8")
-		manager.RecordFailure("model8")
-
-		states := manager.GetAllStates()
-
-		require.Contains(t, states, "model7")
-		require.Contains(t, states, "model8")
-
-		model7State := states["model7"]
-		assert.False(t, model7State["is_open"].(bool))
-		assert.Equal(t, 1, model7State["failures"].(int))
-
-		model8State := states["model8"]
-		assert.False(t, model8State["is_open"].(bool))
-		assert.Equal(t, 2, model8State["failures"].(int))
-	})
-}
-
-func TestManager_ConcurrentAccess(t *testing.T) {
-	manager := NewManager(10, 100*time.Millisecond)
-	const numModels = 5
-	const numGoroutines = 20
-
-	var wg sync.WaitGroup
-
-	// Create multiple goroutines accessing different models
-	for i := 0; i < numGoroutines; i++ {
-		wg.Add(1)
-		go func(id int) {
-			defer wg.Done()
-			modelName := fmt.Sprintf("model-%d", id%numModels)
-
-			// Mix of operations
-			for j := 0; j < 10; j++ {
-				switch j % 4 {
-				case 0:
-					manager.RecordFailure(modelName)
-				case 1:
-					manager.RecordSuccess(modelName)
-				case 2:
-					manager.IsOpen(modelName)
-				case 3:
-					manager.GetBreaker(modelName)
-				}
-			}
-		}(i)
-	}
-
-	wg.Wait()
-
-	// Verify all models were created and are in valid states
-	states := manager.GetAllStates()
-	assert.Equal(t, numModels, len(states))
-
-	for modelName, state := range states {
-		isOpen := state["is_open"].(bool)
-		failures := state["failures"].(int)
-
-		assert.True(t, failures >= 0, "Model %s should not have negative failures", modelName)
-		assert.True(t, isOpen || !isOpen, "Model %s should be in valid state", modelName)
-	}
-}
-
-// Benchmark tests
-func BenchmarkSimpleBreaker_IsOpen(b *testing.B) {
-	breaker := New(5, 30*time.Second)
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		breaker.IsOpen()
-	}
-}
-
-func BenchmarkSimpleBreaker_RecordSuccess(b *testing.B) {
-	breaker := New(5, 30*time.Second)
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		breaker.RecordSuccess()
-	}
-}
-
-func BenchmarkSimpleBreaker_RecordFailure(b *testing.B) {
-	breaker := New(5, 30*time.Second)
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		breaker.RecordFailure()
-		if i%5 == 4 {
-			breaker.Reset() // Reset to avoid staying open
-		}
-	}
-}
-
-func BenchmarkManager_GetBreaker(b *testing.B) {
-	manager := NewManager(5, 30*time.Second)
-	models := []string{"model1", "model2", "model3", "model4", "model5"}
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		model := models[i%len(models)]
-		manager.GetBreaker(model)
-	}
-}
-
-func BenchmarkManager_ConcurrentAccess(b *testing.B) {
-	manager := NewManager(5, 30*time.Second)
-	models := []string{"model1", "model2", "model3", "model4", "model5"}
-
-	b.ResetTimer()
-	b.RunParallel(func(pb *testing.PB) {
-		i := 0
-		for pb.Next() {
-			model := models[i%len(models)]
-			switch i % 3 {
-			case 0:
-				manager.RecordSuccess(model)
-			case 1:
-				manager.RecordFailure(model)
-			case 2:
-				manager.IsOpen(model)
-			}
-			i++
-		}
-	})
-}
-
-// Edge case tests
-func TestSimpleBreaker_EdgeCases(t *testing.T) {
-	t.Run("very short cooldown", func(t *testing.T) {
-		breaker := New(1, 1*time.Millisecond)
-		breaker.RecordFailure()
-
-		assert.True(t, breaker.IsOpen())
-
-		// Wait for cooldown
-		time.Sleep(5 * time.Millisecond)
-
-		assert.False(t, breaker.IsOpen())
-	})
-
-	t.Run("threshold of 1", func(t *testing.T) {
-		breaker := New(1, 100*time.Millisecond)
-
-		assert.False(t, breaker.IsOpen())
-
-		breaker.RecordFailure()
-		assert.True(t, breaker.IsOpen())
-	})
-
-	t.Run("very long cooldown", func(t *testing.T) {
-		breaker := New(1, 24*time.Hour)
-		breaker.RecordFailure()
-
-		assert.True(t, breaker.IsOpen())
-
-		// Should still be open after short wait
-		time.Sleep(1 * time.Millisecond)
-		assert.True(t, breaker.IsOpen())
-	})
-}
-
-func TestManager_EdgeCases(t *testing.T) {
-	t.Run("empty model name", func(t *testing.T) {
-		manager := NewManager(3, 100*time.Millisecond)
-
-		breaker := manager.GetBreaker("")
-		assert.NotNil(t, breaker)
-
-		// Should work normally
-		manager.RecordFailure("")
-		assert.False(t, manager.IsOpen(""))
-	})
-
-	t.Run("unicode model names", func(t *testing.T) {
-		manager := NewManager(3, 100*time.Millisecond)
-
-		unicodeModel := "模型-测试-🤖"
-		breaker := manager.GetBreaker(unicodeModel)
-		assert.NotNil(t, breaker)
-
-		manager.RecordFailure(unicodeModel)
-		assert.False(t, manager.IsOpen(unicodeModel))
-
-		states := manager.GetAllStates()
-		assert.Contains(t, states, unicodeModel)
-	})
-
-	t.Run("very long model names", func(t *testing.T) {
-		manager := NewManager(3, 100*time.Millisecond)
-
-		longModel := string(make([]byte, 1000))
-		for i := range longModel {
-			longModel = longModel[:i] + "a" + longModel[i+1:]
-		}
-
-		breaker := manager.GetBreaker(longModel)
-		assert.NotNil(t, breaker)
-	})
-}
-
-// Test rapid state changes
-func TestSimpleBreaker_RapidStateChanges(t *testing.T) {
-	breaker := New(2, 10*time.Millisecond)
-
-	// Rapid failure -> success -> failure pattern
-	for i := 0; i < 100; i++ {
-		breaker.RecordFailure()
-		breaker.RecordFailure()
-		assert.True(t, breaker.IsOpen())
-
-		breaker.RecordSuccess()
-		assert.False(t, breaker.IsOpen())
-	}
-}
-
-// Test behavior during exactly the cooldown period
-func TestSimpleBreaker_CooldownTiming(t *testing.T) {
-	cooldown := 50 * time.Millisecond
-	breaker := New(1, cooldown)
-
-	// Open the circuit
-	breaker.RecordFailure()
-	assert.True(t, breaker.IsOpen())
-
-	// Check exactly at cooldown time
-	time.Sleep(cooldown)
-	assert.False(t, breaker.IsOpen())
-
-	// Should be able to record success
-	breaker.RecordSuccess()
-	assert.False(t, breaker.IsOpen())
-}
diff --git a/internal/services/budget/service.go b/internal/services/data/budget/service.go
similarity index 100%
rename from internal/services/budget/service.go
rename to internal/services/data/budget/service.go
diff --git a/internal/services/budget/unified_service.go b/internal/services/data/budget/unified_service.go
similarity index 98%
rename from internal/services/budget/unified_service.go
rename to internal/services/data/budget/unified_service.go
index 6508aa2..a03938b 100644
--- a/internal/services/budget/unified_service.go
+++ b/internal/services/data/budget/unified_service.go
@@ -9,8 +9,8 @@ import (
 	"go.uber.org/zap"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/models"
-	redisService "github.com/amerfu/pllm/internal/services/redis"
+	"github.com/amerfu/pllm/internal/core/models"
+	redisService "github.com/amerfu/pllm/internal/services/data/redis"
 )
 
 // UnifiedService consolidates all budget operations into a single service
diff --git a/internal/services/data/cache/cache.go b/internal/services/data/cache/cache.go
new file mode 100644
index 0000000..eb8d05e
--- /dev/null
+++ b/internal/services/data/cache/cache.go
@@ -0,0 +1,288 @@
+package cache
+
+import (
+	"context"
+	"crypto/sha256"
+	"encoding/hex"
+	"encoding/json"
+	"fmt"
+	"time"
+
+	"github.com/redis/go-redis/v9"
+)
+
+var (
+	client *redis.Client
+	ctx    = context.Background()
+)
+
+type Config struct {
+	RedisURL string
+	Password string
+	DB       int
+	TTL      time.Duration
+	MaxSize  int
+}
+
+type Cache interface {
+	Get(key string) ([]byte, error)
+	Set(key string, value []byte, ttl time.Duration) error
+	Delete(key string) error
+	Exists(key string) bool
+	Clear() error
+}
+
+type RedisCache struct {
+	client *redis.Client
+	ttl    time.Duration
+}
+
+func Initialize(cfg *Config) error {
+	opt, err := redis.ParseURL(cfg.RedisURL)
+	if err != nil {
+		return fmt.Errorf("failed to parse redis URL: %w", err)
+	}
+
+	if cfg.Password != "" {
+		opt.Password = cfg.Password
+	}
+	if cfg.DB != 0 {
+		opt.DB = cfg.DB
+	}
+
+	client = redis.NewClient(opt)
+
+	// Test connection
+	if err := client.Ping(ctx).Err(); err != nil {
+		return fmt.Errorf("failed to connect to redis: %w", err)
+	}
+
+	return nil
+}
+
+func NewRedisCache(ttl time.Duration) *RedisCache {
+	return &RedisCache{
+		client: client,
+		ttl:    ttl,
+	}
+}
+
+func (c *RedisCache) Get(key string) ([]byte, error) {
+	val, err := c.client.Get(ctx, key).Bytes()
+	if err == redis.Nil {
+		return nil, nil
+	}
+	if err != nil {
+		return nil, err
+	}
+	return val, nil
+}
+
+func (c *RedisCache) Set(key string, value []byte, ttl time.Duration) error {
+	if ttl == 0 {
+		ttl = c.ttl
+	}
+	return c.client.Set(ctx, key, value, ttl).Err()
+}
+
+func (c *RedisCache) Delete(key string) error {
+	return c.client.Del(ctx, key).Err()
+}
+
+func (c *RedisCache) Exists(key string) bool {
+	exists, _ := c.client.Exists(ctx, key).Result()
+	return exists > 0
+}
+
+func (c *RedisCache) Clear() error {
+	return c.client.FlushDB(ctx).Err()
+}
+
+func (c *RedisCache) GetJSON(key string, dest interface{}) error {
+	data, err := c.Get(key)
+	if err != nil {
+		return err
+	}
+	if data == nil {
+		return nil
+	}
+	return json.Unmarshal(data, dest)
+}
+
+func (c *RedisCache) SetJSON(key string, value interface{}, ttl time.Duration) error {
+	data, err := json.Marshal(value)
+	if err != nil {
+		return err
+	}
+	return c.Set(key, data, ttl)
+}
+
+func GenerateCacheKey(prefix string, params map[string]interface{}) string {
+	data, _ := json.Marshal(params)
+	hash := sha256.Sum256(data)
+	return fmt.Sprintf("%s:%s", prefix, hex.EncodeToString(hash[:]))
+}
+
+func GeneratePromptCacheKey(provider, model, prompt string, params map[string]interface{}) string {
+	combined := map[string]interface{}{
+		"provider": provider,
+		"model":    model,
+		"prompt":   prompt,
+		"params":   params,
+	}
+	return GenerateCacheKey("prompt", combined)
+}
+
+func Close() error {
+	if client != nil {
+		return client.Close()
+	}
+	return nil
+}
+
+func GetClient() *redis.Client {
+	return client
+}
+
+func IsHealthy() bool {
+	if client == nil {
+		return false
+	}
+
+	if err := client.Ping(ctx).Err(); err != nil {
+		return false
+	}
+
+	return true
+}
+
+// TestConnection tests if a Redis connection can be established
+func TestConnection(ctx context.Context, cfg *Config) error {
+	if cfg.RedisURL == "" {
+		return fmt.Errorf("redis URL is required")
+	}
+
+	opt, err := redis.ParseURL(cfg.RedisURL)
+	if err != nil {
+		return fmt.Errorf("failed to parse redis URL: %w", err)
+	}
+
+	if cfg.Password != "" {
+		opt.Password = cfg.Password
+	}
+	if cfg.DB != 0 {
+		opt.DB = cfg.DB
+	}
+
+	testClient := redis.NewClient(opt)
+	defer func() { _ = testClient.Close() }()
+
+	// Test connection with context
+	if err := testClient.Ping(ctx).Err(); err != nil {
+		return fmt.Errorf("failed to ping redis: %w", err)
+	}
+
+	return nil
+}
+
+type CacheStats struct {
+	Hits    int64   `json:"hits"`
+	Misses  int64   `json:"misses"`
+	HitRate float64 `json:"hit_rate"`
+	Size    int64   `json:"size"`
+	Keys    int64   `json:"keys"`
+}
+
+func GetStats() (*CacheStats, error) {
+	if client == nil {
+		return nil, fmt.Errorf("cache not initialized")
+	}
+
+	// TODO: Parse Redis INFO stats
+	// info := client.Info(ctx, "stats")
+	// This is simplified, actual implementation would parse the INFO response
+
+	keys, _ := client.DBSize(ctx).Result()
+
+	return &CacheStats{
+		Keys: keys,
+	}, nil
+}
+
+type InMemoryCache struct {
+	data map[string]cacheItem
+	ttl  time.Duration
+}
+
+type cacheItem struct {
+	value     []byte
+	expiresAt time.Time
+}
+
+func NewInMemoryCache(ttl time.Duration) *InMemoryCache {
+	cache := &InMemoryCache{
+		data: make(map[string]cacheItem),
+		ttl:  ttl,
+	}
+
+	// Start cleanup goroutine
+	go cache.cleanup()
+
+	return cache
+}
+
+func (c *InMemoryCache) Get(key string) ([]byte, error) {
+	item, exists := c.data[key]
+	if !exists {
+		return nil, nil
+	}
+
+	if time.Now().After(item.expiresAt) {
+		delete(c.data, key)
+		return nil, nil
+	}
+
+	return item.value, nil
+}
+
+func (c *InMemoryCache) Set(key string, value []byte, ttl time.Duration) error {
+	if ttl == 0 {
+		ttl = c.ttl
+	}
+
+	c.data[key] = cacheItem{
+		value:     value,
+		expiresAt: time.Now().Add(ttl),
+	}
+
+	return nil
+}
+
+func (c *InMemoryCache) Delete(key string) error {
+	delete(c.data, key)
+	return nil
+}
+
+func (c *InMemoryCache) Exists(key string) bool {
+	_, exists := c.data[key]
+	return exists
+}
+
+func (c *InMemoryCache) Clear() error {
+	c.data = make(map[string]cacheItem)
+	return nil
+}
+
+func (c *InMemoryCache) cleanup() {
+	ticker := time.NewTicker(1 * time.Minute)
+	defer ticker.Stop()
+
+	for range ticker.C {
+		now := time.Now()
+		for key, item := range c.data {
+			if now.After(item.expiresAt) {
+				delete(c.data, key)
+			}
+		}
+	}
+}
diff --git a/internal/services/cache/pricing_cache.go b/internal/services/data/cache/pricing_cache.go
similarity index 99%
rename from internal/services/cache/pricing_cache.go
rename to internal/services/data/cache/pricing_cache.go
index 9b20041..a075393 100644
--- a/internal/services/cache/pricing_cache.go
+++ b/internal/services/data/cache/pricing_cache.go
@@ -9,7 +9,7 @@ import (
 	"github.com/redis/go-redis/v9"
 	"go.uber.org/zap"
 
-	"github.com/amerfu/pllm/internal/config"
+	"github.com/amerfu/pllm/internal/core/config"
 )
 
 // PricingCache provides Redis-based caching for model pricing information
diff --git a/internal/services/redis/budget_cache.go b/internal/services/data/redis/budget_cache.go
similarity index 100%
rename from internal/services/redis/budget_cache.go
rename to internal/services/data/redis/budget_cache.go
diff --git a/internal/services/redis/budget_cache_test.go b/internal/services/data/redis/budget_cache_test.go
similarity index 100%
rename from internal/services/redis/budget_cache_test.go
rename to internal/services/data/redis/budget_cache_test.go
diff --git a/internal/services/redis/distributed_locks.go b/internal/services/data/redis/distributed_locks.go
similarity index 100%
rename from internal/services/redis/distributed_locks.go
rename to internal/services/data/redis/distributed_locks.go
diff --git a/internal/services/redis/events.go b/internal/services/data/redis/events.go
similarity index 100%
rename from internal/services/redis/events.go
rename to internal/services/data/redis/events.go
diff --git a/internal/services/redis/events_test.go b/internal/services/data/redis/events_test.go
similarity index 100%
rename from internal/services/redis/events_test.go
rename to internal/services/data/redis/events_test.go
diff --git a/internal/services/data/redis/latency_tracker.go b/internal/services/data/redis/latency_tracker.go
new file mode 100644
index 0000000..a834bea
--- /dev/null
+++ b/internal/services/data/redis/latency_tracker.go
@@ -0,0 +1,355 @@
+package redis
+
+import (
+	"context"
+	"fmt"
+	"strconv"
+	"time"
+
+	"github.com/redis/go-redis/v9"
+	"go.uber.org/zap"
+)
+
+// LatencyTracker provides distributed latency tracking across multiple instances
+type LatencyTracker struct {
+	client *redis.Client
+	logger *zap.Logger
+	
+	// Configuration
+	windowSize   time.Duration // Time window for latency samples (default: 5 minutes)
+	maxSamples   int64         // Max samples per model (default: 1000)
+	updatePeriod time.Duration // How often to update aggregates (default: 10s)
+}
+
+// NewLatencyTracker creates a new distributed latency tracker
+func NewLatencyTracker(client *redis.Client, logger *zap.Logger) *LatencyTracker {
+	return &LatencyTracker{
+		client:       client,
+		logger:       logger,
+		windowSize:   5 * time.Minute,
+		maxSamples:   1000,
+		updatePeriod: 10 * time.Second,
+	}
+}
+
+// RecordLatency records a latency sample for a model
+func (lt *LatencyTracker) RecordLatency(ctx context.Context, modelName string, latency time.Duration) error {
+	latencyMs := latency.Milliseconds()
+	timestamp := float64(time.Now().UnixMilli())
+	
+	// Store in sorted set: score = timestamp, member = "latency_ms:timestamp" (unique)
+	key := lt.latencyKey(modelName)
+	
+	// Make member unique by combining latency and timestamp
+	member := fmt.Sprintf("%d:%d", latencyMs, time.Now().UnixNano())
+	
+	pipe := lt.client.Pipeline()
+	
+	// Add latency sample with timestamp as score
+	pipe.ZAdd(ctx, key, redis.Z{
+		Score:  timestamp,
+		Member: member,
+	})
+	
+	// Trim old samples (keep last windowSize)
+	cutoff := float64(time.Now().Add(-lt.windowSize).UnixMilli())
+	pipe.ZRemRangeByScore(ctx, key, "-inf", fmt.Sprintf("%.0f", cutoff))
+	
+	// Limit total samples (keep most recent)
+	pipe.ZRemRangeByRank(ctx, key, 0, -lt.maxSamples-1)
+	
+	// Set TTL to prevent memory leaks
+	pipe.Expire(ctx, key, lt.windowSize*2)
+	
+	_, err := pipe.Exec(ctx)
+	if err != nil {
+		lt.logger.Error("Failed to record latency",
+			zap.String("model", modelName),
+			zap.Duration("latency", latency),
+			zap.Error(err))
+		return err
+	}
+	
+	// Also update moving average asynchronously
+	go lt.updateMovingAverage(context.Background(), modelName, latencyMs)
+	
+	return nil
+}
+
+// GetAverageLatency returns the average latency for a model
+func (lt *LatencyTracker) GetAverageLatency(ctx context.Context, modelName string) (time.Duration, error) {
+	key := lt.avgKey(modelName)
+	
+	result, err := lt.client.Get(ctx, key).Result()
+	if err == redis.Nil {
+		return 0, nil // No data yet
+	}
+	if err != nil {
+		return 0, err
+	}
+	
+	avgMs, err := strconv.ParseFloat(result, 64)
+	if err != nil {
+		return 0, err
+	}
+	
+	return time.Duration(avgMs) * time.Millisecond, nil
+}
+
+// GetPercentileLatency returns the Pxx latency (e.g., P95, P99)
+func (lt *LatencyTracker) GetPercentileLatency(ctx context.Context, modelName string, percentile float64) (time.Duration, error) {
+	key := lt.latencyKey(modelName)
+	
+	// Get total count
+	count, err := lt.client.ZCard(ctx, key).Result()
+	if err != nil || count == 0 {
+		return 0, err
+	}
+	
+	// Calculate index for percentile
+	index := int64(float64(count) * percentile / 100.0)
+	if index >= count {
+		index = count - 1
+	}
+	
+	// Get value at percentile index
+	values, err := lt.client.ZRange(ctx, key, index, index).Result()
+	if err != nil || len(values) == 0 {
+		return 0, err
+	}
+	
+	latencyMs, err := strconv.ParseInt(values[0], 10, 64)
+	if err != nil {
+		return 0, err
+	}
+	
+	return time.Duration(latencyMs) * time.Millisecond, nil
+}
+
+// GetLatencyStats returns comprehensive latency statistics
+func (lt *LatencyTracker) GetLatencyStats(ctx context.Context, modelName string) (*LatencyStats, error) {
+	key := lt.latencyKey(modelName)
+	
+	// Get all samples
+	values, err := lt.client.ZRange(ctx, key, 0, -1).Result()
+	if err != nil {
+		return nil, err
+	}
+	
+	if len(values) == 0 {
+		return &LatencyStats{
+			ModelName:   modelName,
+			SampleCount: 0,
+		}, nil
+	}
+	
+	// Parse values (format: "latency_ms:timestamp")
+	latencies := make([]int64, 0, len(values))
+	var sum int64
+	var min int64 = 1<<63 - 1
+	var max int64
+	
+	for _, v := range values {
+		// Split "latency_ms:timestamp"
+		parts := splitString(v, ":")
+		if len(parts) < 1 {
+			continue
+		}
+		
+		latency, err := strconv.ParseInt(parts[0], 10, 64)
+		if err != nil {
+			continue
+		}
+		latencies = append(latencies, latency)
+		sum += latency
+		if latency < min {
+			min = latency
+		}
+		if latency > max {
+			max = latency
+		}
+	}
+	
+	if len(latencies) == 0 {
+		return &LatencyStats{
+			ModelName:   modelName,
+			SampleCount: 0,
+		}, nil
+	}
+	
+	avg := sum / int64(len(latencies))
+	
+	// Calculate percentiles
+	p50Index := int(float64(len(latencies)) * 0.50)
+	p95Index := int(float64(len(latencies)) * 0.95)
+	p99Index := int(float64(len(latencies)) * 0.99)
+	
+	if p50Index >= len(latencies) {
+		p50Index = len(latencies) - 1
+	}
+	if p95Index >= len(latencies) {
+		p95Index = len(latencies) - 1
+	}
+	if p99Index >= len(latencies) {
+		p99Index = len(latencies) - 1
+	}
+	
+	return &LatencyStats{
+		ModelName:   modelName,
+		SampleCount: int64(len(latencies)),
+		Average:     time.Duration(avg) * time.Millisecond,
+		Min:         time.Duration(min) * time.Millisecond,
+		Max:         time.Duration(max) * time.Millisecond,
+		P50:         time.Duration(latencies[p50Index]) * time.Millisecond,
+		P95:         time.Duration(latencies[p95Index]) * time.Millisecond,
+		P99:         time.Duration(latencies[p99Index]) * time.Millisecond,
+	}, nil
+}
+
+// GetHealthScore calculates a health score based on latency (0-100)
+func (lt *LatencyTracker) GetHealthScore(ctx context.Context, modelName string) (float64, error) {
+	stats, err := lt.GetLatencyStats(ctx, modelName)
+	if err != nil {
+		return 100.0, err
+	}
+	
+	if stats.SampleCount == 0 {
+		return 100.0, nil // No data = healthy
+	}
+	
+	// Score based on P95 latency
+	// < 500ms = 100, 1s = 80, 2s = 60, 5s = 40, 10s+ = 20
+	p95Ms := float64(stats.P95.Milliseconds())
+	
+	var score float64
+	switch {
+	case p95Ms < 500:
+		score = 100.0
+	case p95Ms < 1000:
+		score = 100.0 - (p95Ms-500)*0.04 // Linear from 100 to 80
+	case p95Ms < 2000:
+		score = 80.0 - (p95Ms-1000)*0.02 // Linear from 80 to 60
+	case p95Ms < 5000:
+		score = 60.0 - (p95Ms-2000)*0.0067 // Linear from 60 to 40
+	case p95Ms < 10000:
+		score = 40.0 - (p95Ms-5000)*0.004 // Linear from 40 to 20
+	default:
+		score = 20.0
+	}
+	
+	if score < 0 {
+		score = 0
+	}
+	
+	return score, nil
+}
+
+// ClearLatencies clears all latency data for a model (for testing/reset)
+func (lt *LatencyTracker) ClearLatencies(ctx context.Context, modelName string) error {
+	pipe := lt.client.Pipeline()
+	pipe.Del(ctx, lt.latencyKey(modelName))
+	pipe.Del(ctx, lt.avgKey(modelName))
+	_, err := pipe.Exec(ctx)
+	return err
+}
+
+// GetAllModelStats returns latency stats for all tracked models
+func (lt *LatencyTracker) GetAllModelStats(ctx context.Context) (map[string]*LatencyStats, error) {
+	// Scan for all latency keys
+	pattern := "pllm:latency:*"
+	keys, err := lt.client.Keys(ctx, pattern).Result()
+	if err != nil {
+		return nil, err
+	}
+	
+	stats := make(map[string]*LatencyStats)
+	for _, key := range keys {
+		// Extract model name from key
+		modelName := key[len("pllm:latency:"):]
+		
+		modelStats, err := lt.GetLatencyStats(ctx, modelName)
+		if err != nil {
+			lt.logger.Warn("Failed to get stats for model",
+				zap.String("model", modelName),
+				zap.Error(err))
+			continue
+		}
+		
+		stats[modelName] = modelStats
+	}
+	
+	return stats, nil
+}
+
+// updateMovingAverage updates the exponential moving average (async)
+func (lt *LatencyTracker) updateMovingAverage(ctx context.Context, modelName string, latencyMs int64) {
+	key := lt.avgKey(modelName)
+	
+	// Get current average
+	currentAvgStr, err := lt.client.Get(ctx, key).Result()
+	var newAvg float64
+	
+	if err == redis.Nil {
+		// First sample
+		newAvg = float64(latencyMs)
+	} else if err != nil {
+		lt.logger.Error("Failed to get current average", zap.Error(err))
+		return
+	} else {
+		currentAvg, err := strconv.ParseFloat(currentAvgStr, 64)
+		if err != nil {
+			newAvg = float64(latencyMs)
+		} else {
+			// Exponential moving average: new = old * 0.9 + new * 0.1
+			newAvg = currentAvg*0.9 + float64(latencyMs)*0.1
+		}
+	}
+	
+	// Update average
+	err = lt.client.Set(ctx, key, newAvg, lt.windowSize*2).Err()
+	if err != nil {
+		lt.logger.Error("Failed to update moving average", zap.Error(err))
+	}
+}
+
+// Helper methods for Redis keys
+func (lt *LatencyTracker) latencyKey(modelName string) string {
+	return fmt.Sprintf("pllm:latency:%s", modelName)
+}
+
+func (lt *LatencyTracker) avgKey(modelName string) string {
+	return fmt.Sprintf("pllm:latency:avg:%s", modelName)
+}
+
+// LatencyStats represents comprehensive latency statistics
+type LatencyStats struct {
+	ModelName   string        `json:"model_name"`
+	SampleCount int64         `json:"sample_count"`
+	Average     time.Duration `json:"average"`
+	Min         time.Duration `json:"min"`
+	Max         time.Duration `json:"max"`
+	P50         time.Duration `json:"p50"`
+	P95         time.Duration `json:"p95"`
+	P99         time.Duration `json:"p99"`
+}
+
+// splitString is a simple string split helper
+func splitString(s, sep string) []string {
+	if s == "" {
+		return nil
+	}
+	
+	var result []string
+	start := 0
+	
+	for i := 0; i < len(s); i++ {
+		if i+len(sep) <= len(s) && s[i:i+len(sep)] == sep {
+			result = append(result, s[start:i])
+			start = i + len(sep)
+			i += len(sep) - 1
+		}
+	}
+	
+	result = append(result, s[start:])
+	return result
+}
diff --git a/internal/services/data/redis/latency_tracker_test.go b/internal/services/data/redis/latency_tracker_test.go
new file mode 100644
index 0000000..df23c20
--- /dev/null
+++ b/internal/services/data/redis/latency_tracker_test.go
@@ -0,0 +1,355 @@
+package redis
+
+import (
+	"context"
+	"testing"
+	"time"
+
+	"github.com/alicebob/miniredis/v2"
+	"github.com/redis/go-redis/v9"
+	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
+	"go.uber.org/zap"
+)
+
+func setupTestRedis(t *testing.T) (*redis.Client, *miniredis.Miniredis) {
+	mr, err := miniredis.Run()
+	require.NoError(t, err)
+
+	client := redis.NewClient(&redis.Options{
+		Addr: mr.Addr(),
+	})
+
+	return client, mr
+}
+
+func TestLatencyTracker_RecordAndRetrieve(t *testing.T) {
+	client, mr := setupTestRedis(t)
+	defer mr.Close()
+	defer client.Close()
+
+	logger, _ := zap.NewDevelopment()
+	tracker := NewLatencyTracker(client, logger)
+
+	ctx := context.Background()
+	modelName := "gpt-4"
+
+	// Record multiple latencies
+	latencies := []time.Duration{
+		100 * time.Millisecond,
+		150 * time.Millisecond,
+		120 * time.Millisecond,
+		200 * time.Millisecond,
+		110 * time.Millisecond,
+	}
+
+	for _, lat := range latencies {
+		err := tracker.RecordLatency(ctx, modelName, lat)
+		require.NoError(t, err)
+	}
+
+	// Give time for async moving average update
+	time.Sleep(50 * time.Millisecond)
+
+	// Get average latency
+	avg, err := tracker.GetAverageLatency(ctx, modelName)
+	require.NoError(t, err)
+	assert.Greater(t, avg, 0*time.Millisecond)
+	assert.Less(t, avg, 300*time.Millisecond)
+
+	// Get stats
+	stats, err := tracker.GetLatencyStats(ctx, modelName)
+	require.NoError(t, err)
+	assert.Equal(t, int64(5), stats.SampleCount)
+	assert.Equal(t, 100*time.Millisecond, stats.Min)
+	assert.Equal(t, 200*time.Millisecond, stats.Max)
+}
+
+func TestLatencyTracker_Percentiles(t *testing.T) {
+	client, mr := setupTestRedis(t)
+	defer mr.Close()
+	defer client.Close()
+
+	logger, _ := zap.NewDevelopment()
+	tracker := NewLatencyTracker(client, logger)
+
+	ctx := context.Background()
+	modelName := "gpt-4"
+
+	// Record 100 latencies from 100ms to 199ms
+	for i := 100; i < 200; i++ {
+		err := tracker.RecordLatency(ctx, modelName, time.Duration(i)*time.Millisecond)
+		require.NoError(t, err)
+	}
+
+	stats, err := tracker.GetLatencyStats(ctx, modelName)
+	require.NoError(t, err)
+
+	// P50 should be around 150ms
+	assert.InDelta(t, 150, stats.P50.Milliseconds(), 10)
+
+	// P95 should be around 195ms
+	assert.InDelta(t, 195, stats.P95.Milliseconds(), 10)
+
+	// P99 should be around 199ms
+	assert.InDelta(t, 199, stats.P99.Milliseconds(), 10)
+}
+
+func TestLatencyTracker_HealthScore(t *testing.T) {
+	client, mr := setupTestRedis(t)
+	defer mr.Close()
+	defer client.Close()
+
+	logger, _ := zap.NewDevelopment()
+	tracker := NewLatencyTracker(client, logger)
+
+	ctx := context.Background()
+
+	tests := []struct {
+		name           string
+		modelName      string
+		latencies      []time.Duration
+		expectedScore  float64
+		scoreDelta     float64
+	}{
+		{
+			name:          "Fast model (< 500ms)",
+			modelName:     "fast-model",
+			latencies:     []time.Duration{100 * time.Millisecond, 150 * time.Millisecond, 200 * time.Millisecond},
+			expectedScore: 100.0,
+			scoreDelta:    5.0,
+		},
+		{
+			name:          "Medium model (~1s)",
+			modelName:     "medium-model",
+			latencies:     []time.Duration{800 * time.Millisecond, 900 * time.Millisecond, 1000 * time.Millisecond},
+			expectedScore: 85.0,
+			scoreDelta:    10.0,
+		},
+		{
+			name:          "Slow model (2-5s)",
+			modelName:     "slow-model",
+			latencies:     []time.Duration{2000 * time.Millisecond, 3000 * time.Millisecond, 4000 * time.Millisecond},
+			expectedScore: 50.0,
+			scoreDelta:    15.0,
+		},
+	}
+
+	for _, tt := range tests {
+		t.Run(tt.name, func(t *testing.T) {
+			// Record latencies
+			for _, lat := range tt.latencies {
+				err := tracker.RecordLatency(ctx, tt.modelName, lat)
+				require.NoError(t, err)
+			}
+
+			// Get health score
+			score, err := tracker.GetHealthScore(ctx, tt.modelName)
+			require.NoError(t, err)
+
+			assert.InDelta(t, tt.expectedScore, score, tt.scoreDelta,
+				"Health score for %s should be around %.0f", tt.modelName, tt.expectedScore)
+		})
+	}
+}
+
+func TestLatencyTracker_WindowExpiry(t *testing.T) {
+	client, mr := setupTestRedis(t)
+	defer mr.Close()
+	defer client.Close()
+
+	logger, _ := zap.NewDevelopment()
+	tracker := NewLatencyTracker(client, logger)
+	tracker.windowSize = 2 * time.Second // Short window for testing
+
+	ctx := context.Background()
+	modelName := "gpt-4"
+
+	// Record initial latency
+	err := tracker.RecordLatency(ctx, modelName, 100*time.Millisecond)
+	require.NoError(t, err)
+
+	// Fast-forward time in miniredis
+	mr.FastForward(3 * time.Second)
+
+	// Record new latency (should trigger cleanup of old samples)
+	err = tracker.RecordLatency(ctx, modelName, 200*time.Millisecond)
+	require.NoError(t, err)
+
+	stats, err := tracker.GetLatencyStats(ctx, modelName)
+	require.NoError(t, err)
+
+	// Should only have recent sample (or both if window hasn't fully expired)
+	assert.LessOrEqual(t, stats.SampleCount, int64(2), "Should have at most 2 samples")
+	assert.GreaterOrEqual(t, stats.Average, 100*time.Millisecond, "Average should be at least 100ms")
+	assert.LessOrEqual(t, stats.Average, 200*time.Millisecond, "Average should be at most 200ms")
+}
+
+func TestLatencyTracker_MultiInstance(t *testing.T) {
+	// This simulates multiple PLLM instances sharing Redis
+	client, mr := setupTestRedis(t)
+	defer mr.Close()
+	defer client.Close()
+
+	logger, _ := zap.NewDevelopment()
+
+	// Create two "instances" (simulating two pods)
+	tracker1 := NewLatencyTracker(client, logger)
+	tracker2 := NewLatencyTracker(client, logger)
+
+	ctx := context.Background()
+	modelName := "gpt-4"
+
+	// Instance 1 records 10s latency
+	err := tracker1.RecordLatency(ctx, modelName, 10*time.Second)
+	require.NoError(t, err)
+
+	time.Sleep(100 * time.Millisecond) // Wait for async update
+
+	// Instance 2 should see the latency from Instance 1
+	avg, err := tracker2.GetAverageLatency(ctx, modelName)
+	require.NoError(t, err)
+	assert.Greater(t, avg, 9*time.Second, "Instance 2 should see latency recorded by Instance 1")
+	assert.Less(t, avg, 11*time.Second)
+
+	// Instance 2 records 2s latency
+	err = tracker2.RecordLatency(ctx, modelName, 2*time.Second)
+	require.NoError(t, err)
+
+	time.Sleep(100 * time.Millisecond)
+
+	// Both instances should see updated average
+	avg1, err := tracker1.GetAverageLatency(ctx, modelName)
+	require.NoError(t, err)
+	avg2, err := tracker2.GetAverageLatency(ctx, modelName)
+	require.NoError(t, err)
+
+	// Both should see similar average (EMA weighted)
+	assert.InDelta(t, avg1.Milliseconds(), avg2.Milliseconds(), 500,
+		"Both instances should see similar average latency")
+
+	// Average should be between 2s and 10s
+	assert.Greater(t, avg1, 2*time.Second)
+	assert.Less(t, avg1, 10*time.Second)
+}
+
+func TestLatencyTracker_MaxSamples(t *testing.T) {
+	client, mr := setupTestRedis(t)
+	defer mr.Close()
+	defer client.Close()
+
+	logger, _ := zap.NewDevelopment()
+	tracker := NewLatencyTracker(client, logger)
+	tracker.maxSamples = 10 // Small limit for testing
+
+	ctx := context.Background()
+	modelName := "gpt-4"
+
+	// Record 20 samples (should keep only last 10)
+	for i := 0; i < 20; i++ {
+		err := tracker.RecordLatency(ctx, modelName, time.Duration(i+100)*time.Millisecond)
+		require.NoError(t, err)
+	}
+
+	stats, err := tracker.GetLatencyStats(ctx, modelName)
+	require.NoError(t, err)
+
+	// Should only have maxSamples
+	assert.LessOrEqual(t, stats.SampleCount, int64(10))
+
+	// Min should be from newer samples (not 100ms)
+	assert.GreaterOrEqual(t, stats.Min, 110*time.Millisecond)
+}
+
+func TestLatencyTracker_ClearLatencies(t *testing.T) {
+	client, mr := setupTestRedis(t)
+	defer mr.Close()
+	defer client.Close()
+
+	logger, _ := zap.NewDevelopment()
+	tracker := NewLatencyTracker(client, logger)
+
+	ctx := context.Background()
+	modelName := "gpt-4"
+
+	// Record latencies
+	err := tracker.RecordLatency(ctx, modelName, 100*time.Millisecond)
+	require.NoError(t, err)
+
+	// Clear
+	err = tracker.ClearLatencies(ctx, modelName)
+	require.NoError(t, err)
+
+	// Should have no data
+	stats, err := tracker.GetLatencyStats(ctx, modelName)
+	require.NoError(t, err)
+	assert.Equal(t, int64(0), stats.SampleCount)
+}
+
+func TestLatencyTracker_GetAllModelStats(t *testing.T) {
+	client, mr := setupTestRedis(t)
+	defer mr.Close()
+	defer client.Close()
+
+	logger, _ := zap.NewDevelopment()
+	tracker := NewLatencyTracker(client, logger)
+
+	ctx := context.Background()
+
+	// Record latencies for multiple models
+	models := []string{"gpt-4", "gpt-3.5-turbo", "claude-3-sonnet"}
+	for _, model := range models {
+		err := tracker.RecordLatency(ctx, model, 100*time.Millisecond)
+		require.NoError(t, err)
+	}
+
+	// Get all stats
+	allStats, err := tracker.GetAllModelStats(ctx)
+	require.NoError(t, err)
+
+	assert.Len(t, allStats, 3)
+	for _, model := range models {
+		stats, exists := allStats[model]
+		assert.True(t, exists, "Should have stats for %s", model)
+		assert.Greater(t, stats.SampleCount, int64(0))
+	}
+}
+
+func BenchmarkLatencyTracker_RecordLatency(b *testing.B) {
+	client, mr := setupTestRedis(&testing.T{})
+	defer mr.Close()
+	defer client.Close()
+
+	logger := zap.NewNop()
+	tracker := NewLatencyTracker(client, logger)
+
+	ctx := context.Background()
+	modelName := "gpt-4"
+
+	b.ResetTimer()
+	for i := 0; i < b.N; i++ {
+		_ = tracker.RecordLatency(ctx, modelName, 100*time.Millisecond)
+	}
+}
+
+func BenchmarkLatencyTracker_GetAverageLatency(b *testing.B) {
+	client, mr := setupTestRedis(&testing.T{})
+	defer mr.Close()
+	defer client.Close()
+
+	logger := zap.NewNop()
+	tracker := NewLatencyTracker(client, logger)
+
+	ctx := context.Background()
+	modelName := "gpt-4"
+
+	// Seed some data
+	for i := 0; i < 100; i++ {
+		_ = tracker.RecordLatency(ctx, modelName, 100*time.Millisecond)
+	}
+
+	b.ResetTimer()
+	for i := 0; i < b.N; i++ {
+		_, _ = tracker.GetAverageLatency(ctx, modelName)
+	}
+}
diff --git a/internal/services/data/redis/redis_integration_test.go b/internal/services/data/redis/redis_integration_test.go
new file mode 100644
index 0000000..988533e
--- /dev/null
+++ b/internal/services/data/redis/redis_integration_test.go
@@ -0,0 +1,427 @@
+package redis
+
+import (
+	"context"
+	"encoding/json"
+	"fmt"
+	"strconv"
+	"sync"
+	"testing"
+	"time"
+
+	"github.com/amerfu/pllm/pkg/logger"
+	"github.com/amerfu/pllm/internal/infrastructure/testutil"
+	"github.com/redis/go-redis/v9"
+	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
+	"go.uber.org/zap"
+)
+
+// TestRedisIntegration tests Redis integration for banking-grade reliability
+func TestRedisIntegration(t *testing.T) {
+	// Setup Redis client for testing using test container
+	redisClient, cleanup := testutil.NewTestRedis(t)
+	defer cleanup()
+
+	// Test Redis connectivity
+	ctx := context.Background()
+	err := redisClient.Ping(ctx).Err()
+	require.NoError(t, err, "Redis should be available for testing")
+
+	// Clear test database
+	redisClient.FlushDB(ctx)
+
+	log := logger.NewLogger("test", "info")
+
+	t.Run("Usage Queue Operations", func(t *testing.T) {
+		testUsageQueue(t, redisClient, log)
+	})
+
+	t.Run("Budget Cache Operations", func(t *testing.T) {
+		testBudgetCache(t, redisClient, log)
+	})
+
+	t.Run("Event Publishing", func(t *testing.T) {
+		testEventPublishing(t, redisClient, log)
+	})
+
+	t.Run("High Concurrency", func(t *testing.T) {
+		testRedisConcurrency(t, redisClient, log)
+	})
+
+	t.Run("Failover Simulation", func(t *testing.T) {
+		testRedisFailover(t, redisClient, log)
+	})
+}
+
+func testUsageQueue(t *testing.T, redisClient *redis.Client, log *zap.Logger) {
+	queue := NewUsageQueue(&UsageQueueConfig{
+		Client:     redisClient,
+		Logger:     log,
+		QueueName:  "test_usage_queue",
+		BatchSize:  10,
+		MaxRetries: 3,
+	})
+
+	// Test single usage record
+	t.Run("Single Usage Record", func(t *testing.T) {
+		usageRecord := &UsageRecord{
+			KeyID:        "test-key-123",
+			Model:        "gpt-4",
+			InputTokens:  100,
+			OutputTokens: 50,
+			TotalCost:    0.002,
+			Timestamp:    time.Now(),
+		}
+
+		err := queue.EnqueueUsage(context.Background(), usageRecord)
+		assert.NoError(t, err, "Should enqueue usage record")
+
+		// Verify record is in queue
+		count, err := redisClient.LLen(context.Background(), "test_usage_queue").Result()
+		assert.NoError(t, err)
+		assert.Equal(t, int64(1), count, "Queue should contain 1 record")
+	})
+
+	// Test batch operations
+	t.Run("Batch Usage Records", func(t *testing.T) {
+		// Clear queue
+		redisClient.Del(context.Background(), "test_usage_queue")
+
+		// Add multiple records
+		for i := 0; i < 25; i++ {
+			usageRecord := &UsageRecord{
+				KeyID:        fmt.Sprintf("test-key-%d", i),
+				Model:        "gpt-4",
+				InputTokens:  100 + i,
+				OutputTokens: 50 + i,
+				TotalCost:    0.002 + float64(i)*0.001,
+				Timestamp:    time.Now(),
+			}
+
+			err := queue.EnqueueUsage(context.Background(), usageRecord)
+			assert.NoError(t, err)
+		}
+
+		// Verify all records are queued
+		count, err := redisClient.LLen(context.Background(), "test_usage_queue").Result()
+		assert.NoError(t, err)
+		assert.Equal(t, int64(25), count, "Queue should contain 25 records")
+	})
+
+	// Test queue performance under load
+	t.Run("Queue Performance", func(t *testing.T) {
+		redisClient.Del(context.Background(), "test_usage_queue_perf")
+		
+		perfQueue := NewUsageQueue(&UsageQueueConfig{
+			Client:     redisClient,
+			Logger:     log,
+			QueueName:  "test_usage_queue_perf",
+			BatchSize:  50,
+			MaxRetries: 3,
+		})
+
+		const numRecords = 1000
+		start := time.Now()
+
+		// Enqueue records concurrently
+		var wg sync.WaitGroup
+		for i := 0; i < numRecords; i++ {
+			wg.Add(1)
+			go func(idx int) {
+				defer wg.Done()
+				usageRecord := &UsageRecord{
+					KeyID:     fmt.Sprintf("perf-test-%d", idx),
+					Model:     "gpt-4",
+					TotalCost: 0.002,
+					Timestamp: time.Now(),
+				}
+				err := perfQueue.EnqueueUsage(context.Background(), usageRecord)
+				assert.NoError(t, err)
+			}(i)
+		}
+
+		wg.Wait()
+		duration := time.Since(start)
+
+		// Verify performance
+		count, err := redisClient.LLen(context.Background(), "test_usage_queue_perf").Result()
+		assert.NoError(t, err)
+		assert.Equal(t, int64(numRecords), count)
+
+		throughput := float64(numRecords) / duration.Seconds()
+		assert.True(t, throughput > 500, "Should achieve >500 records/sec, got %.2f", throughput)
+		
+		t.Logf("Usage Queue Performance: %d records in %v (%.2f records/sec)", numRecords, duration, throughput)
+	})
+}
+
+func testBudgetCache(t *testing.T, redisClient *redis.Client, log *zap.Logger) {
+	cache := NewBudgetCache(redisClient, log, 5*time.Minute)
+
+	t.Run("Budget Cache Operations", func(t *testing.T) {
+		entityType := "key"
+		entityID := "test-budget-key"
+		budget := 100.0
+		spent := 0.0
+
+		// Set budget
+		err := cache.UpdateBudgetCache(context.Background(), entityType, entityID, budget, spent, budget, false)
+		assert.NoError(t, err, "Should set budget")
+
+		// Check budget availability
+		available, err := cache.CheckBudgetAvailable(context.Background(), entityType, entityID, 25.5)
+		assert.NoError(t, err, "Should check budget availability")
+		assert.True(t, available, "Budget should be available")
+
+		// Update usage
+		usage := 25.5
+		err = cache.IncrementSpent(context.Background(), entityType, entityID, usage)
+		assert.NoError(t, err, "Should increment usage")
+
+		// Update the budget cache to reflect the new spent amount
+		newSpent := spent + usage
+		newAvailable := budget - newSpent
+		err = cache.UpdateBudgetCache(context.Background(), entityType, entityID, newAvailable, newSpent, budget, false)
+		assert.NoError(t, err, "Should update budget cache")
+
+		// Check budget availability after usage
+		available, err = cache.CheckBudgetAvailable(context.Background(), entityType, entityID, 80.0)
+		assert.NoError(t, err, "Should check budget availability")
+		assert.False(t, available, "Budget should not be available for 80.0 after spending 25.5")
+	})
+
+	t.Run("Budget Exhaustion", func(t *testing.T) {
+		entityType := "key"
+		entityID := "test-budget-exhaustion"
+		budget := 10.0
+		spent := 10.0
+
+		err := cache.UpdateBudgetCache(context.Background(), entityType, entityID, 0, spent, budget, true)
+		assert.NoError(t, err)
+
+		// Check if budget is exhausted
+		available, err := cache.CheckBudgetAvailable(context.Background(), entityType, entityID, 1.0)
+		assert.NoError(t, err)
+		assert.False(t, available, "Budget should be exhausted")
+	})
+
+	t.Run("Concurrent Budget Operations", func(t *testing.T) {
+		entityType := "key"
+		entityID := "test-concurrent-budget"
+		budget := 1000.0
+
+		err := cache.UpdateBudgetCache(context.Background(), entityType, entityID, budget, 0, budget, false)
+		assert.NoError(t, err)
+
+		// Concurrent usage increments
+		const numOperations = 100
+		const usagePerOp = 1.0
+
+		var wg sync.WaitGroup
+		for i := 0; i < numOperations; i++ {
+			wg.Add(1)
+			go func() {
+				defer wg.Done()
+				err := cache.IncrementSpent(context.Background(), entityType, entityID, usagePerOp)
+				assert.NoError(t, err)
+			}()
+		}
+
+		wg.Wait()
+
+		// Get the spent value directly from Redis (IncrementSpent uses separate key)
+		spentKey := fmt.Sprintf("budget:%s:%s:spent", entityType, entityID)
+		spentStr, err := redisClient.Get(context.Background(), spentKey).Result()
+		assert.NoError(t, err)
+
+		spent, err := strconv.ParseFloat(spentStr, 64)
+		assert.NoError(t, err)
+		assert.InDelta(t, float64(numOperations)*usagePerOp, spent, 1.0, "Concurrent operations should be tracked")
+	})
+}
+
+func testEventPublishing(t *testing.T, redisClient *redis.Client, log *zap.Logger) {
+	publisher := NewEventPublisher(redisClient, log)
+
+	t.Run("Basic Event Publishing", func(t *testing.T) {
+		err := publisher.PublishUsageEvent(context.Background(), "test-user", "test-key", "gpt-4", 100, 50, 0.002, 100*time.Millisecond)
+		assert.NoError(t, err, "Should publish event")
+	})
+
+	t.Run("High Volume Event Publishing", func(t *testing.T) {
+		const numEvents = 1000
+
+		start := time.Now()
+		var wg sync.WaitGroup
+
+		for i := 0; i < numEvents; i++ {
+			wg.Add(1)
+			go func(idx int) {
+				defer wg.Done()
+				err := publisher.PublishUsageEvent(context.Background(), fmt.Sprintf("user-%d", idx), "test-key", "gpt-4", 100, 50, 0.002, 100*time.Millisecond)
+				assert.NoError(t, err)
+			}(i)
+		}
+
+		wg.Wait()
+		duration := time.Since(start)
+
+		throughput := float64(numEvents) / duration.Seconds()
+		assert.True(t, throughput > 100, "Should achieve >100 events/sec, got %.2f", throughput)
+
+		t.Logf("Event Publishing Performance: %d events in %v (%.2f events/sec)", numEvents, duration, throughput)
+	})
+}
+
+func testRedisConcurrency(t *testing.T, redisClient *redis.Client, log *zap.Logger) {
+	t.Run("High Concurrency Operations", func(t *testing.T) {
+		const numWorkers = 50
+		const opsPerWorker = 20
+
+		var wg sync.WaitGroup
+		start := time.Now()
+
+		// Multiple workers performing Redis operations
+		for worker := 0; worker < numWorkers; worker++ {
+			wg.Add(1)
+			go func(workerID int) {
+				defer wg.Done()
+
+				for op := 0; op < opsPerWorker; op++ {
+					key := fmt.Sprintf("worker_%d_op_%d", workerID, op)
+					value := map[string]interface{}{
+						"worker_id": workerID,
+						"operation": op,
+						"timestamp": time.Now().Unix(),
+					}
+
+					// Set operation
+					data, _ := json.Marshal(value)
+					err := redisClient.Set(context.Background(), key, data, time.Minute).Err()
+					assert.NoError(t, err)
+
+					// Get operation
+					result, err := redisClient.Get(context.Background(), key).Result()
+					assert.NoError(t, err)
+					assert.NotEmpty(t, result)
+
+					// Delete operation
+					err = redisClient.Del(context.Background(), key).Err()
+					assert.NoError(t, err)
+				}
+			}(worker)
+		}
+
+		wg.Wait()
+		duration := time.Since(start)
+
+		totalOps := numWorkers * opsPerWorker * 3 // 3 operations per iteration
+		throughput := float64(totalOps) / duration.Seconds()
+
+		// Banking-grade performance requirements
+		assert.True(t, throughput > 1000, "Should achieve >1000 Redis ops/sec, got %.2f", throughput)
+		assert.True(t, duration < 10*time.Second, "Should complete in <10s, took %v", duration)
+
+		t.Logf("Redis Concurrency Performance: %d operations in %v (%.2f ops/sec)", totalOps, duration, throughput)
+	})
+}
+
+func testRedisFailover(t *testing.T, redisClient *redis.Client, log *zap.Logger) {
+	t.Run("Connection Recovery", func(t *testing.T) {
+		// Test basic connectivity
+		err := redisClient.Ping(context.Background()).Err()
+		assert.NoError(t, err, "Redis should be connected")
+
+		// Simulate brief network issue with timeout
+		ctx, cancel := context.WithTimeout(context.Background(), 1*time.Nanosecond)
+		defer cancel()
+
+		// This should timeout/fail (but timing is not guaranteed, so we just try it)
+		_ = redisClient.Set(ctx, "test_timeout", "value", time.Minute).Err()
+
+		// Normal operations should still work
+		err = redisClient.Set(context.Background(), "test_recovery", "value", time.Minute).Err()
+		assert.NoError(t, err, "Should recover for normal operations")
+	})
+
+	t.Run("Queue Resilience", func(t *testing.T) {
+		queue := NewUsageQueue(&UsageQueueConfig{
+			Client:     redisClient,
+			Logger:     log,
+			QueueName:  "test_resilient_queue",
+			BatchSize:  5,
+			MaxRetries: 3,
+		})
+
+		// Enqueue some items
+		for i := 0; i < 10; i++ {
+			record := &UsageRecord{
+				ID:        fmt.Sprintf("record-%d", i),
+				KeyID:     "test-key",
+				Model:     "gpt-4",
+				Timestamp: time.Now(),
+			}
+			err := queue.EnqueueUsage(context.Background(), record)
+			assert.NoError(t, err)
+		}
+
+		// Verify queue has items
+		count, err := redisClient.LLen(context.Background(), "test_resilient_queue").Result()
+		assert.NoError(t, err)
+		assert.Equal(t, int64(10), count, "Queue should contain all items")
+	})
+}
+
+// TestRedisLatencyRequirements tests Redis operations meet banking latency SLAs
+func TestRedisLatencyRequirements(t *testing.T) {
+	redisClient, cleanup := testutil.NewTestRedis(t)
+	defer cleanup()
+
+	// Clear test data
+	redisClient.FlushDB(context.Background())
+
+	const numOperations = 1000
+	latencies := make([]time.Duration, numOperations)
+
+	// Measure Redis operation latencies
+	for i := 0; i < numOperations; i++ {
+		start := time.Now()
+		
+		key := fmt.Sprintf("latency_test_%d", i)
+		value := fmt.Sprintf("test_value_%d", i)
+		
+		// Redis operation
+		err := redisClient.Set(context.Background(), key, value, time.Minute).Err()
+		require.NoError(t, err)
+		
+		latencies[i] = time.Since(start)
+	}
+
+	// Sort latencies for percentile calculation
+	for i := 0; i < len(latencies)-1; i++ {
+		for j := i + 1; j < len(latencies); j++ {
+			if latencies[i] > latencies[j] {
+				latencies[i], latencies[j] = latencies[j], latencies[i]
+			}
+		}
+	}
+
+	// Calculate percentiles
+	p95 := latencies[int(0.95*float64(len(latencies)))]
+	p99 := latencies[int(0.99*float64(len(latencies)))]
+	max := latencies[len(latencies)-1]
+
+	// Banking-grade Redis latency requirements
+	const (
+		p95Target = 10 * time.Millisecond  // P95 under 10ms
+		p99Target = 50 * time.Millisecond  // P99 under 50ms
+		maxTarget = 100 * time.Millisecond // Max under 100ms
+	)
+
+	assert.True(t, p95 < p95Target, "Redis P95 latency %v should be < %v", p95, p95Target)
+	assert.True(t, p99 < p99Target, "Redis P99 latency %v should be < %v", p99, p99Target)
+	assert.True(t, max < maxTarget, "Redis max latency %v should be < %v", max, maxTarget)
+
+	t.Logf("Redis Latency Results: P95=%v, P99=%v, Max=%v", p95, p99, max)
+}
\ No newline at end of file
diff --git a/internal/services/redis/usage_queue.go b/internal/services/data/redis/usage_queue.go
similarity index 100%
rename from internal/services/redis/usage_queue.go
rename to internal/services/data/redis/usage_queue.go
diff --git a/internal/services/redis/usage_queue_test.go b/internal/services/data/redis/usage_queue_test.go
similarity index 100%
rename from internal/services/redis/usage_queue_test.go
rename to internal/services/data/redis/usage_queue_test.go
diff --git a/internal/services/guardrails/executor.go b/internal/services/integrations/guardrails/executor.go
similarity index 98%
rename from internal/services/guardrails/executor.go
rename to internal/services/integrations/guardrails/executor.go
index 6bfeee5..05c2ff9 100644
--- a/internal/services/guardrails/executor.go
+++ b/internal/services/integrations/guardrails/executor.go
@@ -8,8 +8,8 @@ import (
 
 	"go.uber.org/zap"
 
-	"github.com/amerfu/pllm/internal/config"
-	"github.com/amerfu/pllm/internal/services/providers"
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
 )
 
 // Executor manages and executes guardrails
diff --git a/internal/services/guardrails/factory.go b/internal/services/integrations/guardrails/factory.go
similarity index 98%
rename from internal/services/guardrails/factory.go
rename to internal/services/integrations/guardrails/factory.go
index 414c619..e8774e9 100644
--- a/internal/services/guardrails/factory.go
+++ b/internal/services/integrations/guardrails/factory.go
@@ -5,8 +5,8 @@ import (
 
 	"go.uber.org/zap"
 
-	"github.com/amerfu/pllm/internal/config"
-	"github.com/amerfu/pllm/internal/services/guardrails/providers"
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/services/integrations/guardrails/providers"
 )
 
 // Factory creates and configures guardrails services
diff --git a/internal/services/guardrails/providers/presidio.go b/internal/services/integrations/guardrails/providers/presidio.go
similarity index 98%
rename from internal/services/guardrails/providers/presidio.go
rename to internal/services/integrations/guardrails/providers/presidio.go
index 1451eb2..b454854 100644
--- a/internal/services/guardrails/providers/presidio.go
+++ b/internal/services/integrations/guardrails/providers/presidio.go
@@ -11,9 +11,9 @@ import (
 
 	"go.uber.org/zap"
 
-	"github.com/amerfu/pllm/internal/config"
-	"github.com/amerfu/pllm/internal/services/guardrails/types"
-	"github.com/amerfu/pllm/internal/services/providers"
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/services/integrations/guardrails/types"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
 )
 
 // PresidioGuardrail implements PII detection and masking using Presidio
diff --git a/internal/services/guardrails/types.go b/internal/services/integrations/guardrails/types.go
similarity index 94%
rename from internal/services/guardrails/types.go
rename to internal/services/integrations/guardrails/types.go
index 38eae77..02e2aca 100644
--- a/internal/services/guardrails/types.go
+++ b/internal/services/integrations/guardrails/types.go
@@ -1,7 +1,7 @@
 package guardrails
 
 import (
-	"github.com/amerfu/pllm/internal/services/guardrails/types"
+	"github.com/amerfu/pllm/internal/services/integrations/guardrails/types"
 )
 
 // Re-export types for convenience
diff --git a/internal/services/guardrails/types/types.go b/internal/services/integrations/guardrails/types/types.go
similarity index 100%
rename from internal/services/guardrails/types/types.go
rename to internal/services/integrations/guardrails/types/types.go
diff --git a/internal/services/key/generator.go b/internal/services/integrations/key/generator.go
similarity index 100%
rename from internal/services/key/generator.go
rename to internal/services/integrations/key/generator.go
diff --git a/internal/services/key/service.go b/internal/services/integrations/key/service.go
similarity index 99%
rename from internal/services/key/service.go
rename to internal/services/integrations/key/service.go
index dc8903f..3d380ca 100644
--- a/internal/services/key/service.go
+++ b/internal/services/integrations/key/service.go
@@ -5,7 +5,7 @@ import (
 	"fmt"
 	"time"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 	"github.com/google/uuid"
 	"go.uber.org/zap"
 	"gorm.io/gorm"
diff --git a/internal/services/key/system_key_test.go b/internal/services/integrations/key/system_key_test.go
similarity index 99%
rename from internal/services/key/system_key_test.go
rename to internal/services/integrations/key/system_key_test.go
index c0351fd..5f07ee3 100644
--- a/internal/services/key/system_key_test.go
+++ b/internal/services/integrations/key/system_key_test.go
@@ -11,8 +11,8 @@ import (
 	"github.com/stretchr/testify/require"
 	"go.uber.org/zap"
 
-	"github.com/amerfu/pllm/internal/models"
-	"github.com/amerfu/pllm/internal/testutil"
+	"github.com/amerfu/pllm/internal/core/models"
+	"github.com/amerfu/pllm/internal/infrastructure/testutil"
 )
 
 
diff --git a/internal/services/team/service.go b/internal/services/integrations/team/service.go
similarity index 99%
rename from internal/services/team/service.go
rename to internal/services/integrations/team/service.go
index e455f71..9bffbe6 100644
--- a/internal/services/team/service.go
+++ b/internal/services/integrations/team/service.go
@@ -8,7 +8,7 @@ import (
 	"github.com/google/uuid"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 var (
diff --git a/internal/services/llm/models/failover_test.go b/internal/services/llm/models/failover_test.go
new file mode 100644
index 0000000..54f9bd1
--- /dev/null
+++ b/internal/services/llm/models/failover_test.go
@@ -0,0 +1,375 @@
+package models
+
+import (
+	"context"
+	"errors"
+	"testing"
+	"time"
+
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
+	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
+	"go.uber.org/zap"
+)
+
+// MockFailingProvider simulates a provider that fails N times then succeeds
+type MockFailingProvider struct {
+	failCount     int
+	currentFails  int
+	responseDelay time.Duration
+}
+
+func (m *MockFailingProvider) ChatCompletion(ctx context.Context, req *providers.ChatRequest) (*providers.ChatResponse, error) {
+	if m.responseDelay > 0 {
+		time.Sleep(m.responseDelay)
+	}
+
+	if m.currentFails < m.failCount {
+		m.currentFails++
+		return nil, errors.New("simulated provider failure")
+	}
+
+	return &providers.ChatResponse{
+		ID:      "test-response",
+		Model:   req.Model,
+		Choices: []providers.Choice{{Message: providers.Message{Role: "assistant", Content: "Success!"}}},
+		Usage:   providers.Usage{TotalTokens: 100},
+	}, nil
+}
+
+func (m *MockFailingProvider) ChatCompletionStream(ctx context.Context, req *providers.ChatRequest) (<-chan providers.StreamResponse, error) {
+	return nil, errors.New("streaming not implemented in mock")
+}
+
+func (m *MockFailingProvider) Completion(ctx context.Context, req *providers.CompletionRequest) (*providers.CompletionResponse, error) {
+	return nil, errors.New("completion not implemented in mock")
+}
+
+func (m *MockFailingProvider) CompletionStream(ctx context.Context, req *providers.CompletionRequest) (<-chan providers.StreamResponse, error) {
+	return nil, errors.New("completion stream not implemented in mock")
+}
+
+func (m *MockFailingProvider) Embeddings(ctx context.Context, req *providers.EmbeddingsRequest) (*providers.EmbeddingsResponse, error) {
+	return nil, errors.New("embeddings not implemented in mock")
+}
+
+func (m *MockFailingProvider) AudioTranscription(ctx context.Context, req *providers.TranscriptionRequest) (*providers.TranscriptionResponse, error) {
+	return nil, errors.New("audio transcription not implemented in mock")
+}
+
+func (m *MockFailingProvider) AudioSpeech(ctx context.Context, req *providers.SpeechRequest) ([]byte, error) {
+	return nil, errors.New("audio speech not implemented in mock")
+}
+
+func (m *MockFailingProvider) ImageGeneration(ctx context.Context, req *providers.ImageRequest) (*providers.ImageResponse, error) {
+	return nil, errors.New("image generation not implemented in mock")
+}
+
+func (m *MockFailingProvider) GetType() string        { return "mock" }
+func (m *MockFailingProvider) GetName() string        { return "mock-provider" }
+func (m *MockFailingProvider) GetPriority() int       { return 50 }
+func (m *MockFailingProvider) IsHealthy() bool        { return true }
+func (m *MockFailingProvider) SupportsModel(model string) bool { return true }
+func (m *MockFailingProvider) ListModels() []string   { return []string{"mock-gpt-4", "mock-gpt-3.5"} }
+func (m *MockFailingProvider) HealthCheck(ctx context.Context) error { return nil }
+
+// TestInstanceLevelFailover tests automatic retry across multiple instances of the same model
+func TestInstanceLevelFailover(t *testing.T) {
+	logger := zap.NewNop()
+
+	// Create router settings with failover enabled
+	router := config.RouterSettings{
+		RoutingStrategy:       "priority",
+		EnableFailover:        true,
+		InstanceRetryAttempts: 3,
+		EnableModelFallback:   false,
+	}
+
+	manager := NewModelManager(logger, router, nil)
+
+	// Create 3 mock instances directly (bypass provider factory)
+	instance1 := &ModelInstance{
+		Config: config.ModelInstance{
+			ID:        "instance-1",
+			ModelName: "test-model",
+			Priority:  100,
+			Enabled:   true,
+			Provider:  config.ProviderParams{Type: "mock", Model: "mock-gpt-4"},
+			Timeout:   5 * time.Second,
+		},
+		Provider: &MockFailingProvider{failCount: 2}, // Fails twice
+	}
+	instance1.Healthy.Store(true) // Mark as healthy
+	
+	instance2 := &ModelInstance{
+		Config: config.ModelInstance{
+			ID:        "instance-2",
+			ModelName: "test-model",
+			Priority:  90,
+			Enabled:   true,
+			Provider:  config.ProviderParams{Type: "mock", Model: "mock-gpt-4"},
+			Timeout:   5 * time.Second,
+		},
+		Provider: &MockFailingProvider{failCount: 1}, // Fails once
+	}
+	instance2.Healthy.Store(true) // Mark as healthy
+	
+	instance3 := &ModelInstance{
+		Config: config.ModelInstance{
+			ID:        "instance-3",
+			ModelName: "test-model",
+			Priority:  80,
+			Enabled:   true,
+			Provider:  config.ProviderParams{Type: "mock", Model: "mock-gpt-4"},
+			Timeout:   5 * time.Second,
+		},
+		Provider: &MockFailingProvider{failCount: 0}, // Always succeeds
+	}
+	instance3.Healthy.Store(true) // Mark as healthy
+
+	// Register instances directly in registry
+	manager.registry.mu.Lock()
+	manager.registry.instances["instance-1"] = instance1
+	manager.registry.instances["instance-2"] = instance2
+	manager.registry.instances["instance-3"] = instance3
+	manager.registry.modelMap["test-model"] = []*ModelInstance{instance1, instance2, instance3}
+	manager.registry.mu.Unlock()
+
+	// Execute with failover
+	result, err := manager.ExecuteWithFailover(context.Background(), &FailoverRequest{
+		ModelName: "test-model",
+		ExecuteFunc: func(ctx context.Context, instance *ModelInstance) (interface{}, error) {
+			req := &providers.ChatRequest{
+				Model:    instance.Config.Provider.Model,
+				Messages: []providers.Message{{Role: "user", Content: "test"}},
+			}
+			return instance.Provider.ChatCompletion(ctx, req)
+		},
+	})
+
+	require.NoError(t, err, "Request should succeed after instance failover")
+	assert.NotNil(t, result)
+	assert.Greater(t, result.AttemptCount, 1, "Should have made multiple attempts")
+	assert.NotEmpty(t, result.Failovers, "Should have recorded failovers")
+
+	response := result.Response.(*providers.ChatResponse)
+	assert.Equal(t, "Success!", response.Choices[0].Message.Content)
+}
+
+// TestModelLevelFailback tests falling back to a different model when all instances fail
+func TestModelLevelFallback(t *testing.T) {
+	logger := zap.NewNop()
+
+	// Create router settings with model fallback enabled
+	router := config.RouterSettings{
+		RoutingStrategy:       "priority",
+		EnableFailover:        true,
+		InstanceRetryAttempts: 2,
+		EnableModelFallback:   true,
+		ModelFallbacks: map[string]string{
+			"primary-model":  "fallback-model",
+			"fallback-model": "last-resort-model",
+		},
+	}
+
+	manager := NewModelManager(logger, router, nil)
+
+	// Create mock instances directly
+	primary1 := &ModelInstance{
+		Config: config.ModelInstance{
+			ID:        "primary-1",
+			ModelName: "primary-model",
+			Priority:  100,
+			Provider:  config.ProviderParams{Type: "mock", Model: "mock-gpt-4"},
+			Timeout:   5 * time.Second,
+		},
+		Provider: &MockFailingProvider{failCount: 999}, // Always fails
+	}
+	primary1.Healthy.Store(true)
+	
+	primary2 := &ModelInstance{
+		Config: config.ModelInstance{
+			ID:        "primary-2",
+			ModelName: "primary-model",
+			Priority:  90,
+			Provider:  config.ProviderParams{Type: "mock", Model: "mock-gpt-4"},
+			Timeout:   5 * time.Second,
+		},
+		Provider: &MockFailingProvider{failCount: 999}, // Always fails
+	}
+	primary2.Healthy.Store(true)
+	
+	fallback1 := &ModelInstance{
+		Config: config.ModelInstance{
+			ID:        "fallback-1",
+			ModelName: "fallback-model",
+			Priority:  100,
+			Provider:  config.ProviderParams{Type: "mock", Model: "mock-gpt-3.5"},
+			Timeout:   5 * time.Second,
+		},
+		Provider: &MockFailingProvider{failCount: 0}, // Always succeeds
+	}
+	fallback1.Healthy.Store(true)
+
+	// Register instances
+	manager.registry.mu.Lock()
+	manager.registry.instances["primary-1"] = primary1
+	manager.registry.instances["primary-2"] = primary2
+	manager.registry.instances["fallback-1"] = fallback1
+	manager.registry.modelMap["primary-model"] = []*ModelInstance{primary1, primary2}
+	manager.registry.modelMap["fallback-model"] = []*ModelInstance{fallback1}
+	manager.registry.mu.Unlock()
+
+	// Execute with failover
+	result, err := manager.ExecuteWithFailover(context.Background(), &FailoverRequest{
+		ModelName: "primary-model",
+		ExecuteFunc: func(ctx context.Context, instance *ModelInstance) (interface{}, error) {
+			req := &providers.ChatRequest{
+				Model:    instance.Config.Provider.Model,
+				Messages: []providers.Message{{Role: "user", Content: "test"}},
+			}
+			return instance.Provider.ChatCompletion(ctx, req)
+		},
+	})
+
+	require.NoError(t, err, "Request should succeed after model fallback")
+	assert.NotNil(t, result)
+	assert.Equal(t, "fallback-1", result.Instance.Config.ID, "Should have used fallback model")
+	assert.Greater(t, len(result.Failovers), 2, "Should have recorded multiple failovers")
+
+	// Check that failovers include both instance and model failures
+	hasModelFailover := false
+	for _, failover := range result.Failovers {
+		if len(failover) > 5 && failover[:5] == "model" {
+			hasModelFailover = true
+			break
+		}
+	}
+	assert.True(t, hasModelFailover, "Should have recorded model-level failover")
+}
+
+// TestFailoverDisabled tests that failover doesn't happen when disabled
+func TestFailoverDisabled(t *testing.T) {
+	logger := zap.NewNop()
+
+	// Create router settings with failover disabled
+	router := config.RouterSettings{
+		RoutingStrategy: "priority",
+		EnableFailover:  false,
+	}
+
+	manager := NewModelManager(logger, router, nil)
+
+	// Create mock instance directly
+	instance1 := &ModelInstance{
+		Config: config.ModelInstance{
+			ID:        "instance-1",
+			ModelName: "test-model",
+			Priority:  100,
+			Provider:  config.ProviderParams{Type: "mock", Model: "mock-gpt-4"},
+			Timeout:   5 * time.Second,
+		},
+		Provider: &MockFailingProvider{failCount: 999}, // Always fails
+	}
+	instance1.Healthy.Store(true)
+
+	// Register instance
+	manager.registry.mu.Lock()
+	manager.registry.instances["instance-1"] = instance1
+	manager.registry.modelMap["test-model"] = []*ModelInstance{instance1}
+	manager.registry.mu.Unlock()
+
+	// Execute with failover (but it's disabled)
+	result, err := manager.ExecuteWithFailover(context.Background(), &FailoverRequest{
+		ModelName: "test-model",
+		ExecuteFunc: func(ctx context.Context, instance *ModelInstance) (interface{}, error) {
+			req := &providers.ChatRequest{
+				Model:    instance.Config.Provider.Model,
+				Messages: []providers.Message{{Role: "user", Content: "test"}},
+			}
+			return instance.Provider.ChatCompletion(ctx, req)
+		},
+	})
+
+	require.Error(t, err, "Request should fail when failover is disabled")
+	assert.Nil(t, result)
+}
+
+// TestTransparentFailover simulates the end-user experience
+// User doesn't see errors, just a successful response (albeit slower)
+func TestTransparentFailover(t *testing.T) {
+	logger := zap.NewNop()
+
+	router := config.RouterSettings{
+		RoutingStrategy:       "priority",
+		EnableFailover:        true,
+		InstanceRetryAttempts: 3,
+	}
+
+	manager := NewModelManager(logger, router, nil)
+
+	// Create mock instances directly
+	slowInstance := &ModelInstance{
+		Config: config.ModelInstance{
+			ID:        "slow-instance",
+			ModelName: "test-model",
+			Priority:  100,
+			Provider:  config.ProviderParams{Type: "mock", Model: "mock-gpt-4"},
+			Timeout:   5 * time.Second,
+		},
+		Provider: &MockFailingProvider{failCount: 999}, // Fails
+	}
+	slowInstance.Healthy.Store(true)
+	
+	fastInstance := &ModelInstance{
+		Config: config.ModelInstance{
+			ID:        "fast-instance",
+			ModelName: "test-model",
+			Priority:  90,
+			Provider:  config.ProviderParams{Type: "mock", Model: "mock-gpt-4"},
+			Timeout:   5 * time.Second,
+		},
+		Provider: &MockFailingProvider{failCount: 0}, // Succeeds
+	}
+	fastInstance.Healthy.Store(true)
+
+	// Register instances
+	manager.registry.mu.Lock()
+	manager.registry.instances["slow-instance"] = slowInstance
+	manager.registry.instances["fast-instance"] = fastInstance
+	manager.registry.modelMap["test-model"] = []*ModelInstance{slowInstance, fastInstance}
+	manager.registry.mu.Unlock()
+
+	// Measure total time
+	start := time.Now()
+
+	// Execute - from user perspective, this should just work
+	result, err := manager.ExecuteWithFailover(context.Background(), &FailoverRequest{
+		ModelName: "test-model",
+		ExecuteFunc: func(ctx context.Context, instance *ModelInstance) (interface{}, error) {
+			req := &providers.ChatRequest{
+				Model:    instance.Config.Provider.Model,
+				Messages: []providers.Message{{Role: "user", Content: "Hello!"}},
+			}
+			return instance.Provider.ChatCompletion(ctx, req)
+		},
+	})
+
+	elapsed := time.Since(start)
+
+	// User gets a successful response
+	require.NoError(t, err)
+	assert.NotNil(t, result)
+
+	response := result.Response.(*providers.ChatResponse)
+	assert.Equal(t, "Success!", response.Choices[0].Message.Content)
+
+	// Response is slower because we tried failing instance first
+	// But user doesn't see any error - just gets the result
+	t.Logf("Request completed in %v with %d attempts and %d failovers",
+		elapsed, result.AttemptCount, len(result.Failovers))
+	t.Logf("Failover chain: %v", result.Failovers)
+
+	assert.Greater(t, result.AttemptCount, 1, "Should have retried")
+}
diff --git a/internal/services/models/health_tracker.go b/internal/services/llm/models/health_tracker.go
similarity index 100%
rename from internal/services/models/health_tracker.go
rename to internal/services/llm/models/health_tracker.go
diff --git a/internal/services/llm/models/manager.go b/internal/services/llm/models/manager.go
new file mode 100644
index 0000000..4918ad0
--- /dev/null
+++ b/internal/services/llm/models/manager.go
@@ -0,0 +1,530 @@
+package models
+
+import (
+	"context"
+	"fmt"
+	"time"
+
+	"github.com/amerfu/pllm/internal/core/config"
+	redisService "github.com/amerfu/pllm/internal/services/data/redis"
+	"github.com/amerfu/pllm/internal/services/llm/models/routing"
+	"github.com/redis/go-redis/v9"
+	"go.uber.org/zap"
+)
+
+// ModelManager is the refactored model manager using focused components
+type ModelManager struct {
+	registry         *ModelRegistry
+	healthTracker    *HealthTracker
+	metricsCollector *MetricsCollector
+	latencyTracker   *redisService.LatencyTracker // Distributed latency tracking
+	routingStrategy  routing.Strategy              // Routing strategy (priority, latency, etc.)
+	router           config.RouterSettings
+	logger           *zap.Logger
+}
+
+// NewModelManager creates a new refactored model manager
+func NewModelManager(logger *zap.Logger, router config.RouterSettings, redisClient *redis.Client) *ModelManager {
+	// Initialize distributed latency tracker
+	var latencyTracker *redisService.LatencyTracker
+	if redisClient != nil {
+		latencyTracker = redisService.NewLatencyTracker(redisClient, logger)
+	}
+
+	// Initialize model registry
+	registry := NewModelRegistry(logger)
+
+	// Create routing strategy
+	strategy, err := routing.NewStrategy(router.RoutingStrategy, routing.StrategyDependencies{
+		LatencyTracker: latencyTracker,
+		Registry:       registry,
+		Logger:         logger,
+	})
+	if err != nil {
+		logger.Warn("Failed to create routing strategy, using priority", zap.Error(err))
+		strategy, _ = routing.NewStrategy("priority", routing.StrategyDependencies{Logger: logger})
+	}
+
+	return &ModelManager{
+		registry:         registry,
+		healthTracker:    NewHealthTracker(logger),
+		metricsCollector: NewMetricsCollector(logger),
+		latencyTracker:   latencyTracker,
+		routingStrategy:  strategy,
+		router:           router,
+		logger:           logger,
+	}
+}
+
+// LoadModelInstances loads model instances from configuration
+func (m *ModelManager) LoadModelInstances(instances []config.ModelInstance) error {
+	return m.registry.LoadModelInstances(instances)
+}
+
+// GetBestInstance returns the best instance for a model based on routing strategy
+func (m *ModelManager) GetBestInstance(ctx context.Context, modelName string) (*ModelInstance, error) {
+	// Get available instances for the model
+	instances, exists := m.registry.GetModelInstances(modelName)
+	if !exists || len(instances) == 0 {
+		return nil, fmt.Errorf("no instances available for model: %s", modelName)
+	}
+
+	// Filter healthy instances
+	var healthyInstances []routing.ModelInstance
+	for _, instance := range instances {
+		if m.healthTracker.IsHealthy(instance) {
+			healthyInstances = append(healthyInstances, instance)
+		}
+	}
+
+	if len(healthyInstances) == 0 {
+		return nil, fmt.Errorf("no healthy instances available for model: %s", modelName)
+	}
+
+	// Delegate to routing strategy
+	selected, err := m.routingStrategy.SelectInstance(ctx, healthyInstances)
+	if err != nil {
+		return nil, err
+	}
+	
+	// Convert back to concrete type
+	return selected.(*ModelInstance), nil
+}
+
+// FailoverRequest contains the request details for failover execution
+type FailoverRequest struct {
+	ModelName      string
+	ExecuteFunc    func(context.Context, *ModelInstance) (interface{}, error) // Function to execute against an instance
+	ValidateFunc   func(interface{}) error                                    // Optional validation of response
+	IsStreamFunc   bool                                                       // If true, ExecuteFunc returns a channel
+}
+
+// FailoverResult contains the result of a failover execution
+type FailoverResult struct {
+	Response     interface{}
+	Instance     *ModelInstance
+	AttemptCount int
+	Failovers    []string // List of models/instances tried before success
+}
+
+// ExecuteWithFailover executes a request with automatic instance retry and model fallback
+// This provides transparent failover - end users don't see errors if an instance/model fails
+func (m *ModelManager) ExecuteWithFailover(ctx context.Context, req *FailoverRequest) (*FailoverResult, error) {
+	if !m.router.EnableFailover {
+		// Failover disabled - use simple execution
+		instance, err := m.GetBestInstance(ctx, req.ModelName)
+		if err != nil {
+			return nil, err
+		}
+		
+		response, err := req.ExecuteFunc(ctx, instance)
+		if err != nil {
+			m.RecordFailure(instance, err)
+			return nil, err
+		}
+		
+		return &FailoverResult{
+			Response:     response,
+			Instance:     instance,
+			AttemptCount: 1,
+			Failovers:    []string{},
+		}, nil
+	}
+
+	// Calculate retry attempts (default to 2 if not configured)
+	instanceRetries := m.router.InstanceRetryAttempts
+	if instanceRetries <= 0 {
+		instanceRetries = 2
+	}
+
+	var failovers []string
+	attemptCount := 0
+	currentModel := req.ModelName
+
+	// Try models in fallback chain
+	for {
+		m.logger.Info("Attempting request with failover",
+			zap.String("model", currentModel),
+			zap.Int("attempt", attemptCount+1))
+
+		// Try multiple instances of current model
+		result, err := m.tryModelInstances(ctx, currentModel, req, instanceRetries, &attemptCount, &failovers)
+		if err == nil {
+			m.logger.Info("Request succeeded with failover",
+				zap.String("final_model", currentModel),
+				zap.String("final_instance", result.Instance.Config.ID),
+				zap.Int("total_attempts", attemptCount),
+				zap.Strings("failovers", failovers))
+			return result, nil
+		}
+
+		// All instances of current model failed
+		m.logger.Warn("All instances failed for model",
+			zap.String("model", currentModel),
+			zap.Error(err))
+
+		// Check if model fallback is enabled
+		if !m.router.EnableModelFallback {
+			return nil, fmt.Errorf("all instances failed for model %s: %w", currentModel, err)
+		}
+
+		// Try fallback model
+		fallbackModel, hasFallback := m.router.ModelFallbacks[currentModel]
+		if !hasFallback {
+			return nil, fmt.Errorf("no fallback configured for model %s after all instances failed", currentModel)
+		}
+
+		m.logger.Info("Failing over to fallback model",
+			zap.String("from", currentModel),
+			zap.String("to", fallbackModel))
+
+		failovers = append(failovers, fmt.Sprintf("model:%s(all instances failed)", currentModel))
+		currentModel = fallbackModel
+		
+		// Prevent infinite loops - max 5 model fallbacks
+		if len(failovers) > 10 {
+			return nil, fmt.Errorf("too many failover attempts (%d), giving up", len(failovers))
+		}
+	}
+}
+
+// tryModelInstances attempts to execute request against multiple instances of a model
+func (m *ModelManager) tryModelInstances(
+	ctx context.Context,
+	modelName string,
+	req *FailoverRequest,
+	maxRetries int,
+	attemptCount *int,
+	failovers *[]string,
+) (*FailoverResult, error) {
+	var lastErr error
+
+	// Get all available instances for the model
+	instances, exists := m.registry.GetModelInstances(modelName)
+	if !exists || len(instances) == 0 {
+		return nil, fmt.Errorf("no instances available for model: %s", modelName)
+	}
+
+	// Filter healthy instances
+	var healthyInstances []*ModelInstance
+	for _, instance := range instances {
+		if m.healthTracker.IsHealthy(instance) {
+			healthyInstances = append(healthyInstances, instance)
+		}
+	}
+
+	if len(healthyInstances) == 0 {
+		return nil, fmt.Errorf("no healthy instances available for model: %s", modelName)
+	}
+
+	// Try each healthy instance up to maxRetries times
+	for retry := 0; retry < maxRetries && len(healthyInstances) > 0; retry++ {
+		// Use routing strategy to select best instance
+		var instance *ModelInstance
+		
+		// Convert to routing.ModelInstance interface for strategy
+		var routingInstances []routing.ModelInstance
+		for _, inst := range healthyInstances {
+			routingInstances = append(routingInstances, inst)
+		}
+		
+		selected, err := m.routingStrategy.SelectInstance(ctx, routingInstances)
+		if err != nil {
+			lastErr = err
+			continue
+		}
+		instance = selected.(*ModelInstance)
+
+		*attemptCount++
+
+		m.logger.Info("Trying instance",
+			zap.String("model", modelName),
+			zap.String("instance", instance.Config.ID),
+			zap.Int("attempt", *attemptCount),
+			zap.Int("retry", retry+1),
+			zap.Int("max_retries", maxRetries))
+
+		// Apply timeout multiplier for failover attempts
+		timeoutMultiple := m.router.FailoverTimeoutMultiple
+		if timeoutMultiple <= 0 {
+			timeoutMultiple = 1.5
+		}
+		
+		timeout := time.Duration(float64(instance.Config.Timeout) * timeoutMultiple)
+		executeCtx, cancel := context.WithTimeout(ctx, timeout)
+		
+		// Execute request
+		response, err := req.ExecuteFunc(executeCtx, instance)
+		cancel()
+
+		if err != nil {
+			m.logger.Warn("Instance request failed",
+				zap.String("model", modelName),
+				zap.String("instance", instance.Config.ID),
+				zap.Error(err))
+			
+			m.RecordFailure(instance, err)
+			*failovers = append(*failovers, fmt.Sprintf("instance:%s(%s)", instance.Config.ID, err.Error()))
+			lastErr = err
+			
+			// Remove this instance from healthy list to avoid retrying it
+			healthyInstances = removeInstance(healthyInstances, instance)
+			continue
+		}
+
+		// Validate response if validation function provided
+		if req.ValidateFunc != nil {
+			if err := req.ValidateFunc(response); err != nil {
+				m.logger.Warn("Response validation failed",
+					zap.String("model", modelName),
+					zap.String("instance", instance.Config.ID),
+					zap.Error(err))
+				
+				*failovers = append(*failovers, fmt.Sprintf("instance:%s(validation failed)", instance.Config.ID))
+				lastErr = err
+				healthyInstances = removeInstance(healthyInstances, instance)
+				continue
+			}
+		}
+
+		// Success!
+		m.logger.Info("Instance request succeeded",
+			zap.String("model", modelName),
+			zap.String("instance", instance.Config.ID))
+
+		return &FailoverResult{
+			Response:     response,
+			Instance:     instance,
+			AttemptCount: *attemptCount,
+			Failovers:    *failovers,
+		}, nil
+	}
+
+	return nil, fmt.Errorf("all instance attempts failed for model %s: %w", modelName, lastErr)
+}
+
+// removeInstance removes an instance from a slice
+func removeInstance(instances []*ModelInstance, toRemove *ModelInstance) []*ModelInstance {
+	result := make([]*ModelInstance, 0, len(instances))
+	for _, inst := range instances {
+		if inst.Config.ID != toRemove.Config.ID {
+			result = append(result, inst)
+		}
+	}
+	return result
+}
+
+// RecordSuccess records a successful request
+func (m *ModelManager) RecordSuccess(instance *ModelInstance, tokens int64, latency time.Duration) {
+	m.healthTracker.RecordSuccess(instance)
+	m.metricsCollector.RecordRequest(instance, tokens, latency)
+}
+
+// RecordFailure records a failed request
+func (m *ModelManager) RecordFailure(instance *ModelInstance, err error) {
+	m.healthTracker.RecordFailure(instance, err)
+}
+
+// GetModelStats returns statistics for all models
+func (m *ModelManager) GetModelStats() map[string]interface{} {
+	stats := make(map[string]interface{})
+
+	// Registry stats
+	registryStats := m.registry.GetRegistryStats()
+	stats["registry"] = registryStats
+
+	// Health status for all instances
+	allInstances := m.registry.GetAllInstances()
+	healthStatuses := m.healthTracker.GetAllHealthStatuses(allInstances)
+	stats["health"] = healthStatuses
+
+	// Metrics for all instances
+	metrics := m.metricsCollector.GetAllMetrics(allInstances)
+	stats["metrics"] = metrics
+
+	// Legacy compatibility: Create load_balancer format expected by dashboard
+	loadBalancerStats := make(map[string]interface{})
+	for _, instance := range allInstances {
+		modelName := instance.Config.ModelName
+
+		// Get health status
+		healthStatus := m.healthTracker.GetHealthStatus(instance)
+		healthScore := 100
+		if !healthStatus.IsHealthy {
+			healthScore = 50 // Simplified health scoring
+		}
+
+		// Get metrics
+		instanceMetrics := m.metricsCollector.GetMetrics(instance)
+
+		loadBalancerStats[modelName] = map[string]interface{}{
+			"health_score":    healthScore,
+			"total_requests":  instanceMetrics.TotalRequests,
+			"avg_latency":     fmt.Sprintf("%.0f", float64(instanceMetrics.AverageLatency.Milliseconds())),
+			"requests_minute": instanceMetrics.RequestsThisMinute,
+			"tokens_minute":   instanceMetrics.TokensThisMinute,
+		}
+	}
+	stats["load_balancer"] = loadBalancerStats
+
+	// Legacy compatibility: Add summary fields expected by admin analytics
+	var totalRequests int64
+	var totalTokens int64
+	activeModels := len(loadBalancerStats)
+
+	for _, instance := range allInstances {
+		instanceMetrics := m.metricsCollector.GetMetrics(instance)
+		totalRequests += instanceMetrics.TotalRequests
+		totalTokens += instanceMetrics.TotalTokens
+	}
+
+	stats["total_requests"] = totalRequests
+	stats["total_tokens"] = totalTokens
+	stats["total_cost"] = float64(totalTokens) * 0.0001 // Rough cost estimate
+	stats["active_users"] = 0                           // TODO: Track active users
+	stats["should_shed_load"] = false                   // TODO: Implement load shedding logic
+	stats["active_models"] = activeModels
+
+	return stats
+}
+
+// GetAvailableModels returns list of available models
+func (m *ModelManager) GetAvailableModels() []string {
+	return m.registry.GetAvailableModels()
+}
+
+// CheckRateLimit checks if an instance can handle additional tokens
+func (m *ModelManager) CheckRateLimit(instance *ModelInstance, additionalTokens int32) bool {
+	return m.metricsCollector.CheckRateLimit(instance, additionalTokens)
+}
+
+// UpdateTokenCount updates the token count for rate limiting
+func (m *ModelManager) UpdateTokenCount(instance *ModelInstance, tokens int32) {
+	m.metricsCollector.UpdateTokenCount(instance, tokens)
+}
+
+// Legacy methods for backward compatibility with handlers
+// TODO: Update handlers to use new API and remove these methods
+
+// RecordRequestStart records the start of a request (no-op for now)
+func (m *ModelManager) RecordRequestStart(modelName string) {
+	// No-op - tracking is now done at success/failure level
+}
+
+// RecordRequestEnd records the end of a request with distributed latency tracking
+func (m *ModelManager) RecordRequestEnd(modelName string, latency time.Duration, success bool, err error) {
+	// Record to distributed latency tracker (async, non-blocking)
+	if m.latencyTracker != nil && success {
+		ctx, cancel := context.WithTimeout(context.Background(), 100*time.Millisecond)
+		defer cancel()
+
+		if err := m.latencyTracker.RecordLatency(ctx, modelName, latency); err != nil {
+			m.logger.Warn("Failed to record distributed latency",
+				zap.String("model", modelName),
+				zap.Duration("latency", latency),
+				zap.Error(err))
+		}
+	}
+}
+
+// GetBestInstanceAdaptive returns the best instance (alias for GetBestInstance)
+func (m *ModelManager) GetBestInstanceAdaptive(ctx context.Context, modelName string) (*ModelInstance, error) {
+	return m.GetBestInstance(ctx, modelName)
+}
+
+// ListModels returns available models (alias for GetAvailableModels)
+func (m *ModelManager) ListModels() []string {
+	return m.GetAvailableModels()
+}
+
+// GetDetailedModelInfo returns detailed model information for API consumption
+func (m *ModelManager) GetDetailedModelInfo() []ModelInfo {
+	availableModels := m.GetAvailableModels()
+	allInstances := m.registry.GetAllInstances()
+
+	// Create a map to track model info
+	modelInfoMap := make(map[string]*ModelInfo)
+
+	// Build model info from instances
+	for _, instance := range allInstances {
+		modelName := instance.Config.ModelName
+		if _, exists := modelInfoMap[modelName]; !exists {
+			// Determine provider/owner from provider type
+			var ownedBy string
+			switch instance.Config.Provider.Type {
+			case "openai":
+				ownedBy = "openai"
+			case "anthropic":
+				ownedBy = "anthropic"
+			case "azure":
+				ownedBy = "azure"
+			case "bedrock":
+				ownedBy = "aws"
+			case "vertex":
+				ownedBy = "google"
+			case "openrouter":
+				ownedBy = "openrouter"
+			default:
+				ownedBy = instance.Config.Provider.Type
+			}
+
+			modelInfoMap[modelName] = &ModelInfo{
+				ID:      modelName,
+				Object:  "model",
+				OwnedBy: ownedBy,
+				Created: time.Now().Unix(),
+			}
+		}
+	}
+
+	// Convert to slice
+	var result []ModelInfo
+	for _, modelName := range availableModels {
+		if info, exists := modelInfoMap[modelName]; exists {
+			result = append(result, *info)
+		} else {
+			// Fallback for models without instances
+			result = append(result, ModelInfo{
+				ID:      modelName,
+				Object:  "model",
+				OwnedBy: "unknown",
+				Created: time.Now().Unix(),
+			})
+		}
+	}
+
+	return result
+}
+
+// GetModelTags returns tags associated with a model
+func (m *ModelManager) GetModelTags(modelName string) []string {
+	allInstances := m.registry.GetAllInstances()
+	
+	// Collect tags from all instances of this model
+	tagSet := make(map[string]bool)
+	for _, instance := range allInstances {
+		if instance.Config.ModelName == modelName {
+			for _, tag := range instance.Config.Tags {
+				if tag != "" {
+					tagSet[tag] = true
+				}
+			}
+		}
+	}
+	
+	// Convert to slice
+	tags := make([]string, 0, len(tagSet))
+	for tag := range tagSet {
+		tags = append(tags, tag)
+	}
+	
+	return tags
+}
+
+// ModelInfo represents detailed model information for API responses
+type ModelInfo struct {
+	ID      string `json:"id"`
+	Object  string `json:"object"`
+	OwnedBy string `json:"owned_by"`
+	Created int64  `json:"created"`
+}
diff --git a/internal/services/models/manager_test.go b/internal/services/llm/models/manager_test.go
similarity index 51%
rename from internal/services/models/manager_test.go
rename to internal/services/llm/models/manager_test.go
index abb436d..dfe19c1 100644
--- a/internal/services/models/manager_test.go
+++ b/internal/services/llm/models/manager_test.go
@@ -5,129 +5,25 @@ import (
 	"testing"
 	"time"
 
-	"github.com/amerfu/pllm/internal/config"
-	"github.com/amerfu/pllm/internal/services/circuitbreaker"
-	"github.com/amerfu/pllm/internal/services/loadbalancer"
+	"github.com/amerfu/pllm/internal/core/config"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 	"go.uber.org/zap"
 )
 
-func TestAdaptiveBreaker(t *testing.T) {
-	breaker := circuitbreaker.NewAdaptiveBreaker(
-		3,             // failure threshold
-		1*time.Second, // latency threshold
-		2,             // slow request limit
-	)
-
-	// Test normal requests
-	t.Run("Normal requests keep circuit closed", func(t *testing.T) {
-		for i := 0; i < 10; i++ {
-			breaker.StartRequest()
-			breaker.EndRequest()
-			breaker.RecordSuccess(100 * time.Millisecond)
-		}
-		assert.True(t, breaker.CanRequest())
-		state := breaker.GetState()
-		assert.Equal(t, "CLOSED", state["state"])
-	})
-
-	// Test slow requests
-	t.Run("Slow requests open circuit", func(t *testing.T) {
-		breaker := circuitbreaker.NewAdaptiveBreaker(3, 500*time.Millisecond, 2)
-
-		// Record slow requests
-		for i := 0; i < 3; i++ {
-			breaker.StartRequest()
-			breaker.EndRequest()
-			breaker.RecordSuccess(2 * time.Second) // Slow!
-		}
-
-		assert.False(t, breaker.CanRequest())
-		state := breaker.GetState()
-		assert.Equal(t, "OPEN", state["state"])
-	})
-
-	// Test failures
-	t.Run("Failures open circuit", func(t *testing.T) {
-		breaker := circuitbreaker.NewAdaptiveBreaker(3, 1*time.Second, 2)
-
-		// Record failures
-		for i := 0; i < 4; i++ {
-			breaker.StartRequest()
-			breaker.EndRequest()
-			breaker.RecordFailure()
-		}
-
-		assert.False(t, breaker.CanRequest())
-		state := breaker.GetState()
-		assert.Equal(t, "OPEN", state["state"])
-	})
-}
-
-func TestAdaptiveLoadBalancer(t *testing.T) {
-	lb := loadbalancer.NewAdaptiveLoadBalancer()
-
-	// Register models
-	lb.RegisterModel("model-a", 2*time.Second)
-	lb.RegisterModel("model-b", 2*time.Second)
-	lb.RegisterModel("model-c", 2*time.Second)
-
-	// Set fallbacks
-	lb.SetFallbacks("model-a", []string{"model-b", "model-c"})
-
-	t.Run("Select primary model when healthy", func(t *testing.T) {
-		ctx := context.Background()
-		selected, err := lb.SelectModel(ctx, "model-a")
-		require.NoError(t, err)
-		assert.Equal(t, "model-a", selected)
-	})
+// TestAdaptiveBreaker REMOVED
+// AdaptiveBreaker was removed in favor of simple circuit breaker in Manager
 
-	t.Run("Select fallback when primary fails", func(t *testing.T) {
-		ctx := context.Background()
-
-		// Make model-a unhealthy
-		for i := 0; i < 5; i++ {
-			lb.RecordRequestStart("model-a")
-			lb.RecordRequestEnd("model-a", 100*time.Millisecond, false)
-		}
-
-		selected, err := lb.SelectModel(ctx, "model-a")
-		require.NoError(t, err)
-		// Should select a fallback
-		assert.Contains(t, []string{"model-a", "model-b", "model-c"}, selected)
-	})
-
-	t.Run("Track health scores", func(t *testing.T) {
-		lb := loadbalancer.NewAdaptiveLoadBalancer()
-		lb.RegisterModel("test-model", 1*time.Second)
-
-		// Record successful requests
-		for i := 0; i < 3; i++ {
-			lb.RecordRequestStart("test-model")
-			lb.RecordRequestEnd("test-model", 200*time.Millisecond, true)
-		}
-
-		stats := lb.GetModelStats()
-		modelStats := stats["test-model"]
-		assert.Equal(t, float64(100), modelStats["health_score"])
-		assert.Equal(t, int64(3), modelStats["total_requests"])
-	})
-}
+// TestAdaptiveLoadBalancer REMOVED
+// Routing is now handled by internal/services/llm/models/routing package
 
 func TestModelManager_AdaptiveRouting(t *testing.T) {
 	logger := zap.NewNop()
 	router := config.RouterSettings{
-		RoutingStrategy:         "latency-based",
-		CircuitBreakerEnabled:   true,
-		CircuitBreakerThreshold: 3,
-		CircuitBreakerCooldown:  1 * time.Second,
-		Fallbacks: map[string][]string{
-			"primary": {"fallback1", "fallback2"},
-		},
+		RoutingStrategy: "latency-based",
 	}
 
-	manager := NewModelManager(logger, router)
+	manager := NewModelManager(logger, router, nil)
 
 	// Mock model instances
 	instances := []config.ModelInstance{
@@ -207,7 +103,7 @@ func TestModelManager_AdaptiveRouting(t *testing.T) {
 func TestModelNameMapping(t *testing.T) {
 	logger := zap.NewNop()
 	router := config.RouterSettings{}
-	manager := NewModelManager(logger, router)
+	manager := NewModelManager(logger, router, nil)
 
 	instances := []config.ModelInstance{
 		{
diff --git a/internal/services/models/metrics_collector.go b/internal/services/llm/models/metrics_collector.go
similarity index 100%
rename from internal/services/models/metrics_collector.go
rename to internal/services/llm/models/metrics_collector.go
diff --git a/internal/services/models/model_registry.go b/internal/services/llm/models/model_registry.go
similarity index 98%
rename from internal/services/models/model_registry.go
rename to internal/services/llm/models/model_registry.go
index 21603cf..fb802dd 100644
--- a/internal/services/models/model_registry.go
+++ b/internal/services/llm/models/model_registry.go
@@ -6,8 +6,8 @@ import (
 	"sync"
 	"sync/atomic"
 
-	"github.com/amerfu/pllm/internal/config"
-	"github.com/amerfu/pllm/internal/services/providers"
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
 	"go.uber.org/zap"
 )
 
diff --git a/internal/services/llm/models/routing/latency.go b/internal/services/llm/models/routing/latency.go
new file mode 100644
index 0000000..994b43d
--- /dev/null
+++ b/internal/services/llm/models/routing/latency.go
@@ -0,0 +1,107 @@
+package routing
+
+import (
+	"context"
+	"time"
+
+	redisService "github.com/amerfu/pllm/internal/services/data/redis"
+	"go.uber.org/zap"
+)
+
+// LatencyStrategy selects instances based on lowest average latency
+// Uses distributed Redis-based latency tracking for multi-instance deployments
+type LatencyStrategy struct {
+	latencyTracker *redisService.LatencyTracker
+	logger         *zap.Logger
+}
+
+// NewLatencyStrategy creates a new latency-based routing strategy
+func NewLatencyStrategy(tracker *redisService.LatencyTracker, logger *zap.Logger) *LatencyStrategy {
+	return &LatencyStrategy{
+		latencyTracker: tracker,
+		logger:         logger,
+	}
+}
+
+// Name returns the strategy name
+func (s *LatencyStrategy) Name() string {
+	return "least-latency"
+}
+
+// SelectInstance selects the instance with the lowest average latency
+// Queries distributed latency from Redis, falls back to in-memory if unavailable
+func (s *LatencyStrategy) SelectInstance(ctx context.Context, instances []ModelInstance) (ModelInstance, error) {
+	if len(instances) == 0 {
+		return nil, nil
+	}
+
+	// If distributed latency tracker available, use it for accurate cross-instance data
+	if s.latencyTracker != nil {
+		return s.selectUsingDistributedLatency(ctx, instances)
+	}
+
+	// Fallback to in-memory latency tracking
+	return s.selectUsingInMemoryLatency(instances)
+}
+
+// selectUsingDistributedLatency queries Redis for distributed latency metrics
+func (s *LatencyStrategy) selectUsingDistributedLatency(ctx context.Context, instances []ModelInstance) (ModelInstance, error) {
+	queryCtx, cancel := context.WithTimeout(ctx, 50*time.Millisecond)
+	defer cancel()
+
+	var bestInstance ModelInstance
+	var bestLatency time.Duration
+
+	for _, instance := range instances {
+		config := instance.GetConfig()
+		
+		// Get distributed latency from Redis
+		latency, err := s.latencyTracker.GetAverageLatency(queryCtx, config.ModelName)
+		if err != nil {
+			// Fallback to in-memory if Redis fails for this instance
+			s.logger.Debug("Failed to get distributed latency, using in-memory",
+				zap.String("model", config.ModelName),
+				zap.Error(err))
+			latency = time.Duration(instance.GetAverageLatency().Load()) * time.Millisecond
+		}
+
+		// Select instance with lowest latency
+		if bestInstance == nil || (latency > 0 && (bestLatency == 0 || latency < bestLatency)) {
+			bestInstance = instance
+			bestLatency = latency
+		}
+	}
+
+	if bestInstance != nil {
+		config := bestInstance.GetConfig()
+		s.logger.Debug("Selected instance by distributed latency",
+			zap.String("instance_id", config.ID),
+			zap.Duration("latency", bestLatency))
+		return bestInstance, nil
+	}
+
+	// If Redis failed for all instances, fallback to in-memory
+	s.logger.Warn("Distributed latency unavailable for all instances, falling back to in-memory")
+	return s.selectUsingInMemoryLatency(instances)
+}
+
+// selectUsingInMemoryLatency uses local in-memory latency metrics
+func (s *LatencyStrategy) selectUsingInMemoryLatency(instances []ModelInstance) (ModelInstance, error) {
+	bestInstance := instances[0]
+	bestLatency := bestInstance.GetAverageLatency().Load()
+
+	for _, instance := range instances[1:] {
+		latency := instance.GetAverageLatency().Load()
+		if latency > 0 && (bestLatency == 0 || latency < bestLatency) {
+			bestInstance = instance
+			bestLatency = latency
+		}
+	}
+
+	config := bestInstance.GetConfig()
+	s.logger.Debug("Selected instance by in-memory latency",
+		zap.String("instance_id", config.ID),
+		zap.Int64("latency_ms", bestLatency))
+
+	return bestInstance, nil
+}
diff --git a/internal/services/llm/models/routing/priority.go b/internal/services/llm/models/routing/priority.go
new file mode 100644
index 0000000..3e63777
--- /dev/null
+++ b/internal/services/llm/models/routing/priority.go
@@ -0,0 +1,41 @@
+package routing
+
+import (
+	"context"
+
+	"go.uber.org/zap"
+)
+
+// PriorityStrategy selects instances based on priority
+// Instances are pre-sorted by priority in the registry (lower number = higher priority)
+type PriorityStrategy struct {
+	logger *zap.Logger
+}
+
+// NewPriorityStrategy creates a new priority-based routing strategy
+func NewPriorityStrategy(logger *zap.Logger) *PriorityStrategy {
+	return &PriorityStrategy{
+		logger: logger,
+	}
+}
+
+// Name returns the strategy name
+func (s *PriorityStrategy) Name() string {
+	return "priority"
+}
+
+// SelectInstance returns the first instance (highest priority)
+// Instances are already sorted by priority in the registry
+func (s *PriorityStrategy) SelectInstance(ctx context.Context, instances []ModelInstance) (ModelInstance, error) {
+	if len(instances) == 0 {
+		return nil, nil
+	}
+
+	selected := instances[0]
+	config := selected.GetConfig()
+	s.logger.Debug("Selected instance by priority",
+		zap.String("instance_id", config.ID),
+		zap.Int("priority", config.Priority))
+
+	return selected, nil
+}
diff --git a/internal/services/llm/models/routing/random.go b/internal/services/llm/models/routing/random.go
new file mode 100644
index 0000000..c9b0f39
--- /dev/null
+++ b/internal/services/llm/models/routing/random.go
@@ -0,0 +1,44 @@
+package routing
+
+import (
+	"context"
+	"math/rand"
+
+	"go.uber.org/zap"
+)
+
+// RandomStrategy selects instances randomly
+type RandomStrategy struct {
+	logger *zap.Logger
+}
+
+// NewRandomStrategy creates a new random routing strategy
+func NewRandomStrategy(logger *zap.Logger) *RandomStrategy {
+	return &RandomStrategy{
+		logger: logger,
+	}
+}
+
+// Name returns the strategy name
+func (s *RandomStrategy) Name() string {
+	return "random"
+}
+
+// SelectInstance selects a random instance from the available instances
+func (s *RandomStrategy) SelectInstance(ctx context.Context, instances []ModelInstance) (ModelInstance, error) {
+	if len(instances) == 0 {
+		return nil, nil
+	}
+
+	// Select random index
+	index := rand.Intn(len(instances))
+	selected := instances[index]
+	config := selected.GetConfig()
+
+	s.logger.Debug("Selected instance randomly",
+		zap.String("instance_id", config.ID),
+		zap.Int("index", index),
+		zap.Int("total_instances", len(instances)))
+
+	return selected, nil
+}
diff --git a/internal/services/llm/models/routing/roundrobin.go b/internal/services/llm/models/routing/roundrobin.go
new file mode 100644
index 0000000..04bc1eb
--- /dev/null
+++ b/internal/services/llm/models/routing/roundrobin.go
@@ -0,0 +1,59 @@
+package routing
+
+import (
+	"context"
+
+	"go.uber.org/zap"
+)
+
+// RoundRobinStrategy distributes requests evenly across instances
+// Currently implements simple round-robin (weights not yet implemented)
+type RoundRobinStrategy struct {
+	registry ModelRegistry
+	logger   *zap.Logger
+}
+
+// NewRoundRobinStrategy creates a new round-robin routing strategy
+func NewRoundRobinStrategy(registry ModelRegistry, logger *zap.Logger) *RoundRobinStrategy {
+	return &RoundRobinStrategy{
+		registry: registry,
+		logger:   logger,
+	}
+}
+
+// Name returns the strategy name
+func (s *RoundRobinStrategy) Name() string {
+	return "weighted-round-robin"
+}
+
+// SelectInstance selects the next instance using round-robin
+// TODO: Implement weight support (currently ignores weights)
+func (s *RoundRobinStrategy) SelectInstance(ctx context.Context, instances []ModelInstance) (ModelInstance, error) {
+	if len(instances) == 0 {
+		return nil, nil
+	}
+
+	// Get the model name from the first instance (all have same model name)
+	modelName := instances[0].GetConfig().ModelName
+
+	// Get round-robin counter for this model
+	counter := s.registry.GetRoundRobinCounter(modelName)
+	if counter == nil {
+		// No counter available, return first instance
+		s.logger.Debug("Round-robin counter not available, using first instance",
+			zap.String("model", modelName))
+		return instances[0], nil
+	}
+
+	// Simple round-robin: increment and modulo by instance count
+	index := counter.Add(1) % uint64(len(instances))
+	selected := instances[index]
+	config := selected.GetConfig()
+
+	s.logger.Debug("Selected instance by round-robin",
+		zap.String("instance_id", config.ID),
+		zap.Uint64("counter", counter.Load()),
+		zap.Int("index", int(index)))
+
+	return selected, nil
+}
diff --git a/internal/services/llm/models/routing/strategy.go b/internal/services/llm/models/routing/strategy.go
new file mode 100644
index 0000000..f4d5cf0
--- /dev/null
+++ b/internal/services/llm/models/routing/strategy.go
@@ -0,0 +1,71 @@
+package routing
+
+import (
+	"context"
+	"fmt"
+	"sync/atomic"
+
+	redisService "github.com/amerfu/pllm/internal/services/data/redis"
+	"go.uber.org/zap"
+)
+
+// Strategy defines the interface for routing strategies
+type Strategy interface {
+	// Name returns the strategy name
+	Name() string
+
+	// SelectInstance selects the best instance from the given list
+	SelectInstance(ctx context.Context, instances []ModelInstance) (ModelInstance, error)
+}
+
+// ModelRegistry interface to avoid import cycle
+type ModelRegistry interface {
+	GetRoundRobinCounter(modelName string) *atomic.Uint64
+}
+
+// StrategyDependencies contains dependencies needed by routing strategies
+type StrategyDependencies struct {
+	LatencyTracker *redisService.LatencyTracker
+	Registry       ModelRegistry
+	Logger         *zap.Logger
+}
+
+// NewStrategy creates a routing strategy based on the strategy name
+func NewStrategy(name string, deps StrategyDependencies) (Strategy, error) {
+	switch name {
+	case "priority":
+		return NewPriorityStrategy(deps.Logger), nil
+
+	case "least-latency":
+		if deps.LatencyTracker == nil {
+			deps.Logger.Warn("LatencyTracker not available, falling back to priority strategy")
+			return NewPriorityStrategy(deps.Logger), nil
+		}
+		return NewLatencyStrategy(deps.LatencyTracker, deps.Logger), nil
+
+	case "weighted-round-robin":
+		if deps.Registry == nil {
+			deps.Logger.Warn("Registry not available, falling back to priority strategy")
+			return NewPriorityStrategy(deps.Logger), nil
+		}
+		return NewRoundRobinStrategy(deps.Registry, deps.Logger), nil
+
+	case "random":
+		return NewRandomStrategy(deps.Logger), nil
+
+	default:
+		deps.Logger.Warn("Unknown routing strategy, using priority", zap.String("strategy", name))
+		return NewPriorityStrategy(deps.Logger), nil
+	}
+}
+
+// ValidateStrategy checks if a strategy name is valid
+func ValidateStrategy(name string) error {
+	validStrategies := []string{"priority", "least-latency", "weighted-round-robin", "random"}
+	for _, valid := range validStrategies {
+		if name == valid {
+			return nil
+		}
+	}
+	return fmt.Errorf("invalid routing strategy: %s, valid options: %v", name, validStrategies)
+}
diff --git a/internal/services/llm/models/routing/types.go b/internal/services/llm/models/routing/types.go
new file mode 100644
index 0000000..fc8ffeb
--- /dev/null
+++ b/internal/services/llm/models/routing/types.go
@@ -0,0 +1,14 @@
+package routing
+
+import (
+	"sync/atomic"
+
+	"github.com/amerfu/pllm/internal/core/config"
+)
+
+// ModelInstance interface to avoid import cycle with models package
+// This defines the minimal interface needed by routing strategies
+type ModelInstance interface {
+	GetConfig() config.ModelInstance
+	GetAverageLatency() *atomic.Int64
+}
diff --git a/internal/services/models/types.go b/internal/services/llm/models/types.go
similarity index 82%
rename from internal/services/models/types.go
rename to internal/services/llm/models/types.go
index b740b63..2509069 100644
--- a/internal/services/models/types.go
+++ b/internal/services/llm/models/types.go
@@ -4,8 +4,8 @@ import (
 	"sync/atomic"
 	"time"
 
-	"github.com/amerfu/pllm/internal/config"
-	"github.com/amerfu/pllm/internal/services/providers"
+	"github.com/amerfu/pllm/internal/core/config"
+	"github.com/amerfu/pllm/internal/services/llm/providers"
 )
 
 // ModelInstance represents a runtime model instance with both configuration and state
@@ -53,6 +53,18 @@ func NewModelInstance(cfg config.ModelInstance, provider providers.Provider) *Mo
 	return instance
 }
 
+// Interface implementations for routing.ModelInstance
+
+// GetConfig returns the model instance configuration
+func (m *ModelInstance) GetConfig() config.ModelInstance {
+	return m.Config
+}
+
+// GetAverageLatency returns a pointer to the average latency atomic value
+func (m *ModelInstance) GetAverageLatency() *atomic.Int64 {
+	return &m.AverageLatency
+}
+
 // Legacy methods for backward compatibility with handlers
 // TODO: Update handlers to use manager methods instead
 
diff --git a/internal/services/providers/anthropic.go b/internal/services/llm/providers/anthropic.go
similarity index 100%
rename from internal/services/providers/anthropic.go
rename to internal/services/llm/providers/anthropic.go
diff --git a/internal/services/providers/azure.go b/internal/services/llm/providers/azure.go
similarity index 100%
rename from internal/services/providers/azure.go
rename to internal/services/llm/providers/azure.go
diff --git a/internal/services/providers/bedrock.go b/internal/services/llm/providers/bedrock.go
similarity index 100%
rename from internal/services/providers/bedrock.go
rename to internal/services/llm/providers/bedrock.go
diff --git a/internal/services/providers/config.go b/internal/services/llm/providers/config.go
similarity index 100%
rename from internal/services/providers/config.go
rename to internal/services/llm/providers/config.go
diff --git a/internal/services/providers/manager.go b/internal/services/llm/providers/manager.go
similarity index 99%
rename from internal/services/providers/manager.go
rename to internal/services/llm/providers/manager.go
index 5729dd7..a66cd10 100644
--- a/internal/services/providers/manager.go
+++ b/internal/services/llm/providers/manager.go
@@ -7,7 +7,7 @@ import (
 	"sort"
 	"sync"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 	"go.uber.org/zap"
 )
 
diff --git a/internal/services/providers/openai.go b/internal/services/llm/providers/openai.go
similarity index 100%
rename from internal/services/providers/openai.go
rename to internal/services/llm/providers/openai.go
diff --git a/internal/services/providers/openai_realtime_simple_test.go b/internal/services/llm/providers/openai_realtime_simple_test.go
similarity index 100%
rename from internal/services/providers/openai_realtime_simple_test.go
rename to internal/services/llm/providers/openai_realtime_simple_test.go
diff --git a/internal/services/providers/openrouter.go b/internal/services/llm/providers/openrouter.go
similarity index 100%
rename from internal/services/providers/openrouter.go
rename to internal/services/llm/providers/openrouter.go
diff --git a/internal/services/providers/openrouter_test.go b/internal/services/llm/providers/openrouter_test.go
similarity index 100%
rename from internal/services/providers/openrouter_test.go
rename to internal/services/llm/providers/openrouter_test.go
diff --git a/internal/services/providers/provider.go b/internal/services/llm/providers/provider.go
similarity index 100%
rename from internal/services/providers/provider.go
rename to internal/services/llm/providers/provider.go
diff --git a/internal/services/providers/realtime.go b/internal/services/llm/providers/realtime.go
similarity index 99%
rename from internal/services/providers/realtime.go
rename to internal/services/llm/providers/realtime.go
index d56af2f..e0d2a44 100644
--- a/internal/services/providers/realtime.go
+++ b/internal/services/llm/providers/realtime.go
@@ -4,7 +4,7 @@ import (
 	"context"
 	"fmt"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 	"github.com/gorilla/websocket"
 	"go.uber.org/zap"
 )
diff --git a/internal/services/providers/streaming_test.go b/internal/services/llm/providers/streaming_test.go
similarity index 100%
rename from internal/services/providers/streaming_test.go
rename to internal/services/llm/providers/streaming_test.go
diff --git a/internal/services/providers/vertex.go b/internal/services/llm/providers/vertex.go
similarity index 100%
rename from internal/services/providers/vertex.go
rename to internal/services/llm/providers/vertex.go
diff --git a/internal/services/realtime/redis_session_simple_test.go b/internal/services/llm/realtime/redis_session_simple_test.go
similarity index 100%
rename from internal/services/realtime/redis_session_simple_test.go
rename to internal/services/llm/realtime/redis_session_simple_test.go
diff --git a/internal/services/realtime/redis_session_store.go b/internal/services/llm/realtime/redis_session_store.go
similarity index 100%
rename from internal/services/realtime/redis_session_store.go
rename to internal/services/llm/realtime/redis_session_store.go
diff --git a/internal/services/realtime/session_manager.go b/internal/services/llm/realtime/session_manager.go
similarity index 99%
rename from internal/services/realtime/session_manager.go
rename to internal/services/llm/realtime/session_manager.go
index 756f915..91d76d8 100644
--- a/internal/services/realtime/session_manager.go
+++ b/internal/services/llm/realtime/session_manager.go
@@ -6,7 +6,7 @@ import (
 	"sync"
 	"time"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 	"github.com/gorilla/websocket"
 	"go.uber.org/zap"
 	"gorm.io/gorm"
diff --git a/internal/services/realtime/session_test.go b/internal/services/llm/realtime/session_test.go
similarity index 100%
rename from internal/services/realtime/session_test.go
rename to internal/services/llm/realtime/session_test.go
diff --git a/internal/services/loadbalancer/adaptive_balancer.go b/internal/services/loadbalancer/adaptive_balancer.go
deleted file mode 100644
index 9c31210..0000000
--- a/internal/services/loadbalancer/adaptive_balancer.go
+++ /dev/null
@@ -1,400 +0,0 @@
-package loadbalancer
-
-import (
-	"context"
-	"fmt"
-	"math"
-	"sort"
-	"sync"
-	"time"
-)
-
-// ModelHealth tracks the health and performance of a model
-type ModelHealth struct {
-	mu sync.RWMutex
-
-	// Identity
-	ModelName string
-
-	// Performance metrics
-	ResponseTimes   []time.Duration // Sliding window of response times
-	AvgResponseTime time.Duration
-	P95ResponseTime time.Duration
-	P99ResponseTime time.Duration
-
-	// Load metrics
-	ActiveRequests  int32
-	TotalRequests   int64
-	FailedRequests  int64
-	TimeoutRequests int64
-
-	// Health score (0-100)
-	HealthScore float64
-
-	// Rate limiting
-	RequestsPerMin  int32
-	TokensPerMin    int32
-	LastMinuteReset time.Time
-
-	// Circuit state
-	IsCircuitOpen   bool
-	LastFailureTime time.Time
-
-	// Configuration
-	MaxResponseTime time.Duration
-	WindowSize      int
-}
-
-// AdaptiveLoadBalancer manages load distribution based on real-time performance
-type AdaptiveLoadBalancer struct {
-	mu        sync.RWMutex
-	models    map[string]*ModelHealth
-	fallbacks map[string][]string
-
-	// Configuration
-	maxConcurrent int32
-	latencyWeight float64 // Weight for latency in scoring (0-1)
-	loadWeight    float64 // Weight for current load in scoring (0-1)
-	errorWeight   float64 // Weight for error rate in scoring (0-1)
-
-	// Global metrics
-	totalRequests int64
-	totalFailures int64
-}
-
-// NewAdaptiveLoadBalancer creates a new adaptive load balancer
-func NewAdaptiveLoadBalancer() *AdaptiveLoadBalancer {
-	return &AdaptiveLoadBalancer{
-		models:        make(map[string]*ModelHealth),
-		fallbacks:     make(map[string][]string),
-		maxConcurrent: 1000,
-		latencyWeight: 0.4,
-		loadWeight:    0.3,
-		errorWeight:   0.3,
-	}
-}
-
-// RegisterModel registers a model with the load balancer
-func (alb *AdaptiveLoadBalancer) RegisterModel(modelName string, maxResponseTime time.Duration) {
-	alb.mu.Lock()
-	defer alb.mu.Unlock()
-
-	if _, exists := alb.models[modelName]; !exists {
-		alb.models[modelName] = &ModelHealth{
-			ModelName:       modelName,
-			ResponseTimes:   make([]time.Duration, 0, 100),
-			MaxResponseTime: maxResponseTime,
-			WindowSize:      100,
-			HealthScore:     100.0,
-			LastMinuteReset: time.Now(),
-		}
-	}
-}
-
-// SetFallbacks sets the fallback chain for a model
-func (alb *AdaptiveLoadBalancer) SetFallbacks(model string, fallbacks []string) {
-	alb.mu.Lock()
-	defer alb.mu.Unlock()
-	alb.fallbacks[model] = fallbacks
-}
-
-// SelectModel selects the best available model considering load and performance
-func (alb *AdaptiveLoadBalancer) SelectModel(ctx context.Context, requestedModel string) (string, error) {
-	alb.mu.RLock()
-	defer alb.mu.RUnlock()
-
-	// Build candidate list (requested model + fallbacks)
-	candidates := []string{requestedModel}
-	if fallbacks, exists := alb.fallbacks[requestedModel]; exists {
-		candidates = append(candidates, fallbacks...)
-	}
-
-	// Find the best available model
-	var bestModel string
-	bestScore := -1.0
-
-	// First try the primary model
-	if primaryHealth, exists := alb.models[requestedModel]; exists {
-		if !primaryHealth.IsCircuitOpen || time.Since(primaryHealth.LastFailureTime) >= 30*time.Second {
-			// Primary is available, check its score
-			primaryScore := alb.calculateScore(primaryHealth)
-			// Use primary unless it's significantly degraded (< 50% health)
-			if primaryScore >= 50 {
-				bestModel = requestedModel
-				bestScore = primaryScore
-			}
-		}
-	}
-
-	// Only check fallbacks if primary is not good enough
-	if bestModel == "" && len(candidates) > 1 {
-		for _, modelName := range candidates[1:] { // Skip primary, already checked
-			health, exists := alb.models[modelName]
-			if !exists {
-				continue
-			}
-
-			// Skip if circuit is open
-			if health.IsCircuitOpen {
-				if time.Since(health.LastFailureTime) < 30*time.Second {
-					continue
-				}
-				// Try to close circuit
-				health.IsCircuitOpen = false
-			}
-
-			// Calculate current score
-			score := alb.calculateScore(health)
-
-			if score > bestScore {
-				bestScore = score
-				bestModel = modelName
-			}
-		}
-	}
-
-	if bestModel == "" {
-		return "", fmt.Errorf("no available models for %s", requestedModel)
-	}
-
-	// Increment active requests
-	if health, exists := alb.models[bestModel]; exists {
-		health.mu.Lock()
-		health.ActiveRequests++
-		health.mu.Unlock()
-	}
-
-	return bestModel, nil
-}
-
-// RecordRequestStart marks the start of a request
-func (alb *AdaptiveLoadBalancer) RecordRequestStart(modelName string) {
-	alb.mu.RLock()
-	health, exists := alb.models[modelName]
-	alb.mu.RUnlock()
-
-	if !exists {
-		return
-	}
-
-	health.mu.Lock()
-	defer health.mu.Unlock()
-
-	health.ActiveRequests++
-	health.TotalRequests++
-	alb.totalRequests++
-
-	// Reset per-minute counters if needed
-	if time.Since(health.LastMinuteReset) > time.Minute {
-		health.RequestsPerMin = 0
-		health.TokensPerMin = 0
-		health.LastMinuteReset = time.Now()
-	}
-	health.RequestsPerMin++
-}
-
-// RecordRequestEnd marks the end of a request
-func (alb *AdaptiveLoadBalancer) RecordRequestEnd(modelName string, latency time.Duration, success bool) {
-	alb.mu.RLock()
-	health, exists := alb.models[modelName]
-	alb.mu.RUnlock()
-
-	if !exists {
-		return
-	}
-
-	health.mu.Lock()
-	defer health.mu.Unlock()
-
-	// Decrement active requests
-	if health.ActiveRequests > 0 {
-		health.ActiveRequests--
-	}
-
-	if success {
-		// Update latency metrics
-		health.addResponseTime(latency)
-		health.updateLatencyMetrics()
-
-		// Check if response was slow
-		if latency > health.MaxResponseTime {
-			// Degrade health score for slow response
-			health.HealthScore *= 0.95
-		} else {
-			// Improve health score for fast response
-			health.HealthScore = math.Min(100, health.HealthScore*1.01)
-		}
-	} else {
-		// Record failure
-		health.FailedRequests++
-		health.LastFailureTime = time.Now()
-		alb.totalFailures++
-
-		// Degrade health score
-		health.HealthScore *= 0.9
-
-		// Open circuit if too many failures
-		failureRate := float64(health.FailedRequests) / float64(health.TotalRequests)
-		if failureRate > 0.5 && health.TotalRequests > 10 {
-			health.IsCircuitOpen = true
-		}
-	}
-
-	// Ensure health score stays in bounds
-	if health.HealthScore < 0 {
-		health.HealthScore = 0
-	}
-}
-
-// RecordTimeout records a timeout for a model
-func (alb *AdaptiveLoadBalancer) RecordTimeout(modelName string) {
-	alb.mu.RLock()
-	health, exists := alb.models[modelName]
-	alb.mu.RUnlock()
-
-	if !exists {
-		return
-	}
-
-	health.mu.Lock()
-	defer health.mu.Unlock()
-
-	health.TimeoutRequests++
-	health.FailedRequests++
-	health.LastFailureTime = time.Now()
-
-	// Severely degrade health score for timeouts
-	health.HealthScore *= 0.5
-
-	// Open circuit immediately on timeout
-	health.IsCircuitOpen = true
-}
-
-// GetModelStats returns statistics for all models
-func (alb *AdaptiveLoadBalancer) GetModelStats() map[string]map[string]interface{} {
-	alb.mu.RLock()
-	defer alb.mu.RUnlock()
-
-	stats := make(map[string]map[string]interface{})
-
-	for name, health := range alb.models {
-		health.mu.RLock()
-		stats[name] = map[string]interface{}{
-			"health_score":     health.HealthScore,
-			"active_requests":  health.ActiveRequests,
-			"total_requests":   health.TotalRequests,
-			"failed_requests":  health.FailedRequests,
-			"timeout_requests": health.TimeoutRequests,
-			"avg_latency":      health.AvgResponseTime.String(),
-			"p95_latency":      health.P95ResponseTime.String(),
-			"p99_latency":      health.P99ResponseTime.String(),
-			"circuit_open":     health.IsCircuitOpen,
-			"requests_per_min": health.RequestsPerMin,
-		}
-		health.mu.RUnlock()
-	}
-
-	return stats
-}
-
-// Private methods
-
-func (alb *AdaptiveLoadBalancer) calculateScore(health *ModelHealth) float64 {
-	health.mu.RLock()
-	defer health.mu.RUnlock()
-
-	// Base score from health
-	score := health.HealthScore
-
-	// Penalize based on current load (0-1, where 0 is no load)
-	loadFactor := 1.0
-	if health.ActiveRequests > 0 {
-		loadFactor = 1.0 / (1.0 + float64(health.ActiveRequests)/10.0)
-	}
-
-	// Penalize based on latency
-	latencyFactor := 1.0
-	if health.AvgResponseTime > 0 {
-		// Normalize latency (assume 10s is terrible, 100ms is excellent)
-		normalizedLatency := float64(health.AvgResponseTime) / float64(10*time.Second)
-		latencyFactor = 1.0 - math.Min(1.0, normalizedLatency)
-	}
-
-	// Penalize based on error rate
-	errorFactor := 1.0
-	if health.TotalRequests > 0 {
-		errorRate := float64(health.FailedRequests) / float64(health.TotalRequests)
-		errorFactor = 1.0 - errorRate
-	}
-
-	// Weighted combination
-	finalScore := score * (alb.loadWeight*loadFactor +
-		alb.latencyWeight*latencyFactor +
-		alb.errorWeight*errorFactor)
-
-	return finalScore
-}
-
-func (health *ModelHealth) addResponseTime(latency time.Duration) {
-	if len(health.ResponseTimes) >= health.WindowSize {
-		health.ResponseTimes = health.ResponseTimes[1:]
-	}
-	health.ResponseTimes = append(health.ResponseTimes, latency)
-}
-
-func (health *ModelHealth) updateLatencyMetrics() {
-	if len(health.ResponseTimes) == 0 {
-		return
-	}
-
-	// Calculate average
-	var total time.Duration
-	for _, rt := range health.ResponseTimes {
-		total += rt
-	}
-	health.AvgResponseTime = total / time.Duration(len(health.ResponseTimes))
-
-	// Calculate percentiles
-	sorted := make([]time.Duration, len(health.ResponseTimes))
-	copy(sorted, health.ResponseTimes)
-	sort.Slice(sorted, func(i, j int) bool {
-		return sorted[i] < sorted[j]
-	})
-
-	p95Index := int(float64(len(sorted)) * 0.95)
-	p99Index := int(float64(len(sorted)) * 0.99)
-
-	if p95Index < len(sorted) {
-		health.P95ResponseTime = sorted[p95Index]
-	}
-	if p99Index < len(sorted) {
-		health.P99ResponseTime = sorted[p99Index]
-	}
-}
-
-// ShouldShedLoad returns true if the system should start shedding load
-func (alb *AdaptiveLoadBalancer) ShouldShedLoad() bool {
-	alb.mu.RLock()
-	defer alb.mu.RUnlock()
-
-	// Count total active requests
-	var totalActive int32
-	var healthyModels int
-
-	for _, health := range alb.models {
-		health.mu.RLock()
-		totalActive += health.ActiveRequests
-		if health.HealthScore > 50 && !health.IsCircuitOpen {
-			healthyModels++
-		}
-		health.mu.RUnlock()
-	}
-
-	// Shed load if:
-	// 1. Too many concurrent requests
-	// 2. Too few healthy models
-	// 3. High global failure rate
-	return totalActive > alb.maxConcurrent ||
-		healthyModels < 2 ||
-		(alb.totalFailures > 100 && float64(alb.totalFailures)/float64(alb.totalRequests) > 0.1)
-}
diff --git a/internal/services/loadbalancer/adaptive_balancer_test.go b/internal/services/loadbalancer/adaptive_balancer_test.go
deleted file mode 100644
index 1288aab..0000000
--- a/internal/services/loadbalancer/adaptive_balancer_test.go
+++ /dev/null
@@ -1,793 +0,0 @@
-package loadbalancer
-
-import (
-	"context"
-	"sync"
-	"testing"
-	"time"
-
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestNewAdaptiveLoadBalancer(t *testing.T) {
-	alb := NewAdaptiveLoadBalancer()
-
-	assert.NotNil(t, alb.models)
-	assert.NotNil(t, alb.fallbacks)
-	assert.Equal(t, int32(1000), alb.maxConcurrent)
-	assert.Equal(t, 0.4, alb.latencyWeight)
-	assert.Equal(t, 0.3, alb.loadWeight)
-	assert.Equal(t, 0.3, alb.errorWeight)
-	assert.Equal(t, int64(0), alb.totalRequests)
-	assert.Equal(t, int64(0), alb.totalFailures)
-}
-
-func TestAdaptiveLoadBalancer_RegisterModel(t *testing.T) {
-	alb := NewAdaptiveLoadBalancer()
-
-	t.Run("register new model", func(t *testing.T) {
-		alb.RegisterModel("model1", 2*time.Second)
-
-		assert.Contains(t, alb.models, "model1")
-
-		health := alb.models["model1"]
-		assert.Equal(t, "model1", health.ModelName)
-		assert.Equal(t, 2*time.Second, health.MaxResponseTime)
-		assert.Equal(t, 100, health.WindowSize)
-		assert.Equal(t, 100.0, health.HealthScore)
-		assert.False(t, health.IsCircuitOpen)
-		assert.Equal(t, int32(0), health.ActiveRequests)
-		assert.Equal(t, int64(0), health.TotalRequests)
-	})
-
-	t.Run("register existing model doesn't overwrite", func(t *testing.T) {
-		// Modify the model's health
-		alb.models["model1"].HealthScore = 50.0
-
-		// Re-register
-		alb.RegisterModel("model1", 5*time.Second)
-
-		// Should not overwrite existing
-		assert.Equal(t, 50.0, alb.models["model1"].HealthScore)
-		assert.Equal(t, 2*time.Second, alb.models["model1"].MaxResponseTime) // Original value
-	})
-
-	t.Run("register multiple models", func(t *testing.T) {
-		alb.RegisterModel("model2", 1*time.Second)
-		alb.RegisterModel("model3", 3*time.Second)
-
-		assert.Len(t, alb.models, 3)
-		assert.Contains(t, alb.models, "model2")
-		assert.Contains(t, alb.models, "model3")
-	})
-}
-
-func TestAdaptiveLoadBalancer_SetFallbacks(t *testing.T) {
-	alb := NewAdaptiveLoadBalancer()
-
-	fallbacks := []string{"fallback1", "fallback2", "fallback3"}
-	alb.SetFallbacks("primary", fallbacks)
-
-	assert.Equal(t, fallbacks, alb.fallbacks["primary"])
-
-	// Update fallbacks
-	newFallbacks := []string{"new1", "new2"}
-	alb.SetFallbacks("primary", newFallbacks)
-	assert.Equal(t, newFallbacks, alb.fallbacks["primary"])
-}
-
-func TestAdaptiveLoadBalancer_SelectModel(t *testing.T) {
-	alb := NewAdaptiveLoadBalancer()
-	ctx := context.Background()
-
-	// Register models
-	alb.RegisterModel("primary", 2*time.Second)
-	alb.RegisterModel("fallback1", 2*time.Second)
-	alb.RegisterModel("fallback2", 2*time.Second)
-
-	// Set fallbacks
-	alb.SetFallbacks("primary", []string{"fallback1", "fallback2"})
-
-	t.Run("selects primary when healthy", func(t *testing.T) {
-		selected, err := alb.SelectModel(ctx, "primary")
-		require.NoError(t, err)
-		assert.Equal(t, "primary", selected)
-
-		// Should increment active requests
-		assert.Equal(t, int32(1), alb.models["primary"].ActiveRequests)
-	})
-
-	t.Run("selects fallback when primary degraded", func(t *testing.T) {
-		// Degrade primary model
-		alb.models["primary"].mu.Lock()
-		alb.models["primary"].HealthScore = 40.0 // Below 50% threshold
-		alb.models["primary"].mu.Unlock()
-
-		selected, err := alb.SelectModel(ctx, "primary")
-		require.NoError(t, err)
-
-		// Should select a fallback
-		assert.Contains(t, []string{"fallback1", "fallback2"}, selected)
-	})
-
-	t.Run("selects fallback when primary circuit open", func(t *testing.T) {
-		// Reset primary health but open circuit
-		alb.models["primary"].mu.Lock()
-		alb.models["primary"].HealthScore = 100.0
-		alb.models["primary"].IsCircuitOpen = true
-		alb.models["primary"].LastFailureTime = time.Now()
-		alb.models["primary"].mu.Unlock()
-
-		selected, err := alb.SelectModel(ctx, "primary")
-		require.NoError(t, err)
-
-		// Should select a fallback
-		assert.Contains(t, []string{"fallback1", "fallback2"}, selected)
-	})
-
-	t.Run("tries primary after circuit cooldown", func(t *testing.T) {
-		// Set old failure time to simulate cooldown
-		alb.models["primary"].mu.Lock()
-		alb.models["primary"].LastFailureTime = time.Now().Add(-31 * time.Second)
-		alb.models["primary"].HealthScore = 80.0 // Good health
-		alb.models["primary"].mu.Unlock()
-
-		selected, err := alb.SelectModel(ctx, "primary")
-		require.NoError(t, err)
-		assert.Equal(t, "primary", selected)
-
-		// Circuit should still be open but request should succeed due to cooldown
-		// (The circuit isn't explicitly closed in the primary model path)
-	})
-
-	t.Run("returns error when no models available", func(t *testing.T) {
-		// Open all circuits
-		for _, model := range []string{"primary", "fallback1", "fallback2"} {
-			alb.models[model].mu.Lock()
-			alb.models[model].IsCircuitOpen = true
-			alb.models[model].LastFailureTime = time.Now()
-			alb.models[model].HealthScore = 10.0
-			alb.models[model].mu.Unlock()
-		}
-
-		_, err := alb.SelectModel(ctx, "primary")
-		assert.Error(t, err)
-		assert.Contains(t, err.Error(), "no available models")
-	})
-
-	t.Run("handles model without fallbacks", func(t *testing.T) {
-		alb.RegisterModel("standalone", 2*time.Second)
-
-		selected, err := alb.SelectModel(ctx, "standalone")
-		require.NoError(t, err)
-		assert.Equal(t, "standalone", selected)
-	})
-
-	t.Run("handles non-existent model", func(t *testing.T) {
-		_, err := alb.SelectModel(ctx, "nonexistent")
-		assert.Error(t, err)
-	})
-}
-
-func TestAdaptiveLoadBalancer_RecordRequestLifecycle(t *testing.T) {
-	alb := NewAdaptiveLoadBalancer()
-	alb.RegisterModel("test-model", 1*time.Second)
-
-	t.Run("record successful request", func(t *testing.T) {
-		// Start request
-		alb.RecordRequestStart("test-model")
-
-		health := alb.models["test-model"]
-		assert.Equal(t, int32(1), health.ActiveRequests)
-		assert.Equal(t, int64(1), health.TotalRequests)
-		assert.Equal(t, int32(1), health.RequestsPerMin)
-
-		// End request successfully
-		latency := 500 * time.Millisecond
-		alb.RecordRequestEnd("test-model", latency, true)
-
-		assert.Equal(t, int32(0), health.ActiveRequests)
-		assert.Len(t, health.ResponseTimes, 1)
-		assert.Equal(t, latency, health.ResponseTimes[0])
-		assert.Equal(t, latency, health.AvgResponseTime)
-		// Health score improves slightly for fast successful requests
-		assert.GreaterOrEqual(t, health.HealthScore, 100.0)
-	})
-
-	t.Run("record slow successful request", func(t *testing.T) {
-		// Reset health score
-		health := alb.models["test-model"]
-		health.mu.Lock()
-		health.HealthScore = 100.0
-		health.mu.Unlock()
-
-		alb.RecordRequestStart("test-model")
-
-		// Slow but successful request
-		slowLatency := 2 * time.Second // Above MaxResponseTime (1s)
-		alb.RecordRequestEnd("test-model", slowLatency, true)
-
-		assert.Less(t, health.HealthScore, 100.0) // Should degrade for slow response
-	})
-
-	t.Run("record failed request", func(t *testing.T) {
-		health := alb.models["test-model"]
-		initialHealth := health.HealthScore
-		initialFailures := health.FailedRequests
-
-		alb.RecordRequestStart("test-model")
-		alb.RecordRequestEnd("test-model", 200*time.Millisecond, false)
-
-		assert.Equal(t, initialFailures+1, health.FailedRequests)
-		assert.Less(t, health.HealthScore, initialHealth)
-		assert.True(t, health.LastFailureTime.After(time.Now().Add(-1*time.Second)))
-	})
-
-	t.Run("circuit opens on high failure rate", func(t *testing.T) {
-		// Reset model
-		alb.RegisterModel("failure-test", 1*time.Second)
-
-		// Generate enough failures to trigger circuit
-		for i := 0; i < 20; i++ {
-			alb.RecordRequestStart("failure-test")
-			alb.RecordRequestEnd("failure-test", 100*time.Millisecond, false)
-		}
-
-		health := alb.models["failure-test"]
-		assert.True(t, health.IsCircuitOpen)
-	})
-
-	t.Run("handles non-existent model gracefully", func(t *testing.T) {
-		// Should not panic
-		alb.RecordRequestStart("nonexistent")
-		alb.RecordRequestEnd("nonexistent", 100*time.Millisecond, true)
-	})
-}
-
-func TestAdaptiveLoadBalancer_RecordTimeout(t *testing.T) {
-	alb := NewAdaptiveLoadBalancer()
-	alb.RegisterModel("timeout-test", 1*time.Second)
-
-	alb.RecordTimeout("timeout-test")
-
-	health := alb.models["timeout-test"]
-	assert.Equal(t, int64(1), health.TimeoutRequests)
-	assert.Equal(t, int64(1), health.FailedRequests)
-	assert.True(t, health.IsCircuitOpen)      // Should open immediately on timeout
-	assert.Less(t, health.HealthScore, 100.0) // Should degrade significantly
-}
-
-func TestAdaptiveLoadBalancer_CalculateScore(t *testing.T) {
-	alb := NewAdaptiveLoadBalancer()
-
-	// Create a model health for testing
-	health := &ModelHealth{
-		HealthScore:     80.0,
-		ActiveRequests:  5,
-		TotalRequests:   100,
-		FailedRequests:  10,
-		AvgResponseTime: 200 * time.Millisecond,
-	}
-
-	score := alb.calculateScore(health)
-
-	// Score should be less than base health due to load, latency, and errors
-	assert.Less(t, score, 80.0)
-	assert.Greater(t, score, 0.0)
-
-	t.Run("zero load gives better score", func(t *testing.T) {
-		healthNoLoad := &ModelHealth{
-			HealthScore:     80.0,
-			ActiveRequests:  0, // No load
-			TotalRequests:   100,
-			FailedRequests:  10,
-			AvgResponseTime: 200 * time.Millisecond,
-		}
-
-		scoreNoLoad := alb.calculateScore(healthNoLoad)
-		assert.Greater(t, scoreNoLoad, score)
-	})
-
-	t.Run("lower latency gives better score", func(t *testing.T) {
-		healthFastLatency := &ModelHealth{
-			HealthScore:     80.0,
-			ActiveRequests:  5,
-			TotalRequests:   100,
-			FailedRequests:  10,
-			AvgResponseTime: 50 * time.Millisecond, // Faster
-		}
-
-		scoreFast := alb.calculateScore(healthFastLatency)
-		assert.Greater(t, scoreFast, score)
-	})
-
-	t.Run("no failures gives better score", func(t *testing.T) {
-		healthNoErrors := &ModelHealth{
-			HealthScore:     80.0,
-			ActiveRequests:  5,
-			TotalRequests:   100,
-			FailedRequests:  0, // No failures
-			AvgResponseTime: 200 * time.Millisecond,
-		}
-
-		scoreNoErrors := alb.calculateScore(healthNoErrors)
-		assert.Greater(t, scoreNoErrors, score)
-	})
-}
-
-func TestModelHealth_UpdateLatencyMetrics(t *testing.T) {
-	health := &ModelHealth{
-		ResponseTimes: make([]time.Duration, 0, 100),
-		WindowSize:    100,
-	}
-
-	t.Run("calculates metrics correctly", func(t *testing.T) {
-		latencies := []time.Duration{
-			100 * time.Millisecond,
-			200 * time.Millisecond,
-			300 * time.Millisecond,
-			400 * time.Millisecond,
-			500 * time.Millisecond,
-		}
-
-		for _, lat := range latencies {
-			health.addResponseTime(lat)
-		}
-
-		health.updateLatencyMetrics()
-
-		// Average should be 300ms
-		assert.Equal(t, 300*time.Millisecond, health.AvgResponseTime)
-
-		// P95 should be 500ms (95% of 5 items = index 4, which is 500ms)
-		assert.Equal(t, 500*time.Millisecond, health.P95ResponseTime)
-
-		// P99 should be 500ms (99% of 5 items = index 4, which is 500ms)
-		assert.Equal(t, 500*time.Millisecond, health.P99ResponseTime)
-	})
-
-	t.Run("handles empty response times", func(t *testing.T) {
-		emptyHealth := &ModelHealth{
-			ResponseTimes: make([]time.Duration, 0, 100),
-			WindowSize:    100,
-		}
-
-		emptyHealth.updateLatencyMetrics()
-
-		// Should not panic, metrics remain at zero values
-		assert.Equal(t, time.Duration(0), emptyHealth.AvgResponseTime)
-	})
-
-	t.Run("sliding window behavior", func(t *testing.T) {
-		smallWindowHealth := &ModelHealth{
-			ResponseTimes: make([]time.Duration, 0, 3),
-			WindowSize:    3,
-		}
-
-		// Add more than window size
-		for i := 0; i < 5; i++ {
-			smallWindowHealth.addResponseTime(time.Duration(i*100) * time.Millisecond)
-		}
-
-		// Should only keep last 3
-		assert.Len(t, smallWindowHealth.ResponseTimes, 3)
-		assert.Equal(t, 200*time.Millisecond, smallWindowHealth.ResponseTimes[0])
-		assert.Equal(t, 300*time.Millisecond, smallWindowHealth.ResponseTimes[1])
-		assert.Equal(t, 400*time.Millisecond, smallWindowHealth.ResponseTimes[2])
-	})
-}
-
-func TestAdaptiveLoadBalancer_GetModelStats(t *testing.T) {
-	alb := NewAdaptiveLoadBalancer()
-	alb.RegisterModel("model1", 1*time.Second)
-	alb.RegisterModel("model2", 2*time.Second)
-
-	// Add some activity
-	alb.RecordRequestStart("model1")
-	alb.RecordRequestEnd("model1", 150*time.Millisecond, true)
-	alb.RecordRequestStart("model2")
-	alb.RecordRequestEnd("model2", 300*time.Millisecond, false)
-
-	stats := alb.GetModelStats()
-
-	assert.Len(t, stats, 2)
-	assert.Contains(t, stats, "model1")
-	assert.Contains(t, stats, "model2")
-
-	model1Stats := stats["model1"]
-	assert.Equal(t, int64(1), model1Stats["total_requests"])
-	assert.Equal(t, int64(0), model1Stats["failed_requests"])
-	assert.Equal(t, false, model1Stats["circuit_open"])
-
-	model2Stats := stats["model2"]
-	assert.Equal(t, int64(1), model2Stats["total_requests"])
-	assert.Equal(t, int64(1), model2Stats["failed_requests"])
-}
-
-func TestAdaptiveLoadBalancer_ShouldShedLoad(t *testing.T) {
-	alb := NewAdaptiveLoadBalancer()
-	alb.RegisterModel("model1", 1*time.Second)
-	alb.RegisterModel("model2", 1*time.Second)
-
-	t.Run("should not shed load initially", func(t *testing.T) {
-		assert.False(t, alb.ShouldShedLoad())
-	})
-
-	t.Run("should shed load with too many concurrent requests", func(t *testing.T) {
-		// Simulate high concurrent load
-		health := alb.models["model1"]
-		health.mu.Lock()
-		health.ActiveRequests = 600
-		health.mu.Unlock()
-
-		health2 := alb.models["model2"]
-		health2.mu.Lock()
-		health2.ActiveRequests = 500
-		health2.mu.Unlock()
-
-		assert.True(t, alb.ShouldShedLoad()) // Total > 1000
-	})
-
-	t.Run("should shed load with too few healthy models", func(t *testing.T) {
-		// Reset concurrent requests
-		for _, health := range alb.models {
-			health.mu.Lock()
-			health.ActiveRequests = 10
-			health.HealthScore = 30.0 // Below 50% threshold
-			health.mu.Unlock()
-		}
-
-		assert.True(t, alb.ShouldShedLoad()) // < 2 healthy models
-	})
-
-	t.Run("should shed load with high global failure rate", func(t *testing.T) {
-		// Reset models to healthy
-		for _, health := range alb.models {
-			health.mu.Lock()
-			health.ActiveRequests = 10
-			health.HealthScore = 80.0
-			health.IsCircuitOpen = false
-			health.mu.Unlock()
-		}
-
-		// Set high global failure rate
-		alb.mu.Lock()
-		alb.totalRequests = 1000
-		alb.totalFailures = 150 // 15% failure rate
-		alb.mu.Unlock()
-
-		assert.True(t, alb.ShouldShedLoad())
-	})
-}
-
-func TestAdaptiveLoadBalancer_ConcurrentAccess(t *testing.T) {
-	alb := NewAdaptiveLoadBalancer()
-
-	// Register models
-	models := []string{"model1", "model2", "model3", "model4", "model5"}
-	for _, model := range models {
-		alb.RegisterModel(model, 1*time.Second)
-	}
-
-	// Set up fallbacks
-	for i, model := range models[:len(models)-1] {
-		alb.SetFallbacks(model, models[i+1:])
-	}
-
-	const numGoroutines = 50
-	const operationsPerGoroutine = 20
-
-	var wg sync.WaitGroup
-
-	// Simulate concurrent load balancer operations
-	for i := 0; i < numGoroutines; i++ {
-		wg.Add(1)
-		go func(id int) {
-			defer wg.Done()
-			ctx := context.Background()
-
-			for j := 0; j < operationsPerGoroutine; j++ {
-				model := models[j%len(models)]
-
-				switch j % 6 {
-				case 0:
-					_, _ = alb.SelectModel(ctx, model)
-				case 1:
-					alb.RecordRequestStart(model)
-				case 2:
-					latency := time.Duration((j%10)+1) * 100 * time.Millisecond
-					success := (j % 3) != 0 // 2/3 success rate
-					alb.RecordRequestEnd(model, latency, success)
-				case 3:
-					alb.RecordTimeout(model)
-				case 4:
-					alb.GetModelStats()
-				case 5:
-					alb.ShouldShedLoad()
-				}
-			}
-		}(i)
-	}
-
-	wg.Wait()
-
-	// Verify system is in a consistent state
-	stats := alb.GetModelStats()
-	assert.Len(t, stats, len(models))
-
-	for model, modelStats := range stats {
-		totalRequests := modelStats["total_requests"].(int64)
-		failedRequests := modelStats["failed_requests"].(int64)
-		activeRequests := modelStats["active_requests"].(int32)
-
-		assert.True(t, totalRequests >= 0, "Model %s should have non-negative total requests", model)
-		assert.True(t, failedRequests >= 0, "Model %s should have non-negative failed requests", model)
-		// Due to concurrent access, there might be race conditions
-		// but failed requests should generally not exceed total requests
-		if failedRequests > totalRequests {
-			t.Logf("Model %s has more failed requests (%d) than total (%d) - possible race condition", model, failedRequests, totalRequests)
-		}
-		assert.True(t, activeRequests >= 0, "Model %s should have non-negative active requests", model)
-	}
-}
-
-// Benchmark tests
-func BenchmarkAdaptiveLoadBalancer_SelectModel(b *testing.B) {
-	alb := NewAdaptiveLoadBalancer()
-	ctx := context.Background()
-
-	alb.RegisterModel("primary", 1*time.Second)
-	alb.RegisterModel("fallback1", 1*time.Second)
-	alb.RegisterModel("fallback2", 1*time.Second)
-	alb.SetFallbacks("primary", []string{"fallback1", "fallback2"})
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		_, _ = alb.SelectModel(ctx, "primary")
-	}
-}
-
-func BenchmarkAdaptiveLoadBalancer_RecordRequestEnd(b *testing.B) {
-	alb := NewAdaptiveLoadBalancer()
-	alb.RegisterModel("test-model", 1*time.Second)
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		alb.RecordRequestEnd("test-model", 100*time.Millisecond, true)
-	}
-}
-
-func BenchmarkAdaptiveLoadBalancer_CalculateScore(b *testing.B) {
-	alb := NewAdaptiveLoadBalancer()
-	health := &ModelHealth{
-		HealthScore:     75.0,
-		ActiveRequests:  10,
-		TotalRequests:   1000,
-		FailedRequests:  50,
-		AvgResponseTime: 200 * time.Millisecond,
-	}
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		alb.calculateScore(health)
-	}
-}
-
-func BenchmarkAdaptiveLoadBalancer_ConcurrentOperations(b *testing.B) {
-	alb := NewAdaptiveLoadBalancer()
-	ctx := context.Background()
-
-	models := []string{"model1", "model2", "model3"}
-	for _, model := range models {
-		alb.RegisterModel(model, 1*time.Second)
-	}
-
-	b.ResetTimer()
-	b.RunParallel(func(pb *testing.PB) {
-		i := 0
-		for pb.Next() {
-			model := models[i%len(models)]
-			switch i % 4 {
-			case 0:
-				_, _ = alb.SelectModel(ctx, model)
-			case 1:
-				alb.RecordRequestStart(model)
-			case 2:
-				alb.RecordRequestEnd(model, 100*time.Millisecond, true)
-			case 3:
-				alb.GetModelStats()
-			}
-			i++
-		}
-	})
-}
-
-// Edge case tests
-func TestAdaptiveLoadBalancer_EdgeCases(t *testing.T) {
-	alb := NewAdaptiveLoadBalancer()
-
-	t.Run("empty model name", func(t *testing.T) {
-		alb.RegisterModel("", 1*time.Second)
-
-		ctx := context.Background()
-		// Empty model name should return error since no model exists
-		_, err := alb.SelectModel(ctx, "")
-		assert.Error(t, err)
-	})
-
-	t.Run("very long model name", func(t *testing.T) {
-		longName := string(make([]byte, 1000))
-		for i := range longName {
-			longName = longName[:i] + "a" + longName[i+1:]
-		}
-
-		alb.RegisterModel(longName, 1*time.Second)
-
-		ctx := context.Background()
-		selected, err := alb.SelectModel(ctx, longName)
-		require.NoError(t, err)
-		assert.Equal(t, longName, selected)
-	})
-
-	t.Run("zero max response time", func(t *testing.T) {
-		alb.RegisterModel("zero-timeout", 0)
-
-		// Should handle gracefully
-		alb.RecordRequestStart("zero-timeout")
-		alb.RecordRequestEnd("zero-timeout", 100*time.Millisecond, true)
-
-		stats := alb.GetModelStats()
-		assert.Contains(t, stats, "zero-timeout")
-	})
-
-	t.Run("negative latency", func(t *testing.T) {
-		alb.RegisterModel("negative-test", 1*time.Second)
-
-		// Should handle negative latency gracefully
-		alb.RecordRequestStart("negative-test")
-		alb.RecordRequestEnd("negative-test", -100*time.Millisecond, true)
-
-		stats := alb.GetModelStats()
-		assert.Contains(t, stats, "negative-test")
-	})
-
-	t.Run("very high latency", func(t *testing.T) {
-		alb.RegisterModel("high-latency", 1*time.Second)
-
-		alb.RecordRequestStart("high-latency")
-		alb.RecordRequestEnd("high-latency", 1*time.Hour, true)
-
-		health := alb.models["high-latency"]
-		assert.Less(t, health.HealthScore, 100.0) // Should be degraded
-	})
-}
-
-// Test weight configuration effects
-func TestAdaptiveLoadBalancer_WeightConfiguration(t *testing.T) {
-	// Test with different weight configurations
-	configs := []struct {
-		name          string
-		latencyWeight float64
-		loadWeight    float64
-		errorWeight   float64
-	}{
-		{"latency-focused", 0.8, 0.1, 0.1},
-		{"load-focused", 0.1, 0.8, 0.1},
-		{"error-focused", 0.1, 0.1, 0.8},
-		{"balanced", 0.33, 0.33, 0.34},
-	}
-
-	for _, config := range configs {
-		t.Run(config.name, func(t *testing.T) {
-			alb := NewAdaptiveLoadBalancer()
-			alb.latencyWeight = config.latencyWeight
-			alb.loadWeight = config.loadWeight
-			alb.errorWeight = config.errorWeight
-
-			health := &ModelHealth{
-				HealthScore:     80.0,
-				ActiveRequests:  10,
-				TotalRequests:   100,
-				FailedRequests:  20,
-				AvgResponseTime: 500 * time.Millisecond,
-			}
-
-			score := alb.calculateScore(health)
-			assert.Greater(t, score, 0.0)
-			assert.Less(t, score, 100.0)
-		})
-	}
-}
-
-// Test minute-based rate limiting reset
-func TestModelHealth_MinuteReset(t *testing.T) {
-	alb := NewAdaptiveLoadBalancer()
-	alb.RegisterModel("rate-test", 1*time.Second)
-
-	health := alb.models["rate-test"]
-
-	// Set last reset to over a minute ago
-	health.mu.Lock()
-	health.LastMinuteReset = time.Now().Add(-61 * time.Second)
-	health.RequestsPerMin = 50
-	health.TokensPerMin = 1000
-	health.mu.Unlock()
-
-	// Record a request, which should trigger reset
-	alb.RecordRequestStart("rate-test")
-
-	health.mu.RLock()
-	requestsPerMin := health.RequestsPerMin
-	tokensPerMin := health.TokensPerMin
-	health.mu.RUnlock()
-
-	// Should have reset and then incremented
-	assert.Equal(t, int32(1), requestsPerMin)
-	assert.Equal(t, int32(0), tokensPerMin)
-}
-
-// Test health score bounds
-func TestModelHealth_HealthScoreBounds(t *testing.T) {
-	alb := NewAdaptiveLoadBalancer()
-	alb.RegisterModel("bounds-test", 1*time.Second)
-
-	health := alb.models["bounds-test"]
-
-	t.Run("health score cannot go below 0", func(t *testing.T) {
-		// Set very low health score
-		health.mu.Lock()
-		health.HealthScore = 5.0
-		health.mu.Unlock()
-
-		// Record many failures
-		for i := 0; i < 10; i++ {
-			alb.RecordRequestStart("bounds-test")
-			alb.RecordRequestEnd("bounds-test", 100*time.Millisecond, false)
-		}
-
-		// Health score should be very low but may not reach exactly 0
-		assert.Less(t, health.HealthScore, 10.0)
-	})
-
-	t.Run("health score can exceed 100 with good performance", func(t *testing.T) {
-		health.mu.Lock()
-		health.HealthScore = 99.0
-		health.mu.Unlock()
-
-		// Record fast successful requests
-		for i := 0; i < 5; i++ {
-			alb.RecordRequestStart("bounds-test")
-			alb.RecordRequestEnd("bounds-test", 50*time.Millisecond, true)
-		}
-
-		// Health score can exceed 100 with good performance
-		assert.GreaterOrEqual(t, health.HealthScore, 100.0)
-	})
-}
-
-func TestAdaptiveLoadBalancer_PercentileCalculation(t *testing.T) {
-	health := &ModelHealth{
-		ResponseTimes: make([]time.Duration, 0, 100),
-		WindowSize:    100,
-	}
-
-	// Add 100 latency samples (0ms to 990ms in 10ms increments)
-	for i := 0; i < 100; i++ {
-		health.addResponseTime(time.Duration(i*10) * time.Millisecond)
-	}
-
-	health.updateLatencyMetrics()
-
-	// P95 should be around the 95th percentile (95% of 100 = index 95)
-	expectedP95 := 950 * time.Millisecond
-	assert.Equal(t, expectedP95, health.P95ResponseTime)
-
-	// P99 should be around the 99th percentile (99% of 100 = index 99)
-	expectedP99 := 990 * time.Millisecond
-	assert.Equal(t, expectedP99, health.P99ResponseTime)
-
-	// Average should be around 495ms
-	expectedAvg := 495 * time.Millisecond
-	assert.Equal(t, expectedAvg, health.AvgResponseTime)
-}
diff --git a/internal/services/models/manager.go b/internal/services/models/manager.go
deleted file mode 100644
index 5826713..0000000
--- a/internal/services/models/manager.go
+++ /dev/null
@@ -1,348 +0,0 @@
-package models
-
-import (
-	"context"
-	"fmt"
-	"time"
-
-	"github.com/amerfu/pllm/internal/config"
-	"github.com/amerfu/pllm/internal/services/circuitbreaker"
-	"github.com/amerfu/pllm/internal/services/loadbalancer"
-	"go.uber.org/zap"
-)
-
-// ModelManager is the refactored model manager using focused components
-type ModelManager struct {
-	registry         *ModelRegistry
-	healthTracker    *HealthTracker
-	metricsCollector *MetricsCollector
-	loadBalancer     *loadbalancer.AdaptiveLoadBalancer
-	circuitBreaker   *circuitbreaker.Manager
-	adaptiveBreakers map[string]*circuitbreaker.AdaptiveBreaker
-	router           config.RouterSettings
-	logger           *zap.Logger
-}
-
-// NewModelManager creates a new refactored model manager
-func NewModelManager(logger *zap.Logger, router config.RouterSettings) *ModelManager {
-	// Initialize circuit breaker if enabled
-	var cb *circuitbreaker.Manager
-	if router.CircuitBreakerEnabled {
-		threshold := router.CircuitBreakerThreshold
-		if threshold <= 0 {
-			threshold = 5
-		}
-		cooldown := router.CircuitBreakerCooldown
-		if cooldown <= 0 {
-			cooldown = 30 * time.Second
-		}
-		cb = circuitbreaker.NewManager(threshold, cooldown)
-	}
-
-	return &ModelManager{
-		registry:         NewModelRegistry(logger),
-		healthTracker:    NewHealthTracker(logger),
-		metricsCollector: NewMetricsCollector(logger),
-		loadBalancer:     loadbalancer.NewAdaptiveLoadBalancer(),
-		circuitBreaker:   cb,
-		adaptiveBreakers: make(map[string]*circuitbreaker.AdaptiveBreaker),
-		router:           router,
-		logger:           logger,
-	}
-}
-
-// LoadModelInstances loads model instances from configuration
-func (m *ModelManager) LoadModelInstances(instances []config.ModelInstance) error {
-	return m.registry.LoadModelInstances(instances)
-}
-
-// GetBestInstance returns the best instance for a model based on routing strategy
-func (m *ModelManager) GetBestInstance(ctx context.Context, modelName string) (*ModelInstance, error) {
-	// Check circuit breaker first if enabled
-	if m.circuitBreaker != nil && m.circuitBreaker.IsOpen(modelName) {
-		m.logger.Debug("Circuit breaker is open for model", zap.String("model", modelName))
-		return nil, fmt.Errorf("circuit breaker is open for model: %s", modelName)
-	}
-
-	// Get available instances for the model
-	instances, exists := m.registry.GetModelInstances(modelName)
-	if !exists || len(instances) == 0 {
-		return nil, fmt.Errorf("no instances available for model: %s", modelName)
-	}
-
-	// Filter healthy instances
-	var healthyInstances []*ModelInstance
-	for _, instance := range instances {
-		if m.healthTracker.IsHealthy(instance) {
-			healthyInstances = append(healthyInstances, instance)
-		}
-	}
-
-	if len(healthyInstances) == 0 {
-		return nil, fmt.Errorf("no healthy instances available for model: %s", modelName)
-	}
-
-	// Select instance based on routing strategy
-	return m.selectInstanceByStrategy(ctx, modelName, healthyInstances)
-}
-
-// selectInstanceByStrategy selects an instance based on the routing strategy
-func (m *ModelManager) selectInstanceByStrategy(ctx context.Context, modelName string, instances []*ModelInstance) (*ModelInstance, error) {
-	switch m.router.RoutingStrategy {
-	case "weighted-round-robin":
-		return m.selectWeightedRoundRobin(modelName, instances), nil
-	case "least-latency":
-		return m.selectLeastLatency(instances), nil
-	case "random":
-		return m.selectRandom(instances), nil
-	default: // priority-based (default)
-		return instances[0], nil // Already sorted by priority in registry
-	}
-}
-
-// selectWeightedRoundRobin selects instance using weighted round-robin
-func (m *ModelManager) selectWeightedRoundRobin(modelName string, instances []*ModelInstance) *ModelInstance {
-	counter := m.registry.GetRoundRobinCounter(modelName)
-	if counter == nil {
-		return instances[0]
-	}
-
-	// Simple round-robin for now (can be enhanced with weights)
-	index := counter.Add(1) % uint64(len(instances))
-	return instances[index]
-}
-
-// selectLeastLatency selects instance with lowest average latency
-func (m *ModelManager) selectLeastLatency(instances []*ModelInstance) *ModelInstance {
-	bestInstance := instances[0]
-	bestLatency := bestInstance.AverageLatency.Load()
-
-	for _, instance := range instances[1:] {
-		latency := instance.AverageLatency.Load()
-		if latency > 0 && (bestLatency == 0 || latency < bestLatency) {
-			bestInstance = instance
-			bestLatency = latency
-		}
-	}
-
-	return bestInstance
-}
-
-// selectRandom selects a random instance
-func (m *ModelManager) selectRandom(instances []*ModelInstance) *ModelInstance {
-	return instances[0] // Use first instance since random selection is not implemented
-}
-
-// RecordSuccess records a successful request
-func (m *ModelManager) RecordSuccess(instance *ModelInstance, tokens int64, latency time.Duration) {
-	m.healthTracker.RecordSuccess(instance)
-	m.metricsCollector.RecordRequest(instance, tokens, latency)
-
-	// Record success for circuit breaker
-	if m.circuitBreaker != nil {
-		m.circuitBreaker.RecordSuccess(instance.Config.ModelName)
-	}
-}
-
-// RecordFailure records a failed request
-func (m *ModelManager) RecordFailure(instance *ModelInstance, err error) {
-	m.healthTracker.RecordFailure(instance, err)
-
-	// Record failure for circuit breaker
-	if m.circuitBreaker != nil {
-		m.circuitBreaker.RecordFailure(instance.Config.ModelName)
-	}
-}
-
-// GetModelStats returns statistics for all models
-func (m *ModelManager) GetModelStats() map[string]interface{} {
-	stats := make(map[string]interface{})
-
-	// Registry stats
-	registryStats := m.registry.GetRegistryStats()
-	stats["registry"] = registryStats
-
-	// Health status for all instances
-	allInstances := m.registry.GetAllInstances()
-	healthStatuses := m.healthTracker.GetAllHealthStatuses(allInstances)
-	stats["health"] = healthStatuses
-
-	// Metrics for all instances
-	metrics := m.metricsCollector.GetAllMetrics(allInstances)
-	stats["metrics"] = metrics
-
-	// Legacy compatibility: Create load_balancer format expected by dashboard
-	loadBalancerStats := make(map[string]interface{})
-	for _, instance := range allInstances {
-		modelName := instance.Config.ModelName
-
-		// Get health status
-		healthStatus := m.healthTracker.GetHealthStatus(instance)
-		healthScore := 100
-		if !healthStatus.IsHealthy {
-			healthScore = 50 // Simplified health scoring
-		}
-
-		// Get metrics
-		instanceMetrics := m.metricsCollector.GetMetrics(instance)
-
-		loadBalancerStats[modelName] = map[string]interface{}{
-			"health_score":    healthScore,
-			"total_requests":  instanceMetrics.TotalRequests,
-			"avg_latency":     fmt.Sprintf("%.0f", float64(instanceMetrics.AverageLatency.Milliseconds())),
-			"requests_minute": instanceMetrics.RequestsThisMinute,
-			"tokens_minute":   instanceMetrics.TokensThisMinute,
-		}
-	}
-	stats["load_balancer"] = loadBalancerStats
-
-	// Legacy compatibility: Add summary fields expected by admin analytics
-	var totalRequests int64
-	var totalTokens int64
-	activeModels := len(loadBalancerStats)
-
-	for _, instance := range allInstances {
-		instanceMetrics := m.metricsCollector.GetMetrics(instance)
-		totalRequests += instanceMetrics.TotalRequests
-		totalTokens += instanceMetrics.TotalTokens
-	}
-
-	stats["total_requests"] = totalRequests
-	stats["total_tokens"] = totalTokens
-	stats["total_cost"] = float64(totalTokens) * 0.0001 // Rough cost estimate
-	stats["active_users"] = 0                           // TODO: Track active users
-	stats["should_shed_load"] = false                   // TODO: Implement load shedding logic
-	stats["active_models"] = activeModels
-
-	return stats
-}
-
-// GetAvailableModels returns list of available models
-func (m *ModelManager) GetAvailableModels() []string {
-	return m.registry.GetAvailableModels()
-}
-
-// CheckRateLimit checks if an instance can handle additional tokens
-func (m *ModelManager) CheckRateLimit(instance *ModelInstance, additionalTokens int32) bool {
-	return m.metricsCollector.CheckRateLimit(instance, additionalTokens)
-}
-
-// UpdateTokenCount updates the token count for rate limiting
-func (m *ModelManager) UpdateTokenCount(instance *ModelInstance, tokens int32) {
-	m.metricsCollector.UpdateTokenCount(instance, tokens)
-}
-
-// Legacy methods for backward compatibility with handlers
-// TODO: Update handlers to use new API and remove these methods
-
-// RecordRequestStart records the start of a request (no-op for now)
-func (m *ModelManager) RecordRequestStart(modelName string) {
-	// No-op - tracking is now done at success/failure level
-}
-
-// RecordRequestEnd records the end of a request (no-op for now)
-func (m *ModelManager) RecordRequestEnd(modelName string, latency time.Duration, success bool, err error) {
-	// No-op - use RecordSuccess/RecordFailure instead
-}
-
-// GetBestInstanceAdaptive returns the best instance (alias for GetBestInstance)
-func (m *ModelManager) GetBestInstanceAdaptive(ctx context.Context, modelName string) (*ModelInstance, error) {
-	return m.GetBestInstance(ctx, modelName)
-}
-
-// ListModels returns available models (alias for GetAvailableModels)
-func (m *ModelManager) ListModels() []string {
-	return m.GetAvailableModels()
-}
-
-// GetDetailedModelInfo returns detailed model information for API consumption
-func (m *ModelManager) GetDetailedModelInfo() []ModelInfo {
-	availableModels := m.GetAvailableModels()
-	allInstances := m.registry.GetAllInstances()
-
-	// Create a map to track model info
-	modelInfoMap := make(map[string]*ModelInfo)
-
-	// Build model info from instances
-	for _, instance := range allInstances {
-		modelName := instance.Config.ModelName
-		if _, exists := modelInfoMap[modelName]; !exists {
-			// Determine provider/owner from provider type
-			var ownedBy string
-			switch instance.Config.Provider.Type {
-			case "openai":
-				ownedBy = "openai"
-			case "anthropic":
-				ownedBy = "anthropic"
-			case "azure":
-				ownedBy = "azure"
-			case "bedrock":
-				ownedBy = "aws"
-			case "vertex":
-				ownedBy = "google"
-			case "openrouter":
-				ownedBy = "openrouter"
-			default:
-				ownedBy = instance.Config.Provider.Type
-			}
-
-			modelInfoMap[modelName] = &ModelInfo{
-				ID:      modelName,
-				Object:  "model",
-				OwnedBy: ownedBy,
-				Created: time.Now().Unix(),
-			}
-		}
-	}
-
-	// Convert to slice
-	var result []ModelInfo
-	for _, modelName := range availableModels {
-		if info, exists := modelInfoMap[modelName]; exists {
-			result = append(result, *info)
-		} else {
-			// Fallback for models without instances
-			result = append(result, ModelInfo{
-				ID:      modelName,
-				Object:  "model",
-				OwnedBy: "unknown",
-				Created: time.Now().Unix(),
-			})
-		}
-	}
-
-	return result
-}
-
-// GetModelTags returns tags associated with a model
-func (m *ModelManager) GetModelTags(modelName string) []string {
-	allInstances := m.registry.GetAllInstances()
-	
-	// Collect tags from all instances of this model
-	tagSet := make(map[string]bool)
-	for _, instance := range allInstances {
-		if instance.Config.ModelName == modelName {
-			for _, tag := range instance.Config.Tags {
-				if tag != "" {
-					tagSet[tag] = true
-				}
-			}
-		}
-	}
-	
-	// Convert to slice
-	tags := make([]string, 0, len(tagSet))
-	for tag := range tagSet {
-		tags = append(tags, tag)
-	}
-	
-	return tags
-}
-
-// ModelInfo represents detailed model information for API responses
-type ModelInfo struct {
-	ID      string `json:"id"`
-	Object  string `json:"object"`
-	OwnedBy string `json:"owned_by"`
-	Created int64  `json:"created"`
-}
diff --git a/internal/services/audit/logger.go b/internal/services/monitoring/audit/logger.go
similarity index 99%
rename from internal/services/audit/logger.go
rename to internal/services/monitoring/audit/logger.go
index 0b62284..484bffe 100644
--- a/internal/services/audit/logger.go
+++ b/internal/services/monitoring/audit/logger.go
@@ -10,7 +10,7 @@ import (
 	"github.com/google/uuid"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 type Logger struct {
diff --git a/internal/services/metrics_collector.go b/internal/services/monitoring/metrics/metrics_collector.go
similarity index 99%
rename from internal/services/metrics_collector.go
rename to internal/services/monitoring/metrics/metrics_collector.go
index 42704b5..4fec055 100644
--- a/internal/services/metrics_collector.go
+++ b/internal/services/monitoring/metrics/metrics_collector.go
@@ -1,4 +1,4 @@
-package services
+package metrics
 
 import (
 	"context"
@@ -10,7 +10,7 @@ import (
 	"go.uber.org/zap"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 // MetricsCollector aggregates real-time data into historical metrics
diff --git a/internal/services/metrics_collector_test.go b/internal/services/monitoring/metrics/metrics_collector_test.go
similarity index 99%
rename from internal/services/metrics_collector_test.go
rename to internal/services/monitoring/metrics/metrics_collector_test.go
index f555ae1..36efa6e 100644
--- a/internal/services/metrics_collector_test.go
+++ b/internal/services/monitoring/metrics/metrics_collector_test.go
@@ -1,4 +1,4 @@
-package services
+package metrics
 
 import (
 	"sort"
@@ -12,8 +12,8 @@ import (
 	"go.uber.org/zap"
 	"gorm.io/datatypes"
 
-	"github.com/amerfu/pllm/internal/models"
-	"github.com/amerfu/pllm/internal/testutil"
+	"github.com/amerfu/pllm/internal/core/models"
+	"github.com/amerfu/pllm/internal/infrastructure/testutil"
 )
 
 // Mock ModelStatsProvider
diff --git a/internal/services/metrics_events.go b/internal/services/monitoring/metrics/metrics_events.go
similarity index 99%
rename from internal/services/metrics_events.go
rename to internal/services/monitoring/metrics/metrics_events.go
index f413d82..2579a8d 100644
--- a/internal/services/metrics_events.go
+++ b/internal/services/monitoring/metrics/metrics_events.go
@@ -1,4 +1,4 @@
-package services
+package metrics
 
 import (
 	"context"
diff --git a/internal/services/metrics_service.go b/internal/services/monitoring/metrics/metrics_service.go
similarity index 99%
rename from internal/services/metrics_service.go
rename to internal/services/monitoring/metrics/metrics_service.go
index 17cac1e..9ca27dc 100644
--- a/internal/services/metrics_service.go
+++ b/internal/services/monitoring/metrics/metrics_service.go
@@ -1,4 +1,4 @@
-package services
+package metrics
 
 import (
 	"context"
diff --git a/internal/services/metrics_staging.go b/internal/services/monitoring/metrics/metrics_staging.go
similarity index 98%
rename from internal/services/metrics_staging.go
rename to internal/services/monitoring/metrics/metrics_staging.go
index 6eca850..1db5c95 100644
--- a/internal/services/metrics_staging.go
+++ b/internal/services/monitoring/metrics/metrics_staging.go
@@ -1,4 +1,4 @@
-package services
+package metrics
 
 import (
 	"context"
@@ -10,7 +10,7 @@ import (
 	"go.uber.org/zap"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 type MetricsStagingService struct {
diff --git a/internal/services/metrics_staging_test.go b/internal/services/monitoring/metrics/metrics_staging_test.go
similarity index 98%
rename from internal/services/metrics_staging_test.go
rename to internal/services/monitoring/metrics/metrics_staging_test.go
index 9c5aaef..73bd4b5 100644
--- a/internal/services/metrics_staging_test.go
+++ b/internal/services/monitoring/metrics/metrics_staging_test.go
@@ -1,4 +1,4 @@
-package services
+package metrics
 
 import (
 	"fmt"
@@ -11,8 +11,8 @@ import (
 	"go.uber.org/zap"
 	"gorm.io/datatypes"
 
-	"github.com/amerfu/pllm/internal/models"
-	"github.com/amerfu/pllm/internal/testutil"
+	"github.com/amerfu/pllm/internal/core/models"
+	"github.com/amerfu/pllm/internal/infrastructure/testutil"
 )
 
 func TestMetricsStagingService_CreateStagingTable(t *testing.T) {
diff --git a/internal/services/metrics_worker.go b/internal/services/monitoring/metrics/metrics_worker.go
similarity index 99%
rename from internal/services/metrics_worker.go
rename to internal/services/monitoring/metrics/metrics_worker.go
index cf0bdb0..175ac62 100644
--- a/internal/services/metrics_worker.go
+++ b/internal/services/monitoring/metrics/metrics_worker.go
@@ -1,4 +1,4 @@
-package services
+package metrics
 
 import (
 	"context"
@@ -10,7 +10,7 @@ import (
 	"go.uber.org/zap"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/models"
+	"github.com/amerfu/pllm/internal/core/models"
 )
 
 // MetricWorkerConfig configures the metrics worker
diff --git a/internal/services/ratelimit/limiter.go b/internal/services/monitoring/ratelimit/limiter.go
similarity index 100%
rename from internal/services/ratelimit/limiter.go
rename to internal/services/monitoring/ratelimit/limiter.go
diff --git a/internal/services/ratelimit/limiter_test.go b/internal/services/monitoring/ratelimit/limiter_test.go
similarity index 100%
rename from internal/services/ratelimit/limiter_test.go
rename to internal/services/monitoring/ratelimit/limiter_test.go
diff --git a/internal/services/retry/retry.go b/internal/services/retry/retry.go
deleted file mode 100644
index 231bbf5..0000000
--- a/internal/services/retry/retry.go
+++ /dev/null
@@ -1,188 +0,0 @@
-package retry
-
-import (
-	"context"
-	"errors"
-	"math"
-	"math/rand"
-	"time"
-)
-
-// Config defines retry behavior
-type Config struct {
-	MaxAttempts  int           // Maximum number of attempts (including initial)
-	InitialDelay time.Duration // Initial delay between retries
-	MaxDelay     time.Duration // Maximum delay between retries
-	Multiplier   float64       // Backoff multiplier
-	Jitter       bool          // Add jitter to delays
-}
-
-// DefaultConfig returns a sensible default configuration
-func DefaultConfig() *Config {
-	return &Config{
-		MaxAttempts:  3,
-		InitialDelay: 1 * time.Second,
-		MaxDelay:     30 * time.Second,
-		Multiplier:   2.0,
-		Jitter:       true,
-	}
-}
-
-// RetryableFunc is a function that can be retried
-type RetryableFunc func(ctx context.Context) error
-
-// IsRetryable determines if an error should trigger a retry
-type IsRetryable func(error) bool
-
-// DefaultIsRetryable returns true for common retryable errors
-func DefaultIsRetryable(err error) bool {
-	if err == nil {
-		return false
-	}
-
-	// Check for common retryable error patterns
-	errStr := err.Error()
-	retryablePatterns := []string{
-		"timeout",
-		"connection refused",
-		"connection reset",
-		"429", // Rate limit
-		"500", // Internal server error
-		"502", // Bad gateway
-		"503", // Service unavailable
-		"504", // Gateway timeout
-	}
-
-	for _, pattern := range retryablePatterns {
-		if containsString(errStr, pattern) {
-			return true
-		}
-	}
-
-	// Check if error is context.DeadlineExceeded
-	if errors.Is(err, context.DeadlineExceeded) {
-		return true
-	}
-
-	return false
-}
-
-// Do executes the function with retry logic
-func Do(ctx context.Context, config *Config, fn RetryableFunc, isRetryable IsRetryable) error {
-	if config == nil {
-		config = DefaultConfig()
-	}
-
-	if isRetryable == nil {
-		isRetryable = DefaultIsRetryable
-	}
-
-	var lastErr error
-	delay := config.InitialDelay
-
-	for attempt := 0; attempt < config.MaxAttempts; attempt++ {
-		// Execute the function
-		err := fn(ctx)
-
-		// Success!
-		if err == nil {
-			return nil
-		}
-
-		lastErr = err
-
-		// Check if we should retry
-		if !isRetryable(err) {
-			return err // Non-retryable error
-		}
-
-		// Check if this was the last attempt
-		if attempt == config.MaxAttempts-1 {
-			break
-		}
-
-		// Calculate delay with exponential backoff
-		if attempt > 0 {
-			delay = time.Duration(float64(delay) * config.Multiplier)
-			if delay > config.MaxDelay {
-				delay = config.MaxDelay
-			}
-		}
-
-		// Add jitter if enabled
-		actualDelay := delay
-		if config.Jitter {
-			jitter := time.Duration(rand.Float64() * float64(delay) * 0.3)
-			actualDelay = delay + jitter
-		}
-
-		// Wait before next attempt
-		select {
-		case <-time.After(actualDelay):
-			// Continue to next attempt
-		case <-ctx.Done():
-			return ctx.Err()
-		}
-	}
-
-	return lastErr
-}
-
-// DoWithBackoff is a simplified version with exponential backoff
-func DoWithBackoff(ctx context.Context, maxAttempts int, fn RetryableFunc) error {
-	config := &Config{
-		MaxAttempts:  maxAttempts,
-		InitialDelay: 1 * time.Second,
-		MaxDelay:     30 * time.Second,
-		Multiplier:   2.0,
-		Jitter:       true,
-	}
-
-	return Do(ctx, config, fn, DefaultIsRetryable)
-}
-
-// Simple is the simplest retry with fixed delay
-func Simple(ctx context.Context, attempts int, delay time.Duration, fn RetryableFunc) error {
-	config := &Config{
-		MaxAttempts:  attempts,
-		InitialDelay: delay,
-		MaxDelay:     delay,
-		Multiplier:   1.0,
-		Jitter:       false,
-	}
-
-	return Do(ctx, config, fn, DefaultIsRetryable)
-}
-
-// CalculateBackoff calculates the delay for a given attempt
-func CalculateBackoff(attempt int, config *Config) time.Duration {
-	if config == nil {
-		config = DefaultConfig()
-	}
-
-	if attempt <= 0 {
-		return config.InitialDelay
-	}
-
-	delay := config.InitialDelay * time.Duration(math.Pow(config.Multiplier, float64(attempt-1)))
-	if delay > config.MaxDelay {
-		delay = config.MaxDelay
-	}
-
-	return delay
-}
-
-// containsString checks if a string contains a substring (case-insensitive)
-func containsString(s, substr string) bool {
-	return len(s) >= len(substr) && contains(s, substr)
-}
-
-// contains is a simple substring check
-func contains(s, substr string) bool {
-	for i := 0; i <= len(s)-len(substr); i++ {
-		if s[i:i+len(substr)] == substr {
-			return true
-		}
-	}
-	return false
-}
diff --git a/internal/services/retry/retry_test.go b/internal/services/retry/retry_test.go
deleted file mode 100644
index 4cb0a40..0000000
--- a/internal/services/retry/retry_test.go
+++ /dev/null
@@ -1,599 +0,0 @@
-package retry
-
-import (
-	"context"
-	"errors"
-	"fmt"
-	"math"
-	"strings"
-	"testing"
-	"time"
-
-	"github.com/stretchr/testify/assert"
-	"github.com/stretchr/testify/require"
-)
-
-func TestDefaultConfig(t *testing.T) {
-	config := DefaultConfig()
-
-	assert.Equal(t, 3, config.MaxAttempts)
-	assert.Equal(t, 1*time.Second, config.InitialDelay)
-	assert.Equal(t, 30*time.Second, config.MaxDelay)
-	assert.Equal(t, 2.0, config.Multiplier)
-	assert.True(t, config.Jitter)
-}
-
-func TestDefaultIsRetryable(t *testing.T) {
-	tests := []struct {
-		name     string
-		err      error
-		expected bool
-	}{
-		{"nil error", nil, false},
-		{"timeout error", errors.New("connection timeout"), true},
-		{"connection refused", errors.New("connection refused"), true},
-		{"connection reset", errors.New("connection reset by peer"), true},
-		{"429 rate limit", errors.New("429 Too Many Requests"), true},
-		{"500 internal server error", errors.New("500 Internal Server Error"), true},
-		{"502 bad gateway", errors.New("502 Bad Gateway"), true},
-		{"503 service unavailable", errors.New("503 Service Unavailable"), true},
-		{"504 gateway timeout", errors.New("504 Gateway Timeout"), true},
-		{"context deadline exceeded", context.DeadlineExceeded, true},
-		{"non-retryable error", errors.New("400 Bad Request"), false},
-		{"custom error", errors.New("something went wrong"), false},
-	}
-
-	for _, tt := range tests {
-		t.Run(tt.name, func(t *testing.T) {
-			result := DefaultIsRetryable(tt.err)
-			assert.Equal(t, tt.expected, result)
-		})
-	}
-}
-
-func TestDo_Success(t *testing.T) {
-	ctx := context.Background()
-	config := &Config{
-		MaxAttempts:  3,
-		InitialDelay: 10 * time.Millisecond,
-		MaxDelay:     100 * time.Millisecond,
-		Multiplier:   2.0,
-		Jitter:       false,
-	}
-
-	callCount := 0
-	fn := func(ctx context.Context) error {
-		callCount++
-		return nil // Success on first attempt
-	}
-
-	err := Do(ctx, config, fn, DefaultIsRetryable)
-
-	assert.NoError(t, err)
-	assert.Equal(t, 1, callCount)
-}
-
-func TestDo_EventualSuccess(t *testing.T) {
-	ctx := context.Background()
-	config := &Config{
-		MaxAttempts:  3,
-		InitialDelay: 10 * time.Millisecond,
-		MaxDelay:     100 * time.Millisecond,
-		Multiplier:   2.0,
-		Jitter:       false,
-	}
-
-	callCount := 0
-	fn := func(ctx context.Context) error {
-		callCount++
-		if callCount < 2 {
-			return errors.New("timeout error") // Retryable
-		}
-		return nil // Success on second attempt
-	}
-
-	err := Do(ctx, config, fn, DefaultIsRetryable)
-
-	assert.NoError(t, err)
-	assert.Equal(t, 2, callCount)
-}
-
-func TestDo_MaxAttemptsReached(t *testing.T) {
-	ctx := context.Background()
-	config := &Config{
-		MaxAttempts:  3,
-		InitialDelay: 10 * time.Millisecond,
-		MaxDelay:     100 * time.Millisecond,
-		Multiplier:   2.0,
-		Jitter:       false,
-	}
-
-	callCount := 0
-	expectedErr := errors.New("persistent timeout")
-	fn := func(ctx context.Context) error {
-		callCount++
-		return expectedErr // Always fails
-	}
-
-	err := Do(ctx, config, fn, DefaultIsRetryable)
-
-	assert.Error(t, err)
-	assert.Equal(t, expectedErr, err)
-	assert.Equal(t, 3, callCount)
-}
-
-func TestDo_NonRetryableError(t *testing.T) {
-	ctx := context.Background()
-	config := &Config{
-		MaxAttempts:  3,
-		InitialDelay: 10 * time.Millisecond,
-		MaxDelay:     100 * time.Millisecond,
-		Multiplier:   2.0,
-		Jitter:       false,
-	}
-
-	callCount := 0
-	expectedErr := errors.New("400 Bad Request")
-	fn := func(ctx context.Context) error {
-		callCount++
-		return expectedErr // Non-retryable error
-	}
-
-	err := Do(ctx, config, fn, DefaultIsRetryable)
-
-	assert.Error(t, err)
-	assert.Equal(t, expectedErr, err)
-	assert.Equal(t, 1, callCount) // Should not retry
-}
-
-func TestDo_ContextCancellation(t *testing.T) {
-	ctx, cancel := context.WithCancel(context.Background())
-	config := &Config{
-		MaxAttempts:  5,
-		InitialDelay: 100 * time.Millisecond, // Longer delay to test cancellation
-		MaxDelay:     1 * time.Second,
-		Multiplier:   2.0,
-		Jitter:       false,
-	}
-
-	callCount := 0
-	fn := func(ctx context.Context) error {
-		callCount++
-		if callCount == 1 {
-			// Cancel context after first failure
-			go func() {
-				time.Sleep(50 * time.Millisecond)
-				cancel()
-			}()
-		}
-		return errors.New("timeout error") // Retryable
-	}
-
-	err := Do(ctx, config, fn, DefaultIsRetryable)
-
-	assert.Error(t, err)
-	assert.Equal(t, context.Canceled, err)
-	assert.Equal(t, 1, callCount) // Should only call once before cancellation
-}
-
-func TestDo_WithNilConfig(t *testing.T) {
-	ctx := context.Background()
-
-	callCount := 0
-	fn := func(ctx context.Context) error {
-		callCount++
-		return nil
-	}
-
-	err := Do(ctx, nil, fn, DefaultIsRetryable)
-
-	assert.NoError(t, err)
-	assert.Equal(t, 1, callCount)
-}
-
-func TestDo_WithNilIsRetryable(t *testing.T) {
-	ctx := context.Background()
-	config := DefaultConfig()
-
-	callCount := 0
-	fn := func(ctx context.Context) error {
-		callCount++
-		if callCount == 1 {
-			return errors.New("timeout error") // Should be retryable with default function
-		}
-		return nil
-	}
-
-	err := Do(ctx, config, fn, nil)
-
-	assert.NoError(t, err)
-	assert.Equal(t, 2, callCount)
-}
-
-func TestDoWithBackoff(t *testing.T) {
-	ctx := context.Background()
-
-	callCount := 0
-	fn := func(ctx context.Context) error {
-		callCount++
-		if callCount < 2 {
-			return errors.New("timeout error")
-		}
-		return nil
-	}
-
-	err := DoWithBackoff(ctx, 3, fn)
-
-	assert.NoError(t, err)
-	assert.Equal(t, 2, callCount)
-}
-
-func TestSimple(t *testing.T) {
-	ctx := context.Background()
-
-	callCount := 0
-	fn := func(ctx context.Context) error {
-		callCount++
-		if callCount < 3 {
-			return errors.New("timeout error")
-		}
-		return nil
-	}
-
-	err := Simple(ctx, 3, 10*time.Millisecond, fn)
-
-	assert.NoError(t, err)
-	assert.Equal(t, 3, callCount)
-}
-
-func TestCalculateBackoff(t *testing.T) {
-	config := &Config{
-		InitialDelay: 1 * time.Second,
-		MaxDelay:     30 * time.Second,
-		Multiplier:   2.0,
-	}
-
-	tests := []struct {
-		attempt  int
-		expected time.Duration
-	}{
-		{0, 1 * time.Second},
-		{1, 1 * time.Second},
-		{2, 2 * time.Second},
-		{3, 4 * time.Second},
-		{4, 8 * time.Second},
-		{5, 16 * time.Second},
-		{6, 30 * time.Second},  // Capped at MaxDelay
-		{10, 30 * time.Second}, // Still capped
-	}
-
-	for _, tt := range tests {
-		t.Run(fmt.Sprintf("attempt_%d", tt.attempt), func(t *testing.T) {
-			delay := CalculateBackoff(tt.attempt, config)
-			assert.Equal(t, tt.expected, delay)
-		})
-	}
-}
-
-func TestCalculateBackoff_WithNilConfig(t *testing.T) {
-	delay := CalculateBackoff(1, nil)
-	assert.Equal(t, 1*time.Second, delay) // Should use default config
-}
-
-func TestDo_ExponentialBackoff(t *testing.T) {
-	ctx := context.Background()
-	config := &Config{
-		MaxAttempts:  4,
-		InitialDelay: 10 * time.Millisecond,
-		MaxDelay:     100 * time.Millisecond,
-		Multiplier:   2.0,
-		Jitter:       false,
-	}
-
-	callTimes := make([]time.Time, 0)
-	fn := func(ctx context.Context) error {
-		callTimes = append(callTimes, time.Now())
-		return errors.New("timeout error") // Always fail to test all delays
-	}
-
-	start := time.Now()
-	err := Do(ctx, config, fn, DefaultIsRetryable)
-
-	assert.Error(t, err)
-	assert.Len(t, callTimes, 4)
-
-	// Check that delays are approximately exponential
-	// First call is immediate
-	assert.WithinDuration(t, start, callTimes[0], 5*time.Millisecond)
-
-	// Second call should be after InitialDelay (10ms)
-	expectedDelay1 := 10 * time.Millisecond
-	actualDelay1 := callTimes[1].Sub(callTimes[0])
-	assert.InDelta(t, expectedDelay1.Nanoseconds(), actualDelay1.Nanoseconds(), float64(5*time.Millisecond.Nanoseconds()))
-
-	// Third call should be after 20ms (10ms * 2.0)
-	expectedDelay2 := 20 * time.Millisecond
-	actualDelay2 := callTimes[2].Sub(callTimes[1])
-	assert.InDelta(t, expectedDelay2.Nanoseconds(), actualDelay2.Nanoseconds(), float64(5*time.Millisecond.Nanoseconds()))
-}
-
-func TestDo_JitterEffect(t *testing.T) {
-	ctx := context.Background()
-	config := &Config{
-		MaxAttempts:  3,
-		InitialDelay: 100 * time.Millisecond,
-		MaxDelay:     1 * time.Second,
-		Multiplier:   2.0,
-		Jitter:       true,
-	}
-
-	var delays []time.Duration
-	callTimes := make([]time.Time, 0)
-
-	fn := func(ctx context.Context) error {
-		callTimes = append(callTimes, time.Now())
-		return errors.New("timeout error")
-	}
-
-	_ = Do(ctx, config, fn, DefaultIsRetryable)
-
-	// Calculate actual delays
-	for i := 1; i < len(callTimes); i++ {
-		delays = append(delays, callTimes[i].Sub(callTimes[i-1]))
-	}
-
-	// With jitter, delays should be greater than base delay but not too much greater
-	baseDelay := config.InitialDelay
-	for i, delay := range delays {
-		expectedBase := time.Duration(float64(baseDelay) * math.Pow(2, float64(i))) // 2^i multiplier
-		if expectedBase > config.MaxDelay {
-			expectedBase = config.MaxDelay
-		}
-
-		// Jitter adds up to 30% of the delay
-		minExpected := expectedBase
-		maxExpected := expectedBase + time.Duration(float64(expectedBase)*0.3)
-
-		assert.True(t, delay >= minExpected, "Delay %v should be at least %v", delay, minExpected)
-		assert.True(t, delay <= maxExpected+10*time.Millisecond, "Delay %v should be at most %v", delay, maxExpected)
-	}
-}
-
-func TestContainsString(t *testing.T) {
-	tests := []struct {
-		s        string
-		substr   string
-		expected bool
-	}{
-		{"hello world", "world", true},
-		{"hello world", "WORLD", false}, // Case sensitive
-		{"timeout error", "timeout", true},
-		{"connection refused", "refused", true},
-		{"", "", true},
-		{"test", "", true},
-		{"", "test", false},
-		{"short", "longer string", false},
-	}
-
-	for _, tt := range tests {
-		t.Run(fmt.Sprintf("%s contains %s", tt.s, tt.substr), func(t *testing.T) {
-			result := containsString(tt.s, tt.substr)
-			assert.Equal(t, tt.expected, result)
-		})
-	}
-}
-
-func TestContains(t *testing.T) {
-	tests := []struct {
-		s        string
-		substr   string
-		expected bool
-	}{
-		{"hello world", "world", true},
-		{"hello world", "hello", true},
-		{"hello world", "llo wo", true},
-		{"hello world", "xyz", false},
-		{"", "", true},
-		{"test", "", true},
-		{"", "test", false},
-	}
-
-	for _, tt := range tests {
-		t.Run(fmt.Sprintf("%s contains %s", tt.s, tt.substr), func(t *testing.T) {
-			result := contains(tt.s, tt.substr)
-			assert.Equal(t, tt.expected, result)
-		})
-	}
-}
-
-// Benchmark tests
-func BenchmarkDo_Success(b *testing.B) {
-	ctx := context.Background()
-	config := DefaultConfig()
-	fn := func(ctx context.Context) error {
-		return nil
-	}
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		_ = Do(ctx, config, fn, DefaultIsRetryable)
-	}
-}
-
-func BenchmarkDo_WithRetries(b *testing.B) {
-	ctx := context.Background()
-	config := &Config{
-		MaxAttempts:  3,
-		InitialDelay: 1 * time.Microsecond, // Very small delay for benchmarking
-		MaxDelay:     10 * time.Microsecond,
-		Multiplier:   2.0,
-		Jitter:       false,
-	}
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		attempt := 0
-		fn := func(ctx context.Context) error {
-			attempt++
-			if attempt < 2 {
-				return errors.New("timeout")
-			}
-			return nil
-		}
-		_ = Do(ctx, config, fn, DefaultIsRetryable)
-	}
-}
-
-func BenchmarkDefaultIsRetryable(b *testing.B) {
-	err := errors.New("connection timeout error")
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		DefaultIsRetryable(err)
-	}
-}
-
-func BenchmarkCalculateBackoff(b *testing.B) {
-	config := DefaultConfig()
-
-	b.ResetTimer()
-	for i := 0; i < b.N; i++ {
-		CalculateBackoff(5, config)
-	}
-}
-
-// Test custom retry conditions
-func TestDo_CustomRetryCondition(t *testing.T) {
-	ctx := context.Background()
-	config := DefaultConfig()
-	config.MaxAttempts = 3
-
-	// Custom retry condition: only retry on specific error message
-	customIsRetryable := func(err error) bool {
-		return err != nil && strings.Contains(err.Error(), "retriable")
-	}
-
-	t.Run("retry on custom condition", func(t *testing.T) {
-		callCount := 0
-		fn := func(ctx context.Context) error {
-			callCount++
-			if callCount < 2 {
-				return errors.New("retriable error")
-			}
-			return nil
-		}
-
-		err := Do(ctx, config, fn, customIsRetryable)
-		assert.NoError(t, err)
-		assert.Equal(t, 2, callCount)
-	})
-
-	t.Run("don't retry on non-matching condition", func(t *testing.T) {
-		callCount := 0
-		fn := func(ctx context.Context) error {
-			callCount++
-			return errors.New("permanent error")
-		}
-
-		err := Do(ctx, config, fn, customIsRetryable)
-		assert.Error(t, err)
-		assert.Equal(t, 1, callCount)
-	})
-}
-
-// Test edge cases
-func TestDo_EdgeCases(t *testing.T) {
-	ctx := context.Background()
-
-	t.Run("zero max attempts", func(t *testing.T) {
-		config := &Config{MaxAttempts: 0}
-		callCount := 0
-		fn := func(ctx context.Context) error {
-			callCount++
-			return errors.New("error")
-		}
-
-		err := Do(ctx, config, fn, DefaultIsRetryable)
-		assert.NoError(t, err) // No attempts means no error
-		assert.Equal(t, 0, callCount)
-	})
-
-	t.Run("one max attempt", func(t *testing.T) {
-		config := &Config{MaxAttempts: 1}
-		callCount := 0
-		fn := func(ctx context.Context) error {
-			callCount++
-			return errors.New("timeout")
-		}
-
-		err := Do(ctx, config, fn, DefaultIsRetryable)
-		assert.Error(t, err)
-		assert.Equal(t, 1, callCount)
-	})
-
-	t.Run("zero initial delay", func(t *testing.T) {
-		config := &Config{
-			MaxAttempts:  2,
-			InitialDelay: 0,
-			MaxDelay:     1 * time.Second,
-			Multiplier:   2.0,
-		}
-
-		callTimes := make([]time.Time, 0)
-		fn := func(ctx context.Context) error {
-			callTimes = append(callTimes, time.Now())
-			return errors.New("timeout")
-		}
-
-		_ = Do(ctx, config, fn, DefaultIsRetryable)
-
-		require.Len(t, callTimes, 2)
-		// Should have minimal delay between calls
-		delay := callTimes[1].Sub(callTimes[0])
-		assert.True(t, delay < 10*time.Millisecond)
-	})
-}
-
-// Test concurrent access safety
-func TestDo_ConcurrentSafety(t *testing.T) {
-	ctx := context.Background()
-	config := &Config{
-		MaxAttempts:  2,
-		InitialDelay: 1 * time.Millisecond,
-		MaxDelay:     10 * time.Millisecond,
-		Multiplier:   2.0,
-		Jitter:       true,
-	}
-
-	const numGoroutines = 100
-	results := make(chan error, numGoroutines)
-
-	for i := 0; i < numGoroutines; i++ {
-		go func(id int) {
-			fn := func(ctx context.Context) error {
-				if id%2 == 0 {
-					return nil // Half succeed
-				}
-				return errors.New("timeout") // Half fail
-			}
-
-			err := Do(ctx, config, fn, DefaultIsRetryable)
-			results <- err
-		}(i)
-	}
-
-	// Collect results
-	successes := 0
-	failures := 0
-	for i := 0; i < numGoroutines; i++ {
-		err := <-results
-		if err == nil {
-			successes++
-		} else {
-			failures++
-		}
-	}
-
-	assert.Equal(t, 50, successes)
-	assert.Equal(t, 50, failures)
-}
diff --git a/internal/services/worker/usage_processor.go b/internal/services/worker/usage_processor.go
index 848e01a..3043a3e 100644
--- a/internal/services/worker/usage_processor.go
+++ b/internal/services/worker/usage_processor.go
@@ -9,8 +9,8 @@ import (
 	"go.uber.org/zap"
 	"gorm.io/gorm"
 
-	"github.com/amerfu/pllm/internal/models"
-	redisService "github.com/amerfu/pllm/internal/services/redis"
+	"github.com/amerfu/pllm/internal/core/models"
+	redisService "github.com/amerfu/pllm/internal/services/data/redis"
 )
 
 // UsageProcessor handles batch processing of usage records from Redis queue
diff --git a/internal/testutil/database.go b/internal/testutil/database.go
deleted file mode 100644
index 95553b2..0000000
--- a/internal/testutil/database.go
+++ /dev/null
@@ -1,69 +0,0 @@
-package testutil
-
-import (
-	"context"
-	"testing"
-	"time"
-
-	"github.com/stretchr/testify/require"
-	"github.com/testcontainers/testcontainers-go"
-	"github.com/testcontainers/testcontainers-go/modules/postgres"
-	"github.com/testcontainers/testcontainers-go/wait"
-	postgresdriver "gorm.io/driver/postgres"
-	"gorm.io/gorm"
-
-	"github.com/amerfu/pllm/internal/models"
-)
-
-// NewTestDB creates a PostgreSQL test database using Testcontainers
-func NewTestDB(t *testing.T) (*gorm.DB, func()) {
-	ctx := context.Background()
-
-	// Start PostgreSQL container with Testcontainers and proper wait strategies
-	container, err := postgres.Run(ctx,
-		"postgres:16-alpine",
-		postgres.WithDatabase("testdb"),
-		postgres.WithUsername("test"),
-		postgres.WithPassword("test"),
-		testcontainers.WithWaitStrategy(
-			wait.ForLog("database system is ready to accept connections").
-				WithOccurrence(2).
-				WithStartupTimeout(30*time.Second)),
-	)
-	require.NoError(t, err, "Failed to start PostgreSQL container")
-
-	// Get connection string
-	connStr, err := container.ConnectionString(ctx, "sslmode=disable")
-	require.NoError(t, err, "Failed to get connection string")
-
-	// Add a small delay to ensure PostgreSQL is fully ready
-	time.Sleep(1 * time.Second)
-
-	// Connect with GORM
-	db, err := gorm.Open(postgresdriver.Open(connStr), &gorm.Config{})
-	require.NoError(t, err, "Failed to connect to test database")
-
-	// Auto-migrate all models
-	err = db.AutoMigrate(
-		&models.User{},
-		&models.Team{},
-		&models.Key{},
-		&models.Usage{},
-		&models.TeamMember{},
-		&models.Audit{},
-		&models.SystemMetrics{},
-		&models.ModelMetrics{},
-		&models.UserMetrics{},
-		&models.TeamMetrics{},
-	)
-	require.NoError(t, err, "Failed to migrate test database")
-
-	// Return cleanup function that terminates the container
-	cleanup := func() {
-		if err := container.Terminate(ctx); err != nil {
-			t.Logf("Failed to terminate PostgreSQL container: %v", err)
-		}
-	}
-
-	return db, cleanup
-}
\ No newline at end of file
diff --git a/pkg/cache/cache.go b/pkg/cache/cache.go
new file mode 100644
index 0000000..eb8d05e
--- /dev/null
+++ b/pkg/cache/cache.go
@@ -0,0 +1,288 @@
+package cache
+
+import (
+	"context"
+	"crypto/sha256"
+	"encoding/hex"
+	"encoding/json"
+	"fmt"
+	"time"
+
+	"github.com/redis/go-redis/v9"
+)
+
+var (
+	client *redis.Client
+	ctx    = context.Background()
+)
+
+type Config struct {
+	RedisURL string
+	Password string
+	DB       int
+	TTL      time.Duration
+	MaxSize  int
+}
+
+type Cache interface {
+	Get(key string) ([]byte, error)
+	Set(key string, value []byte, ttl time.Duration) error
+	Delete(key string) error
+	Exists(key string) bool
+	Clear() error
+}
+
+type RedisCache struct {
+	client *redis.Client
+	ttl    time.Duration
+}
+
+func Initialize(cfg *Config) error {
+	opt, err := redis.ParseURL(cfg.RedisURL)
+	if err != nil {
+		return fmt.Errorf("failed to parse redis URL: %w", err)
+	}
+
+	if cfg.Password != "" {
+		opt.Password = cfg.Password
+	}
+	if cfg.DB != 0 {
+		opt.DB = cfg.DB
+	}
+
+	client = redis.NewClient(opt)
+
+	// Test connection
+	if err := client.Ping(ctx).Err(); err != nil {
+		return fmt.Errorf("failed to connect to redis: %w", err)
+	}
+
+	return nil
+}
+
+func NewRedisCache(ttl time.Duration) *RedisCache {
+	return &RedisCache{
+		client: client,
+		ttl:    ttl,
+	}
+}
+
+func (c *RedisCache) Get(key string) ([]byte, error) {
+	val, err := c.client.Get(ctx, key).Bytes()
+	if err == redis.Nil {
+		return nil, nil
+	}
+	if err != nil {
+		return nil, err
+	}
+	return val, nil
+}
+
+func (c *RedisCache) Set(key string, value []byte, ttl time.Duration) error {
+	if ttl == 0 {
+		ttl = c.ttl
+	}
+	return c.client.Set(ctx, key, value, ttl).Err()
+}
+
+func (c *RedisCache) Delete(key string) error {
+	return c.client.Del(ctx, key).Err()
+}
+
+func (c *RedisCache) Exists(key string) bool {
+	exists, _ := c.client.Exists(ctx, key).Result()
+	return exists > 0
+}
+
+func (c *RedisCache) Clear() error {
+	return c.client.FlushDB(ctx).Err()
+}
+
+func (c *RedisCache) GetJSON(key string, dest interface{}) error {
+	data, err := c.Get(key)
+	if err != nil {
+		return err
+	}
+	if data == nil {
+		return nil
+	}
+	return json.Unmarshal(data, dest)
+}
+
+func (c *RedisCache) SetJSON(key string, value interface{}, ttl time.Duration) error {
+	data, err := json.Marshal(value)
+	if err != nil {
+		return err
+	}
+	return c.Set(key, data, ttl)
+}
+
+func GenerateCacheKey(prefix string, params map[string]interface{}) string {
+	data, _ := json.Marshal(params)
+	hash := sha256.Sum256(data)
+	return fmt.Sprintf("%s:%s", prefix, hex.EncodeToString(hash[:]))
+}
+
+func GeneratePromptCacheKey(provider, model, prompt string, params map[string]interface{}) string {
+	combined := map[string]interface{}{
+		"provider": provider,
+		"model":    model,
+		"prompt":   prompt,
+		"params":   params,
+	}
+	return GenerateCacheKey("prompt", combined)
+}
+
+func Close() error {
+	if client != nil {
+		return client.Close()
+	}
+	return nil
+}
+
+func GetClient() *redis.Client {
+	return client
+}
+
+func IsHealthy() bool {
+	if client == nil {
+		return false
+	}
+
+	if err := client.Ping(ctx).Err(); err != nil {
+		return false
+	}
+
+	return true
+}
+
+// TestConnection tests if a Redis connection can be established
+func TestConnection(ctx context.Context, cfg *Config) error {
+	if cfg.RedisURL == "" {
+		return fmt.Errorf("redis URL is required")
+	}
+
+	opt, err := redis.ParseURL(cfg.RedisURL)
+	if err != nil {
+		return fmt.Errorf("failed to parse redis URL: %w", err)
+	}
+
+	if cfg.Password != "" {
+		opt.Password = cfg.Password
+	}
+	if cfg.DB != 0 {
+		opt.DB = cfg.DB
+	}
+
+	testClient := redis.NewClient(opt)
+	defer func() { _ = testClient.Close() }()
+
+	// Test connection with context
+	if err := testClient.Ping(ctx).Err(); err != nil {
+		return fmt.Errorf("failed to ping redis: %w", err)
+	}
+
+	return nil
+}
+
+type CacheStats struct {
+	Hits    int64   `json:"hits"`
+	Misses  int64   `json:"misses"`
+	HitRate float64 `json:"hit_rate"`
+	Size    int64   `json:"size"`
+	Keys    int64   `json:"keys"`
+}
+
+func GetStats() (*CacheStats, error) {
+	if client == nil {
+		return nil, fmt.Errorf("cache not initialized")
+	}
+
+	// TODO: Parse Redis INFO stats
+	// info := client.Info(ctx, "stats")
+	// This is simplified, actual implementation would parse the INFO response
+
+	keys, _ := client.DBSize(ctx).Result()
+
+	return &CacheStats{
+		Keys: keys,
+	}, nil
+}
+
+type InMemoryCache struct {
+	data map[string]cacheItem
+	ttl  time.Duration
+}
+
+type cacheItem struct {
+	value     []byte
+	expiresAt time.Time
+}
+
+func NewInMemoryCache(ttl time.Duration) *InMemoryCache {
+	cache := &InMemoryCache{
+		data: make(map[string]cacheItem),
+		ttl:  ttl,
+	}
+
+	// Start cleanup goroutine
+	go cache.cleanup()
+
+	return cache
+}
+
+func (c *InMemoryCache) Get(key string) ([]byte, error) {
+	item, exists := c.data[key]
+	if !exists {
+		return nil, nil
+	}
+
+	if time.Now().After(item.expiresAt) {
+		delete(c.data, key)
+		return nil, nil
+	}
+
+	return item.value, nil
+}
+
+func (c *InMemoryCache) Set(key string, value []byte, ttl time.Duration) error {
+	if ttl == 0 {
+		ttl = c.ttl
+	}
+
+	c.data[key] = cacheItem{
+		value:     value,
+		expiresAt: time.Now().Add(ttl),
+	}
+
+	return nil
+}
+
+func (c *InMemoryCache) Delete(key string) error {
+	delete(c.data, key)
+	return nil
+}
+
+func (c *InMemoryCache) Exists(key string) bool {
+	_, exists := c.data[key]
+	return exists
+}
+
+func (c *InMemoryCache) Clear() error {
+	c.data = make(map[string]cacheItem)
+	return nil
+}
+
+func (c *InMemoryCache) cleanup() {
+	ticker := time.NewTicker(1 * time.Minute)
+	defer ticker.Stop()
+
+	for range ticker.C {
+		now := time.Now()
+		for key, item := range c.data {
+			if now.After(item.expiresAt) {
+				delete(c.data, key)
+			}
+		}
+	}
+}
diff --git a/internal/logger/logger.go b/pkg/logger/logger.go
similarity index 91%
rename from internal/logger/logger.go
rename to pkg/logger/logger.go
index c89a089..70c4329 100644
--- a/internal/logger/logger.go
+++ b/pkg/logger/logger.go
@@ -4,7 +4,7 @@ import (
 	"os"
 	"strings"
 
-	"github.com/amerfu/pllm/internal/config"
+	"github.com/amerfu/pllm/internal/core/config"
 	"go.uber.org/zap"
 	"go.uber.org/zap/zapcore"
 )
@@ -172,6 +172,20 @@ func IsErrorEnabled() bool {
 	return GetLogLevel() <= zapcore.ErrorLevel
 }
 
+// NewLogger creates a logger for testing purposes
+func NewLogger(name string, level string) *zap.Logger {
+	cfg := config.LoggingConfig{
+		Level:  level,
+		Format: "console",
+	}
+	
+	logger, err := Initialize(cfg)
+	if err != nil {
+		logger, _ = zap.NewDevelopment()
+	}
+	return logger.Named(name)
+}
+
 func init() {
 	// Initialize with default logger if not already initialized
 	if Logger == nil {
diff --git a/web/src/App.tsx b/web/src/App.tsx
index e45d1c4..1f2f657 100644
--- a/web/src/App.tsx
+++ b/web/src/App.tsx
@@ -9,6 +9,8 @@ import Budget from '@/pages/Budget'
 import Settings from '@/pages/Settings'
 import AuditLogs from '@/pages/AuditLogs'
 import Guardrails from '@/pages/Guardrails'
+import GuardrailConfig from '@/pages/GuardrailConfig'
+import GuardrailMarketplace from '@/pages/GuardrailMarketplace'
 import Chat from '@/pages/Chat'
 import Login from '@/pages/Login'
 import Callback from '@/pages/Callback'
@@ -51,6 +53,9 @@ function App() {
                       <Route path="/budget" element={<Budget />} />
                       <Route path="/audit-logs" element={<AuditLogs />} />
                       <Route path="/guardrails" element={<Guardrails />} />
+                      <Route path="/guardrails/marketplace" element={<GuardrailMarketplace />} />
+                      <Route path="/guardrails/config/new" element={<GuardrailConfig />} />
+                      <Route path="/guardrails/config/:id" element={<GuardrailConfig />} />
                       <Route path="/settings" element={<Settings />} />
                     </Routes>
                   </Layout>
diff --git a/web/src/pages/GuardrailConfig.tsx b/web/src/pages/GuardrailConfig.tsx
new file mode 100644
index 0000000..005237e
--- /dev/null
+++ b/web/src/pages/GuardrailConfig.tsx
@@ -0,0 +1,845 @@
+import { useState } from "react";
+import { useParams, useNavigate } from "react-router-dom";
+import { useQuery, useMutation, useQueryClient } from "@tanstack/react-query";
+import { 
+  Shield, 
+  Save, 
+  ArrowLeft, 
+  TestTube,
+  AlertTriangle,
+  CheckCircle,
+  Settings2,
+  Globe,
+  Clock,
+  Lock,
+  Zap
+} from "lucide-react";
+import { useForm } from "react-hook-form";
+import { zodResolver } from "@hookform/resolvers/zod";
+import * as z from "zod";
+
+import { Button } from "@/components/ui/button";
+import { Card, CardContent, CardDescription, CardHeader, CardTitle } from "@/components/ui/card";
+import { Form, FormControl, FormDescription, FormField, FormItem, FormLabel, FormMessage } from "@/components/ui/form";
+import { Input } from "@/components/ui/input";
+import { Select, SelectContent, SelectItem, SelectTrigger, SelectValue } from "@/components/ui/select";
+import { Switch } from "@/components/ui/switch";
+import { Checkbox } from "@/components/ui/checkbox";
+import { Textarea } from "@/components/ui/textarea";
+import { Badge } from "@/components/ui/badge";
+import { Alert, AlertDescription } from "@/components/ui/alert";
+import { Tabs, TabsContent, TabsList, TabsTrigger } from "@/components/ui/tabs";
+import { Slider } from "@/components/ui/slider";
+import { toast } from "@/hooks/use-toast";
+
+// Types and validation schemas
+const guardrailConfigSchema = z.object({
+  name: z.string().min(1, "Name is required"),
+  description: z.string().optional(),
+  provider: z.string().min(1, "Provider is required"),
+  enabled: z.boolean().default(true),
+  default_on: z.boolean().default(false),
+  execution_modes: z.array(z.string()).min(1, "At least one execution mode is required"),
+  
+  // Provider-specific configurations
+  analyzer_url: z.string().url("Must be a valid URL"),
+  anonymizer_url: z.string().url("Must be a valid URL").optional(),
+  threshold: z.number().min(0).max(1).default(0.7),
+  entities: z.array(z.string()).min(1, "At least one entity type is required"),
+  anonymize_method: z.string().default("replace"),
+  mask_pii: z.boolean().default(true),
+  language: z.string().default("en"),
+  
+  // Advanced settings
+  timeout_ms: z.number().min(100).max(30000).default(5000),
+  retry_attempts: z.number().min(0).max(5).default(2),
+  cache_results: z.boolean().default(true),
+  log_level: z.enum(["debug", "info", "warn", "error"]).default("info"),
+});
+
+type GuardrailConfig = z.infer<typeof guardrailConfigSchema>;
+
+// Constants
+const EXECUTION_MODES = [
+  { 
+    value: "pre_call", 
+    label: "Pre-call", 
+    description: "Execute before sending to LLM",
+    icon: <ArrowLeft className="h-4 w-4" />
+  },
+  { 
+    value: "post_call", 
+    label: "Post-call", 
+    description: "Execute after LLM response",
+    icon: <CheckCircle className="h-4 w-4" />
+  },
+  { 
+    value: "during_call", 
+    label: "During-call", 
+    description: "Execute in parallel with LLM",
+    icon: <Zap className="h-4 w-4" />
+  },
+  { 
+    value: "logging_only", 
+    label: "Logging only", 
+    description: "Log violations without blocking",
+    icon: <AlertTriangle className="h-4 w-4" />
+  }
+];
+
+const PII_ENTITIES = [
+  { value: "PERSON", label: "Person Names", category: "Identity" },
+  { value: "EMAIL_ADDRESS", label: "Email Addresses", category: "Contact" },
+  { value: "PHONE_NUMBER", label: "Phone Numbers", category: "Contact" },
+  { value: "CREDIT_CARD", label: "Credit Cards", category: "Financial" },
+  { value: "SSN", label: "Social Security Numbers", category: "Government" },
+  { value: "IP_ADDRESS", label: "IP Addresses", category: "Technical" },
+  { value: "US_DRIVER_LICENSE", label: "US Driver Licenses", category: "Government" },
+  { value: "US_PASSPORT", label: "US Passports", category: "Government" },
+  { value: "US_BANK_NUMBER", label: "US Bank Numbers", category: "Financial" },
+  { value: "IBAN_CODE", label: "IBAN Codes", category: "Financial" },
+  { value: "MEDICAL_LICENSE", label: "Medical License Numbers", category: "Healthcare" },
+  { value: "URL", label: "URLs", category: "Technical" }
+];
+
+const ANONYMIZE_METHODS = [
+  { value: "replace", label: "Replace", description: "Replace with generic tokens" },
+  { value: "mask", label: "Mask", description: "Partially hide content (e.g., ***-**-1234)" },
+  { value: "redact", label: "Redact", description: "Remove completely" },
+  { value: "encrypt", label: "Encrypt", description: "Encrypt the content" },
+  { value: "hash", label: "Hash", description: "Hash the content" }
+];
+
+const LOG_LEVELS = [
+  { value: "debug", label: "Debug", description: "Detailed debugging information" },
+  { value: "info", label: "Info", description: "General information messages" },
+  { value: "warn", label: "Warning", description: "Warning messages only" },
+  { value: "error", label: "Error", description: "Error messages only" }
+];
+
+export default function GuardrailConfig() {
+  const { id } = useParams();
+  const navigate = useNavigate();
+  const queryClient = useQueryClient();
+  const [testResult, setTestResult] = useState<any>(null);
+  const [isTesting, setIsTesting] = useState(false);
+
+  const isEditing = Boolean(id);
+  
+  const form = useForm<GuardrailConfig>({
+    resolver: zodResolver(guardrailConfigSchema),
+    defaultValues: {
+      enabled: true,
+      default_on: false,
+      threshold: 0.7,
+      anonymize_method: "replace",
+      mask_pii: true,
+      language: "en",
+      timeout_ms: 5000,
+      retry_attempts: 2,
+      cache_results: true,
+      log_level: "info",
+      execution_modes: ["pre_call"],
+      entities: ["PERSON", "EMAIL_ADDRESS", "PHONE_NUMBER"]
+    }
+  });
+
+  const { isLoading } = useQuery({
+    queryKey: ["guardrail", id],
+    queryFn: async () => {
+      if (!id) return null;
+      // TODO: Implement API call to get guardrail by ID
+      return null;
+    },
+    enabled: !!id,
+  });
+
+  const saveMutation = useMutation({
+    mutationFn: async (data: GuardrailConfig) => {
+      // TODO: Implement API call to save/update guardrail
+      console.log("Saving guardrail:", data);
+      return data;
+    },
+    onSuccess: () => {
+      toast({
+        title: "Success",
+        description: `Guardrail ${isEditing ? 'updated' : 'created'} successfully`,
+      });
+      queryClient.invalidateQueries({ queryKey: ["guardrails"] });
+      navigate("/guardrails");
+    },
+    onError: (error) => {
+      toast({
+        title: "Error",
+        description: `Failed to ${isEditing ? 'update' : 'create'} guardrail: ${error}`,
+        variant: "destructive",
+      });
+    },
+  });
+
+  const testMutation = useMutation({
+    mutationFn: async (_data: GuardrailConfig) => {
+      setIsTesting(true);
+      // TODO: Implement API call to test guardrail configuration
+      await new Promise(resolve => setTimeout(resolve, 2000));
+      return {
+        success: true,
+        latency: 245,
+        test_input: "Hello, my name is John Doe and my email is john@example.com",
+        detected_entities: [
+          { entity: "PERSON", text: "John Doe", score: 0.95 },
+          { entity: "EMAIL_ADDRESS", text: "john@example.com", score: 0.98 }
+        ],
+        anonymized_output: "Hello, my name is [PERSON] and my email is [EMAIL_ADDRESS]"
+      };
+    },
+    onSuccess: (result) => {
+      setTestResult(result);
+      setIsTesting(false);
+    },
+    onError: (error) => {
+      setTestResult({ success: false, error: error.message });
+      setIsTesting(false);
+    },
+  });
+
+  const onSubmit = (data: GuardrailConfig) => {
+    saveMutation.mutate(data);
+  };
+
+  const onTest = () => {
+    const formData = form.getValues();
+    testMutation.mutate(formData);
+  };
+
+  if (isLoading) {
+    return (
+      <div className="flex items-center justify-center h-64">
+        <div className="animate-spin rounded-full h-8 w-8 border-b-2 border-primary"></div>
+      </div>
+    );
+  }
+
+  const groupedEntities = PII_ENTITIES.reduce((acc, entity) => {
+    if (!acc[entity.category]) {
+      acc[entity.category] = [];
+    }
+    acc[entity.category].push(entity);
+    return acc;
+  }, {} as Record<string, typeof PII_ENTITIES>);
+
+  return (
+    <div className="space-y-6">
+      {/* Header */}
+      <div className="flex items-center gap-4">
+        <Button 
+          variant="outline" 
+          size="icon"
+          onClick={() => navigate("/guardrails")}
+        >
+          <ArrowLeft className="h-4 w-4" />
+        </Button>
+        <div>
+          <h1 className="text-2xl lg:text-3xl font-bold">
+            {isEditing ? "Edit Guardrail" : "Create Guardrail"}
+          </h1>
+          <p className="text-muted-foreground">
+            Configure PII detection and content safety settings
+          </p>
+        </div>
+      </div>
+
+      <Form {...form}>
+        <form onSubmit={form.handleSubmit(onSubmit)} className="space-y-6">
+          <div className="grid grid-cols-1 lg:grid-cols-3 gap-6">
+            {/* Main Configuration */}
+            <div className="lg:col-span-2 space-y-6">
+              {/* Basic Information */}
+              <Card>
+                <CardHeader>
+                  <CardTitle className="flex items-center gap-2">
+                    <Shield className="h-5 w-5" />
+                    Basic Information
+                  </CardTitle>
+                  <CardDescription>
+                    Configure the basic settings for your guardrail
+                  </CardDescription>
+                </CardHeader>
+                <CardContent className="space-y-4">
+                  <div className="grid grid-cols-2 gap-4">
+                    <FormField
+                      control={form.control}
+                      name="name"
+                      render={({ field }) => (
+                        <FormItem>
+                          <FormLabel>Name</FormLabel>
+                          <FormControl>
+                            <Input placeholder="my-pii-guardrail" {...field} />
+                          </FormControl>
+                          <FormDescription>
+                            Unique identifier for this guardrail
+                          </FormDescription>
+                          <FormMessage />
+                        </FormItem>
+                      )}
+                    />
+                    <FormField
+                      control={form.control}
+                      name="provider"
+                      render={({ field }) => (
+                        <FormItem>
+                          <FormLabel>Provider</FormLabel>
+                          <Select onValueChange={field.onChange} defaultValue={field.value}>
+                            <FormControl>
+                              <SelectTrigger>
+                                <SelectValue placeholder="Select provider" />
+                              </SelectTrigger>
+                            </FormControl>
+                            <SelectContent>
+                              <SelectItem value="presidio">Microsoft Presidio</SelectItem>
+                            </SelectContent>
+                          </Select>
+                          <FormMessage />
+                        </FormItem>
+                      )}
+                    />
+                  </div>
+
+                  <FormField
+                    control={form.control}
+                    name="description"
+                    render={({ field }) => (
+                      <FormItem>
+                        <FormLabel>Description</FormLabel>
+                        <FormControl>
+                          <Textarea 
+                            placeholder="Describe the purpose of this guardrail..."
+                            className="resize-none"
+                            {...field}
+                          />
+                        </FormControl>
+                        <FormDescription>
+                          Optional description of what this guardrail does
+                        </FormDescription>
+                        <FormMessage />
+                      </FormItem>
+                    )}
+                  />
+
+                  <div className="grid grid-cols-2 gap-4">
+                    <FormField
+                      control={form.control}
+                      name="enabled"
+                      render={({ field }) => (
+                        <FormItem className="flex flex-row items-center justify-between rounded-lg border p-4">
+                          <div className="space-y-0.5">
+                            <FormLabel className="text-base">Enable Guardrail</FormLabel>
+                            <FormDescription>
+                              Whether this guardrail is active
+                            </FormDescription>
+                          </div>
+                          <FormControl>
+                            <Switch checked={field.value} onCheckedChange={field.onChange} />
+                          </FormControl>
+                        </FormItem>
+                      )}
+                    />
+                    <FormField
+                      control={form.control}
+                      name="default_on"
+                      render={({ field }) => (
+                        <FormItem className="flex flex-row items-center justify-between rounded-lg border p-4">
+                          <div className="space-y-0.5">
+                            <FormLabel className="text-base">Default On</FormLabel>
+                            <FormDescription>
+                              Apply to all requests by default
+                            </FormDescription>
+                          </div>
+                          <FormControl>
+                            <Switch checked={field.value} onCheckedChange={field.onChange} />
+                          </FormControl>
+                        </FormItem>
+                      )}
+                    />
+                  </div>
+                </CardContent>
+              </Card>
+
+              {/* Execution Modes */}
+              <Card>
+                <CardHeader>
+                  <CardTitle className="flex items-center gap-2">
+                    <Settings2 className="h-5 w-5" />
+                    Execution Modes
+                  </CardTitle>
+                  <CardDescription>
+                    Choose when and how this guardrail should execute
+                  </CardDescription>
+                </CardHeader>
+                <CardContent>
+                  <FormField
+                    control={form.control}
+                    name="execution_modes"
+                    render={() => (
+                      <FormItem>
+                        <div className="grid grid-cols-1 md:grid-cols-2 gap-4">
+                          {EXECUTION_MODES.map((mode) => (
+                            <FormField
+                              key={mode.value}
+                              control={form.control}
+                              name="execution_modes"
+                              render={({ field }) => (
+                                <FormItem className="flex flex-row items-start space-x-3 space-y-0 rounded-md border p-4 hover:bg-accent/50">
+                                  <FormControl>
+                                    <Checkbox
+                                      checked={field.value?.includes(mode.value)}
+                                      onCheckedChange={(checked) => {
+                                        return checked
+                                          ? field.onChange([...field.value, mode.value])
+                                          : field.onChange(field.value?.filter((value) => value !== mode.value));
+                                      }}
+                                    />
+                                  </FormControl>
+                                  <div className="space-y-1 leading-none flex-1">
+                                    <div className="flex items-center gap-2">
+                                      {mode.icon}
+                                      <FormLabel className="text-sm font-medium">{mode.label}</FormLabel>
+                                    </div>
+                                    <FormDescription className="text-xs">
+                                      {mode.description}
+                                    </FormDescription>
+                                  </div>
+                                </FormItem>
+                              )}
+                            />
+                          ))}
+                        </div>
+                        <FormMessage />
+                      </FormItem>
+                    )}
+                  />
+                </CardContent>
+              </Card>
+
+              {/* Provider Configuration */}
+              <Card>
+                <CardHeader>
+                  <CardTitle className="flex items-center gap-2">
+                    <Globe className="h-5 w-5" />
+                    Provider Configuration
+                  </CardTitle>
+                  <CardDescription>
+                    Configure connection to Microsoft Presidio services
+                  </CardDescription>
+                </CardHeader>
+                <CardContent className="space-y-4">
+                  <div className="grid grid-cols-1 md:grid-cols-2 gap-4">
+                    <FormField
+                      control={form.control}
+                      name="analyzer_url"
+                      render={({ field }) => (
+                        <FormItem>
+                          <FormLabel>Analyzer URL</FormLabel>
+                          <FormControl>
+                            <Input placeholder="http://presidio-analyzer:3000" {...field} />
+                          </FormControl>
+                          <FormDescription>
+                            Presidio analyzer service endpoint
+                          </FormDescription>
+                          <FormMessage />
+                        </FormItem>
+                      )}
+                    />
+                    <FormField
+                      control={form.control}
+                      name="anonymizer_url"
+                      render={({ field }) => (
+                        <FormItem>
+                          <FormLabel>Anonymizer URL (Optional)</FormLabel>
+                          <FormControl>
+                            <Input placeholder="http://presidio-anonymizer:3000" {...field} />
+                          </FormControl>
+                          <FormDescription>
+                            Presidio anonymizer service endpoint
+                          </FormDescription>
+                          <FormMessage />
+                        </FormItem>
+                      )}
+                    />
+                  </div>
+
+                  <div className="grid grid-cols-1 md:grid-cols-3 gap-4">
+                    <FormField
+                      control={form.control}
+                      name="threshold"
+                      render={({ field }) => (
+                        <FormItem>
+                          <FormLabel>Detection Threshold</FormLabel>
+                          <FormControl>
+                            <div className="space-y-2">
+                              <Slider
+                                min={0}
+                                max={1}
+                                step={0.1}
+                                value={[field.value]}
+                                onValueChange={(value) => field.onChange(value[0])}
+                                className="w-full"
+                              />
+                              <div className="text-center text-sm font-medium">
+                                {field.value.toFixed(1)}
+                              </div>
+                            </div>
+                          </FormControl>
+                          <FormDescription>
+                            Confidence threshold (0.0-1.0)
+                          </FormDescription>
+                          <FormMessage />
+                        </FormItem>
+                      )}
+                    />
+                    <FormField
+                      control={form.control}
+                      name="language"
+                      render={({ field }) => (
+                        <FormItem>
+                          <FormLabel>Language</FormLabel>
+                          <Select onValueChange={field.onChange} defaultValue={field.value}>
+                            <FormControl>
+                              <SelectTrigger>
+                                <SelectValue />
+                              </SelectTrigger>
+                            </FormControl>
+                            <SelectContent>
+                              <SelectItem value="en">English</SelectItem>
+                              <SelectItem value="es">Spanish</SelectItem>
+                              <SelectItem value="fr">French</SelectItem>
+                              <SelectItem value="de">German</SelectItem>
+                              <SelectItem value="it">Italian</SelectItem>
+                              <SelectItem value="pt">Portuguese</SelectItem>
+                            </SelectContent>
+                          </Select>
+                          <FormMessage />
+                        </FormItem>
+                      )}
+                    />
+                    <FormField
+                      control={form.control}
+                      name="anonymize_method"
+                      render={({ field }) => (
+                        <FormItem>
+                          <FormLabel>Anonymization Method</FormLabel>
+                          <Select onValueChange={field.onChange} defaultValue={field.value}>
+                            <FormControl>
+                              <SelectTrigger>
+                                <SelectValue />
+                              </SelectTrigger>
+                            </FormControl>
+                            <SelectContent>
+                              {ANONYMIZE_METHODS.map((method) => (
+                                <SelectItem key={method.value} value={method.value}>
+                                  {method.label}
+                                </SelectItem>
+                              ))}
+                            </SelectContent>
+                          </Select>
+                          <FormMessage />
+                        </FormItem>
+                      )}
+                    />
+                  </div>
+
+                  <FormField
+                    control={form.control}
+                    name="mask_pii"
+                    render={({ field }) => (
+                      <FormItem className="flex flex-row items-center justify-between rounded-lg border p-4">
+                        <div className="space-y-0.5">
+                          <FormLabel className="text-base">
+                            <Lock className="inline h-4 w-4 mr-2" />
+                            Mask PII in Requests
+                          </FormLabel>
+                          <FormDescription>
+                            Automatically mask detected PII before sending to LLM
+                          </FormDescription>
+                        </div>
+                        <FormControl>
+                          <Switch checked={field.value} onCheckedChange={field.onChange} />
+                        </FormControl>
+                      </FormItem>
+                    )}
+                  />
+                </CardContent>
+              </Card>
+
+              {/* PII Entity Configuration */}
+              <Card>
+                <CardHeader>
+                  <CardTitle>PII Entity Detection</CardTitle>
+                  <CardDescription>
+                    Select which types of personally identifiable information to detect
+                  </CardDescription>
+                </CardHeader>
+                <CardContent>
+                  <FormField
+                    control={form.control}
+                    name="entities"
+                    render={() => (
+                      <FormItem>
+                        <Tabs defaultValue={Object.keys(groupedEntities)[0]} className="w-full">
+                          <TabsList className="grid w-full grid-cols-5">
+                            {Object.keys(groupedEntities).map((category) => (
+                              <TabsTrigger key={category} value={category} className="text-xs">
+                                {category}
+                              </TabsTrigger>
+                            ))}
+                          </TabsList>
+                          {Object.entries(groupedEntities).map(([category, entities]) => (
+                            <TabsContent key={category} value={category} className="space-y-4">
+                              <div className="grid grid-cols-2 md:grid-cols-3 gap-3">
+                                {entities.map((entity) => (
+                                  <FormField
+                                    key={entity.value}
+                                    control={form.control}
+                                    name="entities"
+                                    render={({ field }) => (
+                                      <FormItem className="flex flex-row items-start space-x-3 space-y-0 rounded-md border p-3 hover:bg-accent/50">
+                                        <FormControl>
+                                          <Checkbox
+                                            checked={field.value?.includes(entity.value)}
+                                            onCheckedChange={(checked) => {
+                                              return checked
+                                                ? field.onChange([...field.value, entity.value])
+                                                : field.onChange(field.value?.filter((value) => value !== entity.value));
+                                            }}
+                                          />
+                                        </FormControl>
+                                        <FormLabel className="text-sm font-normal leading-relaxed">
+                                          {entity.label}
+                                        </FormLabel>
+                                      </FormItem>
+                                    )}
+                                  />
+                                ))}
+                              </div>
+                            </TabsContent>
+                          ))}
+                        </Tabs>
+                        <FormMessage />
+                      </FormItem>
+                    )}
+                  />
+                </CardContent>
+              </Card>
+            </div>
+
+            {/* Sidebar - Advanced Settings & Testing */}
+            <div className="space-y-6">
+              {/* Advanced Settings */}
+              <Card>
+                <CardHeader>
+                  <CardTitle className="flex items-center gap-2">
+                    <Clock className="h-5 w-5" />
+                    Advanced Settings
+                  </CardTitle>
+                  <CardDescription>
+                    Performance and reliability configuration
+                  </CardDescription>
+                </CardHeader>
+                <CardContent className="space-y-4">
+                  <FormField
+                    control={form.control}
+                    name="timeout_ms"
+                    render={({ field }) => (
+                      <FormItem>
+                        <FormLabel>Timeout (ms)</FormLabel>
+                        <FormControl>
+                          <Input 
+                            type="number" 
+                            min="100" 
+                            max="30000" 
+                            {...field}
+                            onChange={(e) => field.onChange(parseInt(e.target.value))}
+                          />
+                        </FormControl>
+                        <FormDescription>
+                          Request timeout in milliseconds
+                        </FormDescription>
+                        <FormMessage />
+                      </FormItem>
+                    )}
+                  />
+
+                  <FormField
+                    control={form.control}
+                    name="retry_attempts"
+                    render={({ field }) => (
+                      <FormItem>
+                        <FormLabel>Retry Attempts</FormLabel>
+                        <FormControl>
+                          <Input 
+                            type="number" 
+                            min="0" 
+                            max="5" 
+                            {...field}
+                            onChange={(e) => field.onChange(parseInt(e.target.value))}
+                          />
+                        </FormControl>
+                        <FormDescription>
+                          Number of retries on failure
+                        </FormDescription>
+                        <FormMessage />
+                      </FormItem>
+                    )}
+                  />
+
+                  <FormField
+                    control={form.control}
+                    name="log_level"
+                    render={({ field }) => (
+                      <FormItem>
+                        <FormLabel>Log Level</FormLabel>
+                        <Select onValueChange={field.onChange} defaultValue={field.value}>
+                          <FormControl>
+                            <SelectTrigger>
+                              <SelectValue />
+                            </SelectTrigger>
+                          </FormControl>
+                          <SelectContent>
+                            {LOG_LEVELS.map((level) => (
+                              <SelectItem key={level.value} value={level.value}>
+                                {level.label}
+                              </SelectItem>
+                            ))}
+                          </SelectContent>
+                        </Select>
+                        <FormDescription>
+                          Logging verbosity level
+                        </FormDescription>
+                        <FormMessage />
+                      </FormItem>
+                    )}
+                  />
+
+                  <FormField
+                    control={form.control}
+                    name="cache_results"
+                    render={({ field }) => (
+                      <FormItem className="flex flex-row items-center justify-between rounded-lg border p-3">
+                        <div className="space-y-0.5">
+                          <FormLabel className="text-sm">Cache Results</FormLabel>
+                          <FormDescription className="text-xs">
+                            Cache detection results for performance
+                          </FormDescription>
+                        </div>
+                        <FormControl>
+                          <Switch checked={field.value} onCheckedChange={field.onChange} />
+                        </FormControl>
+                      </FormItem>
+                    )}
+                  />
+                </CardContent>
+              </Card>
+
+              {/* Test Configuration */}
+              <Card>
+                <CardHeader>
+                  <CardTitle className="flex items-center gap-2">
+                    <TestTube className="h-5 w-5" />
+                    Test Configuration
+                  </CardTitle>
+                  <CardDescription>
+                    Test your guardrail configuration
+                  </CardDescription>
+                </CardHeader>
+                <CardContent className="space-y-4">
+                  <Button 
+                    type="button" 
+                    variant="outline" 
+                    className="w-full"
+                    onClick={onTest}
+                    disabled={isTesting}
+                  >
+                    {isTesting ? (
+                      <>
+                        <div className="animate-spin rounded-full h-4 w-4 border-b-2 border-current mr-2" />
+                        Testing...
+                      </>
+                    ) : (
+                      <>
+                        <TestTube className="h-4 w-4 mr-2" />
+                        Test Configuration
+                      </>
+                    )}
+                  </Button>
+
+                  {testResult && (
+                    <Alert className={testResult.success ? "border-green-200 bg-green-50" : "border-red-200 bg-red-50"}>
+                      <div className="flex items-center gap-2">
+                        {testResult.success ? (
+                          <CheckCircle className="h-4 w-4 text-green-600" />
+                        ) : (
+                          <AlertTriangle className="h-4 w-4 text-red-600" />
+                        )}
+                        <span className="font-medium">
+                          {testResult.success ? "Test Successful" : "Test Failed"}
+                        </span>
+                      </div>
+                      <AlertDescription className="mt-2 text-sm">
+                        {testResult.success ? (
+                          <div className="space-y-2">
+                            <div>
+                              <strong>Latency:</strong> {testResult.latency}ms
+                            </div>
+                            <div>
+                              <strong>Detected:</strong> {testResult.detected_entities?.length || 0} entities
+                            </div>
+                            {testResult.detected_entities?.map((entity: any, idx: number) => (
+                              <Badge key={idx} variant="outline" className="mr-1">
+                                {entity.entity}: {(entity.score * 100).toFixed(0)}%
+                              </Badge>
+                            ))}
+                          </div>
+                        ) : (
+                          <div className="text-red-700">
+                            {testResult.error || "Configuration test failed"}
+                          </div>
+                        )}
+                      </AlertDescription>
+                    </Alert>
+                  )}
+                </CardContent>
+              </Card>
+            </div>
+          </div>
+
+          {/* Footer Actions */}
+          <div className="flex items-center justify-end gap-4 border-t pt-6">
+            <Button 
+              type="button" 
+              variant="outline"
+              onClick={() => navigate("/guardrails")}
+            >
+              Cancel
+            </Button>
+            <Button 
+              type="submit" 
+              disabled={saveMutation.isPending}
+            >
+              {saveMutation.isPending ? (
+                <>
+                  <div className="animate-spin rounded-full h-4 w-4 border-b-2 border-current mr-2" />
+                  Saving...
+                </>
+              ) : (
+                <>
+                  <Save className="h-4 w-4 mr-2" />
+                  {isEditing ? "Update Guardrail" : "Create Guardrail"}
+                </>
+              )}
+            </Button>
+          </div>
+        </form>
+      </Form>
+    </div>
+  );
+}
\ No newline at end of file
diff --git a/web/src/pages/GuardrailMarketplace.tsx b/web/src/pages/GuardrailMarketplace.tsx
new file mode 100644
index 0000000..20021f7
--- /dev/null
+++ b/web/src/pages/GuardrailMarketplace.tsx
@@ -0,0 +1,638 @@
+import { useState } from "react";
+import { useNavigate } from "react-router-dom";
+
+import { 
+  Shield, 
+  Search, 
+  Filter,
+  Star,
+  Download,
+  ExternalLink,
+  Lock,
+  ArrowRight,
+  CheckCircle,
+  AlertTriangle,
+  Info,
+  Github,
+  Book
+} from "lucide-react";
+
+import { Button } from "@/components/ui/button";
+import { Card, CardContent, CardDescription, CardHeader, CardTitle } from "@/components/ui/card";
+import { Input } from "@/components/ui/input";
+import { Badge } from "@/components/ui/badge";
+import { Avatar, AvatarFallback, AvatarImage } from "@/components/ui/avatar";
+import { Select, SelectContent, SelectItem, SelectTrigger, SelectValue } from "@/components/ui/select";
+import { Tabs, TabsContent, TabsList, TabsTrigger } from "@/components/ui/tabs";
+import { Separator } from "@/components/ui/separator";
+import { Alert, AlertDescription } from "@/components/ui/alert";
+
+// Types
+interface GuardrailProvider {
+  id: string;
+  name: string;
+  description: string;
+  short_description: string;
+  provider: string;
+  category: "privacy" | "safety" | "compliance" | "security";
+  subcategory: string;
+  version: string;
+  author: {
+    name: string;
+    avatar?: string;
+    company?: string;
+    verified: boolean;
+  };
+  pricing: "free" | "paid" | "freemium";
+  rating: number;
+  downloads: number;
+  last_updated: string;
+  tags: string[];
+  features: string[];
+  supported_languages: string[];
+  execution_modes: string[];
+  integration_difficulty: "easy" | "medium" | "hard";
+  documentation_url?: string;
+  github_url?: string;
+  homepage_url?: string;
+  demo_available: boolean;
+  enterprise_ready: boolean;
+  open_source: boolean;
+  compliance: string[];
+  use_cases: string[];
+  performance: {
+    avg_latency_ms: number;
+    throughput_rps: number;
+    accuracy: number;
+  };
+}
+
+// Mock data for demonstration
+const MOCK_PROVIDERS: GuardrailProvider[] = [
+  {
+    id: "presidio",
+    name: "Microsoft Presidio",
+    description: "Microsoft Presidio is an open source data protection toolkit that helps identify, classify, and anonymize sensitive data in text, images, and documents. It provides built-in recognizers for common PII types and allows custom recognizers for specific use cases.",
+    short_description: "Enterprise-grade PII detection and anonymization toolkit from Microsoft",
+    provider: "Microsoft",
+    category: "privacy",
+    subcategory: "PII Detection",
+    version: "2.2.354",
+    author: {
+      name: "Microsoft",
+      avatar: "/api/placeholder/40/40",
+      company: "Microsoft Corporation",
+      verified: true
+    },
+    pricing: "free",
+    rating: 4.8,
+    downloads: 125000,
+    last_updated: "2024-01-15",
+    tags: ["PII", "anonymization", "GDPR", "HIPAA", "enterprise"],
+    features: [
+      "Multi-language PII detection",
+      "Custom entity recognizers", 
+      "Multiple anonymization methods",
+      "REST API integration",
+      "Batch processing support"
+    ],
+    supported_languages: ["en", "es", "fr", "de", "it", "pt", "he"],
+    execution_modes: ["pre_call", "post_call", "logging_only"],
+    integration_difficulty: "easy",
+    documentation_url: "https://microsoft.github.io/presidio/",
+    github_url: "https://github.com/microsoft/presidio",
+    homepage_url: "https://presidio.dev/",
+    demo_available: true,
+    enterprise_ready: true,
+    open_source: true,
+    compliance: ["GDPR", "HIPAA", "PCI DSS", "SOX"],
+    use_cases: ["Healthcare data protection", "Financial services", "Customer support", "Document processing"],
+    performance: {
+      avg_latency_ms: 85,
+      throughput_rps: 1200,
+      accuracy: 0.94
+    }
+  },
+  {
+    id: "aws-comprehend-pii",
+    name: "AWS Comprehend PII",
+    description: "Amazon Comprehend provides natural language processing capabilities including PII detection and redaction. It can identify common PII entities like names, addresses, credit card numbers, and more across multiple languages.",
+    short_description: "AWS managed PII detection service with high accuracy and scalability",
+    provider: "Amazon Web Services",
+    category: "privacy",
+    subcategory: "PII Detection",
+    version: "1.0.0",
+    author: {
+      name: "AWS",
+      avatar: "/api/placeholder/40/40",
+      company: "Amazon Web Services",
+      verified: true
+    },
+    pricing: "paid",
+    rating: 4.6,
+    downloads: 85000,
+    last_updated: "2024-01-10",
+    tags: ["AWS", "managed", "scalable", "multi-language"],
+    features: [
+      "Managed service",
+      "High accuracy detection",
+      "Batch and real-time processing",
+      "Custom entity types",
+      "Confidence scoring"
+    ],
+    supported_languages: ["en", "es", "fr", "de", "it", "pt", "ar", "hi", "ja", "ko", "zh"],
+    execution_modes: ["pre_call", "post_call"],
+    integration_difficulty: "medium",
+    documentation_url: "https://docs.aws.amazon.com/comprehend/",
+    homepage_url: "https://aws.amazon.com/comprehend/",
+    demo_available: false,
+    enterprise_ready: true,
+    open_source: false,
+    compliance: ["SOC 2", "HIPAA", "PCI DSS"],
+    use_cases: ["Content moderation", "Document analysis", "Customer data protection"],
+    performance: {
+      avg_latency_ms: 120,
+      throughput_rps: 2000,
+      accuracy: 0.96
+    }
+  },
+  {
+    id: "openai-moderation",
+    name: "OpenAI Moderation",
+    description: "OpenAI's moderation models are designed to check whether content complies with OpenAI's usage policies. These models provide classification capabilities across several categories of content.",
+    short_description: "AI-powered content moderation from OpenAI for safety and compliance",
+    provider: "OpenAI",
+    category: "safety", 
+    subcategory: "Content Moderation",
+    version: "text-moderation-007",
+    author: {
+      name: "OpenAI",
+      avatar: "/api/placeholder/40/40",
+      company: "OpenAI",
+      verified: true
+    },
+    pricing: "freemium",
+    rating: 4.5,
+    downloads: 67000,
+    last_updated: "2024-01-08",
+    tags: ["content moderation", "safety", "AI", "real-time"],
+    features: [
+      "Real-time content analysis",
+      "Multiple violation categories",
+      "Confidence scoring",
+      "Low latency",
+      "Easy integration"
+    ],
+    supported_languages: ["en"],
+    execution_modes: ["pre_call", "post_call", "during_call"],
+    integration_difficulty: "easy",
+    documentation_url: "https://platform.openai.com/docs/guides/moderation",
+    homepage_url: "https://openai.com/",
+    demo_available: true,
+    enterprise_ready: true,
+    open_source: false,
+    compliance: ["OpenAI Usage Policies"],
+    use_cases: ["Chatbot safety", "User-generated content", "Community moderation"],
+    performance: {
+      avg_latency_ms: 45,
+      throughput_rps: 5000,
+      accuracy: 0.92
+    }
+  },
+  {
+    id: "perspective-api",
+    name: "Perspective API",
+    description: "Perspective API uses machine learning models to score the perceived impact a comment might have on a conversation. It helps online platforms foster healthier discussions by identifying toxic, insulting, or threatening comments.",
+    short_description: "Google's toxicity detection API for healthier online conversations",
+    provider: "Google Jigsaw",
+    category: "safety",
+    subcategory: "Toxicity Detection",
+    version: "1.0.0",
+    author: {
+      name: "Jigsaw",
+      avatar: "/api/placeholder/40/40", 
+      company: "Google",
+      verified: true
+    },
+    pricing: "free",
+    rating: 4.3,
+    downloads: 45000,
+    last_updated: "2023-12-20",
+    tags: ["toxicity", "harassment", "community", "free"],
+    features: [
+      "Toxicity scoring",
+      "Multiple attribute analysis",
+      "Language support",
+      "Free tier available",
+      "Real-time analysis"
+    ],
+    supported_languages: ["en", "es", "fr", "de", "it", "pt", "ru"],
+    execution_modes: ["pre_call", "post_call"],
+    integration_difficulty: "easy",
+    documentation_url: "https://developers.perspectiveapi.com/",
+    homepage_url: "https://perspectiveapi.com/",
+    demo_available: true,
+    enterprise_ready: false,
+    open_source: false,
+    compliance: ["Google Cloud Terms"],
+    use_cases: ["Community moderation", "Comment filtering", "Social media safety"],
+    performance: {
+      avg_latency_ms: 95,
+      throughput_rps: 800,
+      accuracy: 0.89
+    }
+  },
+  {
+    id: "custom-regex",
+    name: "Custom Regex Guardrail",
+    description: "A flexible guardrail that allows you to define custom regular expressions for pattern matching and content filtering. Suitable for organization-specific rules and custom compliance requirements.",
+    short_description: "Flexible pattern-based guardrail using custom regular expressions",
+    provider: "Community",
+    category: "compliance",
+    subcategory: "Pattern Matching",
+    version: "1.2.0",
+    author: {
+      name: "Community",
+      avatar: "/api/placeholder/40/40",
+      company: "Open Source",
+      verified: false
+    },
+    pricing: "free",
+    rating: 4.1,
+    downloads: 23000,
+    last_updated: "2024-01-05",
+    tags: ["regex", "custom", "pattern", "compliance"],
+    features: [
+      "Custom regex patterns",
+      "Multiple pattern sets",
+      "Case-sensitive options",
+      "Whitelist/blacklist modes",
+      "Fast pattern matching"
+    ],
+    supported_languages: ["universal"],
+    execution_modes: ["pre_call", "post_call", "logging_only"],
+    integration_difficulty: "medium",
+    github_url: "https://github.com/community/regex-guardrail",
+    demo_available: false,
+    enterprise_ready: false,
+    open_source: true,
+    compliance: ["Custom"],
+    use_cases: ["Custom compliance rules", "Industry-specific patterns", "Internal policies"],
+    performance: {
+      avg_latency_ms: 15,
+      throughput_rps: 10000,
+      accuracy: 0.85
+    }
+  }
+];
+
+const CATEGORIES = [
+  { value: "all", label: "All Categories", icon: Shield },
+  { value: "privacy", label: "Privacy & PII", icon: Lock },
+  { value: "safety", label: "Content Safety", icon: AlertTriangle },
+  { value: "compliance", label: "Compliance", icon: CheckCircle },
+  { value: "security", label: "Security", icon: Shield }
+];
+
+const PRICING_FILTERS = [
+  { value: "all", label: "All" },
+  { value: "free", label: "Free" },
+  { value: "freemium", label: "Freemium" },
+  { value: "paid", label: "Paid" }
+];
+
+const DIFFICULTY_FILTERS = [
+  { value: "all", label: "All" },
+  { value: "easy", label: "Easy" },
+  { value: "medium", label: "Medium" },
+  { value: "hard", label: "Hard" }
+];
+
+export default function GuardrailMarketplace() {
+  const navigate = useNavigate();
+  const [searchQuery, setSearchQuery] = useState("");
+  const [selectedCategory, setSelectedCategory] = useState("all");
+  const [pricingFilter, setPricingFilter] = useState("all");
+  const [difficultyFilter, setDifficultyFilter] = useState("all");
+  const [sortBy, setSortBy] = useState("downloads"); // downloads, rating, updated
+
+  // Filter and sort providers
+  const filteredProviders = MOCK_PROVIDERS
+    .filter(provider => {
+      const matchesSearch = searchQuery === "" || 
+        provider.name.toLowerCase().includes(searchQuery.toLowerCase()) ||
+        provider.description.toLowerCase().includes(searchQuery.toLowerCase()) ||
+        provider.tags.some(tag => tag.toLowerCase().includes(searchQuery.toLowerCase()));
+      
+      const matchesCategory = selectedCategory === "all" || provider.category === selectedCategory;
+      const matchesPricing = pricingFilter === "all" || provider.pricing === pricingFilter;
+      const matchesDifficulty = difficultyFilter === "all" || provider.integration_difficulty === difficultyFilter;
+      
+      return matchesSearch && matchesCategory && matchesPricing && matchesDifficulty;
+    })
+    .sort((a, b) => {
+      switch (sortBy) {
+        case "rating":
+          return b.rating - a.rating;
+        case "updated":
+          return new Date(b.last_updated).getTime() - new Date(a.last_updated).getTime();
+        case "downloads":
+        default:
+          return b.downloads - a.downloads;
+      }
+    });
+
+  const formatDownloads = (count: number) => {
+    if (count >= 1000000) return `${(count / 1000000).toFixed(1)}M`;
+    if (count >= 1000) return `${(count / 1000).toFixed(1)}K`;
+    return count.toString();
+  };
+
+  const getPricingColor = (pricing: string) => {
+    switch (pricing) {
+      case "free": return "bg-green-100 text-green-800";
+      case "freemium": return "bg-blue-100 text-blue-800";
+      case "paid": return "bg-yellow-100 text-yellow-800";
+      default: return "bg-gray-100 text-gray-800";
+    }
+  };
+
+  const getDifficultyColor = (difficulty: string) => {
+    switch (difficulty) {
+      case "easy": return "bg-green-100 text-green-800";
+      case "medium": return "bg-yellow-100 text-yellow-800";
+      case "hard": return "bg-red-100 text-red-800";
+      default: return "bg-gray-100 text-gray-800";
+    }
+  };
+
+  const getCategoryIcon = (category: string) => {
+    const categoryData = CATEGORIES.find(c => c.value === category);
+    return categoryData?.icon || Shield;
+  };
+
+  return (
+    <div className="space-y-6">
+      {/* Header */}
+      <div>
+        <h1 className="text-2xl lg:text-3xl font-bold">Guardrail Marketplace</h1>
+        <p className="text-muted-foreground">
+          Discover and integrate guardrails from verified providers to protect your LLM applications
+        </p>
+      </div>
+
+      {/* Featured Notice */}
+      <Alert>
+        <Info className="h-4 w-4" />
+        <AlertDescription>
+          These guardrail providers offer various levels of PII detection, content safety, and compliance features. 
+          Choose based on your specific needs and integration requirements.
+        </AlertDescription>
+      </Alert>
+
+      {/* Filters */}
+      <Card>
+        <CardHeader>
+          <CardTitle className="flex items-center gap-2">
+            <Filter className="h-5 w-5" />
+            Filters & Search
+          </CardTitle>
+        </CardHeader>
+        <CardContent className="space-y-4">
+          <div className="flex flex-col md:flex-row gap-4">
+            <div className="flex-1">
+              <div className="relative">
+                <Search className="absolute left-3 top-3 h-4 w-4 text-muted-foreground" />
+                <Input
+                  placeholder="Search guardrails, providers, or features..."
+                  value={searchQuery}
+                  onChange={(e) => setSearchQuery(e.target.value)}
+                  className="pl-10"
+                />
+              </div>
+            </div>
+            <div className="flex gap-2">
+              <Select value={pricingFilter} onValueChange={setPricingFilter}>
+                <SelectTrigger className="w-[130px]">
+                  <SelectValue />
+                </SelectTrigger>
+                <SelectContent>
+                  {PRICING_FILTERS.map(filter => (
+                    <SelectItem key={filter.value} value={filter.value}>
+                      {filter.label}
+                    </SelectItem>
+                  ))}
+                </SelectContent>
+              </Select>
+              <Select value={difficultyFilter} onValueChange={setDifficultyFilter}>
+                <SelectTrigger className="w-[130px]">
+                  <SelectValue />
+                </SelectTrigger>
+                <SelectContent>
+                  {DIFFICULTY_FILTERS.map(filter => (
+                    <SelectItem key={filter.value} value={filter.value}>
+                      {filter.label}
+                    </SelectItem>
+                  ))}
+                </SelectContent>
+              </Select>
+              <Select value={sortBy} onValueChange={setSortBy}>
+                <SelectTrigger className="w-[130px]">
+                  <SelectValue />
+                </SelectTrigger>
+                <SelectContent>
+                  <SelectItem value="downloads">Most Downloaded</SelectItem>
+                  <SelectItem value="rating">Highest Rated</SelectItem>
+                  <SelectItem value="updated">Recently Updated</SelectItem>
+                </SelectContent>
+              </Select>
+            </div>
+          </div>
+        </CardContent>
+      </Card>
+
+      {/* Categories */}
+      <Tabs value={selectedCategory} onValueChange={setSelectedCategory}>
+        <TabsList className="grid w-full grid-cols-5">
+          {CATEGORIES.map((category) => {
+            const Icon = category.icon;
+            return (
+              <TabsTrigger key={category.value} value={category.value} className="flex items-center gap-2">
+                <Icon className="h-4 w-4" />
+                <span className="hidden md:inline">{category.label}</span>
+              </TabsTrigger>
+            );
+          })}
+        </TabsList>
+
+        {CATEGORIES.map((category) => (
+          <TabsContent key={category.value} value={category.value} className="space-y-4">
+            <div className="flex items-center justify-between">
+              <p className="text-sm text-muted-foreground">
+                {filteredProviders.length} guardrails found
+              </p>
+            </div>
+
+            {/* Provider Cards */}
+            <div className="grid grid-cols-1 md:grid-cols-2 lg:grid-cols-3 gap-6">
+              {filteredProviders.map((provider) => {
+                const CategoryIcon = getCategoryIcon(provider.category);
+                return (
+                  <Card key={provider.id} className="flex flex-col hover:shadow-md transition-shadow">
+                    <CardHeader className="pb-2">
+                      <div className="flex items-start justify-between">
+                        <div className="flex items-center gap-3">
+                          <div className="p-2 bg-primary/10 rounded-lg">
+                            <CategoryIcon className="h-5 w-5 text-primary" />
+                          </div>
+                          <div className="flex-1">
+                            <CardTitle className="text-lg leading-tight">{provider.name}</CardTitle>
+                            <div className="flex items-center gap-2 mt-1">
+                              <Avatar className="h-4 w-4">
+                                <AvatarImage src={provider.author.avatar} alt={provider.author.name} />
+                                <AvatarFallback>{provider.author.name.charAt(0)}</AvatarFallback>
+                              </Avatar>
+                              <span className="text-xs text-muted-foreground">{provider.author.name}</span>
+                              {provider.author.verified && (
+                                <CheckCircle className="h-3 w-3 text-blue-500" />
+                              )}
+                            </div>
+                          </div>
+                        </div>
+                      </div>
+                      <CardDescription className="text-sm line-clamp-2">
+                        {provider.short_description}
+                      </CardDescription>
+                    </CardHeader>
+                    
+                    <CardContent className="flex-1 space-y-4">
+                      {/* Stats */}
+                      <div className="flex items-center justify-between text-sm">
+                        <div className="flex items-center gap-1">
+                          <Star className="h-3 w-3 fill-yellow-400 text-yellow-400" />
+                          <span className="font-medium">{provider.rating}</span>
+                        </div>
+                        <div className="flex items-center gap-1 text-muted-foreground">
+                          <Download className="h-3 w-3" />
+                          <span>{formatDownloads(provider.downloads)}</span>
+                        </div>
+                      </div>
+
+                      {/* Badges */}
+                      <div className="flex flex-wrap gap-2">
+                        <Badge className={getPricingColor(provider.pricing)}>
+                          {provider.pricing}
+                        </Badge>
+                        <Badge className={getDifficultyColor(provider.integration_difficulty)}>
+                          {provider.integration_difficulty}
+                        </Badge>
+                        {provider.enterprise_ready && (
+                          <Badge variant="outline" className="text-xs">
+                            Enterprise
+                          </Badge>
+                        )}
+                        {provider.open_source && (
+                          <Badge variant="outline" className="text-xs">
+                            Open Source
+                          </Badge>
+                        )}
+                      </div>
+
+                      {/* Key Features */}
+                      <div>
+                        <p className="text-xs font-medium text-muted-foreground mb-1">Key Features</p>
+                        <div className="text-xs text-muted-foreground">
+                          {provider.features.slice(0, 2).join(" • ")}
+                          {provider.features.length > 2 && ` • +${provider.features.length - 2} more`}
+                        </div>
+                      </div>
+
+                      {/* Performance Metrics */}
+                      <div className="grid grid-cols-2 gap-2 text-xs">
+                        <div>
+                          <span className="text-muted-foreground">Latency:</span>
+                          <span className="font-medium ml-1">{provider.performance.avg_latency_ms}ms</span>
+                        </div>
+                        <div>
+                          <span className="text-muted-foreground">Accuracy:</span>
+                          <span className="font-medium ml-1">{(provider.performance.accuracy * 100).toFixed(0)}%</span>
+                        </div>
+                      </div>
+
+                      <Separator />
+
+                      {/* Actions */}
+                      <div className="flex items-center gap-2">
+                        <Button
+                          size="sm"
+                          className="flex-1"
+                          onClick={() => navigate(`/guardrails/config/new?provider=${provider.id}`)}
+                        >
+                          <ArrowRight className="h-3 w-3 mr-1" />
+                          Configure
+                        </Button>
+                        <div className="flex gap-1">
+                          {provider.documentation_url && (
+                            <Button
+                              size="sm"
+                              variant="outline"
+                              onClick={() => window.open(provider.documentation_url, '_blank')}
+                            >
+                              <Book className="h-3 w-3" />
+                            </Button>
+                          )}
+                          {provider.github_url && (
+                            <Button
+                              size="sm"
+                              variant="outline"
+                              onClick={() => window.open(provider.github_url, '_blank')}
+                            >
+                              <Github className="h-3 w-3" />
+                            </Button>
+                          )}
+                          {provider.homepage_url && (
+                            <Button
+                              size="sm"
+                              variant="outline"
+                              onClick={() => window.open(provider.homepage_url, '_blank')}
+                            >
+                              <ExternalLink className="h-3 w-3" />
+                            </Button>
+                          )}
+                        </div>
+                      </div>
+                    </CardContent>
+                  </Card>
+                );
+              })}
+            </div>
+
+            {filteredProviders.length === 0 && (
+              <Card>
+                <CardContent className="flex flex-col items-center justify-center py-12">
+                  <Shield className="h-12 w-12 text-muted-foreground mb-4" />
+                  <h3 className="text-lg font-semibold mb-2">No Guardrails Found</h3>
+                  <p className="text-muted-foreground text-center max-w-md">
+                    No guardrails match your current filters. Try adjusting your search criteria or browse all categories.
+                  </p>
+                  <Button
+                    variant="outline"
+                    onClick={() => {
+                      setSearchQuery("");
+                      setSelectedCategory("all");
+                      setPricingFilter("all");
+                      setDifficultyFilter("all");
+                    }}
+                    className="mt-4"
+                  >
+                    Clear Filters
+                  </Button>
+                </CardContent>
+              </Card>
+            )}
+          </TabsContent>
+        ))}
+      </Tabs>
+    </div>
+  );
+}
\ No newline at end of file
diff --git a/web/src/pages/Guardrails.tsx b/web/src/pages/Guardrails.tsx
index a2917ed..d38fbb0 100644
--- a/web/src/pages/Guardrails.tsx
+++ b/web/src/pages/Guardrails.tsx
@@ -1,5 +1,6 @@
 import { useState } from "react";
 import { useQuery } from "@tanstack/react-query";
+import { useNavigate } from "react-router-dom";
 import { Shield, Activity, Clock, AlertTriangle, CheckCircle, XCircle, Plus, Settings, Trash2, Edit3, MoreHorizontal, ArrowUpDown } from "lucide-react";
 import { Bar, BarChart } from "recharts";
 import {
@@ -16,13 +17,7 @@ import { Card, CardContent, CardDescription, CardHeader, CardTitle } from "@/com
 import { Badge } from "@/components/ui/badge";
 import { Button } from "@/components/ui/button";
 import { Tabs, TabsContent, TabsList, TabsTrigger } from "@/components/ui/tabs";
-import { Dialog, DialogContent, DialogDescription, DialogFooter, DialogHeader, DialogTitle, DialogTrigger } from "@/components/ui/dialog";
 import { Sheet, SheetContent, SheetDescription, SheetHeader, SheetTitle } from "@/components/ui/sheet";
-import { Form, FormControl, FormDescription, FormField, FormItem, FormLabel, FormMessage } from "@/components/ui/form";
-import { Select, SelectContent, SelectItem, SelectTrigger, SelectValue } from "@/components/ui/select";
-import { Input } from "@/components/ui/input";
-import { Switch } from "@/components/ui/switch";
-import { Checkbox } from "@/components/ui/checkbox";
 import { Separator } from "@/components/ui/separator";
 import {
   Table,
@@ -41,9 +36,7 @@ import {
   DropdownMenuTrigger,
 } from "@/components/ui/dropdown-menu";
 import { ChartConfig, ChartContainer } from "@/components/ui/chart";
-import { useForm } from "react-hook-form";
-import { zodResolver } from "@hookform/resolvers/zod";
-import * as z from "zod";
+
 
 interface GuardrailInfo {
   name: string;
@@ -65,22 +58,7 @@ interface GuardrailInfo {
   healthy: boolean;
 }
 
-// Form schema for adding/editing guardrails
-const guardrailFormSchema = z.object({
-  name: z.string().min(1, "Name is required"),
-  provider: z.string().min(1, "Provider is required"),
-  modes: z.array(z.string()).min(1, "At least one execution mode is required"),
-  enabled: z.boolean().default(true),
-  analyzer_url: z.string().url("Must be a valid URL"),
-  anonymizer_url: z.string().url("Must be a valid URL").optional(),
-  threshold: z.number().min(0).max(1).default(0.7),
-  entities: z.array(z.string()).min(1, "At least one PII entity is required"),
-  anonymize_method: z.string().default("replace"),
-  mask_pii: z.boolean().default(true),
-  language: z.string().default("en")
-});
 
-type GuardrailFormData = z.infer<typeof guardrailFormSchema>;
 
 // Microsoft icon component for Presidio
 const MicrosoftIcon = () => (
@@ -89,13 +67,6 @@ const MicrosoftIcon = () => (
   </svg>
 );
 
-const EXECUTION_MODES = [
-  { value: "pre_call", label: "Pre-call", description: "Execute before sending to LLM" },
-  { value: "post_call", label: "Post-call", description: "Execute after LLM response" },
-  { value: "during_call", label: "During-call", description: "Execute in parallel with LLM" },
-  { value: "logging_only", label: "Logging only", description: "Log violations without blocking" }
-];
-
 const PII_ENTITIES = [
   { value: "PERSON", label: "Person Names" },
   { value: "EMAIL_ADDRESS", label: "Email Addresses" },
@@ -108,18 +79,6 @@ const PII_ENTITIES = [
   { value: "US_BANK_NUMBER", label: "US Bank Numbers" }
 ];
 
-const ANONYMIZE_METHODS = [
-  { value: "replace", label: "Replace", description: "Replace with generic tokens" },
-  { value: "mask", label: "Mask", description: "Partially hide content" },
-  { value: "redact", label: "Redact", description: "Remove completely" },
-  { value: "encrypt", label: "Encrypt", description: "Encrypt the content" },
-  { value: "hash", label: "Hash", description: "Hash the content" }
-];
-
-const PROVIDERS = [
-  { value: "presidio", label: "Microsoft Presidio", icon: <MicrosoftIcon /> }
-];
-
 // Microchart component for performance visualization
 const PerformanceMicroChart = ({ stats }: { stats: any }) => {
   if (!stats) return <div className="w-20 h-8 bg-muted rounded" />;
@@ -448,315 +407,10 @@ function GuardrailsTable({
 }
 
 
-// Add Guardrail Dialog Component
-function AddGuardrailDialog() {
-  const [open, setOpen] = useState(false);
-  const form = useForm<GuardrailFormData>({
-    resolver: zodResolver(guardrailFormSchema),
-    defaultValues: {
-      enabled: true,
-      threshold: 0.7,
-      anonymize_method: "replace",
-      mask_pii: true,
-      language: "en",
-      modes: ["pre_call"],
-      entities: ["PERSON", "EMAIL_ADDRESS", "PHONE_NUMBER"]
-    }
-  });
-
-  const onSubmit = (data: GuardrailFormData) => {
-    console.log("Guardrail data:", data);
-    // TODO: Implement API call to create guardrail
-    setOpen(false);
-    form.reset();
-  };
-
-  return (
-    <Dialog open={open} onOpenChange={setOpen}>
-      <DialogTrigger asChild>
-        <Button className="gap-2">
-          <Plus className="h-4 w-4" />
-          Add Guardrail
-        </Button>
-      </DialogTrigger>
-      <DialogContent className="max-w-2xl max-h-[90vh] overflow-y-auto">
-        <DialogHeader>
-          <DialogTitle>Add New Guardrail</DialogTitle>
-          <DialogDescription>
-            Create a new guardrail to protect your LLM interactions
-          </DialogDescription>
-        </DialogHeader>
-        <Form {...form}>
-          <form onSubmit={form.handleSubmit(onSubmit)} className="space-y-6">
-            <div className="grid grid-cols-2 gap-4">
-              <FormField
-                control={form.control}
-                name="name"
-                render={({ field }: { field: any }) => (
-                  <FormItem>
-                    <FormLabel>Name</FormLabel>
-                    <FormControl>
-                      <Input placeholder="my-pii-guardrail" {...field} />
-                    </FormControl>
-                    <FormDescription>
-                      Unique name for this guardrail
-                    </FormDescription>
-                    <FormMessage />
-                  </FormItem>
-                )}
-              />
-              <FormField
-                control={form.control}
-                name="provider"
-                render={({ field }: { field: any }) => (
-                  <FormItem>
-                    <FormLabel>Provider</FormLabel>
-                    <Select onValueChange={field.onChange} defaultValue={field.value}>
-                      <FormControl>
-                        <SelectTrigger>
-                          <SelectValue placeholder="Select provider" />
-                        </SelectTrigger>
-                      </FormControl>
-                      <SelectContent>
-                        {PROVIDERS.map((provider) => (
-                          <SelectItem key={provider.value} value={provider.value}>
-                            <div className="flex items-center gap-2">
-                              {provider.icon}
-                              {provider.label}
-                            </div>
-                          </SelectItem>
-                        ))}
-                      </SelectContent>
-                    </Select>
-                    <FormMessage />
-                  </FormItem>
-                )}
-              />
-            </div>
-
-            <FormField
-              control={form.control}
-              name="enabled"
-              render={({ field }: { field: any }) => (
-                <FormItem className="flex flex-row items-center justify-between rounded-lg border p-4">
-                  <div className="space-y-0.5">
-                    <FormLabel className="text-base">Enable Guardrail</FormLabel>
-                    <FormDescription>
-                      Whether this guardrail should be active
-                    </FormDescription>
-                  </div>
-                  <FormControl>
-                    <Switch checked={field.value} onCheckedChange={field.onChange} />
-                  </FormControl>
-                </FormItem>
-              )}
-            />
 
-            <div className="space-y-4">
-              <FormLabel className="text-base font-semibold">Execution Modes</FormLabel>
-              <FormField
-                control={form.control}
-                name="modes"
-                render={() => (
-                  <FormItem>
-                    <div className="grid grid-cols-2 gap-4">
-                      {EXECUTION_MODES.map((mode) => (
-                        <FormField
-                          key={mode.value}
-                          control={form.control}
-                          name="modes"
-                          render={({ field }: { field: any }) => (
-                            <FormItem className="flex flex-row items-start space-x-3 space-y-0 rounded-md border p-4">
-                              <FormControl>
-                                <Checkbox
-                                  checked={field.value?.includes(mode.value)}
-                                  onCheckedChange={(checked: boolean) => {
-                                    return checked
-                                      ? field.onChange([...field.value, mode.value])
-                                      : field.onChange(field.value?.filter((value: string) => value !== mode.value));
-                                  }}
-                                />
-                              </FormControl>
-                              <div className="space-y-1 leading-none">
-                                <FormLabel>{mode.label}</FormLabel>
-                                <FormDescription className="text-xs">
-                                  {mode.description}
-                                </FormDescription>
-                              </div>
-                            </FormItem>
-                          )}
-                        />
-                      ))}
-                    </div>
-                    <FormMessage />
-                  </FormItem>
-                )}
-              />
-            </div>
-
-            <Separator />
-
-            <div className="space-y-4">
-              <FormLabel className="text-base font-semibold">Presidio Configuration</FormLabel>
-              <div className="grid grid-cols-2 gap-4">
-                <FormField
-                  control={form.control}
-                  name="analyzer_url"
-                  render={({ field }: { field: any }) => (
-                    <FormItem>
-                      <FormLabel>Analyzer URL</FormLabel>
-                      <FormControl>
-                        <Input placeholder="http://presidio-analyzer:3000" {...field} />
-                      </FormControl>
-                      <FormDescription>
-                        Presidio analyzer service URL
-                      </FormDescription>
-                      <FormMessage />
-                    </FormItem>
-                  )}
-                />
-                <FormField
-                  control={form.control}
-                  name="anonymizer_url"
-                  render={({ field }: { field: any }) => (
-                    <FormItem>
-                      <FormLabel>Anonymizer URL (Optional)</FormLabel>
-                      <FormControl>
-                        <Input placeholder="http://presidio-anonymizer:3000" {...field} />
-                      </FormControl>
-                      <FormDescription>
-                        Presidio anonymizer service URL
-                      </FormDescription>
-                      <FormMessage />
-                    </FormItem>
-                  )}
-                />
-              </div>
-              <div className="grid grid-cols-2 gap-4">
-                <FormField
-                  control={form.control}
-                  name="threshold"
-                  render={({ field }: { field: any }) => (
-                    <FormItem>
-                      <FormLabel>Detection Threshold</FormLabel>
-                      <FormControl>
-                        <Input
-                          type="number"
-                          step="0.1"
-                          min="0"
-                          max="1"
-                          {...field}
-                          onChange={(e) => field.onChange(parseFloat(e.target.value))}
-                        />
-                      </FormControl>
-                      <FormDescription>
-                        Confidence threshold (0.0-1.0)
-                      </FormDescription>
-                      <FormMessage />
-                    </FormItem>
-                  )}
-                />
-                <FormField
-                  control={form.control}
-                  name="anonymize_method"
-                  render={({ field }: { field: any }) => (
-                    <FormItem>
-                      <FormLabel>Anonymization Method</FormLabel>
-                      <Select onValueChange={field.onChange} defaultValue={field.value}>
-                        <FormControl>
-                          <SelectTrigger>
-                            <SelectValue />
-                          </SelectTrigger>
-                        </FormControl>
-                        <SelectContent>
-                          {ANONYMIZE_METHODS.map((method) => (
-                            <SelectItem key={method.value} value={method.value}>
-                              <div className="space-y-1">
-                                <div className="font-medium">{method.label}</div>
-                                <div className="text-xs text-muted-foreground">{method.description}</div>
-                              </div>
-                            </SelectItem>
-                          ))}
-                        </SelectContent>
-                      </Select>
-                      <FormMessage />
-                    </FormItem>
-                  )}
-                />
-              </div>
-            </div>
-
-            <div className="space-y-4">
-              <FormLabel className="text-base font-semibold">PII Entities to Detect</FormLabel>
-              <FormField
-                control={form.control}
-                name="entities"
-                render={() => (
-                  <FormItem>
-                    <div className="grid grid-cols-3 gap-4">
-                      {PII_ENTITIES.map((entity) => (
-                        <FormField
-                          key={entity.value}
-                          control={form.control}
-                          name="entities"
-                          render={({ field }: { field: any }) => (
-                            <FormItem className="flex flex-row items-start space-x-3 space-y-0">
-                              <FormControl>
-                                <Checkbox
-                                  checked={field.value?.includes(entity.value)}
-                                  onCheckedChange={(checked: boolean) => {
-                                    return checked
-                                      ? field.onChange([...field.value, entity.value])
-                                      : field.onChange(field.value?.filter((value: string) => value !== entity.value));
-                                  }}
-                                />
-                              </FormControl>
-                              <FormLabel className="text-sm font-normal">
-                                {entity.label}
-                              </FormLabel>
-                            </FormItem>
-                          )}
-                        />
-                      ))}
-                    </div>
-                    <FormMessage />
-                  </FormItem>
-                )}
-              />
-            </div>
-
-            <FormField
-              control={form.control}
-              name="mask_pii"
-              render={({ field }: { field: any }) => (
-                <FormItem className="flex flex-row items-center justify-between rounded-lg border p-4">
-                  <div className="space-y-0.5">
-                    <FormLabel className="text-base">Mask PII</FormLabel>
-                    <FormDescription>
-                      Whether to mask detected PII in requests
-                    </FormDescription>
-                  </div>
-                  <FormControl>
-                    <Switch checked={field.value} onCheckedChange={field.onChange} />
-                  </FormControl>
-                </FormItem>
-              )}
-            />
-
-            <DialogFooter>
-              <Button type="button" variant="outline" onClick={() => setOpen(false)}>
-                Cancel
-              </Button>
-              <Button type="submit">Create Guardrail</Button>
-            </DialogFooter>
-          </form>
-        </Form>
-      </DialogContent>
-    </Dialog>
-  );
-}
 
 export default function Guardrails() {
+  const navigate = useNavigate();
   const [activeTab, setActiveTab] = useState("overview");
   const [selectedGuardrail, setSelectedGuardrail] = useState<GuardrailInfo | null>(null);
   
@@ -851,7 +505,19 @@ export default function Guardrails() {
           <Badge variant={systemEnabled ? "default" : "secondary"}>
             {systemEnabled ? "Enabled" : "Disabled"}
           </Badge>
-          <AddGuardrailDialog />
+          <Button 
+            variant="outline" 
+            onClick={() => navigate("/guardrails/marketplace")}
+          >
+            <Shield className="h-4 w-4 mr-2" />
+            Browse Marketplace
+          </Button>
+          <Button 
+            onClick={() => navigate("/guardrails/config/new")}
+          >
+            <Plus className="h-4 w-4 mr-2" />
+            Add Guardrail
+          </Button>
         </div>
       </div>