feat: expand model catalog — 50+ models, updated routing & pricing

1bcMax · 1bcMax · commit 92e889b36e61 · 2026-03-24T21:20:14.000-07:00
- Add 25+ model shortcuts (codex, nano, o3, o4, grok-4, flash, r1, devstral, etc.)
- Complete pricing table for all supported models across 8 providers
- Update smart router cost table and eco tier fallbacks
- Switch default free model from gpt-oss-120b to nemotron-ultra-253b
- Bump to v0.9.3
diff --git a/package.json b/package.json
@@ -1,6 +1,6 @@
 {
   "name": "@blockrun/cc",
-  "version": "0.9.2",
+  "version": "0.9.3",
   "description": "Run Claude Code with any model — no rate limits, no account locks, no phone verification. Pay per use with USDC.",
   "type": "module",
   "bin": {
diff --git a/src/proxy/fallback.ts b/src/proxy/fallback.ts
@@ -19,7 +19,7 @@ export const DEFAULT_FALLBACK_CONFIG: FallbackConfig = {
     'blockrun/auto', // Smart routing (default)
     'blockrun/eco', // Cheapest capable model
     'deepseek/deepseek-chat', // Direct fallback
-    'nvidia/gpt-oss-120b', // Free model as ultimate fallback
+    'nvidia/nemotron-ultra-253b', // Free model as ultimate fallback
   ],
   retryOn: [429, 500, 502, 503, 504, 529],
   maxRetries: 5,
diff --git a/src/proxy/server.ts b/src/proxy/server.ts
@@ -73,24 +73,56 @@ let lastOutputTokens = 0;
 
 // Model shortcuts for quick switching
 const MODEL_SHORTCUTS: Record<string, string> = {
+  // Routing profiles
   auto: 'blockrun/auto',
   smart: 'blockrun/auto',
   eco: 'blockrun/eco',
   premium: 'blockrun/premium',
-  gpt: 'openai/gpt-5.4',
-  gpt5: 'openai/gpt-5.4',
-  'gpt-5': 'openai/gpt-5.4',
-  'gpt-5.4': 'openai/gpt-5.4',
+  // Anthropic
   sonnet: 'anthropic/claude-sonnet-4.6',
   claude: 'anthropic/claude-sonnet-4.6',
   opus: 'anthropic/claude-opus-4.6',
   haiku: 'anthropic/claude-haiku-4.5',
-  deepseek: 'deepseek/deepseek-chat',
+  // OpenAI
+  gpt: 'openai/gpt-5.4',
+  gpt5: 'openai/gpt-5.4',
+  'gpt-5': 'openai/gpt-5.4',
+  'gpt-5.4': 'openai/gpt-5.4',
+  'gpt-5.4-pro': 'openai/gpt-5.4-pro',
+  'gpt-5.3': 'openai/gpt-5.3',
+  'gpt-5.2': 'openai/gpt-5.2',
+  'gpt-5.2-pro': 'openai/gpt-5.2-pro',
+  'gpt-4.1': 'openai/gpt-4.1',
+  codex: 'openai/gpt-5.3-codex',
+  nano: 'openai/gpt-5-nano',
+  mini: 'openai/gpt-5-mini',
+  o3: 'openai/o3',
+  o4: 'openai/o4-mini',
+  'o4-mini': 'openai/o4-mini',
+  o1: 'openai/o1',
+  // Google
   gemini: 'google/gemini-2.5-pro',
+  flash: 'google/gemini-2.5-flash',
+  'gemini-3': 'google/gemini-3.1-pro',
+  // xAI
   grok: 'xai/grok-3',
-  free: 'nvidia/gpt-oss-120b',
-  mini: 'openai/gpt-5-mini',
+  'grok-4': 'xai/grok-4-0709',
+  'grok-fast': 'xai/grok-4-1-fast-reasoning',
+  // DeepSeek
+  deepseek: 'deepseek/deepseek-chat',
+  r1: 'deepseek/deepseek-reasoner',
+  // Free models
+  free: 'nvidia/nemotron-ultra-253b',
+  nemotron: 'nvidia/nemotron-ultra-253b',
+  'deepseek-free': 'nvidia/deepseek-v3.2',
+  devstral: 'nvidia/devstral-2-123b',
+  'qwen-coder': 'nvidia/qwen3-coder-480b',
+  maverick: 'nvidia/llama-4-maverick',
+  // Minimax
+  minimax: 'minimax/minimax-m2.7',
+  // Others
   glm: 'zai/glm-5',
+  kimi: 'moonshot/kimi-k2.5',
 };
 
 // Model pricing (per 1M tokens) - used for stats
@@ -100,27 +132,68 @@ const MODEL_PRICING: Record<string, { input: number; output: number }> = {
   'blockrun/eco': { input: 0.2, output: 1.0 },
   'blockrun/premium': { input: 3.0, output: 15.0 },
   'blockrun/free': { input: 0, output: 0 },
-  // Individual models
+  // FREE - NVIDIA models
+  'nvidia/gpt-oss-120b': { input: 0, output: 0 },
+  'nvidia/gpt-oss-20b': { input: 0, output: 0 },
+  'nvidia/nemotron-ultra-253b': { input: 0, output: 0 },
+  'nvidia/nemotron-3-super-120b': { input: 0, output: 0 },
+  'nvidia/nemotron-super-49b': { input: 0, output: 0 },
+  'nvidia/deepseek-v3.2': { input: 0, output: 0 },
+  'nvidia/mistral-large-3-675b': { input: 0, output: 0 },
+  'nvidia/qwen3-coder-480b': { input: 0, output: 0 },
+  'nvidia/devstral-2-123b': { input: 0, output: 0 },
+  'nvidia/glm-4.7': { input: 0, output: 0 },
+  'nvidia/llama-4-maverick': { input: 0, output: 0 },
+  // Anthropic
   'anthropic/claude-sonnet-4.6': { input: 3.0, output: 15.0 },
   'anthropic/claude-opus-4.6': { input: 5.0, output: 25.0 },
   'anthropic/claude-haiku-4.5': { input: 1.0, output: 5.0 },
-  'openai/gpt-5.4': { input: 2.5, output: 15.0 },
+  // OpenAI
+  'openai/gpt-5-nano': { input: 0.05, output: 0.4 },
+  'openai/gpt-4.1-nano': { input: 0.1, output: 0.4 },
+  'openai/gpt-4o-mini': { input: 0.15, output: 0.6 },
   'openai/gpt-5-mini': { input: 0.25, output: 2.0 },
-  'google/gemini-2.5-pro': { input: 1.25, output: 10.0 },
+  'openai/gpt-4.1-mini': { input: 0.4, output: 1.6 },
+  'openai/gpt-5.2': { input: 1.75, output: 14.0 },
+  'openai/gpt-5.3': { input: 1.75, output: 14.0 },
+  'openai/gpt-5.3-codex': { input: 1.75, output: 14.0 },
+  'openai/gpt-4.1': { input: 2.0, output: 8.0 },
+  'openai/o3': { input: 2.0, output: 8.0 },
+  'openai/gpt-4o': { input: 2.5, output: 10.0 },
+  'openai/gpt-5.4': { input: 2.5, output: 15.0 },
+  'openai/o1-mini': { input: 1.1, output: 4.4 },
+  'openai/o3-mini': { input: 1.1, output: 4.4 },
+  'openai/o4-mini': { input: 1.1, output: 4.4 },
+  'openai/o1': { input: 15.0, output: 60.0 },
+  'openai/gpt-5.2-pro': { input: 21.0, output: 168.0 },
+  'openai/gpt-5.4-pro': { input: 30.0, output: 180.0 },
+  // Google
+  'google/gemini-2.5-flash-lite': { input: 0.1, output: 0.4 },
   'google/gemini-2.5-flash': { input: 0.3, output: 2.5 },
-  'deepseek/deepseek-chat': { input: 0.28, output: 0.42 },
-  'deepseek/deepseek-reasoner': { input: 0.55, output: 2.19 },
-  'xai/grok-3': { input: 3.0, output: 15.0 },
+  'google/gemini-3-flash-preview': { input: 0.5, output: 3.0 },
+  'google/gemini-2.5-pro': { input: 1.25, output: 10.0 },
+  'google/gemini-3-pro-preview': { input: 2.0, output: 12.0 },
+  'google/gemini-3.1-pro': { input: 2.0, output: 12.0 },
+  // xAI
   'xai/grok-4-fast': { input: 0.2, output: 0.5 },
+  'xai/grok-4-fast-reasoning': { input: 0.2, output: 0.5 },
+  'xai/grok-4-1-fast': { input: 0.2, output: 0.5 },
   'xai/grok-4-1-fast-reasoning': { input: 0.2, output: 0.5 },
-  'nvidia/gpt-oss-120b': { input: 0, output: 0 },
-  'zai/glm-5': { input: 1.0, output: 3.2 },
+  'xai/grok-4-0709': { input: 0.2, output: 1.5 },
+  'xai/grok-3-mini': { input: 0.3, output: 0.5 },
+  'xai/grok-2-vision': { input: 2.0, output: 10.0 },
+  'xai/grok-3': { input: 3.0, output: 15.0 },
+  // DeepSeek
+  'deepseek/deepseek-chat': { input: 0.28, output: 0.42 },
+  'deepseek/deepseek-reasoner': { input: 0.28, output: 0.42 },
+  // Minimax
+  'minimax/minimax-m2.7': { input: 0.3, output: 1.2 },
+  'minimax/minimax-m2.5': { input: 0.3, output: 1.2 },
+  // Others
   'moonshot/kimi-k2.5': { input: 0.6, output: 3.0 },
-  'openai/gpt-5.3-codex': { input: 2.5, output: 10.0 },
-  'openai/o3': { input: 2.0, output: 8.0 },
-  'openai/o4-mini': { input: 1.1, output: 4.4 },
-  'google/gemini-2.5-flash-lite': { input: 0.08, output: 0.3 },
-  'google/gemini-3.1-pro': { input: 1.25, output: 10.0 },
+  'nvidia/kimi-k2.5': { input: 0.55, output: 2.5 },
+  'zai/glm-5': { input: 1.0, output: 3.2 },
+  'zai/glm-5-turbo': { input: 1.2, output: 4.0 },
 };
 
 function estimateCost(
diff --git a/src/router/index.ts b/src/router/index.ts
@@ -19,11 +19,11 @@ export interface RoutingResult {
 const AUTO_TIERS: Record<Tier, { primary: string; fallback: string[] }> = {
   SIMPLE: {
     primary: 'google/gemini-2.5-flash',
-    fallback: ['deepseek/deepseek-chat', 'nvidia/gpt-oss-120b'],
+    fallback: ['deepseek/deepseek-chat', 'nvidia/nemotron-ultra-253b'],
   },
   MEDIUM: {
     primary: 'moonshot/kimi-k2.5',
-    fallback: ['google/gemini-2.5-flash', 'deepseek/deepseek-chat'],
+    fallback: ['google/gemini-2.5-flash', 'minimax/minimax-m2.7'],
   },
   COMPLEX: {
     primary: 'google/gemini-3.1-pro',
@@ -37,20 +37,20 @@ const AUTO_TIERS: Record<Tier, { primary: string; fallback: string[] }> = {
 
 const ECO_TIERS: Record<Tier, { primary: string; fallback: string[] }> = {
   SIMPLE: {
-    primary: 'nvidia/gpt-oss-120b',
-    fallback: ['google/gemini-2.5-flash-lite'],
+    primary: 'nvidia/nemotron-ultra-253b',
+    fallback: ['nvidia/gpt-oss-120b', 'nvidia/deepseek-v3.2'],
   },
   MEDIUM: {
     primary: 'google/gemini-2.5-flash-lite',
-    fallback: ['nvidia/gpt-oss-120b'],
+    fallback: ['nvidia/nemotron-ultra-253b', 'nvidia/qwen3-coder-480b'],
   },
   COMPLEX: {
     primary: 'google/gemini-2.5-flash-lite',
-    fallback: ['deepseek/deepseek-chat'],
+    fallback: ['deepseek/deepseek-chat', 'nvidia/mistral-large-3-675b'],
   },
   REASONING: {
     primary: 'xai/grok-4-1-fast-reasoning',
-    fallback: ['deepseek/deepseek-reasoner'],
+    fallback: ['deepseek/deepseek-reasoner', 'nvidia/nemotron-ultra-253b'],
   },
 };
 
@@ -228,7 +228,7 @@ export function routeRequest(
   // Free profile - always use free model
   if (profile === 'free') {
     return {
-      model: 'nvidia/gpt-oss-120b',
+      model: 'nvidia/nemotron-ultra-253b',
       tier: 'SIMPLE',
       confidence: 1.0,
       signals: ['free-profile'],
@@ -261,22 +261,48 @@ export function routeRequest(
   // Baseline: Claude Opus at $5/$25 per 1M tokens
   const OPUS_COST_PER_1K = 0.015; // rough average
   const modelCosts: Record<string, number> = {
+    // FREE
     'nvidia/gpt-oss-120b': 0,
-    'google/gemini-2.5-flash': 0.001,
+    'nvidia/gpt-oss-20b': 0,
+    'nvidia/nemotron-ultra-253b': 0,
+    'nvidia/nemotron-3-super-120b': 0,
+    'nvidia/nemotron-super-49b': 0,
+    'nvidia/deepseek-v3.2': 0,
+    'nvidia/mistral-large-3-675b': 0,
+    'nvidia/qwen3-coder-480b': 0,
+    'nvidia/devstral-2-123b': 0,
+    'nvidia/glm-4.7': 0,
+    'nvidia/llama-4-maverick': 0,
+    // Budget
+    'openai/gpt-5-nano': 0.0002,
+    'openai/gpt-4.1-nano': 0.0003,
     'google/gemini-2.5-flash-lite': 0.0003,
+    'xai/grok-4-fast': 0.0004,
+    'xai/grok-4-1-fast': 0.0004,
+    'xai/grok-4-1-fast-reasoning': 0.0004,
     'deepseek/deepseek-chat': 0.0004,
-    'deepseek/deepseek-reasoner': 0.003,
-    'moonshot/kimi-k2.5': 0.002,
-    'google/gemini-2.5-pro': 0.006,
-    'google/gemini-3.1-pro': 0.007,
+    'deepseek/deepseek-reasoner': 0.0004,
+    'minimax/minimax-m2.7': 0.0008,
+    'minimax/minimax-m2.5': 0.0008,
+    'google/gemini-2.5-flash': 0.0014,
+    'openai/gpt-5-mini': 0.0011,
+    'moonshot/kimi-k2.5': 0.0018,
+    // Mid-range
     'anthropic/claude-haiku-4.5': 0.003,
+    'zai/glm-5': 0.0021,
+    'openai/o4-mini': 0.0028,
+    'google/gemini-2.5-pro': 0.0056,
+    'openai/gpt-5.3-codex': 0.0079,
+    'openai/gpt-5.2': 0.0079,
+    'openai/gpt-5.3': 0.0079,
+    'openai/gpt-4.1': 0.005,
+    'openai/o3': 0.005,
+    'google/gemini-3.1-pro': 0.007,
+    'openai/gpt-5.4': 0.0088,
+    // Premium
     'anthropic/claude-sonnet-4.6': 0.009,
+    'xai/grok-3': 0.009,
     'anthropic/claude-opus-4.6': 0.015,
-    'openai/gpt-5.3-codex': 0.008,
-    'openai/gpt-5.4': 0.009,
-    'openai/o3': 0.012,
-    'openai/o4-mini': 0.006,
-    'xai/grok-4-1-fast-reasoning': 0.0004,
   };
   const modelCost = modelCosts[model] ?? 0.005;
   const savings = Math.max(0, (OPUS_COST_PER_1K - modelCost) / OPUS_COST_PER_1K);
@@ -306,7 +332,7 @@ export function getFallbackChain(
       tierConfigs = PREMIUM_TIERS;
       break;
     case 'free':
-      return ['nvidia/gpt-oss-120b'];
+      return ['nvidia/nemotron-ultra-253b'];
     default:
       tierConfigs = AUTO_TIERS;
   }

Original file line number	Diff line number	Diff line change
`@@ -1,6 +1,6 @@`
`1`	`1`	`{`
`2`	`2`	`"name": "@blockrun/cc",`
`3`		`- "version": "0.9.2",`
	`3`	`+ "version": "0.9.3",`
`4`	`4`	`"description": "Run Claude Code with any model — no rate limits, no account locks, no phone verification. Pay per use with USDC.",`
`5`	`5`	`"type": "module",`
`6`	`6`	`"bin": {`