InvolutionHell
diff --git a/‎docs/analytics-historical-paths.md‎
Lines changed: 80 additions & 0 deletions b/‎docs/analytics-historical-paths.md‎
Lines changed: 80 additions & 0 deletions
diff --git a/‎docs/migrations/2026-04-22-seed-ia-reorg-doc-paths.sql‎
Lines changed: 69 additions & 0 deletions b/‎docs/migrations/2026-04-22-seed-ia-reorg-doc-paths.sql‎
Lines changed: 69 additions & 0 deletions
diff --git a/‎src/main/java/com/involutionhell/backend/analytics/service/AnalyticsService.java‎
Lines changed: 65 additions & 13 deletions b/‎src/main/java/com/involutionhell/backend/analytics/service/AnalyticsService.java‎
Lines changed: 65 additions & 13 deletions
@@ -0,0 +1,80 @@
+# Analytics · 历史路径匹配（doc_paths）
+
+> 2026-04-22 起，`AnalyticsService.getTopDocs` 用 `doc_paths` 表承载 IA 重组前的历史路径，
+> 不再在 Java 代码里维护硬编码的 `PATH_REWRITES` 前缀表。
+
+## 问题来源
+
+`/rank?tab=hot&window=all` 和 30D 榜单在 2026-04-19 那次 IA 重组之后几乎为空：
+
+```
+commit 6684884  feat(ia): reorganize docs → learn / community / career / projects
+  app/docs/ai/*                      → app/docs/learn/ai/*
+  app/docs/CommunityShare/*          → app/docs/community/*
+  app/docs/jobs/interview-prep/*     → app/docs/career/interview-prep/*
+  app/docs/computer-science/*        → app/docs/learn/cs/*
+  app/docs/all-projects/*            → app/docs/projects/*
+  ...
+```
+
+- `docs.path_current` 由 `frontend/scripts/backfill-contributors.mjs` 刷新，
+  重组后写的是新路径（比如 `app/docs/learn/ai/multimodal/qwenvl/index.mdx`）。
+- GA4 存的是**真实访问发生时**的 `pagePath`。30D / ALL 窗口里绝大多数历史流量
+  用的还是老 URL（`/docs/ai/multimodal/qwenvl`）。
+- `AnalyticsService.queryDocTitles` 本来只从 `docs.path_current` 做 JOIN，
+  所以老 URL 一条都对不上 → 过滤完榜单几乎空。
+
+## 解法
+
+**一句话：让 `doc_paths` 做 URL 别名表，SQL 里 UNION 进来。**
+
+```sql
+SELECT d.title, regexp_replace(regexp_replace(d.path_current, '^app', ''),
+                               '(/index)?\.(mdx|md)$', '') AS normalized
+FROM docs d
+WHERE d.path_current IS NOT NULL
+UNION ALL
+SELECT d.title, regexp_replace(regexp_replace(dp.path, '^app', ''),
+                               '(/index)?\.(mdx|md)$', '') AS normalized
+FROM doc_paths dp JOIN docs d ON d.id = dp.doc_id
+```
+
+`doc_paths` 在重组前后都会被 `backfill-contributors.mjs` 的 `upsertDocPath` 追加
+（只增不删），理论上已经记下了每次的当前路径；但如果 DB 是重组之后才从备份恢复
+/ 迁移过来的（比如 Neon → 自建 PG），老路径就漏了，需要一次性回填。
+
+## 一次性回填脚本
+
+[`backend/docs/migrations/2026-04-22-seed-ia-reorg-doc-paths.sql`](./migrations/2026-04-22-seed-ia-reorg-doc-paths.sql)
+用 CTE + `ROW_NUMBER` 按最长前缀匹配，给每个移动过的 doc 写一条老路径。
+
+执行方式：
+
+```bash
+docker exec -i involution-postgres psql -U neondb_owner -d involution_hell \
+  < backend/docs/migrations/2026-04-22-seed-ia-reorg-doc-paths.sql
+```
+
+幂等的，反复跑安全。
+
+## 下次 IA 重组要做什么
+
+1. 前端像往常一样改 `next.config.mjs` 加前缀 redirect、移动 `app/docs/**` 文件。
+2. 跑一次 `backfill-contributors.mjs`——新路径自动进 `doc_paths`。
+3. **把新一条 `('app/docs/<新前缀>', 'app/docs/<旧前缀>')` 加到新的迁移 SQL
+   并在生产执行一次**，把旧路径补进 `doc_paths`，覆盖重组前的存量流量。
+
+这比之前往 `AnalyticsService.PATH_REWRITES` 硬编码一行然后重新构建部署后端要轻，
+也不必两端同步：前端 redirect + SQL 一次性灌 doc_paths 就够了。
+
+## 已知局限
+
+- **Leetcode 拼音 slug**：`app/docs/career/interview-prep/leetcode/*.md` 的文件名
+  仍是中文（如"平衡二叉树.md"），URL 会被 `lib/source.ts` 转成拼音
+  （`ping-heng-er-cha-shu`）。这种情况下 GA4 拿到的 pagePath（拼音）和 docs
+  表里的 path（中文）本来就对不上，UNION 了 doc_paths 也救不了。
+  修需要单独开 issue：让 `docs` 里多存一个 `public_url` 列，由前端 sync 时把
+  Fumadocs 渲染后的最终 slug 写进去。
+- **点状 redirect**：`next.config.mjs` 里约 34 条单文件 301（swanlab / 若干
+  cpp_backend 重命名）流量都很小，没有对应的 `doc_paths` 回填。需要时手动
+  `INSERT INTO doc_paths (doc_id, path) VALUES (...);`。
@@ -0,0 +1,69 @@
+-- ---------------------------------------------------------------------------
+-- One-off 数据迁移：把 2026-04-19 IA 重组（commit 6684884）之前的旧文件路径
+-- 补齐进 doc_paths，让榜单 / rank 接口在 30D / ALL 窗口能命中 GA4 里的历史 pagePath。
+--
+-- 为什么需要：
+--   scripts/backfill-contributors.mjs 只对"当前文件"做 upsertDocPath，
+--   如果某一轮 backfill 是在 IA 重组之后才跑起来（例如 Neon→自建 PG 迁移后首次跑），
+--   老前缀的 doc_paths 行就丢了，GA4 里残留的 /docs/ai/* 之类 pagePath 就永远 join 不上。
+--
+-- 为什么只覆盖前缀 wildcard，不覆盖 next.config.mjs 里的点状 redirect：
+--   点状 redirect（swanlab / 部分 cpp_backend 重命名）单文件流量很小，漏掉一两条
+--   不影响榜单完整性；前缀型 wildcard 覆盖的老路径才是 30D / ALL 窗口真正的"大头"。
+--
+-- Leetcode 仍有已知局限：
+--   app/docs/career/interview-prep/leetcode/*.md 文件名仍是中文（如"平衡二叉树.md"），
+--   但 URL 会被 lib/source.ts 转成拼音 slug。因此 GA4 命中的 pagePath（拼音）
+--   与 docs.path_current（中文文件名）本就无法直接 join，这是后续独立 issue。
+--
+-- 幂等性：
+--   INSERT ... ON CONFLICT (doc_id, path) DO NOTHING；反复跑安全。
+--
+-- 使用方式（一次性执行，不走 /docker-entrypoint-initdb.d 自动流程）：
+--   docker exec -i involution-postgres psql -U neondb_owner -d involution_hell \
+--     < backend/docs/migrations/2026-04-22-seed-ia-reorg-doc-paths.sql
+--
+--   本地 dev 新拉 docker 起 pg 时不需要跑——docs 表是空的，跑了也是 no-op；
+--   等 scripts/backfill-contributors.mjs 灌完数据再跑即可。
+-- ---------------------------------------------------------------------------
+
+-- 用 ROW_NUMBER 按 new_prefix 长度取最长前缀，避免 /career/interview-prep/leetcode/
+-- 同时被 /career/interview-prep/ 规则命中，多插一条错误的 jobs/interview-prep/leetcode/ 别名。
+WITH ia_reorg_aliases(new_prefix, old_prefix) AS (
+    VALUES
+        -- CommunityShare 拆分到 career / community / learn
+        ('app/docs/career/interview-prep/leetcode/',                  'app/docs/CommunityShare/Leetcode/'),
+        ('app/docs/community/language/',                              'app/docs/CommunityShare/Language/'),
+        ('app/docs/community/life/',                                  'app/docs/CommunityShare/Life/'),
+        ('app/docs/community/mental-health/',                         'app/docs/CommunityShare/MentalHealth/'),
+        ('app/docs/community/dev-tips/',                              'app/docs/CommunityShare/Geek/'),
+        ('app/docs/community/tools/',                                 'app/docs/CommunityShare/Amazing-AI-Tools/'),
+        ('app/docs/learn/ai/reinforcement-learning/',                 'app/docs/CommunityShare/Personal-Study-Notes/Reinforcement-Learning/'),
+        ('app/docs/learn/ai/foundation-models/rag/',                  'app/docs/CommunityShare/RAG/'),
+        -- 顶层目录重命名
+        ('app/docs/projects/',                                        'app/docs/all-projects/'),
+        ('app/docs/learn/ai/',                                        'app/docs/ai/'),
+        ('app/docs/learn/cs/',                                        'app/docs/computer-science/'),
+        -- jobs → career
+        ('app/docs/career/interview-prep/',                           'app/docs/jobs/interview-prep/'),
+        ('app/docs/career/events/',                                   'app/docs/jobs/event-keynote/')
+),
+ranked_matches AS (
+    SELECT d.id                                                      AS doc_id,
+           a.old_prefix || substring(d.path_current FROM length(a.new_prefix) + 1)
+                                                                     AS old_path,
+           ROW_NUMBER() OVER (
+               PARTITION BY d.id
+               ORDER BY length(a.new_prefix) DESC
+           )                                                         AS rn
+    FROM docs d
+    JOIN ia_reorg_aliases a ON d.path_current LIKE a.new_prefix || '%'
+    WHERE d.path_current IS NOT NULL
+)
+-- updated_at 在生产 schema 里是 NOT NULL 但没 DB-level default（Prisma @updatedAt
+-- 是应用层维护，原生 INSERT 不会填），这里显式写 now() 兜底。
+INSERT INTO doc_paths (doc_id, path, created_at, updated_at)
+SELECT doc_id, old_path, now(), now()
+FROM ranked_matches
+WHERE rn = 1
+ON CONFLICT (doc_id, path) DO NOTHING;
@@ -7,6 +7,8 @@
 import org.springframework.jdbc.core.JdbcTemplate;
 import org.springframework.stereotype.Service;
 
+import java.util.ArrayList;
+import java.util.LinkedHashMap;
 import java.util.List;
 import java.util.Map;
 import java.util.stream.Collectors;
@@ -26,49 +28,99 @@ public AnalyticsService(Ga4ReportService ga4ReportService, JdbcTemplate jdbcTemp
 
     @Cacheable(value = "topDocs", key = "#window + '_' + #limit")
     public List<TopDocDto> getTopDocs(String window, int limit) {
-        // 多取一些给过滤留余量：首页、/docs 以外的页面、父目录导航页（docs 表没对应记录）都会被剔掉
+        // GA4 里一篇文章可能拆成 "?utm_source" / 带尾斜杠 / 有 anchor 等多条记录，
+        // 所以拉一点余量再按归一化后的 path 合并，保证榜单里 views 是同一篇的累加值。
         int fetchSize = Math.min(Math.max(limit * 3, 30), 100);
         List<Ga4ReportService.PathCount> pathCounts = ga4ReportService.fetchTopPaths(window, fetchSize);
 
         if (pathCounts.isEmpty()) {
             return List.of();
         }
 
-        List<String> paths = pathCounts.stream().map(Ga4ReportService.PathCount::path).toList();
+        Map<String, Long> mergedViews = new LinkedHashMap<>();
+        for (Ga4ReportService.PathCount pc : pathCounts) {
+            String normalized = normalizePath(pc.path());
+            if (normalized.isEmpty()) continue;
+            mergedViews.merge(normalized, pc.views(), Long::sum);
+        }
 
-        // 批量查 docs 表把 path 映射成标题；没匹配到的视为非文档页，直接剔除
+        List<String> paths = new ArrayList<>(mergedViews.keySet());
         Map<String, String> pathToTitle = queryDocTitles(paths);
 
-        return pathCounts.stream()
-                .filter(pc -> pathToTitle.containsKey(pc.path()))
-                .map(pc -> new TopDocDto(pc.path(), pathToTitle.get(pc.path()), pc.views()))
+        return mergedViews.entrySet().stream()
+                .filter(e -> pathToTitle.containsKey(e.getKey()))
+                .sorted(Map.Entry.<String, Long>comparingByValue().reversed()
+                        .thenComparing(Map.Entry.comparingByKey()))
+                .map(e -> new TopDocDto(e.getKey(), pathToTitle.get(e.getKey()), e.getValue()))
                 .limit(limit)
                 .toList();
     }
 
+    /**
+     * 归一化 GA4 pagePath：只做 query / anchor / 尾斜杠清洗，不再做任何 IA 路径重写。
+     * 历史 IA（比如 2026-04-19 重组前的 /docs/ai/* / /docs/CommunityShare/*）要靠 DB
+     * 里的 doc_paths 行来命中，见 {@link #queryDocTitles}。
+     * 对外暴露为 package-private 便于单元测试。
+     */
+    String normalizePath(String path) {
+        if (path == null || path.isEmpty()) return "";
+        // GA4 可能把 ?utm_source=... / #section 拆成独立 pagePath，拆分后 views 分散到多条
+        int q = path.indexOf('?');
+        if (q >= 0) path = path.substring(0, q);
+        int h = path.indexOf('#');
+        if (h >= 0) path = path.substring(0, h);
+        // 去掉尾部斜杠：docs.path_current / doc_paths.path 正则归一化后都不带尾斜杠
+        if (path.length() > 1 && path.endsWith("/")) {
+            path = path.substring(0, path.length() - 1);
+        }
+        return path;
+    }
+
     /**
      * 查询 docs 表，把 GA4 返回的 pagePath 批量映射成标题。
      *
-     * GA4 pagePath 形如 /docs/ai/multimodal/qwenvl
-     * docs.path_current 形如 app/docs/ai/multimodal/qwenvl/index.mdx 或 app/docs/.../xxx.mdx
-     * 用 PostgreSQL 正则归一化 path_current 为 URL 形式后再匹配。
+     * <p>这里做的事：把 docs.path_current（当前文件路径）和 doc_paths.path（历史文件路径）
+     * 一起纳入候选，用同一套 PostgreSQL 正则去掉 {@code ^app} 前缀与 {@code (/index)?\.(mdx|md)$}
+     * 后缀后与 GA4 的 pagePath 对齐。这样 2026-04-19 IA 重组之前的老 URL
+     * （比如 /docs/ai/multimodal/qwenvl）能通过 doc_paths 命中到当前 docs 行，
+     * 30D / ALL 窗口的历史流量不丢。
      *
-     * 查询失败直接抛 {@link IllegalStateException}，由全局异常处理器返回 500，
+     * <p>前提：{@code doc_paths} 里要有对应的老路径。前端 scripts/backfill-contributors.mjs
+     * 每次跑都会 upsert"当前文件"路径（只增不减），加上
+     * {@code backend/docs/migrations/2026-04-22-seed-ia-reorg-doc-paths.sql} 一次性回填的
+     * IA 重组前前缀别名，两者一起覆盖了绝大部分历史流量。
+     *
+     * <p>GA4 pagePath 形如 {@code /docs/ai/multimodal/qwenvl}；
+     * path_current / doc_paths.path 形如 {@code app/docs/ai/multimodal/qwenvl/index.mdx}
+     * 或 {@code app/docs/.../xxx.mdx}。
+     *
+     * <p>查询失败直接抛 {@link IllegalStateException}，由全局异常处理器返回 500，
      * 不再返回空 Map 导致上层 containsKey 过滤把整个榜单静默清空。
      */
     private Map<String, String> queryDocTitles(List<String> paths) {
         if (paths.isEmpty()) return Map.of();
 
         try {
+            // UNION ALL：同一个 doc 既能被 path_current 命中、也能被 doc_paths 里任一历史
+            // 路径命中；多行会被下面 Collectors.toMap 的 merge 函数收敛成一条（保留任一 title）。
             String sql = """
                     SELECT normalized AS path_current, title
                     FROM (
-                        SELECT title,
+                        SELECT d.title,
+                               regexp_replace(
+                                   regexp_replace(d.path_current, '^app', ''),
+                                   '(/index)?\\.(mdx|md)$', ''
+                               ) AS normalized
+                        FROM docs d
+                        WHERE d.path_current IS NOT NULL
+                        UNION ALL
+                        SELECT d.title,
                                regexp_replace(
-                                   regexp_replace(path_current, '^app', ''),
+                                   regexp_replace(dp.path, '^app', ''),
                                    '(/index)?\\.(mdx|md)$', ''
                                ) AS normalized
-                        FROM docs
+                        FROM doc_paths dp
+                        JOIN docs d ON d.id = dp.doc_id
                     ) t
                     WHERE normalized = ANY(?)
                     """;