SPR:语义前缀路由研究档案
这是什么
SPR(Semantic Prefix Routing,语义前缀路由)是一组研究实验,目标是回答一个问题:
能不能用“路径”替代 Transformer 里的一部分稠密矩阵搜索?
开放实验记录在 GitHub:
https://github.com/houming818/sametime
其中 ara/ 是公开版 ARA 研究记录,保留 logic、trace、轻量 evidence summary 和可公开脚本,方便人类和 AI 一起复盘这条路线。
这里的“路径”不是比喻。它指的是一个 token、短语或句子在递归树、折叠栈或结构图中走过的可计算轨迹。路径可以被组合、比较、压缩,也可以作为下游生成或结构判断的输入。
这套研究现在按 ARA(Architecture / Reasoning / Artifact)方式整理:每个结论都要有证据,每个强 claim 都要有反证标准。
当前结论
SPR 目前不能简单写成“路径即语义”。更准确的判断是:
| 层 | 名称 | 当前状态 |
|---|---|---|
| S1a | Token Path Hash | 已成立:高容量、低碰撞、顺序可分 |
| S1b | Context-conditioned Routing | 受控 proof 已支持:仍需真实语料和基线战 |
| S2 | Fold Stack / Structure Routing | 有证据:语义能预测部分结构动作,但仍需基线对照 |
最重要的变化是:Echo Test 不再被当作语义证明。
Echo 证明系统能把输入还原出来。它证明容量和稳定性,但不证明系统理解了上下文里的含义。
推荐阅读顺序
-
问题定义:为什么要研究路径路由
解释 SPR 想替代什么、不替代什么。 -
S1 实验:Echo、顺序哈希与容量证据
重做 S1 实验,确认哪些结果可靠。 -
S1 反证:token-only 路由不是语义路由
用多义词实验说明当前 S1 的边界。 -
架构决策:把 SPR 拆成三层
给出新的架构划分和接口。 -
S2 结构路线:Fold Stack 的位置
解释 S2 为什么不是 Echo 的延长线,而是结构生成路线。 -
下一轮实验计划
列出下一步怎么让路径真正吃上下文。 -
S1b proof:上下文条件路由到底证明了什么
用受控 proof 审计历史结论,明确哪些说法可以保留,哪些必须降级。 -
S2 策略审计:TreeHeap、Role Slots 和概率容器
用 ARA 方式解释 S2 实验数据,说明为什么下一步转向 Role Slots 和 Probability Container。 -
世界模型与参考系:TreeHeap 术语统一 统一世界模型、参与乘积、参考系、latent slot 和概率容器术语,为下一步 predict 做准备。
-
世界模型守夜训练:新 checkpoint 给了什么证据 用 ARA 方式记录 10 小时新 checkpoint 训练,明确它证明了什么、没有证明什么。
-
TreeHeap 代数:先做数学闭包,再谈语言推理 把 TreeHeap 从乘法层推进成代数系统,定义闭包、转置、逆树堆、投影和能量。
-
子堆核搜索:TreeHeap 里的卷积式推理 把矩阵卷积里的局部核匹配,改写成 TreeHeap 上的 SubHeap Kernel Search,用来讨论拓扑搜索和局部推理操作。
-
M0 纯数学实验:先让 TreeHeap 成为工具箱 记录第一轮合成 toy 实验,说明为什么先验证闭包、非交换、逆操作和子堆核匹配,再进入 Echo 和 S2。
-
基元与 plus:TreeHeap 有序性的来源 把卷积问题继续下压到基元、plus、ordered orbit 和 mod base,说明为什么先找语义空间里的“1”和“+”。
-
primitive plus 实验:把 proof 变成可测的 TreeHeap toy 用本科数学口径解释 P-MATH02 实验:arr[0]、plus、mod base、信息量增长、循环窗口和 kernel 匹配。
证据入口
对应的 ARA 文件在仓库中:
ara/s1-echo/logic/claims.md
ara/s1-echo/logic/experiments.md
ara/s1-echo/trace/research_dag.yaml
ara/s1-echo/evidence/README.md
关键脚本:
holds/SameTime/experiments/spr_s1_reproduce.py
holds/SameTime/experiments/spr_s1_falsification.py
holds/SameTime/experiments/spr_context_proof.py
s2_strategy_audit.py
s2_overnight_io.py
关键复现实验结果:
collision=True
sign_alt=True
solo=41311/41429
bleu4=99.99
token_polysemy=0.43
keyword_polysemy=1.00
context_route=1.00
context_route_shuffled=0.48
这组结果的含义是:
collision=True:pure roll 确实有顺序碰撞。sign_alt=True:roll + sign_alt修复了这个碰撞。solo=41311/41429:路径空间足够大,几乎每个 token 独占组合叶。bleu4=99.99:Echo 近乎完美。token_polysemy=0.43:token-only route 不能区分多义上下文。keyword_polysemy=1.00:这个多义词任务本身不是不可解,只是 S1 当前没吃上下文。context_route=1.00:受控上下文信号进入 route 后,同词多义可以被路径分开。context_route_shuffled=0.48:打乱标签后优势消失,说明 proof 没有只靠标签分布取巧。
阅读提醒
旧版 SPR 文章是实验史,曾经混合了探索、猜想和阶段性判断。新版专题只保留当前架构上仍然成立的叙事,并把过强结论降级为待验证假说。
License: GPLv3
-
[SPR-001] 问题定义:为什么要研究路径路由
SPR 的问题定义:路径路由要解决什么问题,以及它不应该被误解成什么。 -
[SPR-002] S1 实验:Echo、顺序哈希与容量证据
SPR S1 中已经成立的部分:顺序哈希修复、分解路由容量、Echo 复现。 -
[SPR-003] S1 反证:token-only 路由不是语义路由
用多义词实验反证当前 S1 token-only 路由的语义 claim。 -
[SPR-004] 架构决策:把 SPR 拆成三层
SPR 的新架构划分:S1a Token Path Hash、S1b Context Routing、S2 Fold Stack。 -
[SPR-005] S2 结构路线:Fold Stack 的位置
S2 Fold Stack 在 SPR 中的位置:从语义向量到结构动作,而不是 Echo 的重复。 -
[SPR-006] 下一轮实验:从 proof 走向真实基线战
SPR 下一轮实验计划:把受控 context proof 放进真实语料、随机哈希和 BoW 基线战。 -
[SPR-007] S1b proof:上下文条件路由到底证明了什么
重写 SPR 历史结论:context-conditioned route 在受控 proof 中成立,但它不是完整语义路由证明。 -
[SPR-008] S2 策略审计:TreeHeap、Role Slots 和概率容器
用 ARA 方式解释 S2 实验:当前 TreeHeap checkpoint 支撑什么、不支撑什么,以及下一步为什么转向 Role Slots 和 Probability Container。 -
[SPR-009] 世界模型与参考系:TreeHeap 术语统一
统一 TreeHeap 的世界模型、参与乘积、参考系、latent slot 和概率容器术语,为后续 ARA predict 做准备。 -
[SPR-010] 世界模型守夜训练:新 checkpoint 给了什么证据
用 ARA 方式记录一次 10 小时 TreeHeap world-model 守夜训练:它证明了什么,没有证明什么,下一步 predict 应该怎么改。 -
[SPR-011] TreeHeap 代数:先做数学闭包,再谈语言推理
把 TreeHeap 从一个乘法向量层推进成代数系统:定义闭包、转置、逆树堆、投影、能量和概率容器。 -
[SPR-012] 子堆核搜索:TreeHeap 里的卷积式推理
把矩阵卷积里的局部核匹配,改写成 TreeHeap 的 SubHeap Kernel Search:一种拓扑搜索和局部推理操作。 -
[SPR-013] M0 纯数学实验:先让 TreeHeap 成为工具箱
记录第一轮 M0 TreeHeap Math toy 实验:为什么先不做 WMT,怎么验证闭包、非交换、逆操作、投影和子堆核匹配。 -
[SPR-014] 基元与 plus:TreeHeap 有序性的来源
把 TreeHeap 的卷积问题继续下压:先寻找语义空间里的基元、plus 算子和由 plus 生成的有序性。 -
[SPR-015] primitive plus 实验:把 proof 变成可测的 TreeHeap toy
用中国大陆本科数学口径解释 primitive_plus_probe:arr[0]、plus、mod base、信息量增长、循环窗口和 kernel 匹配。 -
[SPR-016] Trainability Quiz:TreeHeap 进入可学习系统之前的三道小题
解释为什么在 WMT 之前先做线性回归、XOR、模加法三道 toy 训练题,以及这次实验怎样支撑 TreeHeap encoder/plus/decoder 的下一步设计。 -
[SPR-017] TreeHeap 的存在性证明:结构闭包、子结构搜索和前缀压缩
把 TreeHeap 和 Transformer 的差异落到三组可执行实验:结构闭包、子结构 kernel 搜索、前缀压缩与延迟坍缩。