)
把框架尚未验证的下一步做成可证伪实验在同等总算力下训练中途改变分词器课程式 / 域漂移自适应能否击败固定分词器一、实验设计关键消除 embedding 手术所有条件用同一 V_MAX6001 的 embedding8.36M 参数FRSMASH v3.64 层。改变分词器 改变哪些 token ID 出现在数据里靠新增的restrict_to(merge_indices)保持 master ID 一致实现——换阶段时 embedding 行不错位、无需手术。这是对动态分词最干净的可实现近似。TEST 1静态数据英文 18M 字符1000 步。固定 500/1500/full vs课程500→1500→3000→full各 250 步。TEST 2域漂移 A→BA前 10M 字符前几本书B后 6M不同书600 步 A 400 步 B。frozen1500 merges 贯穿 A→B为 A 定大小、冻进 Boraclefull merges 贯穿上界一开始就见 B 词表dynamicA 阶段用 1500在 A→B 边界扩到 full适应 B公平双轴BPCbits/char分词器无关作公共度量。二、结果lower betterTEST 1静态数据1000 步条件final BPCstatic_full1.7731static_1500 (V*)1.8013static_5001.8138curriculum1.8569最差TEST 2A→B 漂移最终 B 集 BPC条件final B-val BPCoracle1.8093frozen1.8468dynamic1.9085最差三、裁决❌ 命题 P10“动态/联合分词 固定分词”—— 在本规模被证伪TEST 1课程式扩词表是最差1.857 全部固定。把 1000 步预算劈成 4 段、每段换一套分词模型在每次切换都要重学新分词不如一开始就用最终分词训满。TEST 2在 A→B 边界切换分词器反而比冻结更差dynamic 1.909 frozen 1.847。切换瞬间新增的 ~4500 个 embedding 行是随机初始化、从未训练模型得用 B 阶段的 400 步去现学它们——切换扰动 适应收益。两种情况下都是oracle一开始就选对词表、贯穿训练最优。机理分词器切换是一次离散扰动其重学成本在本规模8M/1000步压过了任何适应性好处。框架设想的收益需要这些扰动不存在或可微才可能显现。四、边界与未排除的可能性诚实保留本结果证伪的是最简形态的动态分词中途硬切词表。框架更强的形态未被检验仍可能成立可微/软分词Gumbel、VQ-VAE 直通估计消除离散切换扰动——本实验未实现。更平滑的渐进式 merge 添加每 N 步加几个而非一次性扩到 full可能降低扰动。更强的分布漂移英→代码、英→中本实验的 A/B 是同为 Gutenberg 的不同书漂移温和B 需要新词表的压力小动态的潜在收益本就有限。强漂移下动态或可翻盘。更大规模 / 更长训练8M/1000 步欠训练重学成本占比偏高大模型或能吸收切换扰动。五、对 LLM 实践的结论当下结论可直接用别在中途换分词器。预训前用 α≈1 定好词表、贯穿全程是目前可证最优的策略oracle 总赢。动态分词器作为工程实践暂无可证收益。对框架的意义这是对原理论的第四次硬修正——前三次分形维 D 失效、MDL 最小≠临界、双轴权衡下调了临界最优本次直接证伪了动态优于静态的最简形态。框架要 salvage 动态分词必须证明可微/渐进版本能避免切换扰动——那是下一步如果要做的明确技术目标而非再讲一遍叙事。复现# F:\rwkv\.venv: python dyn_experiment.py # ~7 条件, ~5 分钟 # Python3.14: python analyze_dyn.py # 出 dyn_results.png输出dyn_runs/log_*.json、summary.json、dyn_results.png。