临界分词 LLM 验证报告(命题 8/9)— 英文 + 中文对照

发布时间:2026/7/6 4:50:51
临界分词 LLM 验证报告(命题 8/9)— 英文 + 中文对照 把 n-gram 阶段无法检验的命题放到真 LLM上跑FRSMASH v3.6SSM线性注意力fla 加速在 RTX 4090 上训练英文 中文双语对照。一、实验设置双语一致项值模型FRSMASH v3.6多槽 F-layer SlowMemory GLA recallO(T)规模~8M 参数4 层按词表微调 hidden 把总参数拉平到 7-9M训练每组同样 1000 步等算力/等 tokenseq512batch32AdamW 5e-4cosinebf16指标valBPC 验证交叉熵(bits) / chars-per-token英文Gutenberg 18M 训练字符分词器 char/bpe500/bpe1500(V*,α≈1)/bpe3000/bpe6000α 扫 0.91→1.09中文minimind 18M 训练字符分词器 byte/char(α≈1)/bpe8000/bpe10000/bpe12000char 为 α 内点二、英文结果BPE 家族V*bpe1500 内点αcpt等算力 BPC等信息BPC15M字char0.941.001.91471.9252bpe5000.911.751.79631.9337bpe15001.002.001.78331.9390bpe30001.062.121.77171.9509bpe60001.092.221.79651.9717等算力浅 U最优 α≈1.06char 最差但看的字符最少。等信息排序反转越细越省。BPE 家族挤在 1.77-1.80跨度仅 1.4%。三、中文结果char 为 α≈1 内点两侧均 1αcpt等算力 BPC等信息BPC15M字byte0.710.375.94395.9439*char1.051.004.77334.8029bpe80000.861.504.87455.1088bpe100000.871.584.88595.1610bpe120000.881.634.88495.1543* byte 在 1000 步内仅看到 6.1M 字cpt0.37到不了 15M。中文charα≈1在两个轴上都是最优胜过更粗的 BPE4.77 vs 4.87-4.89和 byte4.77 vs 5.94。与英文相反。四、命题裁决双语综合 命题8“临界分词省 15-20% bits”—部分支持语言依赖英文BPE 家族 α∈[0.91,1.09] 仅差 1.4%α≈1 是宽平台非尖锐最优char→BPE 改善 ~7.5%。中文临界单位 charα≈1两轴全胜char→byte 改善~24%落在声称区间char→bpe 改善 ~2.3%。综合临界/自然单位始终接近最优中文里是清晰最优。声称的 15-20% 只在极端对照byte vs char下成立同族 BPE 内部差很小。 命题9“Grokking 加速”—弱信号中文可见英文5 组曲线平行下降无提前拐点。中文char 达 BPC5.0 只需 ~9.8M 字符bpe8000 需 ~17M 字符——临界分词器每字符收敛更快弱 Grokking 信号。 关键方法学发现两语一致分词器最优是算力-信息双轴权衡等算力等 token→ 粗分词器多看字符占优英文。等信息等字符→ 细分词器每字符多走步占优英文。α≈1 恰是两轴的平衡点——这给为什么实践中 BPE~数k词表好用一个可操作的解释比临界最优叙事更准。中文是例外汉字本身既是 α≈1 又是语义原子单位故 char 双轴通吃——印证临界单位 语言内禀构词单元。五、与 n-gram 阶段的一致性n-gram 阶段结论“临界点是压缩拐点处的宽平台非 MDL 绝对最小。”LLM 阶段独立印证并细化α≈1 是稳健的好区域两语一致✅是否尖锐最优语言依赖中文是char 双轴最优英文否宽平台⚠️“15-20%/Grokking” 作为普适强效应不成立但在极端对照byte↔char和中文样本效率上可见方向性信号。六、结论两次实验n-gram 双语 LLM把原框架从临界尖锐最优三度下调为可操作的结论✅α≈1 是稳健的好分词区域落在他语言的内禀构词单元上英子词中字。⚠️非尖锐最优英文是宽平台中文是清晰最优——语言依赖。新洞见分词器最优性是算力-信息双轴权衡α≈1 是平衡点。这比临界最优更准、更可指导实践。复现# F:\rwkv\.venv (torchfla): python build_caches.py en ; python train_compare.py en # 英文 python build_caches.py cn ; python train_compare.py cn # 中文 python -c import train_compare as T; ... # 补 bpe10000 (见日志) # Python3.14 (有 matplotlib): python analyze.py en ; python analyze.py cn输出runs_{en,cn}/bpc_curves_*.png、bpc_vs_alpha_*.png、log_*.json、finals.json。