【vid-llm】TVHighlights和LTV-HD高光检测

发布时间:2026/7/4 2:36:24
【vid-llm】TVHighlights和LTV-HD高光检测 note提出 TVHighlights​ 数据集和 LTV-HD​ 训练框架。前者利用真实用户的二次创作行为作为“隐式投票”来筛选高光后者通过“弱监督预训练 LLM与轻量模型迭代协作”实现免人工训练。问题问题一关于HPI的套路总结到底学到了什么问题二NLC的标签动态更新会不会矫枉过正问题三实际落地时的成本和效率问题文章目录note一、核心痛点与解决方案二、TVHighlights1、TVHighlights 数据集构建2、LTV-HD 框架机制三、实验结果与结论Reference一、核心痛点与解决方案论文TVHighlights- LLM-Guided Human-Free Collaborative Training for Video Highlight Detection in Movies and TV Dramas痛点电影/电视剧高光检测缺乏真实基准且人工标注成本高、主观性强直接使用大模型LLM标注存在幻觉和不一致推理问题。方案提出TVHighlights数据集和LTV-HD训练框架。前者利用真实用户的二次创作行为作为“隐式投票”来筛选高光后者通过“弱监督预训练 LLM与轻量模型迭代协作”实现免人工训练。这篇论文的核心创新点在于完全摒弃人工标注通过“社区投票”构建数据集并利用大模型与轻量模型的闭环协作实现自我进化。二、TVHighlights1、TVHighlights 数据集构建来源从短视频平台收集约5000个高参与度影视二创视频。训练集社区投票利用视频指纹技术追溯片段来源将重复被使用的片段视为“高光”以此计算投票分数构建了1368个视频的训练集。测试集人工校验采用多人标注取多数票的方式构建353个测试数据并按动作、情感等分为5个语义类别。2、LTV-HD 框架机制该框架训练一个轻量级局部时间关系多模态网络LTRM分为两个阶段第一阶段弱监督预训练利用训练集中的视频级标签通过多示例学习MIL框架让模型初步学会区分高光与非高光。第二阶段迭代协作训练这是论文的核心包含三个组件的循环LLM引导标注LLG由多模态大模型MLLM生成片段描述再由大语言模型LLM结合思维链CoT推断类别并给出高光分数生成细粒度伪标签。噪声标签清洗NLC针对LLM生成的噪声标签设计了一套损失函数组合分类损失、兼容性损失、清晰度损失在训练过程中动态更新和修正标签防止模型拟合噪声。高光模式归纳HPI从模型预测的高置信度片段中反向提炼出结构化的“类别特定高光模式”例如“武侠剧中的激烈打斗”再反馈给LLM以指导下一轮的标注从而持续提升标签质量。相关例子三、实验结果与结论性能表现在TVHighlights数据集上最终模型Stage 2达到了92.74% AUC和71.20% AP显著优于现有的SOTA方法和通用的多模态大模型如Qwen-vl-max、Gemini。抗噪能力在YouTube Highlights的噪声测试中面对极度嘈杂的MTurk标签对比方法UMT性能下降1.54%而LTV-HD仅下降0.32%验证了NLC模块的有效性。跨类别泛化在“情感高潮”等需要细腻理解的复杂场景下LTV-HD的优势尤为明显证明了其从数据中学习多样化模式的能力强于依赖固定语义的方法。Reference[1] TVHighlights- LLM-Guided Human-Free Collaborative Training for Video Highlight Detection in Movies and TV Dramas