专利权人 | 西安电子科技大学 | ||||
专利名称 | 基于关键行为识别的移动端短视频高光时刻剪辑方法 | ||||
专利简介(摘要) | 本发明公开了一种基于关键行为识别的移动端短视频高光时刻剪辑方法,主要解决现有智能剪辑方法存在的高光时刻素材识别不准确、剪辑结果观感生硬、剪辑步骤繁琐的问题。其方案为:1)获取输入的视频和图片素材;2)对输入视频素材构建抽帧序列;3)对抽帧序列进行关键行为检测4)根据检测结果结果分割视频素材;5)对输入的图片素材和4)中分割的非关键行为视频切片进行场景分割;6)对分割后的场景进行高光图像帧筛选;7)对高光图像帧和4)中得到的关键行为视频切片按照时间顺序剪辑,得到高光时刻视频。本发明可准确识别输入剪辑素材中的关键行为和高光帧,剪辑结果观感流畅,剪辑步骤简单,可用于手机、平板、智能相机等移动端设备。 | ||||
专利类型 | 发明专利 | ||||
专利号 | CN202310085888.2 | 申请日 | 2023-2-9 | 有效期限 | 20年 |
技术领域 | 电子信息技术, | ||||
解决的技术问题 | 随着社交媒体的飞速发展和移动设备的大规模普及,拍摄短视频并在社交网络中分享和记录的人数呈爆炸式增长。高光时刻视频以丰富的内容和精妙的剪辑手法在社交媒体中备受欢迎。但对于普通用户而言剪辑并分享生活中的高光时刻门槛极高,其中用户关键行为识别、定位与剪辑过程十分耗时耗力,剪辑效率低,而且人工剪辑的过程容易造成误差,导致剪辑后的高光行为片段不够精准。因此利用人工智能技术对用户拍摄视频中的关键行为片段进行识别和素材推荐,辅助用户轻松剪辑出具有完整关键行为片段的高光时刻,可以显著降低用户剪辑过程中的工作量,增强用户剪辑产品的灵活性和质量。 近年来人工智能技术和计算机视觉技术在短视频智能剪辑领域逐渐开始应用,华为技术有限公司在其申请号为CN202010090350.7的专利申请文献中公开了一种“视频处理方法和视频处理的设备、存储介质”,其实现方案是:第一步:通过计算帧间图像的相似性和时间序列上音频的频率分布,定位可用于视频分割的时间点;第二步:根据分割点将视频分割成多个子视频,并从每个子视频中选择一个关键帧以及一个关键音频节点作为真正的分割点;第三步:通过图像模糊度以及对移动物体的跟踪识别出包含物体的整个运动过程;第四步:对音频片段进行识别,判断当前片段所属的场景,如打电话,交谈等;第五步:根据三四步的结果为用户提供视频主体的独立有意义的视频片段用于用户筛选。该方法由于仅通过画面和音频的清晰度判断素材是否有意义而忽视了画面中最有意义的用户行为,因而不适用于拍摄画面复杂且环境音嘈杂的剪辑素材,且该方法仅能实现对视频素材的分割,其剪辑还需用户手动进行。 腾讯科技(深圳)有限公司在其申请号为CN202110852101.1的专利申请文献中公开了一种“视频剪辑方法、装置、电子设备以及存储介质”。其实现方案是:第一步:对待剪辑视频进行抽帧处理,得到视频帧序列;第二步:识别该视频序列中每一个视频帧的场景类别序列;第三步:基于场景类别序列对原始视频进行切分,得到多个第一视频片段;第四步:按时间顺序拼接多个第一视频片段,以得到该待剪辑视频的视频集锦。该方法由于仅通过场景指标进行剪辑素材的切分,无法突出创作者想表达的视频主题活动,最终导致剪辑结果每个场景中仅包含离散化、碎片化行为片段,视频观感过于生硬,不符合人类审美。 秒影工场(北京)科技有限公司在其申请号为CN202111077438.6的专利申请文献中公开了一种“基于模板拍摄和自动剪辑的短视频制作方法及装置”。其实现方案是:第一步:在后台为待拍摄目标设置拍摄模板和剪辑规则;第二步:用户使用APP根据拍摄模板将视频的每个关键行为片段拍摄完成;第三步:将所拍摄片段编号后上传到智能剪辑云平台,智能剪辑云平台根据所述剪辑规则识别每个拍摄片段中的关键行为并设置转场;第四步:以剪辑顺序完成短视频剪辑并发回给用户。该方法由于用户必须按照固定的剪辑模板进行拍摄指定动作,因而用户创作空间较小、完全受制于剪辑模板,整个剪辑步骤繁琐,无法捕捉生活中转瞬即逝的高光时刻。 | ||||
发明内容 | 本发明的目的在于针对上述现有技术的不足,提出一种基于关键行为识别的移动端短视频高光时刻剪辑方法,以解决用户在移动端短视频剪辑过程中存在的高光时刻素材识别不准确、剪辑结果观感生硬、剪辑步骤繁琐的问题。 为实现上述目的,本发明的技术方案包括如下: (1)对用户筛选的图像帧和视频剪辑素材按照拍摄时间进行排序,并对用户输入的视频素材进行抽帧,得到多个视频素材的抽帧序列; (2)从多个视频素材的抽帧序列中获取细粒度的关键行为标签; (2a)从公开网站中下载现有的四个深度学习模型,即训练好的目标检测模型、目标追踪模型、姿态估计模型、骨骼行为识别模型; (2b)将步骤(1)中获得的每个视频素材的抽帧序列逐帧输入到现有的目标检测模型,输出画面中每个人物的最小外接矩形框坐标数据,作为人物Bounding Box坐标数据; (2c)将人物Bounding Box坐标数据输入到现有训练好的目标追踪模型中,输出每个人物在整个视频素材序列上的连续唯一ID标识符,即对输入的视频素材进行行人重识别; (2c)将连续多帧检测到的人物Bounding Box坐标数据输入到现有训练好的的姿态估计模型,输出每个人物Bounding Box坐标数据对应的人体骨骼关键点坐标序列数据; (2d)将连续多帧的人体骨骼关键点坐标序列数据输入现有训练好的的骨骼行为识别模型,按照每个人物的唯一ID标识符依次输出关键行为的检测结果; (2e)对上述输出的人物Bounding Box坐标数据、每个人物的连续唯一ID标识符、人体骨骼关键点坐标序列数据以及关键行为的检测结果进行合并,输出关键行为的起始和结束时间戳、关键行为的类别、关键行为发生的画面区域信息,构成一个细粒度的关键行为标签; (3)基于输出的细粒度关键行为标签信息,对原始视频自动进行剪辑分割,切分并输出包含完整关键行为的视频切片素材以及不包含关键行为的视频切片素材; (4)对用户筛选的图像帧素材及步骤(3)得到的不包含关键行为的视频切片素材按照拍摄时间戳排序,并对排序后的图像帧和视频素材依次进行场景分割和高光帧检测,将相邻时间的场景序列帧进行合并,输出每个场景下的高光帧图像帧素材; (5)将步骤(3)得到的包含完整关键行为的视频切片素材和步骤(4)得到的每个场景下的高光帧图像帧素材,按照时间顺序进行排序、剪辑,输出高光时刻视频。 | ||||
技术效果 | 1.高光时刻素材识别精度高 本发明由于引入了目标检测、目标追踪、姿态估计、骨骼行为识别四种深度学习算法,充分利用了时间序列上的视频帧信息,获取用户输入视频、图片素材中关键行为的起始和结束时间戳、关键行为的类别、关键行为发生的画面区域信息及高光图片帧,相较于现有智能剪辑技术仅通过单帧的图片信息进行高光时刻识别的方法,提高了高光时刻素材识别的准确性; 2.剪辑结果呈连续性、观感顺畅 本发明将用户输入图片和视频素材的拍摄时间作为高光时刻剪辑的重要依据,结合四种深度学习模型输出的细粒度预测标签,对相同标签的关键行为素材切片和高光图像帧进行时间序列上的合并,相较于现有离散化、碎片化的剪辑方法,保证了剪辑结果的连续性; 3.剪辑步骤简单,不受限于固定的剪辑模板 本发明通过引入目标检测、目标追踪两个算法,可以对用户随手拍摄的图片和视频素材中的任意个体进行关键行为检测,并基于检测到的每个个体的关键行为素材切片进行自动剪辑,相较于现有基于剪辑模板的方法,剪辑步骤简单易上手,且用户创作不受制于固定的剪辑模板。 | ||||
专利交易方式 | 转让 | ||||
预计交易额 | 9万元 | ||||
联系人 | 王老师 | 电话 | 029-88382398 | ||
邮箱 | |||||
备 注 |