从视频摘要实时视频总结智能城市和超越:一项调查
- 科技大学计算机科学与工程系,德里,印度新德里
大规模扩张的视频在互联网上,搜索数以百万计的他们变得相当具有挑战性。智能手机、录音设备和文件共享都是方法的例子捕获大量的实时视频。在智能城市,有许多监控摄像头,它创造了一个海量视频数据的索引、检索和管理是一个困难的问题。探索这样的结果需要时间和降低了用户体验。在这种情况下,视频摘要是非常有用的。视频摘要允许有效的存储、检索和浏览大量的信息从视频不牺牲主要特点。本文介绍了视频摘要的分类和分析方法,重点是实时视频摘要(旅游房车)域技术,可以用来总结视频。目前的研究将有助于整合快速参考的重要研究成果和数据,奠定了预赛,并调查未来的研究方向。各种实际用途,包括异常检测在视频监控系统中,已成功应用在智能城市的视频摘要。
1。介绍
分析视频内容中提取有价值的或有趣的信息是件费时费力的苦事。许多视频上传到YouTube, IMDB、旅游网站,Flickr,和其他视频分享网站的每一分钟。每一分钟,300 h的视频发布到YouTube频道,每天约十亿小时的视频观看(你管统计,无日期)。千禧年的摄像机安装在智能城市包括公共空间,公共交通,银行,机场,和其他地方,导致大量的实时数据,很难分析。将会有成百上千的建议为每个搜索主题;浏览这些冗长的视频发现必要的视频需要时间,也难以有效地获得这么多数据在很短的时间。
其次,由于大量的视频,用户必须依靠元数据,比如标题、图片、描述和评论来定位他们想看到的视频。这种元数据,也不是一个值得信赖的预测附带视频的语义内容,留给消费者别无选择,只能浏览它的大意。为了解决这些问题,构造一个视频工作正在进行总结,总结了整个视频在短时间内。视频包括一系列的视频帧。如果一个视频摘要记得,精度高,和较低的冗余度,它被认为是好的(女子和博,2021)。每一帧视频播放时,提出了一个特定的顺序和在一个特定的帧速率。根据思科视觉网络指数发布2020年3月,视频和其他应用程序仍在高需求在智能城市,但是未来的应用需求将导致大带宽的要求,甚至超出了预测的2023年。视频摘要技术迅速探索大型视频的集合,以及更有效地索引和访问内容。生成的视频摘要可能取决于应用程序,和相同的视频可能有多个总结根据用户或应用程序域的需求(Senthil基于et al ., 2018)。视频摘要的概念是让探索海量的视频数据更快和更高效,实现高效的访问以及表示视频内容(李et al ., 2003)。
根据视频数据访问、处理可以压缩和未压缩域。的某些特征,传统的视频编码器都包含在压缩域的方法。一个未压缩的总结,另一方面,利用帧中所有的信息(Iparraguirre Delrieux, 2014)。
1.1。需要总结
智能城市面临各种复杂的挑战从管理交通网络保护人们提高应急响应时间。智能相机视频数据提供了丰富的、基于时间的记录的城市环境,但其数量庞大和复杂性使它具有挑战性的分析和使用。有必要为智能城市提供快速、准确的信息来提高效率和生活质量。数字视频的数据量急剧扩大,近年来由于越来越多使用多媒体应用领域如教育、娱乐、商业、和医学Ajmal et al ., 2012)。智能视频几乎可以在实时收集丰富的数据,这些数据也可以很大,传输和存储成本,劳动力,和长时间的分析。其次,这个任务远比分析更为复杂的文本文档,因为视频的多通道特性,它发送一个广泛的语义在不同的格式,包括声音、音乐、静态图像,移动图像和文本(克里斯汀娜2004)。庞大的视频数据必须正确和有效地管理这些巨大的录音的可用性最大化。因此,视频摘要是一个重要的和迅速扩张的研究领域。用户可以更有效地管理,探索大型视频的帮助下一个视频摘要(优思明et al ., 2021)。本研究旨在确定和建立视频被发现在文献中总结方法,特别强调实时视频摘要。“实时”这个词指的是数量的时间总结视频小于原始视频的持续时间。旅游房车艾滋病的索引和检索视频从一个图书馆。它也能帮助消费者在决定是否要查看完整视频(Bhaumik et al ., 2017)。
1.2。挑战
由于计算复杂度,创造一个良好的实时视频摘要,同时保留主观质量是很困难的。总的来说,视频摘要带来了一些困难。其中一些如下:
1)视频摘要的最具挑战性的部分之一是主体性;因为不同的注释器可能有不同的观点,不同的人可以选择不同的重要的照片相同的视频(大谷et al ., 2017)。他们很难达成相关的,什么不是。
2)相机造成的抖动影响佩戴者的运动,更难以概括。用例智能城市包括复杂的交通监测、法律停车管理、速度检测。额外的生活实录视频摘要包括精确的特征跟踪问题,均匀采样,大数据流非常狭窄的限制(马赫什•Kini和Pai 2019)。
3)收集总结标签需要时间,和一个小数据集将是不够的。因为可用的数据集只包含特定类型的视频,这个模型上执行不佳视频另一个类别去了。为了解决这一问题,我们可以使用无监督,semi-supervised或多任务学习。计算硬件和开发复杂性是众所周知的问题(Del Molino et al ., 2017)。
4)快速发展的物联网,并迅速取代传统传感在现有的系统。视觉传感器在物联网最近受欢迎由于其在智能城市和工业广泛使用各种各样的应用程序,包括安全。各种机制可以提供行业分析观察人员的异常活动和生成警报(侯赛因et al ., 2020)。
5)深层神经网络,训练需要大量的标记数据,用于现代视频总结方法。现有数据集视频总结,另一方面,是小规模,使得容易overfit深度模型。
剩下的纸遵循结构;第二节介绍了视频摘要及其类型。旅游房车的范围和方法是在第3节描述。第四部分介绍了系统的实时视频总结回顾。第五节是著名的旅游房车。下一小节将包括一个结束语和参考文献。
2。视频摘要
视频数据是当今最生成的数据。一群代表视频帧(如视频关键帧)或视频片段(例如,视频key-fragments)缝在进步的序列来生成一个短视频通常用于创建概要。视频摘要的目的是提供一个概述的内容,突出了视频最有益的和相关的元素。
2.1。视频摘要的步骤
确定哪些部分要删除的视频,视频摘要算法必须依靠视频内容。有三个主要步骤来视频摘要(马赫什•Kini和Pai 2019),在图1。第一步是检查视频数据以确定最重要的功能,结构,或在组件的视觉流程,音频和文本(如果存在)音频和文本组件。第二步是选择相关帧代表视频的内容,第三步是输出合成,包括装配到原始视频帧/照片。
2.2。视频摘要技术
相关的标准框架选择(分数预测和关键帧选择)为不同的用户和应用程序域可能有所不同,总体框架的视频总结不会对每个人都有效。有很多视频摘要方法表示表1。
2.2.1。总结的基础
总结基于视频摘要可以进一步分为静态、动态的、层次、多视点图像和文本摘要(De Avila et al ., 2011)。
2.2.1.1。静态的总结也被称为知识或故事板演示。这是一个从真实的视频关键帧的蒙太奇。一个静态摘要更适合用于索引、浏览和检索(Cahuina查韦斯,2013)。评估静态视频摘要De Avila et al。(2011)使用双柳深度学习架构,结合k - means聚类算法与颜色信息收集从视频帧。
2.2.1.2。动态汇总也被称为视频浏览。短的动态部分(视频丢弃)或音频和选择最相关的视频截图。视频浏览技术的目标是选择图片或场景完整视频并编译成一个相关的总结。钟et al。(2019)提供一种新颖的动态视频摘要方法。
在静态摘要,运动组件。然而,技术使视频存储和检索方便,尤其是在大型的视频资料库。故事板布局缺乏音频信号和可能缺乏连续性,但他们是有效的计算时间和内存。
2.2.1.3。层次的总结代表一个可伸缩的、多层次的总结。它有若干个不同的抽象层次上,有最少的关键帧的最高水平和拥有最的最低水平。V-unit (任和江,2009年)拍摄视频检测用于结构层次模型后删除垃圾帧。
2.2.1.4。MVS(多视图的总结)同时考虑多个观点并创建一个代表的总结。智能IIoT-based架构的嵌入式视觉检测怀疑的文章,和交换交通量统计数据提出的作者(侯赛因et al ., 2021)。
2.2.1.5。形象的总结一个图像或图像的集合通常用于这种类型的总结。图像作为剧情简介而不是帧或拍摄。作者(Trieu et al ., 2020)提供了一个范例,比起幅图片图像字幕的基于变压器架构扩展到多映像字幕。
2.2.1.6。文本摘要这些都是只包含一个段落长度的文本摘要的总结视频序列。它创建利用自然语言处理(NLP)技术,不包括任何声音或视觉描述。文本摘要划算的存储和计算,但他们无法沟通的所有信息,因为他们缺乏音频和视频序列的可视化组件。
2.2.2。基于偏好
它大致分为5类上市视频摘要是特定领域,基于查询,基于语义的,基于事件和特点。
2.2.2.1。特定领域的Kaushal et al。(2019)提供一个总结基于相关领域,以及其他的域功能,如代表性,保险,和多样性,对于一个给定的视频领域。
2.2.2.2。Query-focused旨在创建一个多元化选择的视频帧或片段的连接查询和包含原始的视频数据。而定制的视频摘要者似乎是一个有前途的方向(Sharghi et al ., 2017)。它可以分为两类(肖et al ., 2020):(1)通用的,(2)Query-focused。
在通用的视频摘要的情况下,当大量场景转换发生在一个视频,一个广泛的总结是由选择关键帧。提取的关键帧是当一个框架的集群数量的变化。视频中提取使用的可视化组件pre-trained卷积神经网络(CNN),然后使用k - means聚,顺序keyframe-generating过程。
2.2.2.3。基于语义这些摘要的生成是基于视频的内容,大多是基于对象,行动,活动和事件,基于专业领域的高水平的解释(Phadikar et al ., 2018;江et al ., 2019)。
2.2.2.4。基于事件的目标是开发和维护简洁连贯的总结,描述一个事件的当前状态。基于事件的视频摘要优先监控录像的关键框架总结总结。许多不同的应用程序使用智能视频监控系统来跟踪事件和行为活动分析(Chauhan Vegad, 2022)。
2.2.2.5。基于特征:运动、颜色、动态内容、姿态、音像、语音记录,使用对象,和其他因素对基于功能的视频摘要技术进行分类。Apostolidis et al。(2021)在使用deep-learning-based视频摘要和相关文献覆盖协议方面总结评估。
2.2.3。域的基础
它可以分为像素和压缩。
2.2.3.1。像素域视频摘要是通过收集信息从一个视频帧的像素总结。在大多数应用程序中,一个视频压缩和解码的视频总结需要大量的时间和空间。
2.2.3.2。压缩域视频摘要包括从压缩视频中提取特征通过部分解码,这解决了这个问题。范et al。(2018)设计了一种压缩方法拍摄的最重要的活动为一个关键帧压缩在压缩域视频流。它可以提供一个简短的和多彩的视频信息的摘要。原来的镜头是由许多关键帧创建从一个丰富的每一个镜头的关键帧。Phadikar et al。(2018)提出了一种DCT(离散余弦变换)压缩域图像检索方案。创建一个特性集使用边缘直方图,颜色直方图和时刻。最好的特征向量是然后使用遗传算法构造。
2.2.4。信息来源的基础
它进一步分为内部、外部或混合动力车。视频在视频生命周期的不同阶段,总结算法评估一系列的信息来源来抽象与视频流的内容相关联的语义,然后提取各种视听线索。基于他们检查的信息来源,各种方法在文献中报道可以分为三组(金钱和Agius, 2008):
2.2.4.1内部:检查内部数据生成从视频流中提取视频中生命周期的生产步骤。这些方法从视频流中提取符号学的形象,在低级音频和文本数据中使用的视频摘要。
2.2.4.2外部:查看数据,不是马上从视频流生成,使用外部总结方法。外部信息可分为两种类型:上下文(不是直接从用户的角度)和基于用户信息(来自用户的直接输入)。对上下文侯赛因et al。(2019)提出了一个视频图,用于模拟人类活动的长期时间结构。内部的语义鸿沟总结方法面对使用外部总结技术可以解决。
2.2.4.3混合:在视频生命周期的任何时候,混合摘要算法研究电影的内部和外部数据。混合摘要算法可以利用文本的语义更大程度上导致更高水平的语义抽象。这种方法非常适合总结特定领域的数据。Kanehira et al。(2018)设计了一个广泛的视频总结方法,旨在评估潜在的角度考虑到图象电平相似,这是应该得到的相关观点。
2.2.5。基于时间的
取决于是否完成实时视频,总结可分为实时或静态第三节中讨论,分别或录像。
2.2.5.1。实时在这种情况下,选择关键帧视频时根据上下文捕获的视频将是很有价值的。它是具有挑战性的总结视频实时因为需要提供快速的输出。在实时系统中,输出是一个糟糕的输出。
2.2.5.2。基于静态人字形的统收收集从源视频帧用于显示输入视频在静态摘要(Nair,汉,2021年)。
最重要的元素都包含在原始视频关键帧,帧的一个子集。
2.2.6款。培训策略
由于特征提取和模式选择不足,基于机器学习的方法可以偶尔导致视频摘要质量差。例如,模型与功能太少可能是不准确的,而一个模型可能overfitted太多的特性(Gygli et al ., 2014)。以下是一些大类deep-learning-based视频总结算法:监督方法,无监督方法和Semi-supervised方法(Apostolidis et al ., 2021)。摘要应该从原始视频关键帧。相同的帧可能是重要的在同一时间和无趣的另一个观众因此,制作一个视频总结一个高度主观的词(Gorokhovatskyi et al ., 2020)。
2.2.6.1。监督论文方法之前使用带安全标签的数据用于训练模型生成视频摘要。深层神经网络最近被用于视频摘要。提取时间信息使用递归神经网络(赵和兴,2014年)。对于每一个电影,这些监督的方法需要大量的框架或shot-level标签。因此,收集许多注释电影是昂贵的。
2.2.6.2。无人管理的没有标记数据样本可用在一个无监督的方法,因此,框架基于内容相似性分成几个类别。Fajtl et al。(2019)提出一种新的软引起sequence-to-sequence转换简单网络,这是更有效和更少的困难比当前Bi-LSTM-based encoder-decoder网络用软的注意。在一种无监督的方式,深史书网络是用来减少之间的距离训练电影和相加的分布。这样的史书可以用来估计最好的新视频简介(Cooharojananone et al ., 2010)。
2.2.6.3。Semi-supervised方法这包含标记数据和未标记数据。这种混合物通常会有一个小标签的数据和大量的未标记数据。
3所示。实时视频摘要
是否直播在个人博客或生产设施安全摄像头,视频数据是一种常见的资产日常使用雷竞技公司。实时图像和视频处理涉及生产输出同时处理输入。典型的帧速率与实时图像和视频处理。
当前捕获标准通常是30帧/秒。实时处理所有的帧,他们会尽快处理他们了。
所以,如果捕获率每秒30帧,在1 s 30帧必须被处理。
现有的视频总结的方法通常需要一个离线(Gygli et al . 2014年)或一个在线(赵和兴,2014年)方法。生成一个摘要,离线技术需要的知识和获得完整的视频。这样的解决方案,另一方面,需要存储整个视频同时,资源成本和/或不可行的(例如,无限制地长视频流)。
替代上述包括在线或流媒体视频总结工具。网上总结方法获取视频流,并生成一个摘要在任何时候去数据流元素来,不依赖任何未来的数据。因为他们只是保持一小块之前的视频(或相关信息)在内存中,这种方法可以使用更少的内存。这种情况尤其有趣,因为在线计算方法更便宜比批同行批处理视频的时候太资源密集型的设备上,当应用程序需要访问的历史总结,或无边际地长视频流。
与离线选项,在线生成视频摘要附带一些挑战和更困难的是由于视频信息不足。视频摘要的质量可能受到伤害的短暂停留,进步的一代,没有完整的视频序列信息(例如,内容和长度)(阿尔梅达et al ., 2013)。
实时视频摘要的流程图所示图2。视频的输入图像帧都聚集在一个缓冲区(BIF)进行后续分析。如果图像帧到达非时序的秩序,他们必须进行排序。这样做是为了保持帧时序关系,便于进一步处理。在特征提取过程中,传入的帧缓冲区中不断阅读。在冗余帧检查,如果发现这些帧删除。集群/评分的重要框架完成,生成一个最后的总结。
3.1。问题公式化的实时视频摘要
让V的帧数的实时视频。
然后总结了视频实时旅游房车是所有相关帧视频的集合V。
计算关键帧的开始和结束帧数据记录。很容易看到,在一组时间序列的图像帧,最好代表帧将选择最准确的传达的核心序列。
4所示。系统综述
系统回顾研究的具体问题,采用系统化的、可重复的技术分类,批判性的评论,并选择所有相关的研究,以及收集和分析数据的研究包括在分析中。它是采用执行Ketchenham和宪章”系统的研究文献综述格式(Kitchenham et al ., 2009)。分析中给出了流程图图3。评审过程分为六个阶段,即“研究问题制定、搜索策略,研究选择、质量评估、数据提取和数据合成。“第一阶段的目标是制定相关的研究问题(rq)视频摘要。第二阶段战略建立了一个全面的搜索和很多合适的论文列出了详细的分析。本研究的范围是有限的,包括使用纳入排除标准适用的研究在这个领域。确保研究包括一致和相似,这项研究的限制是定义良好的。所选研究的价值评估的质量评估阶段。审查的目的是确定边界,确保质量。然后,在文献调查的基础上,提取数据来回答研究的问题。
4.1。研究问题
从研究的文献综述rq被确认:
•RQ1:实时视频摘要方法采用什么方法?
•RQ2:应用程序需要实时性能,不?
•RQ3:识别视频总结是否应该在实时或离线完成。
•RQ4:数据集的实时视频汇总时执行?
4.2。搜索策略
这个阶段的目的是适当的分类收集的研究论文进行分析。它包括一个有效的学习策略发表在过去的15年里,即,从2006年4月-日期。单反的搜索条件是实时视频摘要和在线视频摘要。流行的数字图书馆(出版商)研究论文包括Springer, ACM, IEEE,科学指导,威利,泰勒和弗朗西斯。唯一的标题是标题。因此,这一阶段的主要目的是定义和收集所有的相关研究论文需要进行审查。
4.3。研究选择
该方法分离过时、冗余和不合适的研究基于Exclusion-Inclusion的选择标准。它执行过滤过程通过选择或拒绝直接在指定的问题领域的研究促进或地址至少一个研究问题(RQ)。遵循以下条件容斥。
入选标准:
•研究专注于实时视频领域的总结。
•研究给出了很好的描述总结方法或实时视频摘要。
•研究在过去的15年,即从2006年4月——至今为止。
排除标准:
•研究缺乏足够的实证和比较分析。
•研究包括视频摘要检测除英语之外的其他语言(语言,像孟加拉、中国和西班牙语,例如,不介绍)。
•灰色文学书籍和作品。
•一个重复的研究。
•研究的整个文本不可用。
4.4。质量评估
所选研究分析了在此过程中确定选择的重要性和强度研究。质量审查已经确保了因为只有高质量、高影响力杂志从信誉良好的数字图书馆。雷竞技电竞体育竞猜平台
4.5。数据提取
这一步所选研究的总结和提取信息基于映射到一个或多个中移动。信息,比如作者、出版年,数据集使用,方法,优点和弱点从提取的研究细节。所有这些信息被放置在一个表,用于合成数据。
4.6。数据合成
这一步的目的是总结和解释获得的信息。综述,提取的数据表格形式进行了总结,提出了利用不同的视觉方法如图形、图表等。搜索发现输入搜索查询和应用到选定的数字图书馆导致15篇文章。
5。文献调查
在本节中,简要了解所有选定的研究已按逆时间顺序排列的形式表。最先进的了表2所有主要研究简洁地审查根据出版,作者使用的数据集,方法,提出技术的力量和弱点的文献(SLR)在这个过程中检查中的广泛的研究观点的描述及其应用领域。表2列出了初步研究从文学评论。
文学旅游房车的分布随着每篇论文的引文所示图4。
5.1。RQ1:实时视频摘要方法采用什么方法?
视频数据的快速增长和缺乏时间需要有效的部署和先进的视频总结(Vasudevan和Sellappa Gounder, 2021年)。大多数deep-learning-based视频摘要算法收集获得的视觉信息使用深从视频帧特征向量使用pre-trained神经网络。史书训练后,网络的输出可以静态视频故事板由选定的视频帧(关键帧),或者简短的视频丢弃video-chosen片段(关键片段)组成。
基于聚类的方法被用来构造一个不连续的轮廓演化和关键帧采用实时方法总结电影(Calic et al ., 2008)。完成视频的信息应该被用来提供更好的简介。只能访问视频帧早些时候在在线视频摘要(Ou et al ., 2015)。
两个因素必须考虑当选择一个在线应用程序描述符:高表达能力和廉价的计算成本(Yousefi et al ., 2018)。
现有的视频总结方法通常降低了输入视频的三种方式:选择关键帧内帧,关键sub-shots,关键对象。
对时间敏感的应用程序的喜欢运动,实时过滤生活内容是非常有用的。系统识别和过滤关键事件在直播视频节目调整的速度传入流根据材料的重要性。一个特性的值可以由软件的结构和用户的偏好(钟et al ., 2001;Yadav et al ., 2020年)提出了一个深层神经网络生成自然语言描述和抽象的文字总结的一系列视频输入。生成的文本摘要从视频和使用这些关键帧选取关键帧图像字幕。
根据关键帧张y . et al。(2020)必须捕捉动作的基本对象。在线auto-encoding,可以发现闲置和突出对象运动片段,用于恢复,并分析移动对象实例的轨迹。
阿尔梅达et al。(2012)提供幻影,一个新的压缩域视频总结方法。它总结了视频内容结合视频用一个简单的视觉线索,快速算法。用户可以调整视频的质量总结基于有急切地人预测幻影。
RT-Venet是提供的张m . et al。(2020)作为一种提高高分辨率实时视频。尽管生成cnn基本encoder-decoder结构显示好的image-to-image翻译的结果,他们不适合实时增强任务。
RCEA (张t . et al ., 2020)提出了帮助注释情绪时看手机视频不增加用户的心理负荷。自动实时视频摘要,研究人员通常使用无监督方法。这可以通过观察整个视频或注意到相邻帧之间的细微差异。
对视频摘要(Yadav et al ., 2020年),采用LSTM基于RNN的监督方法。在总结挑战,视频字幕的上下文中模式是用来建立一个更加面向语义的视频表示。
作者(Jain et al ., 2021)提出了一个技术有效地总结实时视频。确定共同的对象,面具R-CNN采用模型在可可训练数据集。对象的视频帧精确标记。最后,创建一个视频摘要通过结合所有的注释。
5.2。RQ2:应用程序需要实时性能,不是吗?
各种图像和视频处理应用程序需要实时(在线),而另一些则需要离线处理。因为源帧率和分辨率确定每一帧的处理时间,不能过于复杂的实时算法。
现在新的硬件解决方案启用更快的处理速度。然而,这取决于应用程序,仍有一定的限制。实时反馈和处理图像传感器所需的各种实时应用程序,包括交通监控、军事目标跟踪、观察、和监控,实时视频游戏,和其他项目。实时视频增强,其目的是为了改善生活视频的视觉质量,可用于视频沟通,增强现实技术,机器人技术的应用程序。在线实时视频摘要系统可以处理视频,消除积压的可能性。
离线处理允许更复杂和计算量算法,产生更好的结果比实时处理。处理已经录制的视频序列或图像离线后处理(在线和离线处理,留言。)。
需要实时处理,另一方面,在某些应用程序中。例如,程序需要实时反馈和处理图像传感器包括流量监测、目标跟踪在军事应用中,监测和监视和实时视频游戏。
自定义的每一帧的处理时间是源帧率和分辨率,实时算法没有豪华的复杂性。现在可以使用新的硬件解决方案,提供更快的处理速度,但仍有限制取决于应用程序。图5显示实时视频摘要的应用在不同的领域。
5.3。RQ3:识别视频总结是否应该在实时或离线完成
视频是一个可靠的信息来源,近年来视频的使用激增,在线和离线。不幸的是,大多数已知的视频总结算法离线工作,这意味着求和过程只能开始一次完整的视频已被抓获。此外,计算复杂度和内存资源需求往往很高,使其不适合许多应用程序,这就是为什么网上总结。解决方案,执行效率和逐渐需要在线生产的视频摘要。
在线视频的流行持续上升为代价的传统广播查看,如图所示图6。观众花大约8 h (7 h和55分钟)每周平均消费各种各样的娱乐。查看持续时间显著增加,2021年平均为8.9 h, 2020年的7.91,比2019年增长了16%,6.8 h,从2016年的85%,在线视频小时4.28倍的平均水平。
5.4。RQ4:数据集的实时视频汇总时执行吗?
尽管视频总结方法深入调查,没有标准协议或启发式评估其有效性存在的思路。
因为总结评价是一个主观的过程,人工比较难以实现可靠的结果。在视频总结参考书目,许多数据集脱颖而出:SumMe (乔杜里et al ., 2017;泰勒和库雷希,2018年)、TVSum ADL (Yousefi et al ., 2018),TRECKVID 08年(任和江,2009年)和可可(Jain et al ., 2021)冲需要一次彻底的视频摘要。中使用的数据集表2所示图7。它已经被研究了许多研究人员致力于数据集。使用的研究数量特定数据集描述了图形绘制的基础上,分析。SumMe是25个短视频的集合,从1到6分钟,涵盖了各种主题,如假期、节日、体育运动。SumLive由15部电影从2到6分钟。f -测量被用来评估算法(Gygli et al ., 2014)。许多研究人员已经使用视频检索的基准数据库,总结,和索引,如TREC视频检索评价(TRECVID) (Naphade和史密斯,2004年)。
Trec冲视频和视频数据集是一个数据集,报告有助于视频摘要。TRECKVID 08年(任和江,2009年)冲需要一次彻底的视频描述,火速的聚类相同的场景,和删除垃圾视频。
张m . et al。(2020)使用MIT-Adobe 5 k数据集,包括500年照片来源。五个不同的出口商使用被归类为(A / B…。)。
5.5。挑战和未来的发展方向研究实时视频摘要
真正的基于时间的视频总结方法有利于实际应用如安全视频摘要,体育视频集锦、军事应用、航空航天、医学、计算机、金融、和许多更多。的观点和角度总结经常应用的依赖。语义理解和表示是最关键的困难将多样性视频和人类感知。一个单一的失败会导致灾难性的系统故障的容错计算。另一个区域网络中实时相关的服务质量(QoS)因为QoS严重时可能会导致客户倒戈,其他原因。本文介绍了实时视频摘要。不同的总结方法相比,实时视频摘要是一个探索的问题。用户通常希望定制的视频摘要,以反映他们的特定的视频利益用更少的时间和空间。许多计算机视觉问题已经解决使用深度学习的方法。视频摘要系统将不得不进步在未来产生特定的压缩视频摘要的效率在较短的时间内。 GPU computation has grown in prominence due to its ability to solve various computer vision issues. Because of the inherent parallel processing and the large video dataset that must be dealt with, real time video summarization can be expedited by utilizing GPUs.
6。结论
由于其价值和重要性在许多领域,视频摘要的研究发展迅速。深入分析当前实时视频摘要(旅游房车)方法和发现少研究旅游房车。培训他们的系统,大多数方法使用数据集从OVP, YouTube, SumMe / TVSum。旅游房车在今天和在许多应用程序中使用的需求。在实时和防止问题之前开发利益底线降低风险和提高准确性。一个实时视频总结系统实时处理视频,有效地消除积压的风险。新的更精确的关键帧提取算法,更好的消除垃圾框架,可以实现更有趣的内容包含进一步的改善这种情况。改变都是利用数据和技术来改善决策和生活质量。尽管互联网技术的进步,动态实时数据分布反应仍然是一个问题。即使设备从各种来源收集实时数据,设备只是帮助如果处理数据生成视频摘要的形式正是或涵盖所有关键帧。 Due to this, it will be challenging to handle emergencies and critical circumstances. Because of the widespread use of live video applications, real-time video improvement is in high demand in smart cities. Still, present techniques need to meet the stringent requirements for speed and reliability.
数据可用性声明
最初的贡献提出了研究中都包含在本文/辅料,可以针对相应的作者进一步询问。
作者的贡献
鲁柏:研究工作。PS:监督。所有作者的文章和批准提交的版本。
的利益冲突
作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。
出版商的注意
本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。
引用
时间,M。,Ashraf, M. H., Shakir, M., Abbas, Y., and Shah, F. A. (2012). Video summarization: techniques and classification.<我>收。指出第一版。科学。7594信号,1-13。doi: 10.1007 / 978 - 3 - 642 - 33564 - 8 _1
阿尔梅达,J。,Leite, N. J., and Torres, R. D. (2012). VISON: video summarization for ONline applications.<我>Recognit模式。列托人。33岁,397 - 409。doi: 10.1016 / j.patrec.2011.08.007
阿尔梅达,J。,Leite, N. J., and Torres, R. D. (2013). Online video summarization on compressed domain.<我>j .粘度Commun。形象代表。24岁,729 - 738。doi: 10.1016 / j.jvcir.2012.01.009
Apostolidis E。,Adamantidou, E., Metsai, A. I., Mezaris, V., and Patras, I. (2021).<我>视频摘要使用深层神经网络:一项调查。21。网上:http://arxiv.org/abs/2101.06072
Bhaumik, H。,Bhattacharyya, S., and Chakraborty, S. (2017). Content coverage and redundancy removal in video summarization.<我>智能。肛交。Multimed。正无穷。(IGI全局)352 - 74。doi: 10.4018 / 978 - 1 - 5225 - 0498 - 6. - ch013
Cahuina, e . J。,and Chavez, G. C. (2013). “A new method for static video summarization using local descriptors and video temporal segmentation,” in<我>巴西研讨会的计算机图形和图像处理(阿雷基帕),226 - 233。
Calic, J。,Mrak, M., and Kondoz, A. (2008). “Dynamic layout of visual summaries for scalable video,” in<我>在基于内容的多媒体检索2008年国际研讨会,2008年CBMI会议论文集。(伦敦)46-50。
Chauhan,。,and Vegad, S. (2022). “Smart surveillance based on video summarization: a comprehensive review, issues, and challenges,” in<我>进化计算和移动可持续NetworksLecture笔记数据工程和通信技术。(新加坡:Springer), 433 - 449。
乔杜里,P。,Munukutla, S. P., Rajesh, K. S., and Shukla, A. S. (2017). “Real time video summarization on mobile platform,” in<我>程序——IEEE国际多媒体会议和博览会(香港),1045 - 1050。
Cooharojananone, N。,Kasamwattanarote, S., Satoh, S. I., and Lipikorn, R. (2010). “Real time trajectory search in video summarization using direct distance transform,” in<我>信号处理国际会议论文集,ICSP(北京),932 - 935。
De Avila s E。洛佩斯,a P。,da Luz Jr, A., and de Albuquerque Araújo, A. (2011). VSUMM: a mechanism designed to produce static video summaries and a novel evaluation method.<我>Recog模式。列托人。32岁,56 - 68。doi: 10.1016 / j.patrec.2010.08.004
Del Molino a G。棕褐色,C。,Lim, J. H., and Tan, A. H. (2017). Summarization of egocentric videos: a comprehensive survey.<我>IEEE反式。嗡嗡声。马赫。系统。47岁,65 - 76。doi: 10.1109 / THMS.2016.2623480
Fajtl, J。,年代okeh, H. S., Argyriou, V., Monekosso, D., and Remagnino, P. (2019).<我>总结视频与关注。在计算机科学的课堂讲稿。(Cham: Springer)。doi: 10.1007 / 978 - 3 - 030 - 21074 - 8 - _4
范,M。,Jiang, W., and Mao, W. (2018). A novel compact yet rich key frame creation method for compressed video summarization.<我>Multimed。工具:。77年,11957 - 11977。doi: 10.1007 / s11042 - 017 - 4843 - 2
Ghani r F。,Mahmood, S. A., Jurn, Y. N., and Al-Jobouri, L. (2019). “Key frames extraction using spline curve fitting for online video summarization,” in<我>2019年11日计算机科学和电子工程会议,会议2019 -程序。(科尔切斯特),69 - 74。
Gorokhovatskyi, O。Teslenko, O。,and Zatkhei, V. (2020). Online Video summarization with the kohonen SOM in real time.<我>CEUR车间Proc。2608年,1067 - 1078。cmis doi: 10.32782 / / 2608 - 80
Gygli, M。,Grabner, H., Riemenschneider, H., and Gool, L. V. (2014). “Creating summaries from user videos,” in<我>课堂讲稿在计算机科学(包括子系列讲义在人工智能和课堂讲稿在生物信息学)8695信号(第7部分)(Cham: Springer), 505 - 520。
侯赛因,T。,Muhammad, K., Del Ser, J., Baik, S. W., and de Albuquerque, V. H. (2020). Intelligent Embedded Vision for Summarization of Multiview Videos in IIoT.<我>IEEE反式。从事工业。通知。16,2592 - 2602。doi: 10.1109 / TII.2019.2937905
侯赛因,T。,Muhammad, K., Ding, W., Lloret, J., Baik, S. W., and de Albuquerque, V. H. (2021). A comprehensive survey of multi-view video summarization.<我>Recognit模式。109年。doi: 10.1016 / j.patcog.2020.107567
侯赛因,N。,Gavves, E., and Smeulders, A. W. (2019).<我>VideoGraph:认识到人类活动在视频。1 - 10分钟。网上:http://arxiv.org/abs/1905.05143
Iparraguirre, J。,and Delrieux, C. A. (2014). Online video summarization based on local features.<我>Int。j . Multimed。数据中。等内容。5,41-53。doi: 10.4018 / ijmdem.2014040103
Jain, R。,Jain, P., Kumar, T., and Dhiman, G. (2021). Real time video summarizing using image semantic segmentation for CBVR.<我>j .实时图像的过程。18日,1827 - 1836。doi: 10.1007 / s11554 - 021 - 01151 - 6
江,Y。崔,K。,Peng, B., and Xu, C. (2019). “Comprehensive video understanding: video summarization with content-based video recommender design,” in<我>程序- 2019计算机视觉国际会议上车间,ICCVW 2019(首尔),1562 - 1569。
Kanehira,。,Gool, L. V., Ushiku, Y., and Harada, T. (2018). “Aware video summarization,” in<我>《IEEE计算机视觉与模式识别会议。7435 - 7444页。
Kaushal, V。,年代ubramanian, S., Kothawade, S., Iyer, R., and Ramakrishnan, G. (2019). “A framework towards domain specific video summarization,” in<我>程序- 2019年IEEE冬季会议在计算机视觉的应用,WACV 2019(嗨,Waikoloa), 666 - 675。
Kitchenham B。,Brereton, O. P., Budgen, D., Turner, M., Bailey, J., and Linkman, S. (2009). Systematic literature reviews in software engineering - a systematic literature review.<我>正,Softw。抛光工艺。51岁,7 - 15。doi: 10.1016 / j.infsof.2008.09.009
拉尔,S。,Duggal, S., and Sreedevi, I. (2019). “Online video summarization: predicting future to better summarize present,” in<我>程序- 2019年IEEE冬季会议在计算机视觉的应用,WACV2019 (Waikoloa,嗨),471 - 480。
李,Y。,Ma, Y. F., and Zhang, H. J. (2003). “Salient region detection and tracking in video,” in<我>程序——IEEE国际多媒体会议和博览会2。二世(马里兰州巴尔的摩),269 - 72。
马赫什•Kini M。,and Pai, K. (2019). “A survey on video summarization techniques,” in<我>2019年创新能力和先进的计算机技术,132:31-33。doi: 10.1109 / i-PACT44901.2019.8960003
Marvaniya, S。Damoder, M。,Gopalakrishnan, V., Iyer, K, N, and Soni, K. (2016). “Real-time video summarization on mobile,” in<我>IEEE国际会议上图像处理(ICIP)(IEEE) 176 - 180页。
钱,a·G。,and Agius, H. (2008). Video summarisation: a conceptual framework and survey of the state of the art.<我>j .粘度Commun。形象代表。19日,121 - 143。doi: 10.1016 / j.jvcir.2007.04.002
Nair, m . S。,and Mohan, J. (2021). Static video summarization using multi-CNN with sparse autoencoder and random forest classifier.<我>图像视频信号的过程。15日,735 - 742。doi: 10.1007 / s11760 - 020 - 01791 - 4
Naphade, m R。,and Smith, J. R. (2004). “On the detection of semantic concepts at TRECVID,” in<我>ACM多媒体2004 - 12 ACM国际会议多媒体学报》上。(纽约),660 - 67。
在线离线处理(无日期)。网上:https://www.smartimaging雷竞技公司blog.com/2019/04/07/what-is-real-time-processing-online-vs-offline/
大谷,M。,Nakashima, Y., Rahtu, E., Heikkilä, J, and Yokoya, N. (2017). Video summarization using deep semantic features.<我>收。指出第一版。科学。10115信号,361 - 377。doi: 10.1007 / 978 - 3 - 319 - 54193 - 8 - _23
或者,s . H。,Lee, C. H., Somayazulu, V. S., Chen, Y. K., and Chien, S. Y. (2015). On-Line Multi-View Video Summarization for Wireless Video Sensor Network.<我>IEEE j .选择。上面。信号的过程。9日,165 - 179。doi: 10.1109 / JSTSP.2014.2331916
Phadikar, b S。Phadikar,。,and Maity, G. K. (2018). Content-based image retrieval in DCT compressed domain with MPEG-7 edge descriptor and genetic algorithm.<我>模式肛门。达成。21日,469 - 489。doi: 10.1007 / s10044 - 016 - 0589 - 0
任,J。,and Jiang, J. (2009). Hierarchical modeling and adaptive clustering for real-time summarization of rush videos.<我>IEEE反式。Multimed。11日,906 - 917。doi: 10.1109 / TMM.2009.2021782
Senthil基于一个。Suganya戴维,K。Sivaranjani,。,and Srinivasan, P. (2018). A study on various methods used for video summarization and moving object detection for video surveillance applications.<我>Multimed。工具:。77年,23273 - 23290。doi: 10.1007 / s11042 - 018 - 5671 - 8
Sharghi,。,Laurel, J. S., and Gong, B. (2017). “Query-focused video summarization: dataset, evaluation, and a memory network based approach,” in<我>程序- 30日IEEE计算机视觉与模式识别会议,CVPR 20172017 - janua。(夏威夷),2127 - 2136。
泰勒,W。,and Qureshi, F. Z. (2018). “Real-time video summarization on commodity hardware,” in<我>ACM国际会议进行系列(Eindhove)。
女子,V。,and Bhatnagar, C. (2021). A survey of recent work on video suiqmmarization: approaches and technues.<我>Multimed。工具:。27日,187 - 221。doi: 10.1007 / s11042 - 021 - 10977 - y
Trieu, N。,Goodman, S., Narayana, P., Sone, K., and Soricut, R. (2020).<我>多映像总结:文本摘要从一组内聚的图像。网上:http://arxiv.org/abs/2006.08686
Vasudevan, V。,and Sellappa Gounder, M. (2021). Advances in sports video summarization – a review based on cricket videos.<我>收。指出第一版。科学。12799年,347 - 359。doi: 10.1007 / 978 - 3 - 030 - 79463 - 7 - _29
王,X。,江,Y。G., Chai, Z., Gu, Z., Du, X., and Wang, D. (2014). “Real-time summarization of user-generated videos based on semantic recognition,” in<我>MM学报2014 - 2014 ACM多媒体会议上(奥兰多),849 - 52。
肖,S。,Zhao, Z., Zhang, Z., Yan, X., and Yang, M. (2020). “Convolutional hierarchical attention network for query-focused video summarization,” in<我>2020 - 34 AAAI AAAI有关人工智能的会议(纽约),34岁,12426 - 33所示。doi: 10.1609 / aaai.v34i07.6929
Yadav, A。,V我shwakarma, A., Panickar, S., and Kuchiwale, S. (2020). Real time video to text summarization using neural network.<我>Int。j . Eng》。技术。7,1828 - 36。
优思明,G。,Chowdhury, S., Nayak, J., Das, P., and Das, A. K. (2021). Key moment extraction for designing an agglomerative clustering algorithm-based video summarization framework.<我>神经第一版。达成。22页。doi: 10.1007 / s00521 - 021 - 06132 - 1
你管统计(无日期)。网上:https://merchdope.com/youtube-stats/
Yousefi, P。,Matthews, C. E., and Kuncheva, L. I. (2018).<我>Budget-Constrained在线视频使用控制图表概括的自我中心的视频。课堂讲稿在计算机科学(包括子系列讲义在人工智能和课堂讲稿在生物信息学)。卷。11241信号。内华达州拉斯维加斯:施普林格国际出版。
张,M。、高、Q。,Wang, J., Turbell, H., Zhao, D., Yu, J., et al. (2020). “RT-VENet: a convolutional network for real-time video enhancement,” in<我>毫米2020年第28届ACM国际会议多媒体学报》上(西雅图,华盛顿州)。4088 - 97。doi: 10.1145/3394171.3413951
张,T。,El Ali, A., Wang, C., Hanjalic, A., and Cesar, P. (2020). “RCEA: real-time, continuous emotion annotation for collecting precise mobile video ground truth labels,” in<我>人为因素在计算系统——会议程序(嗨火奴鲁鲁)。doi: 10.1145/3313831.3376808
张,Y。,Liang, X., Zhang, D., Tan, M., and Xing, E. P. (2020). Unsupervised object-level video summarization with online motion auto-encoder.<我>Recognit模式。列托人。130年,376 - 385。doi: 10.1016 / j.patrec.2018.07.030
赵,B。,and Xing, E. P. (2014). “Quasi real-time summarization for consumer videos,” in<我>《IEEE计算机学会学报计算机视觉与模式识别会议(哥伦布,哦),2513 - 20。
钟,D。,Kumar, R., and Chang, S. F. (2001). “Real-time personalized sports video filtering and summarization,” in<我>诉讼的ACM国际多媒体会议和展览(渥太华)623 - 625。
关键词:计算机视觉、视频摘要,实时视频总结(旅游房车),关键帧,总结
引用:Shambharkar PG和高尔R(2023)从视频摘要实时视频总结智能城市和超越:一项调查。<我>前面。大数据5:1106776。doi: 10.3389 / fdata.2022.1106776
收到:2022年11月24日;接受:2022年12月14日;
发表:2023年1月09年。
编辑:
Namita古普塔印度,王公Agrasen理工学院版权©2023 Shambharkar和高尔。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。
*通信:前腿Goel)<我mg src="//www.thespel.com/files/Articles/1106776/fdata-05-1106776-HTML/image_n/fdata-05-1106776-i001.gif" style="float:none;margin:0" alt="是的">ruchigoel06@gmail.com