淘宝网vikas singh(VIKADA啫喱水)

 

 

日报君 发自 凹非寺

改善在线目标检测中对运动模糊的处理

资料图

LeCun获阿斯图里亚斯亲王奖

给定每个模态的突出分数

和每个模态的权重

当选定波长的激光被引导到谐振器中时,由可见光与近红外光的光子纠缠而成的光子对就会出现。(实验中出现的这种特殊的纠缠类型,也称为能量时间纠缠,将光子对的能量与光子对产生的时间联系到一起。)

下图所示:通过仔细地设计微米级的环状谐振器,NIST的研究人员们制造出纠缠的光子对,这一对光子的颜色(或者说波长)差别很大。来自泵浦激光(谐振器中的紫色区域)生成每个光子对中处于可见光波长的光子(谐振器中与周围的红色区域);另外一个光子具有处于电信(近红外)频谱的波长(蓝色区域)。

一起来康康科技圈今天都有哪些大事发生~

[51] Xueyang Wang, Xiya Zhang, Yinheng Zhu, Yuchen Guo, Xiaoyun Yuan, Liuyu Xiang, Zerun Wang, Guiguang Ding, David Brady, Qionghai Dai, and Lu Fang. Panda: A gigapixel-level human-centric video dataset. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 2

用于目标检测的多示例主动学习方法

DSH[47]和TVSum[46]。我们分别在表1和表3中报告了DSH和TVSum数据集中所有域的mAP。除在少数领域之外,我们的方法都优于基线方法。这些非最优的领域要么不是完全以人类为中心(养蜂、狗展、梳理动物和制作三明治),要么由于在视频中没有检测到足够的姿势和脸而使我们的方法受到阻碍(DSH中的冲浪视频)。然而在这些非最优表现的领域上,我们的方法仅次于表现最好的基线方法。平均而言,在所有领域中,我们的方法比性能最好的基线方法高出4%-12%的绝对值。

泰米尔纳德邦最大反对党全印安纳达罗毗荼进步联盟党(All India Anna Dravida Munnetra Kazagham,简称AIADMK)的激烈党内斗争,为同为泰邦内反对党的印度人民党(BJP)提供了一个发挥更积极作用的机会。

公司同日公告,为了进一步加大公司产品在海外市场的推广力度,促进公司与国际市场的交流和合作,公司拟以自有资金在境外投资设立全资子公司及控股子公司。具体为,公司拟以现金出资200万美元,在美国设立全资子公司金辰(美国)有限责任公司;拟与VIKAS SINGH和PON RAMESH在印度共同投资设立控股子公司金辰(印度)私人有限责任公司,注册资本为100万美元,其中,公司拟以现金出资98万美元,占该公司注册资本的98%。

论文链接:https://arxiv.org/pdf/2110.01774.pdf

1. 引言

以人为中心的视频是关注人类执行和表达活动、任务和情感的视频 [62,50]。这种类型的视频极大地促进了离线和在线个人和共享媒体[8] 的快速增长。这些视频来自多个领域,如业余体育和表演、讲座、教程、视频博客(vlog),以及个人或团体活动,如野餐、假日旅行。然而,未经编辑的以人为中心的视频也往往包含大量无关和无趣的内容,需要对它们进行编辑和标记,以便高效浏览[47]。

为了解决这个问题,许多方法探索了自动检测高亮片段或摘录和总结视频的技术 [11,53,42,63,44,67]。对于未经编辑的镜头,高亮检测的目的是获取预先定义的兴趣时刻,而提取概要的目的是计算最相关和最有代表性的摘录。检测有效的高亮内容不仅可以加快浏览速度,还可以提高高亮内容被分享和推荐的几率[53]。现有方法通过有监督学习来实现这样的高亮检测,但必须依赖于:人工标记的高亮片段[47,11],或不同高亮类别的示例,例如,从滑雪图像学习来检测视频中的滑雪高亮片段[23,25]。其他方法通过学习每一帧或拍摄相对于原始视频[36] 的代表性,并利用视频元数据,如持续时间 [53] 和拍摄 [67,64] 的相关性,从而消除了监督的需要。所有这些方法要么假设或符合未编辑片段的一些特定领域的知识,例如,跑步和跳跃可能在跑酷视频中更相关,而滑动动作可能在滑雪视频中可能更相关。其他方法不考虑特定领域的知识,不用检测个性化的亮点[42],而是考虑多个用户预先记录的偏好。

无论它们是假定特定领域的知识还是用户偏好,现有的方法都可以在构成视频的帧或镜头的二维图像空间中工作。最先进的基于图像的网络可以学习丰富的语义特征,捕获图像中各种检测对象之间的相互关系,从而实现有效的高光检测。然而,这些方法并没有明确地模拟人类活动或人际互动,而这些都是以人为中心的视频的主要焦点。与此同时,开发以人为中心的视频的方法对于各种任务至关重要,包括表达和情绪识别 [34,2,38]、活动识别[56]、场景理解[50,32]、人群分析[51]、视频超分重建[32] 和基于文本的视频捕捉[48]。这些方法表明,以人为中心的视频需要与普通视频分开处理,通过利用以人为中心的模式,如姿势和面孔。因此,这表明了将以人为中心的视频理解机制带到高亮检测任务中的余地和必要性。

我们开发了一个端到端学习系统,它可以检测以人类为中心的视频中的高亮显示,而不需要特定领域的知识、高亮显示注释或示例。我们的方法利用通过多种感觉通道或方式表达的人类活动和互动,包括面孔、眼睛、声音、身体姿势,手势[1,38]。我们对所有以人为中心的模式使用基于图的表达方式,来充分表示每个模式的固有结构包括各种活动和交互是如何随着时间的推移而演变的。我们的网络使用时空图卷积从这些基于图的表示中学习,并使用自动编码器架构映射每帧模式到高亮分数。我们的高亮分数是基于视频中所有帧的代表性,将连续的帧拼接在一起,通过产生最终的摘录来得到的。我们的新贡献包括:

2. 相关工作

视频摘要的突出检测和密切相关问题已经在计算机视觉、多媒体和相关领域得到了广泛的研究。早期的方法使用了包括基于可视化内容的聚类、场景转换图、帧 [59,6,49] 的时间方差和表示语义信息的手工特征,如面部活动 [20] 的各种技术。另一方面,最近的方法利用了一系列令人印象深刻的深度学习工具和技术来实现高亮检测和视频总结。

高亮检测。高亮检测的目标是检测视频感兴趣时刻或未经编辑视频的摘录 [49,47]。大量方法将此视为监督排名问题,因此高亮摘录的排名高于所有其他摘录[47,17,58,18,11,60,19,52]。这些方法假设了高可读摘录的人类注释标签的可用性,并训练网络学习与这些标签相关的通用或特定领域的排名指标。另一方面,弱监督和无监督的高光检测方法通过利用示例或视频元数据,消除了标签依赖性。这些样本包括描绘了特定领域的动作的网络图像,如体操和滑雪[25]。视频元数据包括关于视频类别[57] 的信息,或有助于区分未编辑视频和编辑视频的属性,例如持续时间[53]。一些方法还考虑到用户的偏好来生成个性化的亮点[42]。所有这些方法都在每一视频帧的二维图像空间中执行计算,并且不使用以人人为中心的模式。

视频摘要。视频摘要的主要目标是提供各种格式的简洁的视频合成,包括故事线图 [24,54]、关键帧序列[30]、剪辑[15,64],以及基于用户需求[14] 的混合物。视频摘要通常被认为是一个满足一致性 [35]、多样性,和代表性[40,67] 的无监督子序列估计任务。无监督摘要方法建立在多个概念之上,如视觉共现 [7]、视频帧和镜头之间的时间相关性[23,36,44,64]、学习类别感知分类器[41] 和类别感知特征学习 [66,46]。其他方法采用弱监督的方法,使用范例网络图像和视频[24,22,4,43],以及类别描述[41,40] 作为先验。然而,另一些方法使用监督学习与人类注释的摘要,使用子集选择 [13]、视觉重要性评分[30,15]、子模块混合[16,55] 和时间相互关系[63,64,65]。虽然我们的目标是高光检测,但我们的方法受到这些视频摘要方法的启发。特别是,我们确保我们的亮点分数捕捉到了视频中的代表性并能够进行稳健的特征重建。

多模态学习。大量工作都集中在多模态动作识别 [5,45,33,10] 和情绪识别 [3,26,61,38,39] 上。这些方法观察并结合了来自多种人类表达方式的线索,包括面部、姿势、声调、眼球运动、手和身体手势和步态。现有方法通常使用点和图 [33,3,38] 对观察模式进行建模,使它们适合学习动作和情绪的特征。在我们的工作中,我们利用了这样一个事实,即以人类为中心的视频的高摘录可以根据这些模式来确定。根据多模态动作和情绪识别 [33,38] 的最新趋势,我们还将视频中各帧中观察到的模式建模为时空图,并利用它们来学习我们的高亮分数。

3. 多模式高亮检测

3.1. 人类中心模式

在我们的工作中,我们使用术语 “模式” 来暗示对人类活动和交互作用敏感的人类表达通道,例如,面孔、眼睛、身体姿势、手、步态 [5,38,39]。活动由个体的表达和互动构成,包括与他人、其他生命和无生命的物体的互动,并与各种行动[56,10] 和情绪 [2,39] 有关。我们认为人类更喜欢以人类为中心的视频,来关注这些活动和互动。因此,我们的目标是从我们的网络中观察到以人类为中心的模式进行学习。对于检测到的每个人的模态,我们的网络利用不同时间实例的相互关系以及不同人之间的相互关系来检测最具代表性的摘录。

我们考虑从输入视频中可观察到的 M≥1 的以人类为中心的模式。我们假设这些模态是使用标准的模态检测和跟踪技术 [29,12] 提取的,并使用一组二维或三维的互联点来表示,例如一组二维面部地标或一组三维身体关节的姿势。

为了表示每个模态 m=1,…,我们构建了一个时空图表示 Gm={Vm,Em}。Vm 中的节点表示相应模态的点,Em 中的边表示模态的结构以及该结构如何随时间的演化。为了充分捕捉到这一点,我们考虑了三种边类型:

3.2. 视频帧的代表性

由于我们的目标是在不需要注释或示例的情况下检测视频中的亮点,因此我们的方法与检测视频中的代表帧一致,类似于视频摘要中已完成的工作 [36, 14]。虽然检测图像空间中的代表帧有可能或没可能有利于检测视频的感兴趣时刻[47],但我们观察到,事实上检测以人为中心的模式空间中的代表帧,是有利于在以人为中心的视频中检测感兴趣时刻。

。我们注意到方程的一个平凡的解。1 是选择一个阈值 0≤τ≤T,然后从 Xm 中最具代表性的顶级 τ 的高亮分数为 1,对所有其他帧的高亮分数为 0。然而,选择 τ 并不简单,在实践中需要从数据中学习。因此,我们训练了一个基于自动编码器的深度神经网络来学习广泛数据的高亮分数。我们还允许高亮分数在[0,1]中是连续的,以保持我们的网络的可微性。此外,使高亮分数连续也有助于我们理解每一帧的相对代表性,这是现代高亮检测系统[53,42]的一个内置组件。

3.3. 网络架构

图3:使用以人为中心的模式的高亮检测:我们的学习网络概述,突出显示来自多种以人为中心的模式的分数。我们使用标准技术[29,12]来检测以人为中心的模式。我们将这些模式表示为二维或三维中的连接点集合。我们并行地训练所有模式的网络。网络之间唯一的交互点是他们预测的高亮分数,我们将其合并到我们的加权高亮分数中进行训练。

它使用一个单独的时空图卷积网络(STGCN)[56,28,9]将每个模态m的

3.4. 训练损失函数

类似于公式1,我们训练我们的网络架构,以最大限度地重构所有模式下的输入图节点,同时最小化考虑用于重构的帧数。我们的方法是基于这样一个假设,即具有更高代表性的视频帧,构成了更清晰的视频摘录。因此,实际上我们的目标是在输入视频的重建中抑制尽可能多的帧,同时只强调具有高代表性的帧。

最后,给定解码器重建

4. 实施和测试

4.1. 实施

我们使用M = 2的模式、姿态和人脸,这是我们在所有数据集中测试我们方法最容易观察到的两种模式。其他模式,如手势和眼球运动,要么很少可见,要么有噪声检测。我们根据CMU泛视模型[21,37]建立姿态图,并根据Geitgey[12]的面部地标模型建立面部地标图。

我们使用Adam优化器[27]训练200轮,批处理尺寸大小为2,初始学习率为10-3,动量为0.9,权重衰减为10^-4。在每轮训练之后,我们的学习率都会降低0.999倍。在英伟达GeForce GTX 1080Ti GPU上大约需要40分钟,总训练时间约为4.6个GPU天数。

4.2. 测试

5. 实验

5.1. 数据集

DSH数据集[47]由YouTube上横跨六个特定领域类别的视频组成:狗的表演、体操、跑酷、滑冰、滑雪和冲浪。每个域中大约有 100个视频,总时长约为 1,430 分钟,大约有 600个视频。PHD2数据集[11]的测试集由总共约10万个YouTube视频组成,总计约55800分钟,由850名用户根据其偏好标注的高光片段组成。更小一些的TVSum数据集[46]有50个YouTube视频,总计约210分钟,横跨10个领域:养蜂(BK)、自行车技巧(BT)、狗展(DS)、闪耀(FM)、梳理动物(GA)、制作三明治(MS)、游行(PR)、跑酷(PK)、车辆轮胎(VT)和车辆松开(VU)。SumMe数据集[15]只有25个个人视频,总计约66分钟。

5.2. 评估指标

我们使用与相应视频中注释高光匹配的检测高光的平均精度(mAP)来评估所有方法。平均精度是评价高光检测[47,17,11,53,42]的常用度量。我们注意到,在评估高亮的情况下,每个视频的精度需要单独考虑,而不是跨视频考虑。这是因为从一个视频中检测到的高亮片段不一定比另一个视频[47]的非高亮片段有更高的高亮分数。我们还报告了我们的方法在所有数据集和基线方法在SumMe数据集[15]上的平均F分数(精度和召回率的谐波平均值,通过计算所有视频上数据的平均值得到)。

5.3. 基线方法

在TVSum数据集上,我们再次与基于持续时间的高光检测方法(LessisMore)[53]、Chu等人基于视觉相关的使用最大双峰发现(MBF)来获得与原始视频相关并发镜头的方法[7]、Potapov等人基于内核在语义一致的片段上训练SVM的视频总结方法(KVS)[41]、Panda等人的使用共识正则化器来检测满足稀疏性、多样性和代表性的突出显示片段的协作视频总结方法(CVS) [40] 以及马哈塞尼等人的使用具有对抗性损失的LSTM(Adv-LSTM)无监督视频总结方法[36]进行比较。

5.4. 结果

SumMe[15]。我们在表4中报告了整个数据集的平均F分数。按照之前的方法[52,42],我们随机选择20%的数据集来计算平均F分数,重复这个实验5次,并报告平均性能。基于这些实验,我们比表现最好的基线方法高出4%的绝对值。这些结果表明,我们使用以人为中心的模式来检测高亮的方法在所有基准数据集上表现出了最先进的性能。

表1:在DSH数据集[47]上的平均精度。粗体:最好,下划线:第二好。我们方法在冲浪领域表现第二好,因为没有检测到足够的姿势和面孔,而在所有其他领域表现最好。

表2:PHD2[11]的平均精度。粗体:最好,下划线:第二好。

表3:TVSum数据集[46]上的平均平均精度。域名的完整形式见第5.1节。粗体:最好,下划线:第二好。我们的方法在不完全以人类为中心的领域(BK、DS、GA、MS)表现第二,在所有其他领域表现最好。

表4:SumMe数据集[15]上的F分数。粗体:最好,下划线:第二好。

5.5. 消融研究

表5:在基准数据集上,我们的方法的不同消融版本的平均mAP和平均f分数的比较。粗体:最好,下划线:第二好。

我们还在图5中展示了我们的方法及其所有消融版本在DSH、PHD2、TVSum和SuMMe四个数据集中的一个样本视频的定性性能结果。我们可以看到,当只观察姿势而不是面孔时,我们的方法无法检测到主要有面部表情和情绪的代表性摘录。相反,当只观察面孔而不是姿势时,我们的方法只能检测面孔突出的摘录,而忽略面孔太小、太遮挡或在黑暗中的摘录。使用这两种模式,我们的方法可以检测到所有有代表性的摘录。

5.6. 突出显示分数阈值的效果

6. 结论、局限性及未来的工作

[1] Hillel Aviezer, Yaacov Trope, and Alexander Todorov. Body cues, not facial expressions, discriminate between intense positive and negative emotions. Science, 338(6111):1225–1229, 2012. 2

[2] Uttaran Bhattacharya, Trisha Mittal, Rohan Chandra, Tanmay Randhavane, Aniket Bera, and Dinesh Manocha. Step: Spatial temporal graph convolutional networks for emotion perception from gaits. In Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20), page 1342–1350. AAAI Press, 2020. 2, 3

[3] Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N Chang, Sungbok Lee, and Shrikanth S Narayanan. Iemocap: Interactive emotional dyadic motion capture database. Language resources and evaluation, 42(4):335, 2008. 3

[4] Sijia Cai, Wangmeng Zuo, Larry S. Davis, and Lei Zhang. Weakly-supervised video summarization using variational encoder-decoder and web prior. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 2

[5] C. Chen, R. Jafari, and N. Kehtarnavaz. Utd-mhad: A multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor. In 2015 IEEE International Conference on Image Processing (ICIP), pages 168–172, 2015. 3

[6] Chong-Wah Ngo, Yu-Fei Ma, and Hong-Jiang Zhang. Automatic video summarization by graph modeling. In Proceedings Ninth IEEE International Conference on Computer Vision, pages 104–109 vol.1, 2003. 2

[7] Wen-Sheng Chu, Yale Song, and Alejandro Jaimes. Video co-summarization: Video summarization by visual cooccurrence. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7

[8] Cisco. Annual internet report (2018–2023): https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-index-vni/complete-white-paper-c11-481360.html# toc484813989. CISCO White paper, 2020. 1

[9] Micha¨el Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. In D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems 29, pages 3844–3852. Curran Associates, Inc., 2016. 4

[10] Annalisa Franco, Antonio Magnani, and Dario Maio. A multimodal approach for human activity recognition based on skeleton and rgb data. Pattern Recognition Letters, 131:293–299, 2020. 3

[11] Ana Garcia del Molino and Michael Gygli. Phd-gifs: Personalized highlight detection for automatic gif creation. In Proceedings of the 26th ACM International Conference on Multimedia, MM ’18, page 600–608, New York, NY, USA, 2018. Association for Computing Machinery. 1, 2, 6, 7, 8

[12] Adam Geitgey. Face Recognition, 2020. 3, 4, 5

[13] Boqing Gong, Wei-Lun Chao, Kristen Grauman, and Fei Sha. Diverse sequential subset selection for supervised video summarization. In Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems, volume 27, pages 2069–2077. Curran Associates, Inc., 2014. 2

[14] Hongxiang Gu and Viswanathan Swaminathan. From thumbnails to summaries-a single deep neural network to rule them all. In 2018 IEEE International Conference on Multimedia and Expo (ICME), pages 1–6. IEEE, 2018. 2, 4

[15] Michael Gygli, Helmut Grabner, Hayko Riemenschneider, and Luc Van Gool. Creating summaries from user videos. In David Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, Computer Vision – ECCV 2014, pages 505–520, Cham, 2014. Springer International Publishing. 2, 6, 7, 8

[16] Michael Gygli, Helmut Grabner, and Luc Van Gool. Video summarization by learning submodular mixtures of objectives. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7

[17] Michael Gygli, Yale Song, and Liangliang Cao. Video2gif: Automatic generation of animated gifs from video. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016. 2, 6, 7

[18] Yifan Jiao, Zhetao Li, Shucheng Huang, Xiaoshan Yang, Bin Liu, and Tianzhu Zhang. Three-dimensional attention-based deep ranking model for video highlight detection. IEEE Transactions on Multimedia, 20(10):2693–2705, 2018. 2

[19] Yifan Jiao, Tianzhu Zhang, Shucheng Huang, Bin Liu, and Changsheng Xu. Video highlight detection via region-based deep ranking model. International Journal of Pattern Recognition and Artificial Intelligence, 33(07):1940001, 2019. 2

[20] Hideo Joho, Jacopo Staiano, Nicu Sebe, and Joemon M Jose. Looking at the viewer: analysing facial activity to detect personal highlights of multimedia contents. Multimedia Tools and Applications, 51(2):505–523, 2011. 2

[21] Hanbyul Joo, Tomas Simon, Xulong Li, Hao Liu, Lei Tan, Lin Gui, Sean Banerjee, Timothy Scott Godisart, Bart Nabbe, Iain Matthews, Takeo Kanade, Shohei Nobuhara, and Yaser Sheikh. Panoptic studio: A massively multiview system for social interaction capture. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017. 5

[22] Aditya Khosla, Raffay Hamid, Chih-Jen Lin, and Neel Sundaresan. Large-scale video summarization using web-image priors. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2013. 2

[23] Gunhee Kim, Leonid Sigal, and Eric P. Xing. Joint summarization of large-scale collections of web images and videos for storyline reconstruction. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 1, 2

[24] Gunhee Kim and Eric P. Xing. Reconstructing storyline graphs for image recommendation from web community photos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 2

20(9):2415–2426, 2018. 1, 2

[26] Yelin Kim, Honglak Lee, and Emily Mower Provost. Deep learning for robust feature generation in audiovisual emotion recognition. ICASSP, pages 3687–3691, 2013. 3

[27] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. 5

[28] Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907, 2016. 4

[29] Muhammed Kocabas. Simple Multi Person Tracker, 2019. 3, 4, 5

[30] Y. J. Lee, J. Ghosh, and K. Grauman. Discovering important people and objects for egocentric video summarization. In 2012 IEEE Conference on Computer Vision and Pattern Recognition, pages 1346–1353, 2012. 2

[31] Ang Li, Meghana Thotakuri, David A Ross, Jo˜ao Carreira, Alexander Vostrikov, and Andrew Zisserman. The ava-kinetics localized human actions video dataset. arXiv preprint arXiv:2005.00214, 2020. 5

[32] G. Li, Y. Zhao, M. Ji, X. Yuan, and L. Fang. Zoom in to the details of human-centric videos. In 2020 IEEE International Conference on Image Processing (ICIP), pages 3089–3093, 2020. 2

[33] Jianan Li, Xuemei Xie, Qingzhe Pan, Yuhan Cao, Zhifu Zhao, and Guangming Shi. Sgm-net: Skeleton-guided multimodal network for action recognition. Pattern Recognition, 104:107356, 2020. 3

[34] S. Li and W. Deng. Deep facial expression recognition: A survey. IEEE Transactions on Affective Computing, pages 1–1, 2020. 2

[35] Zheng Lu and Kristen Grauman. Story-driven summarization for egocentric video. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2013. 2, 7

[36] Behrooz Mahasseni, Michael Lam, and Sinisa Todorovic. Unsupervised video summarization with adversarial lstm networks. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, pages 202–211, 2017. 1, 2, 4, 6, 7

[37] D. Mehta, O. Sotnychenko, F. Mueller, W. Xu, S. Sridhar, G. Pons-Moll, and C. Theobalt. Single-shot multi-person 3d pose estimation from monocular rgb. In 2018 International Conference on 3D Vision (3DV), pages 120–130, 2018. 5

[38] Trisha Mittal, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera, and Dinesh Manocha. M3er: Multiplicative multimodal emotion recognition using facial, textual, and speech cues. In Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI’20, pages 1359–1367. AAAI Press, 2020. 2, 3

[40] Rameswar Panda and Amit K. Roy-Chowdhury. Collaborative summarization of topic-related videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017. 2, 6, 7

[41] Danila Potapov, Matthijs Douze, Zaid Harchaoui, and Cordelia Schmid. Category-specific video summarization. In David Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, Computer Vision – ECCV 2014, pages 540–555, Cham, 2014. Springer International Publishing. 2, 6, 7

[42] Mrigank Rochan, Mahesh Kumar Krishna Reddy, Linwei Ye, and Yang Wang. Adaptive video highlight detection by learning from user history. In Proceedings of the European Conference on Computer Vision (ECCV), August 2020. 1, 2, 4, 6, 7

Recognition (CVPR), June 2019. 2

[44] Mrigank Rochan, Linwei Ye, and Yang Wang. Video summarization using fully convolutional sequence networks. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 1, 2, 6, 7

[45] A. Shahroudy, T. Ng, Y. Gong, and G. Wang. Deep multimodal feature analysis for action recognition in rgb+d videos. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(5):1045–1058, 2018. 3

[46] Yale Song, Jordi Vallmitjana, Amanda Stent, and Alejandro Jaimes. Tvsum: Summarizing web videos using titles. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7, 8

[47] Min Sun, Ali Farhadi, and Steve Seitz. Ranking domain specific highlights by analyzing edited videos. In European conference on computer vision, pages 787–802. Springer, 2014. 1, 2, 4, 6, 7, 8

[48] Zongheng Tang, Yue Liao, Si Liu, Guanbin Li, Xiaojie Jin, Hongxu Jiang, Qian Yu, and Dong Xu. Human-centric spatio-temporal video grounding with visual transformers. arXiv preprint arXiv:2011.05049, 2020. 2

[49] Ba Tu Truong and Svetha Venkatesh. Video abstraction: A systematic review and classification. ACM Trans. Multimedia Comput. Commun. Appl., 3(1):3–es, Feb. 2007. 2

[50] Paul Vicol, Makarand Tapaswi, Llu´ıs Castrej´on, and Sanja Fidler. Moviegraphs: Towards understanding human-centric situations from videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 1, 2

[52] Zijun Wei, Boyu Wang, Minh Hoai Nguyen, Jianming Zhang, Zhe Lin, Xiaohui Shen, Radomir Mech, and Dimitris Samaras. Sequence-to-segment networks for segment detection. In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 31, pages 3507–3516. Curran Associates, Inc., 2018. 2, 6, 7

[53] Bo Xiong, Yannis Kalantidis, Deepti Ghadiyaram, and Kristen Grauman. Less is more: Learning highlight detection from video duration. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1258–1267, 2019. 1, 2, 4, 6, 7

[54] Bo Xiong, Gunhee Kim, and Leonid Sigal. Storyline representation of egocentric videos with an applications to story-based search. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), December 2015. 2

[55] Jia Xu, Lopamudra Mukherjee, Yin Li, Jamieson Warner, James M. Rehg, and Vikas Singh. Gaze-enabled egocentric video summarization via constrained submodular maximization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2

[56] Sijie Yan, Yuanjun Xiong, and Dahua Lin. Spatial temporal graph convolutional networks for skeleton-based action recognition. In Sheila A. McIlraith and Kilian Q. Weinberger, editors, Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), pages 7444–7452. AAAI Press, 2018. 2, 3, 4

[57] Huan Yang, Baoyuan Wang, Stephen Lin, David Wipf, Minyi Guo, and Baining Guo. Unsupervised extraction of video highlights via robust recurrent auto-encoders. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), December 2015. 2, 6, 7

[58] Ting Yao, Tao Mei, and Yong Rui. Highlight detection with pairwise deep ranking for first-person video summarization. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 982–990, 2016. 2

[59] Minerva Yeung, Boon-Lock Yeo, and Bede Liu. Segmentation of video by clustering and graph analysis. Computer Vision and Image Understanding, 71(1):94 – 109, 1998. 2

[60] Youngjae Yu, Sangho Lee, Joonil Na, Jaeyun Kang, and Gunhee Kim. A deep ranking model for spatio-temporal highlight detection from a 360 video. pages 7525–7533, 2018. 2

[61] AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria, and Louis-Philippe Morency. Multimodal language analysis in the wild: Cmu-mosei dataset and interpretable dynamic fusion graph. In ACL (Volume 1: Long Papers), pages 2236–2246, 2018. 3

[62] Wenjun Zeng. Toward human-centric deep video understanding. APSIPA Transactions on Signal and Information Processing, 9:e1, 2020. 1

[63] Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman. Video summarization with long short-term memory. In Bastian Leibe, Jiri Matas, Nicu Sebe, and Max Welling, editors, Computer Vision – ECCV 2016, pages 766–782, Cham, 2016. Springer International Publishing. 1, 2, 6, 7

[64] Ke Zhang, Kristen Grauman, and Fei Sha. Retrospective encoders for video summarization. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 1, 2

[65] Bin Zhao, Xuelong Li, and Xiaoqiang Lu. Hierarchical recurrent neural network for video summarization. In Proceedings of the 25th ACM International Conference on Multimedia, MM ’17, page 863–871, New York, NY, USA, 2017. Association for Computing Machinery. 2

[66] Bin Zhao and Eric P. Xing. Quasi real-time summarization for consumer videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 2

[67] Kaiyang Zhou, Yu Qiao, and Tao Xiang. Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. pages 7582–7589, 2018. 1, 2, 6, 7