如何在MSR-VTT競賽蟬聯冠軍?人民大學金琴老師分享奪冠經驗 | ACMMM 2017

原標題:如何在MSR-VTT競賽蟬聯冠軍?人民大學金琴老師分享奪冠經驗 ACMMM 2017雷鋒網消息:上周在加州山景城舉辦的ACMMM
2017大會上,來自中國的研究者表現出色,不僅拿到了今年ACMMM的最佳論文,還在MSR Video to Language
Challenge(MSR-VTT)、Social Media Prediction (SMP)等多項競賽中取得第一。
值得一提的是,來自人民大學的衛冕冠軍金琴團隊是在去年舉行的第一屆MSR-VTT奪得冠軍後,今年再度取得了主觀人工評測和客觀性能評測的雙冠軍。關於競賽MSR Video to
Language Challenge (MSR-VTT)是由微軟主辦的視頻標注競賽。自2016年來已連續舉辦兩屆,其任務為自動地為短視頻生成自然語言視頻內容描述,今年共有全球57支隊伍注冊參加。
今年的MSR-VTT挑戰賽要求參賽者根據所提供的MSR-VTT數據集和利用其它數據,識別廣泛的對象、場景和事件,並開發從視頻到自然語言的係統。比賽要求係統為每個測試視頻生成至少一個句子,評測階段則分為兩部分,在客觀評測部分將會通過BLEU@4, METEOR, ROUGE-L及CIDEr等多個常用標準來進行計算評估,在主觀評測部分將與預先由人類生成的「答案」進行比較,從語法、正確性、相關性、對盲人的幫助(額外加分項)等四方麵進行評分。
這對於人類來說是小事一樁的任務,但在計算機視覺領域,視頻標注需要在視頻信息和文本信息兩種不同形式的信息之間進行「翻譯」,對計算機來說算是不小的挑戰。在團隊發表的論文「Knowing yourself: improving
video caption via in-depth
recap」中,金琴老師對VTT任務的現狀進行了完整的回顧和分析,並創新地提出了基於隱含主題指導的視頻內容描述生成模型,並根據視頻的不同分類,通過融合(Ensemble)和排序(Reranking)等方法綜合描述模型,在MSR-VTT數據集上取得了優秀的效果,並對模型的通用泛化能力和「距離人類水準的距離」進行了分析,為今後該任務的發展和需要解決的重點問題提供了方向,該論文也獲得了Best Grand Challenge Paper
Award。在大會結束後,雷鋒網也聯係了金琴老師就本次奪冠的經驗進行了分享。雷鋒網(以下用Q代表):恭喜你們蟬聯ACMMM MSR
Video to Language Grand
Challenge的冠軍,有什麽感想可以分享一下呢?金琴(以下用A代表):謝謝!感謝ACM Multimedia和MSR組織這樣的公共挑戰賽,為促進Video
to Language的研究提供了很好的數據和評測平台。很開心我們蟬聯該項Grand Challenge的冠軍,一份耕耘一份收獲,這是對我們團隊紮實做研究的獎勵。
我希望大家繼續保持對研究的激情和嚴謹,持續做出更好的研究發現。Q:可以介紹奪冠團隊中的幾位成員以及大家的工作情況嗎?A: 這次參賽隊伍主要成員包括陳師哲和陳佳。
陳師哲是我的博士生,現在剛進入博士三年級。陳佳目前在卡內基梅隆大學Alex Hauptmann教授課題組做博士後,我們有多年的合作。Q:今年的比賽任務和去年相比有什麽不同,存在哪些難點?
A: 今年延用了去年的訓練數據集,但是測試數據集是重新採集的,比去年的測試集更大。在去年的任務中,訓練集和測試集中有些視頻片段是節選自同一個長視頻,而今年新的測試集和訓練集完全沒有任何交集,類似於跨數據集去驗證caption係統了,因此對模型generalization的要求更高。Q:針對上述不同,您的團隊今年做了哪些針對性的調整?
解決問題的具體步驟是什麽樣的呢?A: 我們主要從三個方麵提高模型的泛化能力:第一個是訓練數據的擴充。模型見過的訓練數據越多,性能也會隨之提升。
但由於video caption數據的標注代價很高,現在並沒有很大規模的video caption數據集,我們隻補充了msvd和trecvid兩個數據集,視頻數量大約是原有訓練數據的三分之一。第二個是新模型的提出(topic-guided
caption model)。互聯網上視頻涵蓋了各種各樣不同的主題內容,這種主題的多樣性會影響視頻內容描述的生成。一方麵不同主題下視頻中不同模態的貢獻度不一樣,例如音樂類視頻中音頻信號比較關鍵而在運動類視頻中視覺動作更為重要,另一方麵在不同主題下使用的詞匯和表達方式會不一樣,因此不能用同一模型刻畫出句子的多樣性。
因此,我們提出了基於隱含主題指導的caption模型,隱含主題是因為數據集中並沒有視頻的主題信息,需要自動地去挖掘視頻主題,這個模型可以生成主題相關的更加準確更加細節的視頻描述,同時泛化性能也大大提高。最後一個改進是對不同模型的融合,我們發現並沒有一個one king to
rule them all的模型,不同模型在不同視頻上還是有互補性的,因此我們利用wisdom of
the crowd,提出了主題敏感的ensembling和reranking方法來融合不同模型,提高整體係統的穩定性和效果。Q:在參賽中你們還遇到了什麽問題,如何解決的?A:
在現有的caption相關論文中大家往往使用的不是同一個數據集或者相同特徵,因此沒有在同樣的一個大數據集上,不同caption模型以及不同特徵的公平比較。對於caption而言,到底是更強的特徵還是更強的模型更重要,沒有答案。所以我們嚐試了現有的很多模型,在一個公平的比較方式上衡量不同模型性能,然後我們發現很多模型在特徵變強了以後提升就小了,甚至有些沒有提升。這也對現有研究提出了一個挑戰,就是要在一個更強的baseline上去改進模型,像模型和特徵的一個互相博弈過程。
Q:目前該領域中最厲害的方法與人類有多大的差距?下一步的有哪些研究重點?A:在msrvtt數據集上我們試着回答了一下這個問題。我們用人工的描述ground
truth估計了人類的caption平均性能。在caption任務的幾個客觀評價指標上,我們的係統和人類平均水平基本持平,有些指標上高於人類,有些指標上與人類相差不多。但這並不意味着我們攻克這個任務了。一方麵,現有的評價指標還不能很好衡量句子的質量,說一句general但沒有太多信息量的話評測會高,另一個重要方麵就是模型的泛化性能和人的差距較大。
因此,下一步會針對提高caption模型的泛化能力、表達能力(生成更細節更生動的描述)等方麵進行研究突破。Q:你們團隊在大會第一天的Audio/Visual Emotion Challenge
and Workshop(AVEC 2017)中也奪得了Affect Sub-Challenge的冠軍,你們在這兩個比賽中使用了哪些相同的方法和技巧嗎?
A: 這是兩個很不同的任務,每個任務要做到好的performance都必須針對任務提出好的解決方法。但有一些基本的模型還是可以通用的,例如時序模型LSTM在兩個任務中都很重要,另外有些思路兩個任務都可以互相借鑒,比如多任務學習等。本文來源:http://tech.
ifeng.com/a/20171103/44743967_0.shtml