體育視頻的內容標註和解析技術研究大綱

來源：瑞文範文網 1.58W

一,開展本課題研究的意義

近年來,數字視頻的應用日趨廣泛.諸如視頻點播,數字電視,數字圖書館,視頻會議,遠程教育等等,已經爲越來越多的人所接受和熟悉.面對大量涌現的視頻數據,如何找到所需的視頻信息就成爲一個急需解決的問題.

簡單的視頻名查詢和類似錄像機的播放功能已不能滿足人們的需要.正如一本書通常會有目錄和索引幫助人們迅速瀏覽和查詢內容,一部視頻同樣需要有效的目錄和索引.傳統的方法需要由人對視頻內容進行標註,十分費時費力.尤其是當視頻資源的數量達到海量級,或是處理的速度要求接近實時的時候,完全採用人工的方法都會遇到難以克服的困難.爲了解決這一問題,九十年代以來,出現了基於內容的視頻分析和檢索[1][2][3].其核心就是通過對視頻內容進行計算機分析理解,建立結構和語義索引,以方便用戶檢索.

巨大的商業前景和重要的學術價值,吸引了來自於業界和學術界不同領域的研究人員在這一問題上開展研究.一些原型系統先後被提出,主要有ibm的qbic/cuevideo[4][5],virage公司的video engine[6],卡內基梅隆大學的informedia[7],哥倫比亞大學的videoq[8]等.這些努力最終促成了國際標準——mpeg-7(多媒體內容描述接口)的誕生.但是隨着問題的深入,研究人員面臨了更大的障礙:視覺/聽覺內容的機器理解,即難以建立底層特徵與高層語義的聯繫.同樣的難題困擾了人工智能領域多年.一般認爲,尋找通用的解決方法是異常艱難的.因此,一些研究轉而專注於解決特定領域的應用問題,如新聞,電影等.在這些特定領域,結合相應的領域知識,是可能將底層特徵與高層語義建立某種聯繫的.

體育視頻,即體育比賽的電視轉播,作爲一個重要的應用領域,一直備受關注.體育比賽一般很漫長,但對於大多數觀衆來說,真正關心並有可能反覆觀看的只是其中的一小部分.例如一場跳水比賽常常需要持續幾個小時,而其中的精彩部分——運動員從起跳到入水的過程卻只有短短几分鐘.人們需要一種方便快捷的手段來訪問體育視頻的內容.

與其他視頻相比,體育視頻具有自己的特點.首先,體育視頻中存在一些領域相關的語義事件,如跳水比賽中運動員的跳水,足球比賽中的射門等.這些語義事件往往是視頻中最有價值的部分,需要進行標註以便於檢索.其次,體育比賽一般有較強的結構性,如跳水比賽由若干輪組成,每輪又由若干選手組成等.爲了便於對視頻內容的瀏覽,原始的視頻數據應按這些結構進行解析並組織成層次目錄.本課題的目標就是研究針對體育視頻內容的語義標註和結構解析技術.

儘管限於當前的技術水平,完全自動的,通用的視頻內容理解是不太可能的,但是本課題的研究將證明部分的解決是有可能的和有價值的,此外我們的研究也將爲最終的全面解決奠定基礎.除了學術上的意義,本課題的研究還可以有以下一些直接的應用:

1,視頻資料庫:適用於各類體育專業人士或愛好者對收集的體育比賽視頻資料進行查詢,瀏覽和管理.目前,我們已申請到國家體育總局的科研項目——跳水訓練圖像分析軟件系統研製.通過對跳水比賽視頻的內容標註與解析,能夠方便快捷的實現一個典型動作的視頻數據庫.

2,web多媒體發佈:適用於新聞或者體育網站在web上及時發佈體育多媒體信息.今天,已經有越來越多人的習慣於從網上獲取最新的資訊.基於我們的技術,可以在第一時間採編和發佈綜合圖文和視音頻在內的體育多媒體信息.

3,個人移動業務:適用於無線服務提供商爲個人提供定製的多媒體消息服務(multimedia message service,簡稱mms).我們的內容標註和解析技術,可以爲冗長的體育視頻生成摘要,從而可以根據用戶的個人喜好和終端能力,向移動設備發送體育多媒體消息.

二,國內外研究現狀分析

國際上對於體育視頻的研究是從90年代中期開始的,屬於視頻檢索領域的一個子課題.與新聞視頻領域取得的成功相比[9][10][11],體育視頻的研究相對較少也更爲困難.這主要是因爲新聞視頻有一個基本一致的時域結構和場景語義,即先是播音員鏡頭,然後是新聞報道,最後再回到播音員鏡頭進行下面的新聞報道,而對於體育視頻則不存在這樣統一的結構和語義.目前體育視頻的研究尚處於初期探索階段,對於其過程和方法還沒有統一的結論,也還沒有可以投入實用的系統.

1,鏡頭檢測

通常在對體育視頻進行分析前,需要將其分割成鏡頭.所謂鏡頭,是指攝像機不間斷拍攝的一組幀序列,它常被看成一部視頻的最小結構單元.爲了將鏡頭分割出來,需要進行鏡頭邊界檢測.鏡頭與鏡頭之間的邊界有兩種類型:突變和漸變.突變時,鏡頭直接切換到下一個;漸變時,從一個鏡頭到下一個鏡頭會有一個持續多幀的變化過程,常見的主要有淡出淡入(fade out and fade in),溶解(dissolve),擦變(wipe)等.淡出淡入是指視頻幀逐漸隱去直到完全黑屏,再逐漸顯現後一鏡頭的幀圖像.溶解是指在前一鏡頭幀圖像逐漸模糊的同時,後一鏡頭的幀逐漸增強,並且產生前後幀圖像的重疊.擦變表現爲後一鏡頭幀圖像的區域逐漸變大把前一鏡頭的圖像擦掉.

鏡頭檢測的關鍵問題是如何區分鏡頭之間的切換和因爲攝像機或物體運動造成的鏡頭內變化.由於這個原因,漸變比突變更難以檢測.早期的工作主要在突變檢測,近來更多的研究集中到對漸變的分析.

鏡頭檢測的方法可以分爲兩類:非壓縮域的和壓縮域的.在[12][13]中,對各種非壓縮域的鏡頭檢測算法進行了實驗評價.與非壓縮域的方法相比,基於壓縮域的方法不需要對視頻編碼流進行解碼,而是直接使用如dct係數,運動矢量,宏塊(macroblock)信息等壓縮域特徵進行分析,從而提高了處理速度[14][15][16][17].今天大量的視頻數據是以壓縮格式(如mpeg)存儲的,因此基於壓縮域的方法往往具有更大的實用價值.

2,語義標註

所謂語義標註,是指對體育視頻中的語義事件進行檢測和標註,其實質就是依據事先定義好的類別對視頻片段進行識別.當前,國內外對體育視頻研究實際上主要集中在這個方面,下面介紹一下相關工作.

y. gong等首先提出了對足球比賽視頻的分析[18].他們結合足球比賽的領域知識,通過場地白線識別,攝像機運動檢測,足球和運動員檢測等分析,對視頻內容進行推斷,包括處在球場什麼位置,射門,角球等.例如,如果場景接近球門區域而且足球有一個向球門的運動,則可以推斷這是一個射門.實驗結果表明,系統對於球場位置的識別較爲準確,達到90%,但是射門和角球的識別率只有53%,這主要是因爲高速運動和遮擋關係,使得足球的檢測較爲困難.

哥倫比亞大學的peng xu等觀察到足球比賽可以劃分爲兩種狀態:進行和暫停(如因爲球在界外或裁判暫定比賽).他們開發了一個能夠檢測視頻中的足球比賽是在進行還是暫停的系統[19].該系統對足球視頻分析分爲兩步.首先,根據顏色分析得出每一幀中的草地顏色比率,使用這個特徵將幀標註爲三種:全景(globe view),近景(zoom-in view)和特寫(close-up view).在檢測的時候,算法可以對草色和分類決策進行學習和自動調整.接着,在對視頻幀進行上述分類標記後,根據經驗總結的規則(如全景一般是比賽進行,特寫一般是比賽中斷等)判斷比賽是在進行還是暫停了.實驗使用了四段來自不同足球比賽的五分鐘片斷,檢測準確率最好達到86.5%,最壞只有67.3%.

在另一篇文章裏,他們使用了基於隱馬爾科夫模型(hmm)的統計方法[20].根據足球視頻的特點,選擇主色比率(dominant-color ratio)和運動強度(motion intensity)爲提取特徵.他們爲進行和暫停分別建立了各自的隱馬爾科夫模型組,依據最大的可能性對足球視頻進行標註.與基於規則的方法相比,這種方法不需要去直接建立複雜的分類規則和確定閾值,而是通過訓練樣本自動學習.實驗結果表明該方法較爲有效而且表現穩定,對不同的測試集準確率都在80%以上,平均準確率達到83.5%.

清華大學的ming luo等也以足球爲例提出了一個體育視頻分析系統[21].他們的系統根據關鍵幀中場地顏色的比率和物體的大小,將鏡頭分類爲遠鏡頭和近鏡頭.此外,對於遠鏡頭,他們觀察到在射門或長傳時,快速的攝像機運動通常會使圖像模糊,從而提出根據幀圖像的模糊度(blur extent)來檢測足球比賽中的這些事件.實驗結果表明算法對射門和長傳事件檢測的查準率爲89.3%,查全率爲97.2%.

drew d. saur等人使用直接基於mpeg壓縮域的特徵,實現了對籃球視頻內容的自動分析和標註[22].算法首先進行基於壓縮域dc圖的鏡頭分割,然後對每個p幀統計其中運動矢量的大小,考慮特寫(close-up)鏡頭比廣角(wide-angle)鏡頭一般變化更激烈,將視頻劃分爲廣角鏡頭和特寫鏡頭.對於廣角鏡頭,進一步分析其中的攝像機運動,來標註特定的視頻內容,如搶斷,快攻,可能的投籃等.

微軟研究院的y. rui等人提出一種依據計算量較小的音頻特徵來檢測棒球比賽中精彩事件的方法,適用於計算能力有限的環境[23].他們的算法首先是基於機器學習的解說員激動語音識別和棒球擊打聲檢測,然後將這兩者進行概率混合來推斷最終的精彩片斷.與人工標註的精彩片斷進行對比,實驗表明他們的算法能夠達到75%的準確率.

同樣對於棒球,dongqing zhang等通過對比賽中比分和狀態的字幕顯示進行檢測和識別來分析語義事件的發生[24][25],如觸壘得分和最後一投(投手被罰出局).他們使用視頻文本檢測和識別技術分析比賽中的字幕信息.識別結果再進一步利用領域知識模型來提高準確度.

b. li和m. i. sezan對美式橄欖球比賽的電視轉播進行了分析[26].爲了濾除比賽視頻中死球的時間,生成更爲緊湊的摘要,他們將比賽片斷定義爲表現球在運動的視頻片斷,並提出了兩種檢測方法:確定的基於規則方法和概率的基於統計的方法.基於規則的方法,分析了場地顏色,場地標線,攝像機運動和運動員衣服顏色等,然後根據經驗總結的規則,對視頻內容進行判斷.基於統計的方法,使用hmm推斷視頻中的比賽片斷,實驗表明這種方法也是很有效的.兩者相比,前者易於實現和計算,但是需要制定推導規則,而後者則具有一定的學習能力避免了直接設定閾值的困難.

在體育比賽轉播的時候,通常會在精彩事件之後及時穿插重放慢鏡頭,這方面也吸引了許多研究者的注意[27][28][29][30].通過檢測重放事件,以及發現之前視頻中相同內容的正常鏡頭,就可以爲冗長的體育視頻生成一個令人滿意的精彩索引.

di. zhang針對體育視頻的分析,試圖提出一個一般性的框架[31].爲了兼顧效率和準確性,他認爲事件的檢測可以分爲兩步進行.即基於壓縮域分析的初選階段,和基於對象層次的驗證階段.第一步,選擇一些壓縮域的特徵,如顏色和運動等,通過統計學習的方法實現對事件的初選.第二步,在候選場景中進行對象分割,根據總結的領域規則進行判定,如對於網球比賽的發球鏡頭,圖像中應有大塊場地區域,在下方有小的運動員對象.

j. assfalg等認爲體育視頻的鏡頭一般可以分爲三類:場地,運動員和觀衆[32].場地鏡頭關注體育運動本身,表現爲大塊一致的顏色區域和場地線條等.在運動員鏡頭中,運動員作爲前景中的物體出現,而背景則變得模糊.在觀衆鏡頭中,個體常常是不清楚的,而觀衆整體可以看作一種紋理.基於這些認識,他們通過邊緣提取,圖形分割和顏色

分析等,對三類鏡頭實現了有效的識別.

n. babaguchi綜合了文本和視覺特徵來對體育視頻中的事件進行檢測[33].文本信息來自於電視信號中的隱藏字幕(closed caption).首先,通過搜尋文本中事件相關的關鍵字,估計事件發生的可能時間段.然後,再對時間段內的鏡頭進行視覺特徵分析,計算與已有的事件例子的匹配度,檢測出事件相關的鏡頭.

3,結構解析

一部視頻中常常包含了成百上千個鏡頭,特別是在體育視頻中.這主要是因爲體育比賽電視轉播的時候,會有多個攝像機從不同視角對比賽進行拍攝,它們之間的頻繁切換就構成了鏡頭.爲了更好的訪問視頻內容,除了語義標註,還需要對鏡頭進行有效的組織.結構解析的任務就是通過鏡頭組織爲視頻數據流建立類似書目的分層瀏覽結構.

以[34][35]爲代表,一些研究人員提出了通用的視頻結構分析方法.他們用時間約束的聚類法把視覺上相似和時間上相鄰的鏡頭聚類在一起,再在聚類組的基礎上構造場景轉換圖(scene transition graph)或高層場景,進而形成層次化的瀏覽結構.但是這種統一的結構組織方式(如[34]中將視頻分成幀/鏡頭/組/場景四層)並不適合針對體育視頻的分析,這主要是因爲體育比賽都有自己特定結構(如圖1所示),對體育視頻的分析應當結合這種領域知識.

圖1 跳水比賽的樹狀結構

4,總結

綜上對國內外研究現狀的調查,我們有以下結論:

(1)應當結合領域知識進行特徵選擇.領域知識包括比賽相關和製作相關.比賽相關的領域特徵涉及特定的體育運動,如足球比賽中的草色比率,籃球比賽中快攻時攝像機的運動等.製作相關的領域特徵適用於大多數體育視頻的分析,主要來自對體育視頻製作的總結,如精彩場面的重放,有關運動員和比分信息的字幕顯示等.綜合這兩類領域知識,選擇合適的特徵進行分析是取得研究成功的基礎.

(2)多模式融合分析代表了新的研究趨勢.除了視覺特徵外,綜合體育視頻中所包含的音頻特徵和文本信息,能夠有效提高視頻分析的準確度.這也是近年來的研究熱點.在體育視頻中,一個語義事件常常是一個多模式的表達,如運動員的跳水事件既有視覺上的運動也有聽覺上的踏板聲和入水聲,只對其中一個模式進行分析是不完整的.因此在對體育視頻進行內容分析時,融合多模式尤爲重要.

(3)儘量考慮壓縮域的特徵分析.一場體育比賽長達數個小時,其視頻數據也非常龐大,因而提高處理速度是很有意義的,在某些要求實時應用的場合也是必需的.直接基於壓縮域的分析,不需要完全解碼,可以顯著提高處理速度.[22][31]表明基於壓縮域的分析不僅能夠大幅度降低計算量,同時也能獲得較好的結果,或者作爲進一步處理的基礎.

(4)基於統計的事件檢測方法要優於基於規則的方法.早期的研究多采用基於規則的方法.但是,體育視頻中的事件檢測常常需要綜合多種特徵分析手段,需要適應不同的場景.這些都增加了直接設定規則的難度.與之相比,統計算法易於混合多種特徵同時又具備一定的學習能力,因而具有更大的實用價值.

(5)忽略了對事件之間關係的研究.體育比賽中的各種語義事件不是孤立的,它們具有某種因果關係或概率相關.因此綜合多種事件及其之間關係的分析,對於提高分析的精度和深度都是有價值的.

(6)缺乏對體育視頻內容的結構解析.儘管許多文章中提到了體育視頻的結構分析,但是它們對結構的分析主要是基本場景的分解,如[20]中將足球視頻分爲比賽進行和暫停,[31]中檢測網球比賽的發球場景.體育視頻的結構,如圖1所示,通常是一個多層的目錄結構.在檢測基本場景的基礎上,需要進一步研究高層結構的解析.據我們所知,這方面的研究還沒有.

(7)沒有一個統一的體育視頻內容分析框架.[31]中提出了一個視頻分析的一般框架,但是他們的系統主要是實現語義事件的檢測,缺乏對視頻結構的充分解析.根據體育視頻的自身特點和應用需要,我們認爲視頻分析的過程應該有一個基本的框架,這對於進一步的研究無疑是有意義的.

三,研究目標,內容和擬解決的關鍵技術

本課題的目標是研究體育視頻內容的語義標註和結構解析技術.在實際研究中,我們主要選擇跳水比賽作爲研究對象.跳水運動十分富有觀賞性,是我國的奧運優勢項目,深受人們的喜愛.跳水比賽具有一般體育比賽的典型特徵,如層次化的結構,領域相關的語義事件等.通過內容分析技術的研究,最終我們將實現一個面向跳水運動的視頻查詢系統.

如果把視頻也看作一種語言表達,視頻分析在某種程度上與自然語言理解是非常類似的,其目的都是使計算機能夠理解信息的內容,從而實現智能化的信息處理.自然語言理解作爲人工智能中的一個重要研究方向,已經有四十多年的歷史了.它對於新興的視頻分析研究必然有很多可以借鑑的地方.通常,自然語言理解將詞彙作爲基本的處理對象,包括自動分詞,詞性標註,句法分析等幾個階段.與之類似,由於鏡頭是視頻中具有完整內容表達的最小單位,我們將鏡頭作爲體育視頻分析的基本單元,並提出如圖2所示的體育視頻內容分析框架.

圖2 體育視頻內容分析框架

1,鏡頭檢測

與自動分詞類似,鏡頭檢測按照鏡頭爲基本單位對視頻流進行分解.鏡頭檢測是視頻內容分析的基礎步驟,很大程度上影響了整個系統的性能.雖然鏡頭檢測是一個一般性的問題,但是在體育視頻中也有其特殊要求:

(1)針對體育視頻數據量大的特點,算法應能實現快速檢測;

(2)在體育視頻中存在大量的運動,算法應能儘量避免由於運動導致的誤判;

(3)作爲之後分析的基礎,算法應具有較高的準確性.

2,模式學習和語義標註

鏡頭檢測後的視頻流是一組鏡頭序列.在此基礎上,語義標註通過事件檢測對鏡頭序列進行標註.我們採用基於統計的方法來識別語義事件.識別的時候,首先通過對訓練樣本的學習建立分類器,然後利用這個分類器對鏡頭中的事件進行識別.以下問題需要解決:

(1)多模式提取和選擇領域相關的特徵來表示語義事件;

(2)應用壓縮域分析提高處理速度;

(3)設計一個良好的學習分類模型,實現高準確度的識別;

(4)對鏡頭的標註應當有利於後續的結構分析.

3,文法描述和結構解析

在語義標註之後,結構解析的任務是通過對視頻標註序列的分析,生成體育視頻的層次瀏覽結構.目前,這方面還沒有好的算法.爲解決這一問題,我們借鑑自然語言理解中句法分析的思想,根據體育比賽具有較強結構性的特點,使用文法來定義語法規則,提出了基於文法的體育視頻結構解析.在結構解析中引入文法描述,有以下好處:(1)根據文法描述可以按照體育比賽特定結構進行解析;(2)實現了領域知識和具體算法的分離.這樣,只需要引入相應的文法描述,我們可以使用統一的解析器來分析不同類型的體育比賽.關鍵技術包括:

(1)自動生成體育視頻的分層瀏覽目錄;

(2)實際應用中視頻流可能不完整或存在標註錯誤,解析器應具有良好的容錯能力;

(3)對於大數據量的體育視頻,要求結構解析的效率要高.

四,擬採取的研究方法,技術路線及可行性分析

1,基於壓縮域的鏡頭分割算法

體育視頻中常見的漸變主要有溶解,擦變,特別是其中的一些擦變具有特技效果,如圖3所示.這些特定模式的擦變,通常出現在慢鏡重放的開始和結束,識別這種鏡頭邊界是十分有價值的.現有壓縮域算法主要對切變檢測比較成功,而對於漸變的研究不多.我們將綜合壓縮域的dct係數,運動矢量以及宏塊信息等,研究一種有效的漸變檢測方法.

圖3 體育視頻中特定模式的擦變

一般在進行鏡頭邊界檢測的時候,首先從相鄰幀提取合適的特徵,然後比較這些特徵之間的差值,如果差值超過了事先設定的閾值,則認爲出現了鏡頭轉換.因此,選取合適的閾值是非常關鍵的.常用的方法包括單閾值法,多閾值法和局部閾值法.單閾值法使用一個全局閾值,方法簡單,但是對於漸變不能很好檢測.多閾值法使用多個閾值進行分級判定,如使用較大閾值檢測突變,使用較小閾值檢測漸變.局部閾值法根據局部範圍內的變化情況自動調整合適的鏡頭切分閾值,代表了新的研究趨勢.目前,有關閾值選取的研究仍然是視頻處理中的一個難點.我們將主要基於局部閾值法進行研究.

2,體育視頻中語義事件的檢測

我們將體育視頻中的語義事件分爲三類:重放事件,狀態事件和目標事件.重放事件是指體育比賽轉播中穿插播放的慢鏡重放片斷.重放事件反映了比賽中觀衆感興趣的精彩部分.狀態事件發生在比賽狀態發生變化的時候,如跳水比賽每一輪結束的評分,網球比賽中一局的開始鏡頭等.狀態事件的檢測對於視頻結構的解析有非常重要的作用.目標事件,如跳水比賽中運動員的跳水,足球比賽中的射門等,是指體育比賽中具有觀賞性的特定運動,通常表現爲物體及其之間的運動關係.對這三類事件,我們分別採用如下的技術路線:

(1)通過標誌性邊界檢測來識別重放事件

[1]中將重放分爲三種類型:重複播放的同一鏡頭;慢動作方式重放的同一鏡頭;同一場景但是由不同攝像機在不同視角拍攝的.直接從內容上比較重放事件和先前視頻鏡頭的相似性來進行分析,是很難識別準確的,尤其對於最後一種重放.

通過對體育比賽電視轉播的觀察,可以發現一般對於精彩片斷的重放都會以一個標誌性的鏡頭切換引入,再以類似的變化結束,如圖3所示.因此對於重放事件的檢測,事實上可以歸結到對這種標誌性鏡頭邊界的檢測,從而簡化問題.我們將主要研究這種方法.

(2)利用視頻文本識別確定狀態事件

狀態事件是和體育比賽的狀態變化直接相關的,而通常在比賽狀態發生變化的時候,電視轉播會在視頻中加入相關字幕提示,如跳水比賽中在運動員入場的時候,會有文字說明運動員姓名和所要做的動作;在一輪比賽結束的時候,會顯示該輪所有選手的得分情況.

根據這個特性,我們提出通過視頻中文本檢測和識別的方法來檢測狀態事件.該方法包括兩個層次.首先,通過視頻文本的檢測[36][37][38][39][40]就可以初步確定狀態事件的出現.然後,我們對檢測的文本進行識別,通過關鍵字的匹配,識別狀態事件的類別.例如,運動員入場的字幕顯示中有關鍵字"round"(輪次),"rank"(排名),"dd"(難度),"total"(總分)等,通過匹配這些關鍵字,就可以判斷當前鏡頭爲運動員入場的狀態事件.

(3)融合視音頻雙模式的目標事件檢測

在目標事件中,往往存在顯著的運動和音頻特徵,如運動員的跳水事件既有視覺上的運動也有聽覺上的踏板聲和入水聲.融合視音頻的分析避免了單純使用視覺或聽覺特徵不能完整描述語義事件的不足,可以有效提高識別精度.

在進行識別的時候,我們採用混合隱馬爾科夫模型和支持向量機的方法[41].支持向量機能夠在小樣本條件下,通過結構風險最小化準則,實現有效分類.但是支持向量機只是靜態分類機,不能很好模擬時序過程.與之相反,隱馬爾科夫模型雖然能夠較好的處理隨機時序數據的識別,但是並不能保證訓練好的模型能夠良好的分類未知數據.這樣,將兩者混合起來使用,通過在隱馬爾科夫模型中引入靜態數據識別良好的支持向量機,能對視頻流數據取得最佳的識別效果.

3,語法制導

的結構解析

爲了對輸入的體育視頻數據進行結構解析,首先我們需要對該類體育比賽的文法規則進行描述.喬姆斯基(chomsky)把文法分成4種類型,即0型文法(或稱短語文法),1型文法(或稱上下文有關文法),2型文法(或稱上下文無關文法)和3型文法(或稱正則文法).型號越高所受約束越多,對語言的描述能力也就越弱.

我們使用上下文無關文法對體育比賽的結構進行描述,主要是基於以下考慮:(1)上下文無關文法完全可以勝任對體育比賽樹狀結構的描述;(2)上下文無關文法在自然語言理解,句法模式識別,編譯技術等領域有廣泛的應用,技術比較成熟;(3)基於上下文無關文法的解析器不僅可以爲視頻有效生成層次瀏覽樹,而且具有較強的錯誤處理能力.

其中終結符r,b,e,u分別表示一輪比賽的結束,選手比賽開始,選手比賽結束和一般鏡頭,非終結符和爲結構單元,分別代表每輪比賽和每個選手的比賽.對於語義標註序列"buuuuuuuebuuuuuuuueeur",使用文法分析器進行解析得到它的層次結構"[[buuuuuuue][buuuuuuuue]eur]".其中序列最後"r"前面的"eu"爲錯誤標示,可以用錯誤恢復策略進行處理(例如,在發現終結符不能匹配時,彈出該終結符併發出警告).由於視頻序列在進行基於統計的語義標註時,存在某種程度的不確定性.所以錯誤處理應當結合語義標註的確定度來進行.如果出錯標註本身的確定度比較低,則可以認爲該標註有錯;如果出錯標註的確定度比較高,則可以認爲錯誤發生在它的前面.

以上,我們通過基於壓縮域的鏡頭分割,語義事件的檢測和語法制導的結構解析實現了體育視頻的內容標註和解析.雖然我們主要以跳水視頻爲例進行分析,但是其中的技術完全可以應用到其他類似體育視頻的分析中,甚至一般視頻的處理中.我們的研究表明,儘管限於當前的技術水平,完全自動的,通用的視頻內容理解是不太可能的,但是通過有效的人機交互和建立應用相關的模型,新的技術將可以面對視頻信息大量涌現的挑戰,給人們帶來更加豐富和方便的體驗.

五,預期研究成果及創新之處

一個壓縮域鏡頭邊界檢測的有效算法

體育視頻中慢鏡重放的檢測方法

基於壓縮域的視頻文本檢測和分割

體育視頻中狀態事件的識別

視音頻融合的事件檢測

基於文法的體育視頻結構解析

一個通用的體育視頻內容分析框架及其系統實現

六,已有工作基礎

1,已有資源:

4.96g的跳水比賽視頻數據,總長度約8小時20分鐘;

5.33g的足球比賽視頻數據,總長度約9個小時;

2.58g的其他體育視頻數據,包括籃球,排球和網球等;

2,已進行工作

一個基於內容的智能視頻檢索系統:ivideo

一種通過關鍵幀提取和組織來瀏覽視頻的方式:xplayer

可視化的視頻分析工具:medialab

綜合顏色特徵和攝像機運動分析的鏡頭邊界檢測算法

基於標誌模板的重放鏡頭檢測算法

跳水比賽視頻中精彩片斷的自動提取:ivideoanalyzer

基於壓縮域文本檢測的體育視頻結構分析:sportsplayer

3,專利和文章

王扉,李錦濤,張勇東,林守勳,"跳水比賽視頻中精彩片斷的自動提取",計算機研究與發展,評審中.

王扉,張勇東,李錦濤,林守勳,"在體育比賽視頻中檢測精彩片斷的方法",(發明)專利號02156973.8,已受理.

七,研究計劃及預期進展

XX/01 – XX/04 基於文法的體育視頻結構解析

XX/05 – XX/06 壓縮域的鏡頭邊界檢測算法

XX/07 – XX/10 體育視頻中的語義事件檢測

XX/11 – XX/12 跳水比賽的視頻分析和檢索系統

XX/01 – XX/04 技術改進,論文寫作

八,參考文獻

content-based video analysis and retrieval

[1] c.w. ngo, h.j. zhang, and t.c. pone, "recent advances in content based video analysis", international journal of image and graphics, dec XX.

[2] n. dimitrova, h.j. zhang, b. shahraray, i. sezan, t. huang, and a. zakhor, "applications of video-content analysis and retrieval", ieee multimedia, vol. 9, no. 4, XX.

[3] 莊越挺,潘雲鶴,吳飛編著,網上多媒體信息分析與檢索,清華大學出版社,XX年.

[4] m. flickner et al, "query by image and video content: the qbic system", ieee computer, 28(9), 1995.

[5] d. ponceleon, s. srinivasan, a. amir, d. petkovic, and d. diklic, "key to effective video retrieval: effective cataloging and browsing", in proc. acm multimedia, 1998.

[6] a. hampapur, a. gupta, b. horowitz, c-f. shu, c. fuller, j. bach, m. gorkani, and r. jain, "virage video engine", spie storage and retrieval for images and video databases v, 1997.

[7] h. d. wactlar, t. kanade, m. a. smith, and s. m. stevens, "intelligent access to digital video: informedia project", ieee computer, vol.29, no.3, pp.46-52, may 1996.

[8] s.-f. chang, w. chen, h. meng, h. sundaram, and d. zhong, "videoq: an automated content based video search system using visual cues", in proc. acm multimedia, november 1997.

標註大綱解析視頻體育