
視頻搜索的瓶頸
隨著諸如YouTube這樣的視頻庫的壯大,能夠索引這些素材的技術(shù)將成為互聯(lián)網(wǎng)今后的熱點。
作者:Joab Jackson 編譯:張林
現(xiàn)在,淘寶、VANCL等熱門的電子商務(wù)(電商頻道)網(wǎng)站都宣稱將和視頻網(wǎng)站合作,以在線視頻提升購物體驗。比如消費者可以看到,一款衣服穿在模特兒身上的效果如何。
不過,對于視頻的搜索服務(wù)如果不夠精準(zhǔn),有可能使用戶體驗大打折扣,F(xiàn)在,谷歌和微軟的Bing這樣基于文字的搜索服務(wù)都能提供非常接近于用戶搜索目標(biāo)的結(jié)果,而視頻搜索服務(wù)卻亟待提高。專家們正在尋找相關(guān)的技術(shù),來提升視頻搜索的精準(zhǔn)率。
荷蘭聲光研究所負(fù)責(zé)未來圖像計劃的主任Hans Westerhof在2005年啟動了一項將其視頻存檔數(shù)字化的計劃,包括電影、電視節(jié)目和新聞素材在內(nèi)的長達(dá)28萬小時的視頻和音頻素材將被數(shù)字化。其中,大約10萬小時的素材已經(jīng)被轉(zhuǎn)換格式,其存儲空間達(dá)到3PB,而到2015年時,存檔將占用14PB的存儲空間。
該研究所現(xiàn)在面臨的問題是如何更容易地在這些視頻素材中進(jìn)行查找。很多老一些的電影鏡頭幾乎沒有元數(shù)據(jù)或描述數(shù)據(jù),而老電視節(jié)目鏡頭也只有少得可憐的一些信息,比如只有節(jié)目標(biāo)題、播出日期這樣的信息,而節(jié)目的內(nèi)容則毫無信息可尋。
“為了讓資料變得可用,我們需要有元數(shù)據(jù),”他說,創(chuàng)建元數(shù)據(jù)的工作應(yīng)該盡可能自動化,因為“傳統(tǒng)編目無法在這種規(guī)模上發(fā)揮作用!
當(dāng)前,聲光研究所正在使用語音和圖形識別技術(shù)尋找從視頻中自動提取數(shù)據(jù)的方法。但由于多種原因,開發(fā)自動索引視頻的工具比開發(fā)索引文本的工具難得多。
和文本不同,視頻只能被分解成和整個視頻信息毫無關(guān)系的像素,Paul Over說。他是美國國家標(biāo)準(zhǔn)和技術(shù)研究所視頻搜索開發(fā)的項目負(fù)責(zé)人,這個項目致力于鼓勵開發(fā)更好的視頻搜索技術(shù)。而另一方面,一段文字可以被分解成一系列的詞匯,這些詞匯的意思已知,通過對它們的分析就可以得到整個文檔的概述。
視頻“和文字迥然不同,”他說,這導(dǎo)致對視頻進(jìn)行索引要困難得多。
“視頻搜索絕非易事,要提取結(jié)構(gòu)是比較困難的,”Videolectures.net的項目經(jīng)理Marko Grobelnik在在線講座中說道,“我們還在努力解決諸如物體識別這樣的基本問題!
谷歌YouTube的搜索和算法識別產(chǎn)品經(jīng)理Jamie Davidson提到,谷歌正在嘗試一種新的算法,它可以給上傳到網(wǎng)站的視頻添加上相關(guān)信息。
例如,軟件可以判斷某段視頻是否是像音樂會這樣的常見事件,以便幫助識別視頻內(nèi)容。它可以添加諸如視頻上傳位置這樣的注解,以便用戶們能將其搜索限定到特定的地理位置上。
但YouTube還面臨著搜索與分類的挑戰(zhàn),尤其是很多視頻的內(nèi)容都是千奇百怪的。他展示了一段視頻,視頻中一只土撥鼠在音樂的伴奏下在鏡頭前非常有趣地轉(zhuǎn)圈。這段視頻的標(biāo)題是“可愛的花栗鼠”,這讓搜索到該視頻的人很難猜到會有如此的標(biāo)題。
Over 解釋說,人們會為了各種各樣的目的搜索視頻。例如,一個普通的網(wǎng)民可能會去搜索一段搞笑視頻。情報分析師會搜索背景信息,因此對視頻的拍攝目的可能毫無興趣。一個紀(jì)實作者或新聞機(jī)構(gòu)會搜索特定時間和地點的新聞素材。想要給視頻加上標(biāo)記以便這些用戶都能找到顯然是非常困難的。
作為示例,Over展示了一段視頻,一個女子跑過廣場,驚起一群鴿子,隨即腳下一滑,摔倒在濕滑的地上。
“為了讓這個視頻文件具有重復(fù)使用性,你會如何對它進(jìn)行標(biāo)記?”他問道,并隨即寫下一串說明詞匯:“女人,鴿子,廣場,白天,戶外,摔倒!钡聦嵣,視頻的上傳者只用了一個詞來標(biāo)記它:“笨姐姐”。
這個標(biāo)簽“非常個性化,它對于上傳者具有某種意義,但對其他要重新使用它的人卻沒有絲毫用處。”
美國國家標(biāo)準(zhǔn)和技術(shù)研究所計劃每年都為推進(jìn)自動視頻搜索接受一系列的挑戰(zhàn),它使用真實的視頻素材作為測試的材料,目的就是鼓勵開發(fā)出能夠像人一樣高質(zhì)量地標(biāo)記素材的算法,把視頻中的人物、物體、地點甚至是特定的事件全部精確標(biāo)注出來。
一種方法是建立一系列所謂的“識別器”,即能夠被算法識別的物體或事件。軟件可以詢問:“這個鏡頭是否包含教室?是否包含椅子?是否有人在唱歌?”,然后加上對應(yīng)的標(biāo)簽。識別器越多,軟件就越能夠從素材中獲取有價值的特性。
該計劃正在取得進(jìn)展:早些年,該計劃只能使用晚間新聞廣播和機(jī)場監(jiān)控視頻素材作為測試新視頻搜索系統(tǒng)和技術(shù)的數(shù)據(jù)集。但今年,該計劃將使用網(wǎng)絡(luò)上的視頻素材,這將大大提升材料的多樣性。
“隨著特定的方法或算法進(jìn)入到不同的系統(tǒng)中,它們將會在不同的數(shù)據(jù)上測試,以反復(fù)驗證其可用性!監(jiān)ver說。
專家小組表示,雖然在過去這些年視頻搜索工具的開發(fā)取得了長足進(jìn)展,但要滿足商用要求還有很長的路要走。聲光研究所的Westerhof認(rèn)為這些工具遲早會派上用途,但他也表示,“近期內(nèi)這些工具可能還無法很好地進(jìn)行應(yīng)用。”
相關(guān)閱讀