智能視覺分析技術(shù)應(yīng)用而生 未來市場可觀
發(fā)布時(shí)間: 2015-03-27 瀏覽:181次
淺談智能視覺技術(shù)應(yīng)用與發(fā)展
【CPS中安網(wǎng) cps.com.cn】通俗地說,智能視覺技術(shù),就是通過計(jì)算機(jī)自動(dòng)對攝像頭采集的視頻信息進(jìn)行分析處理,從視頻序列中捕捉存在的感興趣區(qū)域及目標(biāo),并進(jìn)一步獲取目標(biāo)的出現(xiàn)時(shí)間、運(yùn)動(dòng)軌跡、顏色等諸多信息,通過對各個(gè)目標(biāo)的上述信息的分析。
智能視覺技術(shù)核心是運(yùn)動(dòng)目標(biāo)檢測、分類、跟蹤與識別技術(shù)等。運(yùn)動(dòng)目標(biāo)檢測是將視頻圖像序列中的感興趣目標(biāo)(如車輛或人)檢測出來,以備后續(xù)步驟的使用;目標(biāo)檢測的目的就是準(zhǔn)確地從通過運(yùn)動(dòng)檢測得到的運(yùn)動(dòng)區(qū)域中提取出與目標(biāo)相對應(yīng)的團(tuán)點(diǎn)。
研究人員已經(jīng)開發(fā)了多種運(yùn)動(dòng)目標(biāo)檢測的方法,包括幀間差分法,光流法和背景減除算法。根據(jù)實(shí)際應(yīng)用需求的不同,不同的檢測算法都是在可靠性、實(shí)時(shí)性和準(zhǔn)確性之間折衷得到的。目標(biāo)分類的目的是從檢測到的運(yùn)動(dòng)區(qū)域中將對應(yīng)于人的運(yùn)動(dòng)區(qū)域提取出來.不同的運(yùn)動(dòng)區(qū)域可能對應(yīng)于不同的運(yùn)動(dòng)目標(biāo),比如交通道路上監(jiān)控?cái)z像機(jī)所捕捉的序列圖像中可能包含行人、車輛及其它諸如飛鳥、流云、搖動(dòng)的樹枝等運(yùn)動(dòng)物體,為了便于進(jìn)一步對行人進(jìn)行跟蹤和行為分析,運(yùn)動(dòng)目標(biāo)的正確分類是完全必要的.注意,這個(gè)步驟在一些情況下可能是不必要的(比如已經(jīng)知道場景中僅僅存在人的運(yùn)動(dòng)時(shí))。運(yùn)動(dòng)目標(biāo)跟蹤是在需要監(jiān)控的環(huán)境里,如何能夠判斷出進(jìn)入特定區(qū)域的目標(biāo),并且能夠跟蹤目標(biāo)的軌跡。
具體可分為兩種情況:一是靜態(tài)背景下的目標(biāo)跟蹤;二是動(dòng)態(tài)背景下的目標(biāo)跟蹤。靜態(tài)背景下的目標(biāo)跟蹤方法具體可分為單目標(biāo)跟蹤與多目標(biāo)跟蹤。單目標(biāo)的靜態(tài)背景下的目標(biāo)跟蹤指的是攝像頭是固定在某一方位,其所觀察的視野也是靜止的。多目標(biāo)跟蹤是指在靜態(tài)環(huán)境下的多目標(biāo)跟蹤,需要確定每個(gè)目標(biāo)的特征,位置,運(yùn)動(dòng)方向,速度等信息。動(dòng)態(tài)背景下的目標(biāo)跟蹤指的是攝像頭在云臺控制下旋轉(zhuǎn),會使得他所采集的圖像時(shí)可在變化,所以,對于整個(gè)目標(biāo)跟蹤過程來說,背景是變化,目標(biāo)也是在整個(gè)過程中運(yùn)動(dòng)的,所以跟蹤起來較有難度。人的行為理解與描述是越來越被廣泛關(guān)注的研究熱點(diǎn),它是指對人的運(yùn)動(dòng)模式進(jìn)行分析和識別,并用自然語言等加以描述.行為理解可以簡單地認(rèn)為是時(shí)變數(shù)據(jù)的分類問題,即將測試序列與預(yù)先標(biāo)定的代表典型行為的參考序列進(jìn)行匹配。
當(dāng)前的智能視覺技術(shù)主要集中在基于RGB光學(xué)圖像的處理上,根據(jù)各種顏色空間、目標(biāo)的紋理結(jié)構(gòu)分析或者灰度特征、運(yùn)動(dòng)特征等來檢測與跟蹤目標(biāo),但由于RGB圖像無法獲取物體在三維空間中的距離信息,相關(guān)的算法受到周圍環(huán)境、光照變化、背景等因素的影響,在目標(biāo)檢測與跟蹤上魯棒性較差,難以實(shí)現(xiàn)復(fù)雜場景下的任意目標(biāo)檢測和在線跟蹤,應(yīng)用受到很大的限制。
因?yàn)椴噬珨z像頭獲取的圖像只保留了空間的二維信息,所以這些方法都是二維空間上進(jìn)行處理,只能獲得目標(biāo)的二維運(yùn)動(dòng)信息。真實(shí)世界中的目標(biāo)是在三維空間運(yùn)動(dòng)的,如果只獲取二維運(yùn)動(dòng)信息將難以達(dá)到實(shí)際應(yīng)用的魯棒性要求。因此,越來越多的研究者開始利用深度圖像來進(jìn)行目標(biāo)的檢測、跟蹤與識別。目前通過圖像感應(yīng)器獲取三維信息主要有兩種方式。其中一種原理與人眼視覺系統(tǒng)類似,采用兩個(gè)彩色攝像頭同時(shí)拍攝同一場景,通過兩個(gè)攝像頭的視差推導(dǎo)出場景中像素離攝像機(jī)的遠(yuǎn)近,即深度(Depth)。這種方式通常稱為雙目立體視覺(BinocularStereoVision)。利用雙目圖像推導(dǎo)深度信息需要先計(jì)算兩幅圖像像素之間的對應(yīng)關(guān)系,即左邊圖像的像素與右邊圖像的哪個(gè)像素是描述的空間中的同一個(gè)點(diǎn)。根據(jù)投影關(guān)系,距離較遠(yuǎn)的點(diǎn)投射到兩個(gè)圖像平面的坐標(biāo)偏差較小。利用這一原理可以通過坐標(biāo)偏差推導(dǎo)出深度。
然而求左右圖像像素的對應(yīng)關(guān)系是一個(gè)不適定性問題(Ill-PosedProblem),因?yàn)楸举|(zhì)上彩色攝像機(jī)捕獲的表面的外觀,并不包含深度信息,求對應(yīng)關(guān)系只能根據(jù)外觀的相似度來推導(dǎo),而不是同一位置的外觀也可能是相似的。因此雖然多年來學(xué)者們在這個(gè)方向上嘗試了各種可能的手段,仍不能取得滿意的效果。另外,計(jì)算像素對應(yīng)關(guān)系以及根據(jù)對應(yīng)關(guān)系并利用像素間的相關(guān)性進(jìn)行優(yōu)化得到深度都需要耗費(fèi)大量的計(jì)算資源。到目前為止,該問題仍是一個(gè)開放性問題,沒有能夠產(chǎn)品化而得到普遍的應(yīng)用。
另一種利用圖像感應(yīng)器獲取三維信息的原理與雷達(dá)類似:采用主動(dòng)的方式由一個(gè)激光發(fā)射器向場景中發(fā)射激光(一般是肉眼不可見的紅外激光),然后用一個(gè)接受感應(yīng)器接受反射回來。發(fā)射的激光可以是一些特定的規(guī)則模式,遠(yuǎn)近不同的對象反射回來后模式會不同(如大小),這樣通過分析接收到的發(fā)射紅外圖像就可以得到深度信息。這種方式稱之為結(jié)構(gòu)光(StructuredLight)深度獲取方法;發(fā)射的激光也可以是一些相位固定,遠(yuǎn)近不同的對象發(fā)射會得到不同的相位,這樣根據(jù)接收到的激光的相位可以分析出激光飛行的時(shí)間,從而得到深度。這種方式稱之為飛行時(shí)間(Time-of-Flight,ToF)深度獲取方式。
不管是結(jié)構(gòu)光還是ToF方式的攝像頭,早期由于其制造工藝復(fù)雜,造價(jià)很貴,而且感應(yīng)速度很慢遠(yuǎn)達(dá)不到實(shí)時(shí),只能應(yīng)用在一些專業(yè)領(lǐng)域。隨著制造技術(shù)及電子技術(shù)的發(fā)展,最近兩年來,這類利用光源獲取深度信息的技術(shù)取得了突破性的進(jìn)展。一些價(jià)格低廉并且速度很快的三維成像設(shè)備開始面世。不少公司都發(fā)布了可以實(shí)時(shí)采集深度信息的攝像頭(例如MicrosoftKinect、PrimeSense、華碩Xtion)等。這些攝像頭可以以大于30幀每秒的速度采集分辨率超過640480的深度圖像。所謂深度圖像指以像素矩陣的形式組織的場景中的深度信息,與普通圖像不同的是,圖像中的每一個(gè)像素的值不是顏色或者灰度值,而是該像素描述的點(diǎn)離攝像機(jī)的距離。Kinect是微軟在2010年發(fā)布的專為XBOX360游戲機(jī)開發(fā)的體感設(shè)備,它使用結(jié)構(gòu)光產(chǎn)生深度圖像。Kinect的全身體感技術(shù)引發(fā)了基于深度信息的研究熱潮如圖1所示。
深度圖像的處理和識別雖然不是一個(gè)全新的研究方向,但是以前由于受限于深度攝像頭,其研究都局限在一些專業(yè)的領(lǐng)域,很多地方還是空白。隨著廉價(jià)實(shí)時(shí)的深度攝像頭的出現(xiàn),對人機(jī)交互和計(jì)算機(jī)視覺提出了很多新的問題。從近兩年計(jì)算機(jī)視覺和模式識別的頂級國際會議IEEEConferenceonComputerVisionandPatternRecognition(CVPR)上發(fā)表的論文來看深度圖像處理相關(guān)的論文越來越多并且影響力也越來越大。
其次,由于廉價(jià)、實(shí)時(shí)的深度圖像攝像頭的出現(xiàn),在視頻監(jiān)控領(lǐng)域也有了不俗的應(yīng)用。韓國一名程序員利用Kinect開發(fā)出了一款監(jiān)視邊境線的系統(tǒng),如圖2所示。這個(gè)系統(tǒng)早在去年8月就開始開發(fā),直到最近才向外界公開,并被韓國軍方使用。這個(gè)系統(tǒng)利用Kinect攝像頭的紅外線功能檢測穿過韓朝兩國邊境線的物體,能夠識別動(dòng)物和人。如果系統(tǒng)檢測到穿過邊境線的是人,就會立即拉響最近的警報(bào)。
微軟表示Kinect最具潛力的一個(gè)新用途就是用來確保家庭安全,它的運(yùn)動(dòng)跟蹤系統(tǒng)完全可以勝任這種類似安防攝像機(jī)的工作。雖然傳統(tǒng)的安防攝像機(jī)也可以很出色的完成安防工作,但Kinect的感應(yīng)功能引入以后就可以更精準(zhǔn)的跟蹤入侵者的活動(dòng),以便讓記錄下了更有利用價(jià)值的視頻資料。歐洲的一家高端視頻監(jiān)控公司也利用KINECT進(jìn)行安全監(jiān)控,他們開發(fā)的產(chǎn)品使用戶可以通過手勢來改變監(jiān)控錄像的布局,可進(jìn)行錄像、變焦、快退、孤立片段的操作以及內(nèi)容顯示如地圖和網(wǎng)頁等。
國內(nèi)不少院校也對基于深度信息的智能視頻技術(shù)展開了深入研究,武漢大學(xué)計(jì)算機(jī)學(xué)院國家多媒體軟件工程技術(shù)研究中心采用微軟公司的Kinect傳感器來獲取深度圖像,并重點(diǎn)研究基于深度圖像實(shí)時(shí)徒手交互中的人手檢測、跟蹤與手勢識別技術(shù),實(shí)現(xiàn)復(fù)雜背景下自然的手勢交互。人手檢測指交互系統(tǒng)初始化時(shí)判定場景中出現(xiàn)人手或者出現(xiàn)有交互意愿的人手;人手跟蹤指根據(jù)初始的人手位置判斷后續(xù)幀圖像中人手的位置,手勢識別以人手部的動(dòng)作直接控制計(jì)算機(jī)的輸入。
針對KINECT深度圖在距離變大情況下人手輪廓模糊,無法根據(jù)手部輪廓特點(diǎn)來確認(rèn)候選手區(qū)域,揮手檢測失敗的問題,根據(jù)人手形狀在距離變化的情況下,長寬比例滿足長條形的約束條件,引入人手形狀似長條型先驗(yàn)知識,提出基于形狀先驗(yàn)和運(yùn)動(dòng)先驗(yàn)的區(qū)域增長人手定位模型,形狀先驗(yàn)按手型形狀比例約束為限制,不受用戶與攝像頭距離遠(yuǎn)近變化的影響??朔耸植枯喞:裏o法獲取候選人手及質(zhì)心的困難。結(jié)合揮手運(yùn)動(dòng)先驗(yàn),最終定位人手啟動(dòng)人機(jī)交互。將揮手檢測的適用距離由以前的0.7米到1.8米增加到3.2米,同時(shí)檢測率達(dá)到95%,提升了揮手檢測的效率,如圖3所示。針對人手跟蹤過程中,人手與軀干融合導(dǎo)致跟蹤失敗的問題,提出了基于鄰域深度距離度量的人手跟蹤模型,通過預(yù)判人手與軀干融合情況,來決定是否啟動(dòng)人手運(yùn)動(dòng)檢測,恢復(fù)人手跟蹤,解決了人手與軀干融合時(shí),人手跟蹤錯(cuò)誤問題,預(yù)判融合正確率92.9%,跟蹤恢復(fù)正確率92.3%如圖4所示。以上研究結(jié)果在國內(nèi)外發(fā)表多篇SCI、EI檢索的科技文獻(xiàn)及專利。其成果具有現(xiàn)實(shí)的應(yīng)用價(jià)值。
綜上所述,智能視覺技術(shù)是安防領(lǐng)域中一個(gè)重要的研究分支,它在智能監(jiān)控、虛擬現(xiàn)實(shí)、用戶接口等方面的應(yīng)用前景引起了廣大科研人員的濃厚興趣。更多的研究者們正逐步將其成果推向更加智能的應(yīng)用場合。