創(chuàng)澤機(jī)器人 |
CHUANGZE ROBOT |
在“未來(lái)5-10年計(jì)算機(jī)視覺(jué)發(fā)展趨勢(shì)”的專題中,各位專家從計(jì)算機(jī)視覺(jué)發(fā)展歷程、現(xiàn)有研究局限性、未來(lái)研究方向以及視覺(jué)研究范式等多方面展開(kāi)了深入的探討。
主題組織者:林宙辰,劉日升,闞美娜
討論時(shí)間:2019年9月27日
發(fā)言嘉賓:查紅彬,陳熙霖,盧湖川,劉燁斌,章國(guó)鋒
參與討論嘉賓[發(fā)言順序]:謝曉華,林宙辰,林倞,山世光,胡占義,紀(jì)榮嶸,王亦洲,王井東,王濤,楊睿剛,鄭偉詩(shī),賈云得,魯繼文,王亮
我們將研討內(nèi)容按專題實(shí)錄整理,盡最大可能以原汁原味的形式還原觀點(diǎn)爭(zhēng)鳴現(xiàn)場(chǎng),希望有助于激發(fā)頭腦風(fēng)暴,產(chǎn)生一系列啟發(fā)性的觀點(diǎn)和思想,推動(dòng)計(jì)算機(jī)視覺(jué)領(lǐng)域持續(xù)發(fā)展。
一、開(kāi)場(chǎng):山世光、林宙辰
山世光:上次計(jì)算機(jī)視覺(jué)專委會(huì)常委會(huì)上,在譚院士的倡議下這次RACV嘗試一下相對(duì)比較小規(guī)模的、以討論未來(lái)與問(wèn)題為主的這樣一種形式。這次的RACV希望所有的發(fā)言人,都不是講自己的或已經(jīng)做的工作,而是圍繞著每一個(gè)主題講一講自己的觀點(diǎn)和看法。大家在發(fā)言的時(shí)候可以無(wú)所顧忌,可以爭(zhēng)論。我們會(huì)有記錄和錄音,但最后的文字會(huì)經(jīng)過(guò)大家的確認(rèn)之后才發(fā)布。
林宙辰: RACV是希望大家有一些深入的研討,互相挑戰(zhàn),以達(dá)到深入討論的目的。第一個(gè)主題是未來(lái)5-10年CV的發(fā)展趨勢(shì)。希望我們這次研討會(huì)尤其是CV發(fā)展趨勢(shì)這個(gè)主題能夠類似達(dá)特茅斯會(huì)議,產(chǎn)生一些新的思想。
二、嘉賓主題發(fā)言
1. 查紅彬
未來(lái)五年或十年CV的發(fā)展趨勢(shì)是很難預(yù)測(cè)的,有時(shí)候想的太多,反而容易跑偏。所以,今天我主要從自己認(rèn)識(shí)的角度說(shuō)說(shuō)后面我們?cè)撟鲂┦裁礃拥氖虑椤?
首先,說(shuō)說(shuō)什么叫計(jì)算機(jī)視覺(jué)?我這里給了一個(gè)比較嚴(yán)格的定義,即使用計(jì)算機(jī)技術(shù)來(lái)模擬、仿真與實(shí)現(xiàn)生物的視覺(jué)功能。但這個(gè)定義并沒(méi)有將事情完全講清楚,這里把計(jì)算機(jī)和視覺(jué)兩個(gè)概念揉到了一起,但到底什么叫計(jì)算機(jī)、什么叫視覺(jué)并沒(méi)有說(shuō)。什么叫計(jì)算機(jī)大家是能夠公認(rèn)的。但什么叫視覺(jué),其實(shí)在計(jì)算機(jī)視覺(jué)領(lǐng)域里還沒(méi)有一個(gè)大家都認(rèn)可的定義。
我們不妨先看看現(xiàn)在計(jì)算機(jī)視覺(jué)領(lǐng)域里有哪些研究?jī)?nèi)容。先來(lái)看看今年ICCV各個(gè)分會(huì)的關(guān)鍵詞,其中最大的幾個(gè)領(lǐng)域是deep learning;recognition;segmentation, grouping and shape等。這些領(lǐng)域是視覺(jué)嗎?說(shuō)是圖像處理、分析與理解也能說(shuō)的通。關(guān)鍵問(wèn)題在于,我們講來(lái)講去到底是不是真的在做視覺(jué)?這點(diǎn)有必要再想想。
舉個(gè)例子--人臉識(shí)別:人臉識(shí)別現(xiàn)在能識(shí)別大量的人臉圖像與視頻,幾十萬(wàn)、幾百萬(wàn)人都能夠識(shí)別。它是用大數(shù)據(jù)驅(qū)動(dòng)的方式來(lái)達(dá)到目的的,而且是離線學(xué)習(xí)的。但識(shí)別算法在實(shí)際應(yīng)用中對(duì)光照、遮擋等的魯棒性比較差。我們回過(guò)頭看看人的人臉識(shí)別有些什么樣的功能呢?我們?nèi)俗R(shí)別人臉的功能很強(qiáng),但只能識(shí)別很少數(shù)量的人臉,如親戚、朋友、同事等,超過(guò)一定范圍之后人是很難識(shí)別出來(lái)陌生人的人臉的,我們能看到有差別但分不清誰(shuí)是誰(shuí)。
第二個(gè),人是在生活情景當(dāng)中進(jìn)行主動(dòng)性的樣本學(xué)習(xí)。我們之所以能夠認(rèn)識(shí)親屬,是因?yàn)槲覀冊(cè)谌粘I町?dāng)中與他們生活在一起,建立了各種各樣的關(guān)系。我們主動(dòng)地用樣本來(lái)學(xué),利用了不同層次的特征。所以,盡管我們識(shí)別人臉的數(shù)量少,但是我們對(duì)抗干擾的能力很強(qiáng)。所以我覺(jué)得這是人的人臉識(shí)別和現(xiàn)在機(jī)器的人臉識(shí)別之間的差別。也就是,人的視覺(jué)中的人臉識(shí)別有它明顯的特點(diǎn),它能很好地應(yīng)對(duì)現(xiàn)實(shí)環(huán)境中的視覺(jué)處理任務(wù)。
那么現(xiàn)實(shí)環(huán)境中的視覺(jué)處理應(yīng)該考慮哪些因素呢?我們有計(jì)算機(jī)、機(jī)器人這些智能機(jī)器,同時(shí)還有其它兩個(gè)關(guān)鍵的部分。第一個(gè)部分是要通過(guò)視覺(jué)這個(gè)接口來(lái)同外部世界建立聯(lián)系,同環(huán)境進(jìn)行互動(dòng);第二個(gè)是我們講視覺(jué)的時(shí)候,生物的感知機(jī)理給我們提供了很多依據(jù)。這其中,我們要應(yīng)對(duì)的是現(xiàn)實(shí)環(huán)境的開(kāi)放性,以及三維世界的復(fù)雜性,我們要面對(duì)場(chǎng)景當(dāng)中很多動(dòng)態(tài)的變化以及層次性結(jié)構(gòu)的多樣性。
另一方面,生物的感知機(jī)理有什么呢?它是一個(gè)學(xué)習(xí)過(guò)程,但這個(gè)學(xué)習(xí)是柔性的,并不是我們現(xiàn)在這樣的離線學(xué)習(xí)并固定的方式。我們現(xiàn)在的機(jī)器學(xué)習(xí)用起來(lái)就只是測(cè)試。但我們?nèi)说膶W(xué)習(xí)中測(cè)試和學(xué)習(xí)過(guò)程并不是嚴(yán)格可分的,它有結(jié)構(gòu)上的柔性,也需要層次化的處理。此外,它有主動(dòng)性,能夠根據(jù)它的目的和任務(wù)主動(dòng)地進(jìn)行學(xué)習(xí)。同時(shí),我們?nèi)粘I町?dāng)中所需要的是一種時(shí)序數(shù)據(jù)的處理,是一種增量型的處理過(guò)程。從這樣的角度來(lái)看,我們將來(lái)的計(jì)算機(jī)視覺(jué)研究需要考慮把真實(shí)環(huán)境的特點(diǎn)與生物的感知機(jī)理融合進(jìn)來(lái)。這樣就會(huì)更接近“視覺(jué)”這個(gè)詞本來(lái)的意義。
那這其中有哪些事情我們可以去考慮呢?
首先是學(xué)習(xí)的問(wèn)題。現(xiàn)在,深度學(xué)習(xí)用的很多,但它只是我們?nèi)说哪J阶R(shí)別當(dāng)中的一部分功能,對(duì)于視覺(jué)研究來(lái)說(shuō),還有很大的挖掘空間。也就是說(shuō),我們考慮計(jì)算機(jī)視覺(jué)中的機(jī)器學(xué)習(xí)的時(shí)候,不僅僅是深度,還要把網(wǎng)絡(luò)的寬度、結(jié)構(gòu)可重構(gòu)性與結(jié)構(gòu)柔性結(jié)合起來(lái)。我們要把不同的結(jié)構(gòu)層次研究明白,同時(shí)把不同模塊之間的連接關(guān)系考慮到網(wǎng)絡(luò)里來(lái)。我們?nèi)说拇竽X就是這樣的,大腦從視覺(jué)的低層特征抽取往上,它具有很多不同的功能性結(jié)構(gòu)在里面,而且這個(gè)功能性結(jié)構(gòu)是可塑的。
其次,除了通常講的識(shí)別功能之外,我們要把記憶、注意等一些認(rèn)知機(jī)制通過(guò)學(xué)習(xí)的方式實(shí)現(xiàn)出來(lái)。目前已經(jīng)有一些這方面的工作了。將來(lái)這些機(jī)制在計(jì)算機(jī)視覺(jué)里面可能會(huì)作為學(xué)習(xí)的一個(gè)核心目標(biāo),融到我們現(xiàn)在的整個(gè)體系當(dāng)中。
另外,還應(yīng)考慮通過(guò)環(huán)境的交互這種方式來(lái)選擇需要的樣本進(jìn)行自主學(xué)習(xí)等。所以,這種學(xué)習(xí)方式上的結(jié)構(gòu)柔性應(yīng)該是我們追求的一個(gè)目標(biāo)。
另外一點(diǎn),我們現(xiàn)在的計(jì)算機(jī)視覺(jué)還比較缺乏對(duì)動(dòng)態(tài)場(chǎng)景的處理。我們現(xiàn)在很多工作是在靜態(tài)場(chǎng)景里面,像人臉識(shí)別也是在靜態(tài)場(chǎng)景里面來(lái)做。盡管有時(shí)候我們用視頻來(lái)做,但并沒(méi)有深入考慮整個(gè)場(chǎng)景的動(dòng)態(tài)特性。現(xiàn)在動(dòng)態(tài)目標(biāo)的跟蹤、檢測(cè)、分析、行為的識(shí)別與理解等這些工作都有在做,但還沒(méi)有上升到一個(gè)系統(tǒng)化的水平。我們也應(yīng)該把更多的注意力放到像移動(dòng)傳感器的定位、三維動(dòng)態(tài)場(chǎng)景的重建與理解等一些事情上面來(lái)。所以,我認(rèn)為動(dòng)態(tài)視覺(jué)是未來(lái)的另一個(gè)重要研究方向。
還有一個(gè)是主動(dòng)視覺(jué)。主動(dòng)視覺(jué)是把感知與運(yùn)動(dòng)、控制結(jié)合起來(lái),形成一個(gè)閉環(huán)。計(jì)算機(jī)視覺(jué)里很早就有一個(gè)研究課題,叫視覺(jué)伺服,是想把控制和感知很好地結(jié)合起來(lái)。我們的感知一部分是為任務(wù)目的服務(wù),另外一部分是為感知本身服務(wù),即從一種主動(dòng)控制的角度來(lái)考慮感知功能的實(shí)現(xiàn),以提高感知系統(tǒng)的自適應(yīng)能力,遷移學(xué)習(xí)、無(wú)間斷學(xué)習(xí)或終身學(xué)習(xí)等都可以應(yīng)用進(jìn)來(lái)。此外,還應(yīng)當(dāng)考慮常識(shí)、意識(shí)、動(dòng)機(jī)以及它們之間的關(guān)系。也就是說(shuō),我們要把視覺(jué)上升到有意識(shí)的、可控制的一個(gè)過(guò)程。
如果我們把前面提到的時(shí)序與動(dòng)態(tài)處理等結(jié)合起來(lái)之后,應(yīng)該更多考慮在線學(xué)習(xí)。我們不應(yīng)該全部依賴目前這種離線學(xué)習(xí)、僅使用標(biāo)注數(shù)據(jù),而是應(yīng)該在動(dòng)態(tài)的環(huán)境當(dāng)中,根據(jù)運(yùn)動(dòng)與動(dòng)態(tài)數(shù)據(jù)流本身的特性來(lái)做預(yù)測(cè)與學(xué)習(xí)。這樣可以把前面提到的記憶與注意力等一些機(jī)制結(jié)合起來(lái),最終實(shí)現(xiàn)一種無(wú)監(jiān)督的在線學(xué)習(xí)系統(tǒng)。這樣一來(lái)就能把現(xiàn)實(shí)環(huán)境中的一些特點(diǎn)與變化考慮進(jìn)來(lái),形成一套新的理論。而這個(gè)理論,跟現(xiàn)在的深度學(xué)習(xí)、圖像處理分析與理解等相比,會(huì)更接近我們講的視覺(jué)這個(gè)概念。
2. 陳熙霖
預(yù)測(cè)可見(jiàn)未來(lái)是一件風(fēng)險(xiǎn)極大的事,對(duì)于這個(gè)命題作文我只能說(shuō)個(gè)人的觀點(diǎn)。我更愿意從歷史的角度來(lái)看這件事情。
首先,我們回顧一下計(jì)算機(jī)視覺(jué)的發(fā)展歷程。我把過(guò)去幾十年的過(guò)程分為以下幾個(gè)階段。第一個(gè)階段我稱之為啟蒙階段,標(biāo)志性的事件是1963年L. Robert的三維積木世界分析的博士論文(Machine Perception of Three-dimensional Solids)和1966年夏天Minsky安排幾個(gè)本科生做的手眼系統(tǒng)。這個(gè)階段對(duì)計(jì)算機(jī)視覺(jué)的估計(jì)過(guò)于樂(lè)觀,認(rèn)為這事太容易了,很快就可以解決,正如S. Papert的報(bào)告中寫到的“The summer vision project is an attempt to use our summer workers effectively in the construction of a significant part of a visual system”。啟蒙階段的重要啟示就是發(fā)現(xiàn)這個(gè)問(wèn)題遠(yuǎn)比想象的困難。
從七十年代初期開(kāi)始進(jìn)入第二個(gè)階段,我稱之為重構(gòu)主義,這是以D. Marr的視覺(jué)框架為代表的。這個(gè)框架在Marr的總結(jié)性著作“Vision --A Computational Investigation into the Human Representation and Processing of Visual Information”中有很好的闡述。其核心是將一切對(duì)象恢復(fù)到三維表達(dá)。其基本過(guò)程是:圖像à基本要素圖(primal sketch)à以觀察者為中心的三維表達(dá)(2.5D skecth)à以觀察對(duì)象為中心的3D表達(dá)。這個(gè)過(guò)程看起來(lái)很漂亮,但卻存在兩方面的問(wèn)題——首先是這樣的過(guò)程是否是必須的,其次是如果都試圖恢復(fù)三維,這樣不論對(duì)感知測(cè)量還是計(jì)算是否現(xiàn)實(shí)。我個(gè)人認(rèn)為三維在計(jì)算機(jī)視覺(jué)中的作用也是有限的。這個(gè)階段的工作也導(dǎo)致了上世紀(jì)90年代初對(duì)計(jì)算機(jī)視覺(jué)研究的反思和爭(zhēng)論。有興趣的各位可以看看1991年CVGIP: Image Understanding第53卷第1期上的討論文章。
第三個(gè)階段我稱之為分類主義,反正只要能識(shí)別就好,不管白貓黑貓抓住老鼠就好。人臉識(shí)別、各種多類物體識(shí)別等都在這個(gè)階段大行其道,研究者們采用各種各樣的方法,從研究各類不變算子(如SIFT、HOG等)到分類方法(如SVM、AdaBoost等)。這個(gè)階段推進(jìn)了識(shí)別問(wèn)題的解決,但似乎總差最后一公里。
最近的一個(gè)階段我稱之為拼力氣比規(guī)模階段,其核心是聯(lián)結(jié)主義的復(fù)興,這得益于數(shù)據(jù)和計(jì)算資源的廉價(jià)化。這類方法在各種分類問(wèn)題上似乎得到了很好的解決。但這些方法背后缺少了很多研究需要追求和思考的東西,過(guò)去我們都在講找一個(gè)美妙的辦法。如同我們希望瞄準(zhǔn)目標(biāo),以最小的代價(jià)擊中目標(biāo),F(xiàn)在這類方法更像是炮決,今天我們似乎進(jìn)入了這樣的炮決時(shí)代。
那么未來(lái)會(huì)是怎么樣的?從前面的發(fā)展歷史來(lái)看,計(jì)算機(jī)視覺(jué)經(jīng)過(guò)幾十年的發(fā)展進(jìn)入了野蠻人的時(shí)代。什么叫進(jìn)入野蠻人的時(shí)代了?今天大家說(shuō)人工智能熱,可幾乎所有拿來(lái)驗(yàn)證人工智能的例子都是和計(jì)算機(jī)視覺(jué)相關(guān)的。而今天很多所謂的計(jì)算機(jī)視覺(jué)研究就是拿深度學(xué)習(xí)訓(xùn)練一個(gè)模型,所以說(shuō)這是個(gè)野蠻人的時(shí)代。那么野蠻人時(shí)代有什么問(wèn)題?
我們看上一個(gè)和野蠻人時(shí)代相關(guān)的歷史——羅馬帝國(guó)。羅馬帝國(guó)是被野蠻人消滅的,羅馬(更具體的是指西羅馬)從建國(guó)到被滅亡,中間大概有500年。而且西羅馬被滅了以后,還有一個(gè)叫神圣羅馬帝國(guó),按照尤瓦爾·赫拉利《人類簡(jiǎn)史》上的說(shuō)法后者既不神圣也不是帝國(guó)。當(dāng)年羅馬帝國(guó)也是所有的東西都講究漂亮美麗——斗獸場(chǎng)、引水渠以及打到哪修到哪的條條大路(通羅馬)。計(jì)算機(jī)視覺(jué)早年的研究者也是天天追求漂亮,要數(shù)學(xué)上美、物理上美等等,就和當(dāng)年羅馬帝國(guó)一樣,F(xiàn)在也真的和羅馬帝國(guó)一樣了,我們遇到了蠻族人。
這個(gè)蠻族人是誰(shuí)?就是深度學(xué)習(xí),和過(guò)去羅馬人關(guān)心文明,蠻族人關(guān)心財(cái)富一樣,在計(jì)算機(jī)視覺(jué)的研究上,我們也面臨著如何選擇的問(wèn)題。當(dāng)然,歷史也會(huì)驚人地相似,蠻族人占領(lǐng)羅馬以后也不是什么都沒(méi)干。后來(lái)他們建立神圣羅馬帝國(guó),到后來(lái)導(dǎo)致文藝復(fù)興。今天計(jì)算機(jī)視覺(jué)的研究在我們看來(lái)也需要一個(gè)文藝復(fù)興。
什么是我們的文藝復(fù)興?我們當(dāng)下的計(jì)算機(jī)視覺(jué)就處在這么一個(gè)需要思考的時(shí)期。而不是一味地倒向深度學(xué)習(xí),F(xiàn)在有些研究走向比蠻力的階段,就跟打仗比坦克、大炮的數(shù)量一樣,靠拼GPU的規(guī)模和計(jì)算能力。下一步,我們需要往哪里走?這是現(xiàn)在這個(gè)野蠻人時(shí)代需要思考的。
預(yù)測(cè)未來(lái)五到十年這是一個(gè)風(fēng)險(xiǎn)極大的問(wèn)題。所以我只能通過(guò)前面講的歷史和我的一點(diǎn)思考談?wù)剬?duì)未來(lái)的一些可能。
首先,一個(gè)值得關(guān)注的未來(lái)趨勢(shì)是從識(shí)別到理解,套用古人的說(shuō)法就是從知其然到知其所以然。過(guò)去十多年計(jì)算機(jī)視覺(jué)在識(shí)別方面取得了顯著的進(jìn)展,但是現(xiàn)在的識(shí)別遠(yuǎn)遠(yuǎn)不是我們所期望的識(shí)別。例如你教它識(shí)別一個(gè)杯子,它不會(huì)想到杯子和水有任何關(guān)系,不會(huì)想到杯子有任何的其他功能,因而完全是填鴨式的。今天的識(shí)別遠(yuǎn)遠(yuǎn)不是可解釋的。談到可解釋,我認(rèn)為在計(jì)算機(jī)視覺(jué)領(lǐng)域的可解釋應(yīng)該是對(duì)結(jié)論的解釋,而不是解釋網(wǎng)絡(luò)行為,前者應(yīng)該更有價(jià)值。那么要解釋這一切靠什么?應(yīng)該是靠某種形式的邏輯關(guān)系,這種關(guān)系可以通過(guò)語(yǔ)言表達(dá),語(yǔ)言應(yīng)該起到橋接作用。這里的語(yǔ)言和自然語(yǔ)言有關(guān)系也有區(qū)別,可以是獨(dú)立于我們自然語(yǔ)言的,是機(jī)器自己對(duì)世界理解的語(yǔ)言。換句話說(shuō),我們把世界的物體重新編碼起來(lái),然后把物體和物體,物體和環(huán)境的聯(lián)系建立起來(lái)就好。有了這樣的從基本屬性到對(duì)象直至環(huán)境的關(guān)系,就有可能實(shí)現(xiàn)從知其然到知其所以然。所以我覺(jué)得未來(lái)最重要的趨勢(shì)就是從無(wú)需知識(shí)支撐的識(shí)別到需要知識(shí)支撐的理解,或者說(shuō)從單純的Bottom-up的識(shí)別到需要知識(shí)啟發(fā)的具有反饋、推理的更廣義的計(jì)算機(jī)視覺(jué),這也是我自己這幾年特別關(guān)注的研究方向。
其次,值得關(guān)注的一個(gè)趨勢(shì)就是對(duì)空間感的有限需求。關(guān)于為什么動(dòng)物需要視覺(jué),主要是兩方面的需求——首先要保證尋找食物和不被天敵吃掉——識(shí)別能力;其次是保證不會(huì)因?yàn)閷?duì)空間的錯(cuò)誤判斷而造成意外傷害(摔倒或者撞擊等)。視覺(jué)最重要的就是解決這兩件事情。那么為什么講對(duì)空間感的有限需求?我們的三維空間感,只是在相對(duì)比較近的時(shí)候,才需要很精確。在距離稍遠(yuǎn)一點(diǎn)的情況下,大多數(shù)時(shí)候其實(shí)不關(guān)心精確的空間位置,而可能關(guān)心一些如遮擋、順序等關(guān)系。另外,如果你試圖把一切對(duì)象都用三維來(lái)表示的話,不管是從計(jì)算的代價(jià)還是從可實(shí)現(xiàn)性來(lái)講都很難。試想恢復(fù)一個(gè)一米遠(yuǎn)處的對(duì)象,可以做得很精確,而對(duì)于一百米或者更遠(yuǎn)的對(duì)象,如果希望保持相同的量化精度,對(duì)深度值的量化就會(huì)成問(wèn)題。這就是說(shuō)的有限需求的含義,但是我覺(jué)得這件事情一定很重要,特別是在較近的時(shí)候。
第三個(gè)值得關(guān)注的趨勢(shì)就是不同模態(tài)的結(jié)合,即所謂聰明合一,人的聰明離不開(kāi)耳聰目明。這里的模態(tài)不僅僅限于視聽(tīng)覺(jué),還可以包括不同的二維、三維的視覺(jué)傳感信息等。生物的感知從來(lái)不是僅靠單一模態(tài)的。在多模態(tài)中需要解決好的一個(gè)問(wèn)題是不同模態(tài)間的對(duì)齊與因果問(wèn)題。如果同時(shí)存在從多個(gè)模態(tài)獲取的信息,時(shí)空對(duì)齊是非常重要的挑戰(zhàn)。與時(shí)空對(duì)齊相關(guān)的另一個(gè)問(wèn)題是因果關(guān)系,雖然我們希望獲得因果,但絕大多數(shù)時(shí)候得到的僅僅是關(guān)聯(lián),兩個(gè)現(xiàn)象之間可以是第三個(gè)因素導(dǎo)致的,如同云層間放電導(dǎo)致電閃和雷鳴,這兩件事是關(guān)聯(lián)的,但絕不是電閃導(dǎo)致雷鳴。在絕大多數(shù)情況下我更傾向于去探索關(guān)聯(lián)而不是因果,特別是在數(shù)據(jù)驅(qū)動(dòng)的模型下,離開(kāi)機(jī)理試圖發(fā)現(xiàn)因果是困難的。但在未來(lái)的計(jì)算機(jī)視覺(jué)研究中不同模態(tài)的結(jié)合和關(guān)聯(lián)是一個(gè)重要的趨勢(shì)。
第四個(gè)需要關(guān)注的趨勢(shì)是主動(dòng)視覺(jué),所謂主動(dòng)就是在視覺(jué)系統(tǒng)中納入了反饋的機(jī)制,從而具有選擇的可能。視覺(jué)如果僅僅以獨(dú)立的形式存在,則不論是從感知所需的精度、分辨率以及處理的能力都需要成指數(shù)規(guī)模的增加,生物視覺(jué)由于有了主動(dòng)選擇的機(jī)制,因而在視野、分辨率、三維感知與能量消耗方面得到了很好的平衡。當(dāng)計(jì)算機(jī)視覺(jué)的研究不僅僅是為了驗(yàn)證某個(gè)單一的功能時(shí),上述生物視覺(jué)的平衡一樣需要在計(jì)算機(jī)視覺(jué)系統(tǒng)中考慮,實(shí)現(xiàn)從感知、響應(yīng)到行為的閉環(huán)。從被動(dòng)感知走到主動(dòng)的感知,這是從算法到系統(tǒng)的一個(gè)重要趨勢(shì)。將視覺(jué)的“看”與“響應(yīng)”和“行為”構(gòu)成廣義的計(jì)算機(jī)視覺(jué)系統(tǒng),通過(guò)有主動(dòng)的“行為”進(jìn)行探索,實(shí)現(xiàn)“魂”和“體”的合一。這對(duì)視覺(jué)應(yīng)用系統(tǒng)是至關(guān)重要的——例如一個(gè)經(jīng)過(guò)預(yù)訓(xùn)練的服務(wù)機(jī)器人,可以通過(guò)在新環(huán)境中的主動(dòng)探索,實(shí)現(xiàn)整體智能的提升。所以我認(rèn)為這是未來(lái)視覺(jué)應(yīng)用系統(tǒng)的重要趨勢(shì)。
我沒(méi)有講具體的算法哪些是重要的。我想說(shuō)一件事情,就是關(guān)于深度學(xué)習(xí),我覺(jué)得未來(lái)深度學(xué)習(xí)就會(huì)像今天計(jì)算機(jī)里看到的寄存器、觸發(fā)器、存儲(chǔ)器乃至CPU一樣,成為基本構(gòu)件。關(guān)于趨勢(shì),延續(xù)前面的劃分,計(jì)算機(jī)視覺(jué)將進(jìn)入一個(gè)知識(shí)為中心的階段。隨著深度學(xué)習(xí)的廣泛應(yīng)用,計(jì)算機(jī)視覺(jué)系統(tǒng)將不僅處理單一任務(wù)。在復(fù)雜視覺(jué)任務(wù)的處理中,主動(dòng)視覺(jué)將起到重要的作用。通過(guò)主動(dòng)的響應(yīng)和探索,構(gòu)建并完善視覺(jué)系統(tǒng)對(duì)觀察世界的關(guān)聯(lián)(因果)關(guān)系并借此理解空間對(duì)象的時(shí)空關(guān)系、物理屬性等。這算是我對(duì)今天討論問(wèn)題的個(gè)人預(yù)測(cè)。
3. 盧湖川
剛才前面兩位老師已經(jīng)提綱挈領(lǐng)的提了一些觀點(diǎn),我可能有一些和他們是相似的。
從理論方面來(lái)講,我覺(jué)得目前深度學(xué)習(xí)的理論好像有點(diǎn)走不太動(dòng)了。具體來(lái)說(shuō),從Backbone的發(fā)展來(lái)看,網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì),基本上沒(méi)有更多新的內(nèi)容。另一方面,某些領(lǐng)域還是比較熱門的,發(fā)展比較快。比如說(shuō)自然語(yǔ)言處理(NLP)和視覺(jué)的結(jié)合,這幾年取得了很多進(jìn)展,特別是聊天機(jī)器人等相關(guān)的實(shí)際需求,驅(qū)動(dòng)著VQA等技術(shù)都有較大的進(jìn)展。尤其是基于圖的方法和視覺(jué)結(jié)合在一起可能會(huì)越來(lái)越熱。
以知識(shí)圖譜為例,如果知道一些先驗(yàn)知識(shí),知道一些知識(shí)圖譜的話,可能會(huì)更好的去理解圖像或者視頻。例如,給定一幅圖像,里面有一只貓和一個(gè)魚缸,貓用爪子抱住了魚缸,還盯著魚缸里面的魚,如果我們知道知識(shí)圖譜里貓和魚的關(guān)系, 我們就能很好的描述出貓想吃魚缸里的魚,從而更好的幫助視覺(jué)理解圖像或視頻里目標(biāo)和目標(biāo)之間的關(guān)系。所以說(shuō),我覺(jué)得基于圖或圖譜的方法和視覺(jué)結(jié)合在一起未來(lái)幾年會(huì)有更大的發(fā)展。
第二方面,我覺(jué)得三維視覺(jué)會(huì)繼續(xù)快速發(fā)展。從前兩年開(kāi)始冒頭,到現(xiàn)在已經(jīng)較為火爆,不僅僅局限于三維場(chǎng)景重構(gòu)等領(lǐng)域,最近基于三維視覺(jué)的檢測(cè)與分割等都有一些優(yōu)秀的工作涌現(xiàn)。隨著基于各種各樣的嵌入式設(shè)備和手機(jī)端的需求,像華為手機(jī)已經(jīng)有三個(gè)背面的攝像頭,甚至多個(gè)攝像頭(它的三個(gè)攝像頭的定義,一個(gè)是超廣角的,一個(gè)是廣角的,另外一個(gè)是高精度的攝像頭,不同的分辨率,可以更多的去模仿人的視覺(jué)方式)。由于人觀測(cè)世界本身是三維的,所以移動(dòng)端的這種大量的應(yīng)用會(huì)牽引著三維視覺(jué)在這方面越來(lái)越走向更深入的發(fā)展。
第三方面,最初我們提到深度學(xué)習(xí)時(shí),通常都會(huì)說(shuō)手工設(shè)計(jì)的特征(handcrafted feature)有各種各樣的不好,而深度學(xué)習(xí)是一個(gè)端到端的網(wǎng)絡(luò)。實(shí)際上,深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)也是手工設(shè)計(jì)的(handcrafted)。目前,網(wǎng)絡(luò)結(jié)構(gòu)搜索NAS興起之后,我覺(jué)得在這方面可能會(huì)有更多的一些改善,能夠把一些常規(guī)的操作,包括一些常規(guī)的模塊都融入進(jìn)去,來(lái)不斷優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)而不是手工設(shè)計(jì)(handcrafted design)。我覺(jué)得未來(lái)幾年在這方面,甚至包括網(wǎng)絡(luò)結(jié)構(gòu)的壓縮和裁剪方面都會(huì)有更多的進(jìn)步。
第四方面,深度學(xué)習(xí)興起之后,我們看到誕生了一大堆的數(shù)據(jù)集,并且都是有g(shù)round truth標(biāo)注的數(shù)據(jù),在其驅(qū)動(dòng)下,深度網(wǎng)絡(luò)達(dá)到了一個(gè)比較好的性能,目前絕大多數(shù)的數(shù)據(jù)集在性能方面基本上也趨于飽和了,但是距離實(shí)際問(wèn)題仍然有較大的距離。另一方面,人對(duì)世界的認(rèn)知基本都是小樣本學(xué)習(xí)的結(jié)果,和目前的大數(shù)據(jù)驅(qū)動(dòng)的模式不太一樣。所以能否將當(dāng)前大數(shù)據(jù)驅(qū)動(dòng)的方式和人參與的方式結(jié)合起來(lái)?現(xiàn)在也有很多這樣的論文來(lái)研究人主動(dòng)參與的或者是human in the loop的學(xué)習(xí)方式,可以把人對(duì)ground truth的主動(dòng)標(biāo)記結(jié)合起來(lái),引導(dǎo)快速的學(xué)習(xí),甚至把性能提高到一個(gè)更高的高度。
第五方面,視頻理解在前幾年開(kāi)始有初步的發(fā)展,特別是到這幾年有更多的需求和深入的趨勢(shì)。因?yàn)楝F(xiàn)在基于圖像的所有任務(wù)做到一定程度之后可能都做不動(dòng)了,或者說(shuō)沒(méi)有更多的花樣了,那么對(duì)視頻的各種理解越來(lái)越多,包括視頻摘要、視頻場(chǎng)景分類、廣告識(shí)別、臺(tái)標(biāo)識(shí)別等等,很多這方面的應(yīng)用,我覺(jué)得未來(lái)幾年會(huì)有更長(zhǎng)足的發(fā)展。
我覺(jué)得在主題(topic)方面,未來(lái)會(huì)有更多的發(fā)展領(lǐng)域。隨著剛才陳老師說(shuō)到野蠻人的時(shí)代來(lái)了,大家參與視覺(jué)研究的熱情很高,不光是學(xué)術(shù)界,產(chǎn)業(yè)界對(duì)這種需求也是非常巨大的。因此我覺(jué)得目前深度學(xué)習(xí)領(lǐng)域,視覺(jué)會(huì)在各個(gè)行業(yè)縱深發(fā)展。
舉個(gè)例子,這兩天有一個(gè)公司提出這樣的一個(gè)需求,即鞋印踩上去之后,希望能識(shí)別是哪個(gè)犯罪嫌疑人來(lái)踩的,這個(gè)就是足跡識(shí)別。進(jìn)一步,他們想通過(guò)這個(gè)足跡來(lái)判斷這個(gè)鞋的鞋面是什么樣的,是什么牌子的。然后通過(guò)這些線索進(jìn)而去庫(kù)里搜索比對(duì),搜索完了之后,再去視頻里面去找犯罪嫌疑人,即穿這種鞋的人到底是誰(shuí)。這個(gè)過(guò)程中,一步一步的從源頭開(kāi)始到后面,形成了一系列的視覺(jué)問(wèn)題,行業(yè)的這種縱深發(fā)展需求是無(wú)限巨大的。
視覺(jué)里面還有很多之前沒(méi)有想到的事情在不斷進(jìn)步,兩天前我參加了工業(yè)機(jī)器人展,看到有一個(gè)撿包裹的機(jī)器人。我們都知道快遞小哥要送了一大堆包裹,各種各樣的包裹都有,能否在包裹車?yán)瓉?lái)一車包裹后,讓機(jī)器人去分類呢?我在展會(huì)上看到就有這么個(gè)機(jī)器人,它會(huì)自動(dòng)的去識(shí)別是什么樣的包裹,而且知道它的三維的曲面是怎么樣,因?yàn)榘诺慕嵌榷纪耆煌鼤?huì)調(diào)整機(jī)械臂,適應(yīng)包裹的三維曲面的法線方向,去吸附它。我感覺(jué)在不同行業(yè)實(shí)際需求下,像分割、三維建模等視覺(jué)技術(shù)都會(huì)快速在各個(gè)行業(yè)里得到深入的發(fā)展。
另外,我覺(jué)得在醫(yī)療圖像方面也會(huì)有很大的進(jìn)展。醫(yī)療圖像現(xiàn)在更多的是各個(gè)疾病的檢測(cè)。昨天跟一個(gè)醫(yī)療單位在一起交流,他們提供了一個(gè)很大的平臺(tái),它的最終目標(biāo)是通過(guò)病人的不同模態(tài)的信息,來(lái)最后綜合判斷病人到底是什么樣的病。不僅僅是關(guān)注醫(yī)學(xué)影像信息的,還有一些其他的一些檢查結(jié)果,其實(shí)是一個(gè)跨模態(tài)的融合,包括圖像標(biāo)注、病案標(biāo)注等等,他們都使得醫(yī)療圖像未來(lái)和視覺(jué)的結(jié)合會(huì)越來(lái)越緊密。
目前5G不光是速度快容量大,它其實(shí)給計(jì)算機(jī)視覺(jué)AI帶來(lái)了一個(gè)更廣闊的前景,特別是無(wú)人車方面,剛才幾位也提到了三維的地圖等。跟中國(guó)移動(dòng)交流了之后,發(fā)現(xiàn)他們的高精度地圖,可以通過(guò)5G帶寬實(shí)時(shí)傳輸,是可以看到馬路崖子這種厘米級(jí)的精細(xì)度。所以我覺(jué)得5G+AI會(huì)為我們視覺(jué)相關(guān)領(lǐng)域的發(fā)展帶來(lái)巨大的機(jī)會(huì)。以上就是我對(duì)未來(lái)5-10年視覺(jué)發(fā)展趨勢(shì)的一些理解。
4. 劉燁斌
我主要圍繞三維視覺(jué)、虛擬現(xiàn)實(shí)和人工智能的發(fā)展談點(diǎn)想法。虛擬現(xiàn)實(shí)是2016年火了之后一直發(fā)展比較平穩(wěn)。2018年習(xí)總書記有過(guò)關(guān)于虛擬現(xiàn)實(shí)的重要性的指示,虛擬現(xiàn)實(shí)技術(shù)改變了未來(lái)的交互方式,主要是這種人與環(huán)境、人與人之間的交互方式可能會(huì)變得更加自然簡(jiǎn)單,并且取代鍵盤、手機(jī)觸屏等現(xiàn)有的功能。
三維視覺(jué)的趨勢(shì)是做視覺(jué)信息的重構(gòu),提供三維的內(nèi)容給虛擬現(xiàn)實(shí),這個(gè)是三維重建,三維虛擬現(xiàn)實(shí)通過(guò)真實(shí)渲染能夠產(chǎn)生很多數(shù)據(jù),為視覺(jué)問(wèn)題服務(wù)。很多視覺(jué)問(wèn)題皆有數(shù)據(jù)驅(qū)動(dòng),數(shù)據(jù)如何得來(lái),越來(lái)越多的部分時(shí)通過(guò)三維引擎來(lái)得到。計(jì)算機(jī)視覺(jué)的研究對(duì)象有好幾類,室外的、室內(nèi)的、包括人體人臉還有手,還有一些醫(yī)學(xué)和生命對(duì)象。以人為本是計(jì)算機(jī)視覺(jué)的核心,所以我主要以人作為視覺(jué)研究對(duì)象,舉例說(shuō)明計(jì)算機(jī)視覺(jué)的發(fā)展趨勢(shì)。
從人為研究對(duì)象的角度,虛擬現(xiàn)實(shí)有三個(gè)目標(biāo),也即三個(gè)I,一個(gè)Immersion,一個(gè)Interaction,一個(gè)Imagination。三者都是虛擬人(AI、機(jī)器等)和真實(shí)人之間的作用關(guān)系。首先,虛擬人在視覺(jué)外觀上是真實(shí)的,未來(lái)的虛擬人不管是真實(shí)做出來(lái)的機(jī)器人還是存儲(chǔ)在計(jì)算機(jī)中的,都有逼近真人的發(fā)展趨勢(shì),使得交互更加友好。而這個(gè)目標(biāo),本質(zhì)上就是人體的三維重建。第二個(gè)要素是人機(jī)的交互,虛擬人一定要能感知真實(shí)人的行為,包括手勢(shì)識(shí)別,行為識(shí)別,情緒等這樣的一些理解。最后,虛擬人需要對(duì)場(chǎng)景有反應(yīng),能夠智能化,他能夠根據(jù)你的行為智能地做下一步的處理,保證產(chǎn)生一個(gè)真實(shí)的虛擬人。
總體來(lái)說(shuō),虛擬現(xiàn)實(shí)的智能建模技術(shù)被列為新一代人工智能發(fā)展規(guī)劃里的八大關(guān)鍵共性技術(shù),重點(diǎn)突破虛擬對(duì)象智能的行為建模技術(shù),提升虛擬現(xiàn)實(shí)中智能對(duì)象行為的社會(huì)性、多樣性、交互逼真性,實(shí)現(xiàn)虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等技術(shù)與人工智能的有機(jī)結(jié)合和高效互動(dòng)。上述定義中的重點(diǎn)是行為建模,行為必須是接近人的智能的行為,才能有交互的逼真性等等。圍繞這個(gè)人體的建模,目前的目標(biāo)一個(gè)是要精準(zhǔn)的重建,第二是要規(guī);牟杉,第三是要便攜式(手機(jī)單圖像也能做),第四是速度足夠快,能夠響應(yīng)交互的要求,第五就是現(xiàn)在一個(gè)大的發(fā)展趨勢(shì),建模的結(jié)果含有語(yǔ)義信息,即語(yǔ)義化建模,包括服裝,人臉,頭發(fā)等。最后第六就是智能生成,即重建結(jié)果能真實(shí)動(dòng)畫展示。現(xiàn)有的三維視覺(jué)重建技術(shù)很難滿足這六個(gè)方面的要求,所以圍繞這些目標(biāo)還有很多研究需要做。
人體重建主要目的之一是全息通信。這里展示微軟做的holoportation系統(tǒng),它實(shí)現(xiàn)實(shí)時(shí)的,多相機(jī)下的人體動(dòng)態(tài)三維重建。但這個(gè)系統(tǒng)的缺點(diǎn)是,它要求具有主動(dòng)光,導(dǎo)致系統(tǒng)復(fù)雜度高,實(shí)時(shí)性和便捷性成為矛盾。實(shí)現(xiàn)實(shí)時(shí)高精度三維動(dòng)態(tài)重建,也是未來(lái)的一個(gè)學(xué)術(shù)研究趨勢(shì)。我們研制的單個(gè)深度相機(jī)實(shí)時(shí)的重建,雖然速度和便捷性都趨于完美,但精度還有待提高。單圖像人體三維重建,雖然現(xiàn)在的質(zhì)量還不算完美,但我覺(jué)得這是一個(gè)很實(shí)用的技術(shù)應(yīng)用趨勢(shì)。通過(guò)單個(gè)圖像我們就可以來(lái)簡(jiǎn)便地重建它的三維模型,未來(lái)肯定是能大放光彩的。單圖像人手動(dòng)態(tài)三維重建,通過(guò)單個(gè)RGB監(jiān)控相機(jī)就可以來(lái)實(shí)現(xiàn)實(shí)時(shí)性,可以看出三維重建輸出了語(yǔ)義信息,已經(jīng)取代了傳統(tǒng)二維計(jì)算機(jī)視覺(jué)識(shí)別問(wèn)題成為發(fā)展趨勢(shì)。
服裝產(chǎn)業(yè)占據(jù)國(guó)民生產(chǎn)總值的6%,數(shù)字化服裝是一個(gè)非常重要的計(jì)算機(jī)視覺(jué)應(yīng)用之地。這個(gè)是展示我們最新做的一些事情,通過(guò)單個(gè)視頻,可以網(wǎng)上的視頻,就能通過(guò)語(yǔ)義的建模來(lái)實(shí)現(xiàn)比較高質(zhì)量的服裝三維建模,對(duì)一些VR、AR都可以應(yīng)用,它是通過(guò)對(duì)人體和服裝的解耦,語(yǔ)義信息的加入,包括光照和紋理的解耦來(lái)實(shí)現(xiàn)。這種東西未來(lái)可以產(chǎn)生一些應(yīng)用,包括改變體型,包括增強(qiáng)現(xiàn)實(shí)的模擬,右邊就是一個(gè)互聯(lián)網(wǎng)視頻的重構(gòu),它可以改變服裝的顏色等等。我覺(jué)得這種便攜實(shí)時(shí)的三維重建的趨勢(shì)就是從低層次的三維建模,包括體素的、網(wǎng)格的,逐漸走向高層次的三維建模,包括部件級(jí)的重建、物理信息分離、感知物理動(dòng)力學(xué)、特征空間的提取。這些高維信息能夠智能地建模和生成,響應(yīng)環(huán)境,控制和預(yù)測(cè)。包括圖形學(xué)里做的一些研究,好玩的比如能讓一個(gè)人去動(dòng)的虛擬對(duì)象的這種物理的約束,包括我們自己去爬山這種增強(qiáng)現(xiàn)實(shí)的技術(shù)也會(huì)引入進(jìn)來(lái),把物理、智能響應(yīng)引入進(jìn)來(lái)。
最后再談?wù)劯袕V泛意義的一些動(dòng)態(tài)三維重建問(wèn)題。例如,醫(yī)療方面的比如外科手術(shù)的術(shù)野場(chǎng)景的三維感知,就是個(gè)非剛性復(fù)雜動(dòng)態(tài)場(chǎng)景的三維建模問(wèn)題。這是展示肝臟手術(shù)的視頻,能夠動(dòng)態(tài)跟蹤它的形狀,三維掃描的CT可以在動(dòng)態(tài)的場(chǎng)景下實(shí)時(shí)非剛性映射,輔助醫(yī)療和手術(shù)。
還有就是在生命科學(xué)領(lǐng)域的動(dòng)物行為三維重建,我覺(jué)得動(dòng)物是未來(lái)視覺(jué)的一個(gè)很大的可以應(yīng)用的點(diǎn),我們叫計(jì)算行為學(xué),也叫神經(jīng)行為學(xué)。它研究的是行為跟神經(jīng)活動(dòng)的映射關(guān)系,通過(guò)采集動(dòng)物行為數(shù)據(jù)來(lái)進(jìn)行分析。行為學(xué)上對(duì)人進(jìn)行分析非常難,因?yàn)槿说幕虿顒e非常大。但對(duì)于動(dòng)物來(lái)說(shuō),可以做到每個(gè)小鼠基因都是一樣的,像譬如在豬、猴子上也比較容易控制一些其他的差別的因素,所以對(duì)醫(yī)療,包括基因控制都會(huì)有幫助。在Nature子刊、Nature methods、Neural Science上都有一些相關(guān)的文章。
這里面其實(shí)有很多問(wèn)題,包括群體對(duì)象自然環(huán)境下的交互,非剛性的捕捉,高層語(yǔ)義檢測(cè),互遮擋三維恢復(fù),時(shí)間序列分析,有很多研究發(fā)表在Nature上。動(dòng)物行為三維重建研究趨勢(shì)就是希望動(dòng)物更加自由地在實(shí)驗(yàn)環(huán)境里去生活,被記錄,藥物干預(yù)后提早發(fā)現(xiàn)行為差別。這樣的研究還是很多的,包括可以提取維度更高的特征。我們也是在做這樣一些研究,這里面有四個(gè)小豬,有兩個(gè)是有漸凍癥的,我們通過(guò)多視點(diǎn)拍攝,希望重構(gòu)三維小豬的動(dòng)作,通過(guò)重建動(dòng)作來(lái)識(shí)別漸凍癥小豬的行為特點(diǎn),對(duì)未來(lái)的基因調(diào)控和藥物治療帶來(lái)幫助。
5. 章國(guó)鋒
幾位老師已經(jīng)從計(jì)算機(jī)視覺(jué)大的層面對(duì)未來(lái)5-10年發(fā)展趨勢(shì)做了展望,我從我熟悉的三維視覺(jué)和AR方面對(duì)未來(lái)5-10年的發(fā)展趨勢(shì)發(fā)表一下自己的看法。
我的研究方向主要是SLAM,所以我就先從SLAM的角度做一些發(fā)展趨勢(shì)的展望。我們都知道視覺(jué)SLAM是很依賴特征的,未來(lái)SLAM技術(shù)的發(fā)展趨勢(shì)必然會(huì)從以前的底層特征比如點(diǎn)、線、面,向高層特征比如語(yǔ)義、文字、物體等趨勢(shì)發(fā)展。并且,現(xiàn)在已經(jīng)有一些提取運(yùn)動(dòng)規(guī)律的工作比如人的步態(tài)規(guī)律、機(jī)器人和無(wú)人車的運(yùn)動(dòng)規(guī)則等等,來(lái)進(jìn)一步提高定位的穩(wěn)定性。
有一個(gè)趨勢(shì)是朝著多傳感器融合的方向發(fā)展,其實(shí)每個(gè)傳感器都有著它的優(yōu)點(diǎn)和缺點(diǎn),那么最好的方法就是把這些傳感器的信息都融合起來(lái),比如說(shuō)隨著深度相機(jī)的流行,一些手機(jī)上都安裝了深度攝像頭,還有Wifi、藍(lán)牙、地磁信號(hào)等等,把這些信號(hào)都融合起來(lái)肯定可以提升定位的穩(wěn)定性。未來(lái)還會(huì)有更多類型的傳感器出現(xiàn),比如這幾年新出來(lái)的事件相機(jī)、偏振相機(jī),相信未來(lái)5-10年還會(huì)有一些新的傳感器出來(lái)。通過(guò)多傳感器融合,我相信SLAM技術(shù)會(huì)做的越來(lái)越精準(zhǔn)和魯棒。
還有一個(gè)趨勢(shì)就是隨著5G時(shí)代的到來(lái)SLAM會(huì)朝著云和端結(jié)合的趨勢(shì)發(fā)展,比如說(shuō)現(xiàn)在高精度地圖的構(gòu)建是放在云上,并且支持動(dòng)態(tài)的更新。這就很自然地涉及到移動(dòng)端上的SLAM和云上的高精度地圖如何做緊耦合,如何利用語(yǔ)義地圖的信息來(lái)更好地定位,不同終端如何協(xié)同來(lái)做SLAM。
現(xiàn)在主要是深度學(xué)習(xí)的時(shí)代,對(duì)于SLAM來(lái)說(shuō),目前已有不少基于深度學(xué)習(xí)的工作,相信未來(lái)還會(huì)有更多這方面的工作涌現(xiàn)出來(lái),比如如何學(xué)習(xí)一個(gè)更好的特征,如何學(xué)習(xí)更好的策略去解決SLAM中手寫規(guī)則的困境,可能還會(huì)有做得很好的端到端的位姿學(xué)習(xí)。還有一個(gè)非常重要的就是語(yǔ)義信息的融合,比如說(shuō),結(jié)構(gòu)的信息怎么跟語(yǔ)義信息做更好的融合,就像人眼一樣看世界。我覺(jué)得這是未來(lái)的一個(gè)發(fā)展趨勢(shì)。
以上是關(guān)于SLAM方面的。然后,三維重建,劉老師前面已經(jīng)討論得很多了,尤其是動(dòng)態(tài)場(chǎng)景的重建,我這里稍微再做一點(diǎn)補(bǔ)充。我覺(jué)得未來(lái)物體的三維掃描方面,一些便攜式、移動(dòng)式的RGBD傳感器會(huì)越來(lái)越流行,比如說(shuō)基于結(jié)構(gòu)光和ToF的深度傳感器,未來(lái)我相信還會(huì)有一些新的傳感器出現(xiàn),可以幫助實(shí)現(xiàn)實(shí)時(shí)高效的三維重建。這里重建的不只是幾何和紋理,還包括材質(zhì)、語(yǔ)義等等;谡掌/視頻的三維重建技術(shù)未來(lái)幾年也還會(huì)有一些進(jìn)展,比如實(shí)現(xiàn)更高的幾何精度和紋理,能得到更細(xì)粒度的語(yǔ)義,并且結(jié)合分布式平臺(tái)的算力實(shí)現(xiàn)更高效的重建。
在大規(guī)模場(chǎng)景的三維掃描方面,目前基于相機(jī)拍攝的視頻或者照片已經(jīng)可以做到城市級(jí)場(chǎng)景的三維重建。一般都是通過(guò)無(wú)人機(jī)航拍,然后重建出來(lái)。如果進(jìn)一步結(jié)合深度傳感器(比如Lidar),相信可以實(shí)現(xiàn)更高精度的場(chǎng)景構(gòu)建。再結(jié)合分布式平臺(tái)的計(jì)算能力,實(shí)現(xiàn)整個(gè)城市甚至整個(gè)地球的完整三維地圖的重建將不是問(wèn)題。當(dāng)然只是靜態(tài)場(chǎng)景的重建還不算太難,更難的是怎么實(shí)現(xiàn)動(dòng)態(tài)物體的重建和場(chǎng)景的動(dòng)態(tài)更新,因?yàn)檎鎸?shí)的世界不是靜態(tài)的,而是動(dòng)態(tài)變化的。我覺(jué)得未來(lái)可能會(huì)通過(guò)相對(duì)低成本比如多傳感器融合的方式來(lái)實(shí)現(xiàn)四維的場(chǎng)景地圖的動(dòng)態(tài)更新。包括前面講的通過(guò)三維掃描獲得的物體模型可以注冊(cè)到真實(shí)世界的三維地圖中,來(lái)實(shí)現(xiàn)三維信息的共享和傳遞。
然后,我想談一下識(shí)別和重建的關(guān)系。識(shí)別和重建未來(lái)5到10年會(huì)往更深層次的融合。目前三維重建基本上是bottom-up的方式,對(duì)先驗(yàn)知識(shí)的利用不夠充分,未來(lái)5-10年可能會(huì)誕生top-down的方式,比如說(shuō)先識(shí)別后重建,或者兩者同步進(jìn)行。識(shí)別能夠提供更高層次的結(jié)構(gòu)先驗(yàn),反過(guò)來(lái)重建能夠幫助做更好的物體識(shí)別,因此未來(lái)會(huì)更加緊密的融合。另外,也還需要深度學(xué)習(xí)和幾何優(yōu)化算法的融合,才能最終構(gòu)建出兼具幾何外觀、語(yǔ)義信息、結(jié)構(gòu)化的、可動(dòng)態(tài)更新的3D場(chǎng)景表示。
另外,因?yàn)槲冶救艘恢痹谧鯝R方面的應(yīng)用,所以也想談一下關(guān)于AR/VR、AI和三維視覺(jué)協(xié)同發(fā)展的趨勢(shì)。其實(shí)AR主要是AI和三維視覺(jué)的應(yīng)用。這三者如果能夠緊密協(xié)同發(fā)展,那么我相信未來(lái)五到十年就可以實(shí)現(xiàn)一個(gè)地球級(jí)的現(xiàn)實(shí)世界的數(shù)字化。左邊這個(gè)圖是華為前不久提出的Cyberverse數(shù)字現(xiàn)實(shí)技術(shù),它主要是通過(guò)相機(jī)、Lidar等傳感器對(duì)真實(shí)世界進(jìn)行掃描并構(gòu)建高精度地圖,然后基于高精度地圖來(lái)實(shí)現(xiàn)室內(nèi)外精準(zhǔn)的定位和導(dǎo)航以及各種AR效果。Cyberverse實(shí)際上也不是一個(gè)完全新的概念,Magic Leap在2018年就提出過(guò)類似的概念Magicverse,旨在將大規(guī)模物理世界和數(shù)字世界持續(xù)地融合在一起。如右圖所示,Magicverse包括好幾個(gè)層,主要兩種類型,一類是叫做基礎(chǔ)層(包含物理世界和數(shù)字世界),還有一類叫空間應(yīng)用層。基礎(chǔ)層最底下是物理世界,然后在物理世界上構(gòu)造一個(gè)對(duì)應(yīng)的數(shù)字世界,然后再上面就是空間應(yīng)用層,包括流動(dòng)性、能源與水、健康與保健、通訊、娛樂(lè)等。
要實(shí)現(xiàn)這樣一個(gè)數(shù)字化的現(xiàn)實(shí)世界,最關(guān)鍵的一點(diǎn)就是對(duì)物理世界進(jìn)行三維數(shù)字化,也就是如何對(duì)高精度地圖進(jìn)行采集、構(gòu)建和更新。我相信未來(lái)必然是朝著多模態(tài)、多傳感器采集和融合的方式發(fā)展,因?yàn)槊總(gè)傳感器都有著它的優(yōu)點(diǎn)和缺點(diǎn),需要融合互補(bǔ)。這里最難的問(wèn)題可能是怎么進(jìn)行動(dòng)態(tài)更新。我相信眾包式的采集和更新是實(shí)現(xiàn)這個(gè)目標(biāo)的有效方式,可以實(shí)現(xiàn)低成本、高頻次的更新。高精度地圖除了三維還應(yīng)該包括語(yǔ)義信息,因此語(yǔ)義信息的提取也是非常重要的,而且需要滿足不同應(yīng)用的語(yǔ)義信息,比如說(shuō)定位、AR/VR的展示、行為分析等等。這就要實(shí)現(xiàn)不同粒度語(yǔ)義信息的提取,這里面的粒度可以大到整個(gè)商場(chǎng),再到一個(gè)門店,再小一點(diǎn)就是一個(gè)商品。除了物理世界的三維數(shù)字化,還需要對(duì)人的行為進(jìn)行數(shù)字化,運(yùn)動(dòng)行為、消費(fèi)的行為、社交行為等等。
對(duì)于這樣構(gòu)建的人的行為也好、三維空間也好,再結(jié)合SLAM、AR技術(shù),我們可以實(shí)現(xiàn)地球級(jí)的AR應(yīng)用。當(dāng)然,這里首先需要解決云端的高精度地圖怎么與終端SLAM緊耦合,這樣才能夠?qū)崿F(xiàn)長(zhǎng)時(shí)間大范圍的精準(zhǔn)定位和高品質(zhì)虛實(shí)融合。松耦合模式會(huì)有一些缺陷,誤差累積會(huì)很快,穩(wěn)定性也不夠好;谶@樣的一種方式,我們可以實(shí)現(xiàn)室內(nèi)外的分米級(jí)甚至到厘米級(jí)的定位和導(dǎo)航。
另外,我們知道5G時(shí)代很快就要到來(lái)了。目前的AR計(jì)算還主要是在終端,比如手機(jī)、AR眼鏡等。未來(lái)有5G的情況下很多計(jì)算都可以放到云或邊上,對(duì)終端的計(jì)算要求相對(duì)弱化,終端未來(lái)更多的是提供數(shù)據(jù)采集、連接和顯示的能力。因?yàn)橛性贫怂懔Φ募映,高品質(zhì)的AR效果可以得以實(shí)現(xiàn),比如高逼真的物理效果模擬,準(zhǔn)確的遮擋效果和虛實(shí)交互,精準(zhǔn)的光照估計(jì)和電影級(jí)的真實(shí)感繪制與虛實(shí)融合效果就成為可能。在5G時(shí)代,一方面?zhèn)鬏斔俣确浅?欤硪环矫嬗性贫怂懔映,未?lái)應(yīng)用APP甚至都不要預(yù)裝,我們打開(kāi)一個(gè)APP就像在瀏覽器上輸入網(wǎng)址或電視機(jī)上切換頻道一樣便捷。
以上是我對(duì)三維視覺(jué)和AR方面未來(lái)發(fā)展趨勢(shì)的看法,供大家參考。
三、專家討論發(fā)言
謝曉華:
我感覺(jué)我們是不是忽略了一點(diǎn),就是硬件發(fā)展。例如我們之前做超分辨率,做了很多,但是后來(lái)高清相機(jī)一出來(lái),很多工作就白做了。那會(huì)不會(huì)在未來(lái)的十年范圍內(nèi)視覺(jué)傳感器這一塊會(huì)有比較大的突破,然后剛才提到的一些工作就沒(méi)有必要去做了。
林宙辰:
我想說(shuō)一說(shuō)什么樣的計(jì)算體系適合做計(jì)算機(jī)視覺(jué)?現(xiàn)在我們都是基于馮諾依曼體系,但是人的視覺(jué)處理過(guò)程跟馮諾依曼體系有很大的差別。如果是在新型的計(jì)算平臺(tái)上面,是不是很多計(jì)算機(jī)視覺(jué)的問(wèn)題能更好或更高效的解決,我覺(jué)得是可以探討的。另外一個(gè),我贊成主動(dòng)視覺(jué)和在線學(xué)習(xí)。我覺(jué)得現(xiàn)在的視覺(jué)系統(tǒng)觸碰到了一點(diǎn)是,每個(gè)人都是from scratch,這樣的話精力有限你就只能做一個(gè)非常簡(jiǎn)單的任務(wù)。我覺(jué)得將來(lái)可以做一個(gè)像wiki一樣的項(xiàng)目,全世界都可以貢獻(xiàn),這樣的話大家都在共同構(gòu)建一個(gè)統(tǒng)一的系統(tǒng),而且這個(gè)系統(tǒng)可以利用網(wǎng)絡(luò)上的所有數(shù)據(jù),可以自我進(jìn)化(evolution)。然后這個(gè)系統(tǒng)大家都可以公用,這樣就可以解決每個(gè)人的系統(tǒng)不停的從頭學(xué)習(xí)的問(wèn)題,因?yàn)閱蝹(gè)人做的話只能做很小的一部分。
林倞:
我想談一談關(guān)于benchmark或者關(guān)于AI的評(píng)價(jià)系統(tǒng)或者CV評(píng)價(jià)系統(tǒng)的好壞的基準(zhǔn)。因?yàn)槲艺J(rèn)為我們很多的研究是受這個(gè)基準(zhǔn)所驅(qū)動(dòng)的,或者說(shuō)是跟這個(gè)benchmark是相互驅(qū)動(dòng)的,F(xiàn)在CV的趨勢(shì)是融合、協(xié)同等,那么未來(lái)我們可能會(huì)需要一種新的評(píng)價(jià)體系來(lái)看CV的狀況,可能不需要在一個(gè)特別的識(shí)別問(wèn)題或者分割問(wèn)題上達(dá)到特別高的精度,但是我們同時(shí)接入理解、分析、可解釋性等,這樣才能評(píng)價(jià)一個(gè)AI或者CV系統(tǒng)的魯棒性,更像人一樣的而不是把它歸類為一個(gè)分類問(wèn)題或者重建問(wèn)題,我覺(jué)得這個(gè)可能是我們要很具體的去討論和去發(fā)現(xiàn)的問(wèn)題。
山世光:
我們討論十年后視覺(jué)可以發(fā)展到一個(gè)什么樣的水平,可是我們并沒(méi)有定義清楚,我們?cè)撊绾螐目傮w上度量視覺(jué)智能的進(jìn)步,比如說(shuō)現(xiàn)在視覺(jué)智能水平是60分,十年后我們可以做到80分,這個(gè)沒(méi)有明確的標(biāo)準(zhǔn)。包括什么是視覺(jué)理解、圖像理解,怎么定義呢?比如我們做人臉識(shí)別,很清楚,就是以某個(gè)數(shù)據(jù)庫(kù)上的識(shí)別率為準(zhǔn)?墒亲鳛橐粋(gè)general的視覺(jué)我們好像沒(méi)有這樣的一個(gè)標(biāo)準(zhǔn)。
另外,作為一個(gè)標(biāo)準(zhǔn)的benchmark的角度來(lái)說(shuō)的話,是不是人的視覺(jué)也是分兩種,一種是通用的視覺(jué),一種是專用的視覺(jué)。比如我們普通人看不懂醫(yī)療影像但專業(yè)醫(yī)師就可以,但是我們都有通用的視覺(jué)的能力。這兩類視覺(jué)實(shí)現(xiàn)的路徑是一樣的還是不一樣的?
還有一個(gè)就是剛才提到的十年后我們可能把地球都數(shù)字化了,但是這個(gè)數(shù)字話不見(jiàn)得是個(gè)簡(jiǎn)單的數(shù)字化,比如是地圖化的,那地圖化的話對(duì)我們做視覺(jué)的有什么樣的幫助呢?我覺(jué)得是不是類似于出現(xiàn)了一個(gè)視覺(jué)智能測(cè)試的“靶場(chǎng)”,我們的很多東西都可以在這個(gè)“靶場(chǎng)”里去測(cè)試。例如很多做自動(dòng)駕駛的系統(tǒng)初步的訓(xùn)練都是用的合成的模擬數(shù)據(jù)。那么也許我們有了一個(gè)很好的關(guān)于地球的數(shù)字化模擬的時(shí)候,我們就有了一個(gè)很好的視覺(jué)的“靶場(chǎng)”,這個(gè)“靶場(chǎng)”既可以做訓(xùn)練也可以做測(cè)試。
此外,要不要做視覺(jué)常識(shí)?大家都在說(shuō)知識(shí),我覺(jué)得知識(shí)這個(gè)體系如果沒(méi)有常識(shí),感覺(jué)有些空中樓閣。我們做視覺(jué)先得有視覺(jué)常識(shí),有常識(shí)才有可能有所謂的理解,我不知道是否正確,我覺(jué)得這個(gè)問(wèn)題可以討論。
陳熙霖:
關(guān)于理解的評(píng)價(jià)問(wèn)題,我們可以想想人是怎么做的。對(duì)于人類形成體系的知識(shí)我們確實(shí)有benchmark,確實(shí)有考題。可是對(duì)人類探索中的知識(shí)是沒(méi)有考題的。大家理解的知識(shí)最后形成一個(gè)公共認(rèn)可的交集,最后逐步拓展。所以,我個(gè)人認(rèn)為在未來(lái)的推動(dòng)理解的研究中,benchmark不能沒(méi)有,但是不能唯Benchmark。如果說(shuō)過(guò)去近30年中Benchmark推動(dòng)了計(jì)算機(jī)視覺(jué)的發(fā)展,今天可能成為束縛了計(jì)算機(jī)視覺(jué)發(fā)展的一個(gè)因素。我經(jīng)常跟學(xué)生為此爭(zhēng)論,一些學(xué)生認(rèn)為離開(kāi)可評(píng)測(cè)數(shù)據(jù)集的工作就不是研究。而對(duì)真正智能的研究可能就是沒(méi)有Benchmark——沒(méi)有最聰明,只有更聰明。對(duì)于場(chǎng)景理解一類的任務(wù)而言,一個(gè)機(jī)器可能發(fā)掘出100組關(guān)系,另一個(gè)機(jī)器可能發(fā)掘出300組關(guān)系,那后者的理解能力可能就超越了前者,如果前者的關(guān)系是后者的真子集,那后者就一定具有更強(qiáng)的理解能力。當(dāng)然更多的是兩者可能具有互補(bǔ)性,如同人類的三人行必有我?guī)煛?
第二件事情是說(shuō)通用視覺(jué)與專用視覺(jué),我的觀點(diǎn)是對(duì)于醫(yī)療判讀這類的所謂專用視覺(jué)其實(shí)遠(yuǎn)遠(yuǎn)超越了視覺(jué)本身,它不僅僅是視覺(jué),醫(yī)生的判斷是在視覺(jué)現(xiàn)象基礎(chǔ)上的知識(shí)/邏輯推理。
胡占義:
這個(gè)觀點(diǎn)我有點(diǎn)不大同意。我最近十多年一直在研究生物視覺(jué),視覺(jué)絕不是說(shuō)就是感知,視覺(jué)包含認(rèn)知。僅僅視覺(jué)物體識(shí)別這個(gè)具體問(wèn)題,人類就有約三分之一的大腦皮層參與。當(dāng)然,某個(gè)大腦皮層區(qū)域參與視覺(jué)問(wèn)題,絕不能說(shuō)該皮層就是視覺(jué)皮層。大腦的大多數(shù)高級(jí)皮層,都在于加工多種感覺(jué)信息融合后的信息,進(jìn)行認(rèn)知決策和行為規(guī)劃。所以說(shuō)視覺(jué)問(wèn)題,它涉及真?zhèn)大腦,包括皮層和皮下組織的聯(lián)合加工,絕不是完全由大腦的視覺(jué)皮層完成。視覺(jué)皮層是指主要對(duì)視覺(jué)信息進(jìn)行加工的皮層,很多皮層參與視覺(jué)信息加工,但不是視覺(jué)皮層。
我先說(shuō)第一個(gè)觀點(diǎn),人的視覺(jué)和計(jì)算機(jī)視覺(jué)是有區(qū)別的,如果說(shuō)把人類視覺(jué)的腦加工機(jī)制完全解釋清楚,我覺(jué)得和搞清楚宇宙起源的難度沒(méi)有區(qū)別,我研究了差不多十五六年生物視覺(jué),據(jù)我所知,神經(jīng)科學(xué)領(lǐng)域目前對(duì)視覺(jué)V1區(qū)研究的比較清楚,V2區(qū)已不太清楚,更不用后面的V4和IT區(qū),以及前額葉(PFC)等高級(jí)皮層。視覺(jué)問(wèn)題處理基本涉及到大腦皮層的各個(gè)區(qū)域。所以說(shuō)研究計(jì)算機(jī)視覺(jué)我覺(jué)得我們要弄清楚到底什么是計(jì)算機(jī)視覺(jué),什么是計(jì)算機(jī)視覺(jué)的核心科學(xué)問(wèn)題,我們不能夠把什么東西都往上加。我覺(jué)得我們要好好討論討論,五到十年內(nèi)我們到底主要是研究視覺(jué)感知還是視覺(jué)認(rèn)知?如果研究視覺(jué)認(rèn)知那是一萬(wàn)年的事。我目前不怎么研究計(jì)算機(jī)視覺(jué)了,我主要關(guān)注生物視覺(jué)了,也許我說(shuō)的不對(duì),但我覺(jué)得大家還是聚焦一些,目標(biāo)可實(shí)現(xiàn)一些。
我們討論五到十年的計(jì)算機(jī)視覺(jué)研究方向,不是指具體的算法,我們十年前也不知道深度學(xué)習(xí)能達(dá)到今天這樣的一個(gè)高度,我們要討論到底哪些方向是值得研究的,我自己覺(jué)得有三個(gè)需要關(guān)注的方向:1.基于神經(jīng)生理的計(jì)算機(jī)視覺(jué),估計(jì)在五到十年以內(nèi)是一個(gè)重大方向;2.視頻理解;3.涉及中國(guó)特色的全球戰(zhàn)略相關(guān)的視覺(jué)研究:如衛(wèi)星數(shù)據(jù)理解(全球戰(zhàn)略),深海水下視覺(jué)信息處理(深海戰(zhàn)略)。
紀(jì)榮嶸:
我自己覺(jué)得我從博士畢業(yè)到現(xiàn)在大概10年的時(shí)間,我認(rèn)為計(jì)算機(jī)視覺(jué)是遠(yuǎn)遠(yuǎn)超過(guò)了我當(dāng)時(shí)讀書時(shí)的任何方向,比如說(shuō)自然語(yǔ)言理解,信息檢索等等。我覺(jué)得一個(gè)重要的原因是深度學(xué)習(xí)帶來(lái)的收獲。但另一個(gè)方面,我們的這些系統(tǒng)太大太厚重,有沒(méi)有可能把這個(gè)系統(tǒng)做的小一些,做的開(kāi)銷更小一些,這里面有幾個(gè)維度。大家能馬上想到的維度就是把系統(tǒng)做小,做小就可以把它放到端上,放到嵌入式設(shè)備上。
第二個(gè)就是把系統(tǒng)做快,現(xiàn)在自動(dòng)駕駛或者端上的設(shè)備的計(jì)算,有可能需要系統(tǒng)處理數(shù)據(jù)要遠(yuǎn)遠(yuǎn)快于實(shí)時(shí)。
第三點(diǎn),現(xiàn)在我們很多時(shí)候都是在做單點(diǎn)的系統(tǒng),每個(gè)攝像機(jī)執(zhí)行的功能都是一個(gè)完整的閉環(huán),花了很多的計(jì)算代價(jià)做了很多重復(fù)的事情,未來(lái)的視覺(jué)系統(tǒng)有沒(méi)有可能由點(diǎn)到面進(jìn)行大范圍系統(tǒng)之間的協(xié)同。就是說(shuō)有沒(méi)有可能由專到廣的,為什么是由專到廣,現(xiàn)在每個(gè)模型只能解決一個(gè)任務(wù),為了解決目標(biāo)識(shí)別用的是目標(biāo)識(shí)別的模型,為了解決語(yǔ)義分割用的是語(yǔ)義分割的模型,為了解決人臉而用人臉的模型,我覺(jué)得我們的人腦并沒(méi)有分得那么清楚。one by one或者 1 v 1的我個(gè)人感覺(jué)太消耗資源了,有沒(méi)有可能有一種更靈活的機(jī)制,網(wǎng)絡(luò)結(jié)構(gòu)可以由不同的形式組合在一起,比如說(shuō)一套模型的backbone,它往上的話既可以做識(shí)別又可以做分割還可以檢索,還可以做相關(guān)的理解。這樣的話就可以把整個(gè)計(jì)算量給降下來(lái)。我相信人類進(jìn)化到現(xiàn)在這個(gè)階段,我們用我們的大腦實(shí)現(xiàn)了多任務(wù)的,高效能的,并行而且只占用極小的存儲(chǔ)開(kāi)銷,我們每天只用吃三碗米飯,我們能完成這個(gè)計(jì)算機(jī)系統(tǒng)消耗多少的計(jì)算量來(lái)完成的事情。
第四個(gè)觀點(diǎn),我覺(jué)得我們的系統(tǒng)現(xiàn)在“吃”數(shù)據(jù)“吃”的太厲害。我覺(jué)得我們?nèi)祟愖陨碚娴臎](méi)有用到這么多的數(shù)據(jù)進(jìn)行學(xué)習(xí),我們用了大量的數(shù)據(jù)復(fù)用,比如說(shuō)我識(shí)別消防車,只需要在車子上加一些特殊的部件,我就能識(shí)別消防車,我們?nèi)耸呛苤悄艿摹5俏覀儸F(xiàn)在的計(jì)算機(jī)系統(tǒng)太吃這些硬性的資源,所以我覺(jué)得在計(jì)算資源的消耗上和訓(xùn)練數(shù)據(jù)消耗上我們也應(yīng)該探索更多的機(jī)制。
然后,從我自己的感受來(lái)說(shuō),過(guò)去的時(shí)間我們看到世界往前發(fā)展,我特別希望未來(lái)的五到十年里面,計(jì)算機(jī)視覺(jué)的發(fā)展是由我們中國(guó)的學(xué)者去引領(lǐng)的,因?yàn)槲覀儸F(xiàn)在有巨量的市場(chǎng),這個(gè)市場(chǎng)有我們能馬上可以看到的技術(shù)痛點(diǎn),這痛點(diǎn)就在我們身邊,應(yīng)該是我們來(lái)做,而不是讓外國(guó)人來(lái)做我們的痛點(diǎn),我們應(yīng)該去引領(lǐng)它,所以我覺(jué)得未來(lái)的五到十年有很多是我們這些中國(guó)計(jì)算機(jī)視覺(jué)的學(xué)者應(yīng)該去做的事情。
林宙辰:
在手機(jī)上要越做越小,我覺(jué)得這不是正確的方向。將來(lái)的視覺(jué)系統(tǒng)應(yīng)該越做越大,不是越做越小。所有的運(yùn)算通過(guò)5G放在云上面運(yùn)算是未來(lái)的一個(gè)趨勢(shì)。我們大家都在云端上建立一個(gè)大系統(tǒng),這樣的話能夠解決多樣性的問(wèn)題。因?yàn)橐靡粋(gè)小系統(tǒng)來(lái)解決各種各樣的問(wèn)題,我覺(jué)得這個(gè)概率上講是不可能的,就是要建立一個(gè)跟人腦一樣復(fù)雜的一個(gè)系統(tǒng),它才能夠解決各式各樣的問(wèn)題,這個(gè)系統(tǒng)肯定只能放在云上面,手機(jī)端愿意多算就多,少算就少算,不要把所有的計(jì)算都擠到一個(gè)小的手機(jī)上面來(lái)。
紀(jì)榮嶸:
我覺(jué)得不一定完全正確。我覺(jué)得端上可以做一些輕量級(jí)的計(jì)算,云上做更重量的計(jì)算。而且端上的計(jì)算可以使數(shù)據(jù)的傳輸由重量級(jí)變輕量級(jí)。比如說(shuō)原來(lái)傳圖像,現(xiàn)在可以只傳特征,原來(lái)要傳所有的區(qū)域,現(xiàn)在只要傳特定的區(qū)域。因?yàn)槭謾C(jī)只用作攝像設(shè)備感覺(jué)太浪費(fèi)了,手機(jī)其實(shí)是一個(gè)很好的計(jì)算設(shè)備。
林宙辰:
我們并不矛盾。我是說(shuō)想在手機(jī)上解決所有的問(wèn)題這一點(diǎn)我是反對(duì)的。一開(kāi)始你說(shuō)要在手機(jī)上做小網(wǎng)絡(luò)這個(gè)東西,肯定是越小功能越差。
胡占義:
對(duì)于這個(gè)問(wèn)題我提個(gè)建議,5G對(duì)我們計(jì)算機(jī)視覺(jué)影響有多大,其實(shí)就是小終端和大終端的問(wèn)題。如果5G網(wǎng)絡(luò)很快,終端干脆就可以很小,不需要在這里處理,直接放到云上。我覺(jué)得5G對(duì)計(jì)算機(jī)視覺(jué)的影響確實(shí)要好好理解。
王亦洲:
你倆說(shuō)的沒(méi)有矛盾,在專業(yè)任務(wù)上一定要壓縮。處理是與任務(wù)相關(guān)的,只要滿足任務(wù)的需求就行。視覺(jué)是一個(gè)ill-defined problem。什么是視覺(jué)這個(gè)概念太大了,但如果局限到圖像,又太小了。所以怎么去把握它呢?我們丟這個(gè)陣地,就丟在了問(wèn)題的復(fù)雜度上面,F(xiàn)在已經(jīng)被深度學(xué)習(xí)占領(lǐng)了,我們?cè)倨恋睦碚、性能都不行?然后我們丟在哪兒了呢?視覺(jué)問(wèn)題是不是深度學(xué)習(xí)就解決了?視覺(jué)并不僅僅是一個(gè)學(xué)習(xí)問(wèn)題,剛才說(shuō)視覺(jué)可以很大,它可以是個(gè)認(rèn)知的問(wèn)題,top-down、bottom-up、然后各種任務(wù),我們定義的視覺(jué)問(wèn)題的復(fù)雜度不夠,系統(tǒng)的復(fù)雜度也不夠。所以我們要把系統(tǒng)的復(fù)雜度給加上去,把任務(wù)的復(fù)雜度也加上去,但是在每個(gè)具體的專項(xiàng)的任務(wù)上面, 我們要盡量讓它簡(jiǎn)潔(compact), 讓它適合于任務(wù)(fit for task)就夠, 所以怎么去拿回這個(gè)陣地,我覺(jué)得要在這兩方面,復(fù)雜度上面加大,然后才能夠有可能把這個(gè)視覺(jué)的東西給拿回來(lái)。但視覺(jué)其實(shí)不單單是視覺(jué)問(wèn)題,應(yīng)該是視覺(jué)主導(dǎo)的任務(wù)完成的一個(gè)問(wèn)題。所以,以后CVPR它有沒(méi)有存在的意義,或者說(shuō)是不是還是那個(gè)趨之若鶩的東西都不一定。
山世光:
我們值得討論的問(wèn)題是,怎么撇清計(jì)算機(jī)視覺(jué)與機(jī)器學(xué)習(xí)的關(guān)系?我們?cè)谖磥?lái)幾年是不是就認(rèn)慫了,是不是計(jì)算機(jī)視覺(jué)的問(wèn)題就是機(jī)器學(xué)習(xí)的問(wèn)題。這個(gè)我覺(jué)得我們年輕人還是特別困惑,比如說(shuō)有什么問(wèn)題是機(jī)器學(xué)習(xí)肯定搞不定,只能靠計(jì)算機(jī)視覺(jué)理論和方法來(lái)去搞定的呢?
陳熙霖:
是現(xiàn)在很多東西都被劃到機(jī)器學(xué)習(xí)了?梢詫(duì)比一下30年前機(jī)器學(xué)習(xí)的書和30年前模式識(shí)別的書,再拿今天機(jī)器學(xué)習(xí)和模式識(shí)別的書,看差別就行。
胡占義:
我覺(jué)得機(jī)器學(xué)習(xí)這個(gè)東西,是一種手段,它可以用于計(jì)算機(jī)視覺(jué),也可以用于自然語(yǔ)言處理。模式識(shí)別和數(shù)學(xué)沒(méi)有區(qū)別,我比較理想,我覺(jué)得一個(gè)是一種解釋手段,一個(gè)是說(shuō)要解決什么科學(xué)問(wèn)題。
王井東:
接著剛才山老師提到這個(gè)問(wèn)題。現(xiàn)在計(jì)算機(jī)視覺(jué)這么火,有多少是機(jī)器學(xué)習(xí)能做出來(lái)的東西。像alexnet也是做視覺(jué)問(wèn)題,其實(shí)根本沒(méi)必要擔(dān)心。我自己也做過(guò)機(jī)器學(xué)習(xí),可以舉個(gè)例子,早先做過(guò)加速、大規(guī)模等,在Matlab上面做,這怎么能證明這是個(gè)大規(guī)模的問(wèn)題,所以說(shuō)同樣根本不用擔(dān)心這個(gè)問(wèn)題。
剛才討論到一個(gè)問(wèn)題,就是說(shuō)計(jì)算機(jī)視覺(jué)5到10年怎么走,F(xiàn)在遇到一個(gè)狀況,不管是中國(guó)還是美國(guó),今年年視覺(jué)方向的工作機(jī)會(huì)(opening)特別少,從2012起視覺(jué)火了8年,應(yīng)該怎么繼續(xù)走。計(jì)算機(jī)行業(yè)外的人給予CV很高的期望,比如超越人類。其實(shí)這件事情不靠譜,根本沒(méi)有超越人類。但是不做計(jì)算機(jī)視覺(jué)的人總覺(jué)得計(jì)算機(jī)視覺(jué)的人應(yīng)該做些什么東西。但是現(xiàn)在到這個(gè)階段,也許這跟當(dāng)年神經(jīng)網(wǎng)絡(luò)一樣,像過(guò)街老鼠一樣,說(shuō)計(jì)算機(jī)視覺(jué)的人吹牛皮。其實(shí)不是我們吹得,是別人吹的。我們要思考,我們視覺(jué)如果繼續(xù)往前走,科學(xué)研究方面是一個(gè)問(wèn)題,另一方面是如何去得到持續(xù)關(guān)注真正做一些能夠work的系統(tǒng)出來(lái)。盡管我們今天已經(jīng)在很多方面做得不錯(cuò),但坦白來(lái)講還沒(méi)真正work。計(jì)算機(jī)視覺(jué)是不是應(yīng)該純粹從視覺(jué)的角度解決,其實(shí)多模態(tài)是一個(gè)很好的方向,單單靠視覺(jué)這一點(diǎn),在監(jiān)控系統(tǒng)里面還是很大的一個(gè)問(wèn)題。從方向上來(lái)講我比較看好多模態(tài)這個(gè)方向。
王濤:
關(guān)于未來(lái)計(jì)算機(jī)視覺(jué)發(fā)展的趨勢(shì)很多。我感覺(jué)一個(gè)最重要的趨勢(shì)應(yīng)該是主動(dòng)視覺(jué)。Imagenet競(jìng)賽能識(shí)別很多的物體,但是圖像分類真正在實(shí)際場(chǎng)景中就不管用。真正管用的是基于物體檢測(cè),然后再進(jìn)行識(shí)別的像人臉識(shí)別這種技術(shù)。為什么人臉識(shí)別成功了,圖像分類系統(tǒng)還不成熟。輸入一張圖像,你必須得按不同的區(qū)域不同的粒度進(jìn)行分析,比如在會(huì)場(chǎng)我們拍張照片,識(shí)別人,那我們?nèi)?shù)人頭。但是如果要識(shí)別投影儀設(shè)備,必須定位到這個(gè)投影儀圖像才能找到。第二個(gè)問(wèn)題是投影儀的信息有多種層次,比如說(shuō)有人想知道牌子,那你必須再細(xì)看到那個(gè)Logo,但是另外有人想知道怎么操作這個(gè)投影儀,那你必須得識(shí)別它的各種接口,你才能把它的功能識(shí)別出來(lái)。我感覺(jué)最近的Imagenet和ActivityNet行為識(shí)別競(jìng)賽,大家現(xiàn)在做的這兩類競(jìng)賽都是用圖像分類的競(jìng)賽做。用圖像分類做競(jìng)賽,實(shí)際中都不能用,為什么呢?它沒(méi)有像人一樣主動(dòng)去識(shí)別,你得看到這個(gè)人,看到那個(gè)人真正發(fā)生動(dòng)作的那一幀,這才能把它識(shí)別出來(lái),所以我感覺(jué)主動(dòng)是非常重要的。
第二個(gè),要有層次。層次就是不僅要識(shí)別出一些基本的要素,還要把里面的不同層次關(guān)系能夠結(jié)構(gòu)化的提取出來(lái)。我們實(shí)驗(yàn)發(fā)現(xiàn)把東西拿在一起學(xué)的效果會(huì)很差,但是如果把這個(gè)東西分成兩個(gè)部分,先固定解碼器學(xué)編碼器,然后再固定編碼器學(xué)解碼器,系統(tǒng)就學(xué)出來(lái)了。我們的學(xué)習(xí)得有一些像搭積木一樣的層次,先把基本的比如人臉、水杯、花識(shí)別出來(lái),然后拍一張照片能把物體之間的關(guān)系給識(shí)別出來(lái)。
第三個(gè),應(yīng)該怎么研究。視覺(jué)研究很廣,想要做成功,得針對(duì)具體的應(yīng)用。人臉識(shí)別系統(tǒng)很成熟,但是用在自動(dòng)駕駛上識(shí)別行人就不行,得一類一類來(lái),在不同應(yīng)用場(chǎng)景中,需要看到不同的數(shù)據(jù)和不同的性質(zhì)。所以我認(rèn)為針對(duì)具體應(yīng)用,未來(lái)除了在深度學(xué)習(xí)基礎(chǔ)上主動(dòng)視覺(jué),發(fā)揮層次融合推理應(yīng)該是一個(gè)比較好的趨勢(shì)。
胡占義:
我覺(jué)得主動(dòng)視覺(jué)很重要,但5-10年主動(dòng)視覺(jué)不可能取得巨大進(jìn)展。這涉及到生物里面反饋(feedback)的高層知識(shí),但反饋很難短期內(nèi)取得進(jìn)展。關(guān)于視覺(jué)的目的1994年CVGIP組織了一個(gè)?(jīng)有過(guò)一個(gè)辯論。從1994年到現(xiàn)在,可以說(shuō)主動(dòng)視覺(jué)沒(méi)有任何的進(jìn)展。在生物神經(jīng)系統(tǒng)里面有大量的反饋,但不知道反饋是什么東西。如果神經(jīng)科學(xué)很難給出一點(diǎn)啟示的話,那么我們計(jì)算機(jī)視覺(jué)就很難把它做成。這是我的一點(diǎn)個(gè)人觀點(diǎn)。
王濤:
我覺(jué)得以前主動(dòng)視覺(jué)不成功是因?yàn)檠芯糠椒ú粚?duì)和技術(shù)限制。
胡占義:
Recurrent有兩個(gè),一個(gè)是同層的抑制,一個(gè)是高層的反饋,而高層的反饋在生物視覺(jué)里面大家知道有大量的反饋,但是反饋的是什么東西還不清楚。所以說(shuō)根據(jù)我的理解,我覺(jué)得3-5年內(nèi)生物視覺(jué)很難有較大進(jìn)展。
王亦洲:
我補(bǔ)充一下,回到學(xué)習(xí)上,學(xué)習(xí)是視覺(jué)的核心。視覺(jué)其實(shí)是個(gè)偽問(wèn)題,但學(xué)習(xí)是一個(gè)永恒的本質(zhì)問(wèn)題。沒(méi)有學(xué)習(xí),視覺(jué)存不存在都不太重要了。與其叫計(jì)算機(jī)視覺(jué)還不如叫computational visual intelligence. 視覺(jué)是一種智能,智能的核心是學(xué)習(xí)怎么去獲得知識(shí),反饋只是學(xué)習(xí)和推理的一個(gè)環(huán)節(jié)。學(xué)習(xí)是什么?是簡(jiǎn)單的模式識(shí)別,還是高級(jí)學(xué)習(xí),這可能是學(xué)習(xí)下一步應(yīng)該走的,給學(xué)習(xí)起一個(gè)俗的名字叫元學(xué)習(xí),如果要和計(jì)算機(jī)視覺(jué)對(duì)應(yīng),我們叫元認(rèn)知。核心就是學(xué)習(xí),不搞學(xué)習(xí)是不行的。
楊睿剛:
我覺(jué)得機(jī)器視覺(jué)與生物視覺(jué)應(yīng)該有區(qū)別,不一定機(jī)器視覺(jué)要學(xué)習(xí)生物視覺(jué)。舉個(gè)例子,比如說(shuō)看全局我要大照片,然后看局部我要小照片,但是如果你有一個(gè)攝像頭,可以一下子拍10億像素,或者有一個(gè)攝像裝置能把光場(chǎng)記錄下來(lái),那active learning與passive learning就沒(méi)有區(qū)別了。這種硬件區(qū)別至少在二維圖像上,將來(lái)我覺(jué)得十億像素應(yīng)該是很快到來(lái)的事情。
陳熙霖:
這個(gè)地方我補(bǔ)充一句,這里的主動(dòng)不僅指分辨率,其本質(zhì)是通過(guò)主動(dòng)的“行為”進(jìn)行探索,從而達(dá)到有限資源的最大化利用。
楊睿剛:
你說(shuō)的是一種主動(dòng)感知的explore,還有一種不改變環(huán)境不改變物體的。
陳熙霖:
即使是不做改變,比如從一個(gè)角度看和從另一個(gè)角度看,光場(chǎng)相機(jī)并不解決這類問(wèn)題,我們無(wú)法獲得對(duì)象背后的光場(chǎng)。
楊睿剛:
光場(chǎng)相機(jī)陣列。
林宙辰:
楊睿剛的意思是說(shuō)干脆把所有的信息都采集了,這個(gè)機(jī)制還是有點(diǎn)不一樣。
王亦洲:
主動(dòng)學(xué)習(xí)有一個(gè)停機(jī)問(wèn)題,有一個(gè)選擇的問(wèn)題。就是說(shuō),你所有信息都在這兒,你什么時(shí)候停下來(lái),你決定采哪一塊,這是最重要的。所以主動(dòng)學(xué)習(xí),它并不是你把所有東西都拍上去,你也得要選擇。
楊睿剛:
選擇的問(wèn)題肯定要在里面,但是現(xiàn)在做主動(dòng)學(xué)習(xí)肯定涉及到機(jī)器人等問(wèn)題,超出了計(jì)算機(jī)視覺(jué)的范疇。
王亦洲:
所以就不要抱著計(jì)算機(jī)視覺(jué)了,這個(gè)就是我的意思。
胡占義:
主動(dòng)學(xué)習(xí)這里面有兩個(gè)概念。第一個(gè)是要有探索和注視,否則的話就沒(méi)有主動(dòng)性。第二個(gè)是記憶,主動(dòng)視覺(jué)是從生物來(lái)的概念。在計(jì)算機(jī)視覺(jué)里面,主動(dòng)視覺(jué)這個(gè)概念太大了。
查紅彬:
我想這里可以將主動(dòng)視覺(jué)與深度學(xué)習(xí)進(jìn)行對(duì)比。深度學(xué)習(xí)的問(wèn)題在于要有標(biāo)注數(shù)據(jù)庫(kù),需要事先整理好的數(shù)據(jù)。而視覺(jué)系統(tǒng)在實(shí)際場(chǎng)景中工作時(shí),需要自己選擇對(duì)自己有用的樣本。這樣,將樣本選擇與視點(diǎn)選擇,結(jié)構(gòu)重構(gòu),計(jì)算優(yōu)化等策略結(jié)合起來(lái),就能有效地發(fā)揮其主動(dòng)性,而不需要讓人把所有的數(shù)據(jù)都收集好喂給它。
鄭偉詩(shī):
學(xué)習(xí)對(duì)視覺(jué)很重要。Benchmark推動(dòng)也束縛了目前計(jì)算機(jī)視覺(jué)的發(fā)展,ReID做到97%,大家就想不到該做什么,但問(wèn)題本身并沒(méi)解決。數(shù)據(jù)庫(kù)太有限,采集的東西沒(méi)有完全反映整個(gè)問(wèn)題,比如說(shuō)行人的遮擋問(wèn)題,各種各樣的問(wèn)題。在有限數(shù)據(jù)的時(shí)候,學(xué)習(xí)可能不能完完全全地解決它。有限數(shù)據(jù)下的學(xué)習(xí),有沒(méi)有可能受到3D方面的啟發(fā)?把一個(gè)人整個(gè)3D的信息,還有行人整個(gè)行為的3D信息都能捕捉到的話,我們就可以去掉開(kāi)放環(huán)境下所受到的這些影響,然后我們就可以重構(gòu)。像我們可以構(gòu)造一個(gè)靶場(chǎng),這個(gè)靶場(chǎng)很重要,無(wú)論我們做任何的系統(tǒng)都要做測(cè)試,但如果只在有限數(shù)據(jù)上或片面的數(shù)據(jù)上做測(cè)試的話,我們?cè)谡鎸?shí)應(yīng)用的時(shí)候可能就會(huì)有受限。因此如果我們能夠把3D這種因素嵌入到現(xiàn)在以2D圖像為主導(dǎo)的計(jì)算機(jī)視覺(jué)里面的話,可能會(huì)對(duì)我們整個(gè)計(jì)算機(jī)視覺(jué)在未來(lái)3到5年的發(fā)展能有另外一個(gè)維度的推動(dòng)作用。
那么為什么做3D?另外一件事情就是現(xiàn)在可能在全世界都在談的數(shù)據(jù)隱私問(wèn)題。數(shù)據(jù)采集的隱私問(wèn)題越來(lái)越重要,如果你用的是一個(gè)虛擬的靶場(chǎng)的話,這種隱私問(wèn)題就完全不存在。所以,在未來(lái)包括可能在國(guó)外人臉識(shí)別、行人識(shí)別,甚至一些行為識(shí)別都有可能會(huì)受到嚴(yán)重的法律因素的滯后的影響的話,那么我們更需要從3D的角度,從另外一個(gè)維度去考慮,是不是在這方面可以拓寬計(jì)算機(jī)視覺(jué)的發(fā)展方向,這是我的觀點(diǎn)。
賈云得:
我們做視覺(jué)很早了,早先把它作為一條小河,我們流那么多年,突然下大暴雨,現(xiàn)在是洪水猛獸(深度學(xué)習(xí))來(lái)了。五年以后估計(jì)這個(gè)模式都過(guò)去了。我覺(jué)得那條河還會(huì)在。因?yàn),從視網(wǎng)膜到視皮層這條通路在那擺著呢,非常高效。因此,還會(huì)有好多人研究,五年十年以后我們中國(guó)實(shí)驗(yàn)室做什么?肯定還是小河里面。
我看好兩個(gè)方向。第一個(gè)是三維視覺(jué),三維視覺(jué)不會(huì)很熱,也不會(huì)很冷,會(huì)一直往下走。第二,就是胡老師說(shuō)的視頻理解。這個(gè)好幾個(gè)老師也說(shuō)了,多模態(tài),就像我們看電影也是一樣的,看會(huì)兒畫面看字幕,看會(huì)兒字幕看畫面,來(lái)回互相理解,現(xiàn)在好像挺熱的。原來(lái)我們遇到的是數(shù)據(jù)-語(yǔ)義的鴻溝。后面我們?cè)谧R(shí)別結(jié)果和意識(shí)間的鴻溝也會(huì)出現(xiàn),一旦有鴻溝就變成熱點(diǎn),因?yàn)槔镞呏饔^加的東西太多了。我覺(jué)得視頻理解應(yīng)該是一個(gè)熱點(diǎn)。
魯繼文:
我覺(jué)得我們現(xiàn)在用了很多機(jī)器學(xué)習(xí)的知識(shí)。下一步,我自己更愿意做一些特別的工作,就是從機(jī)器學(xué)習(xí)到機(jī)器推理。比如給你一幅圖像,你一看就知道這個(gè)圖像未來(lái)應(yīng)該怎么樣發(fā)展,但對(duì)于計(jì)算機(jī)再?gòu)?qiáng)的網(wǎng)絡(luò)都不行。我覺(jué)得現(xiàn)在計(jì)算機(jī)視覺(jué)里面很多時(shí)候性能之所以好,是在于我們對(duì)這個(gè)問(wèn)題的定義,在這種定義基礎(chǔ)上已經(jīng)基本上可以解決,F(xiàn)在我們可能要再去找一些更能夠描述或者更能夠匹配人類視覺(jué)能力的計(jì)算機(jī)視覺(jué)任務(wù),F(xiàn)在比如說(shuō)檢測(cè)、分割、檢索、識(shí)別,都是單獨(dú)的視覺(jué)任務(wù),這種單純的視覺(jué)任務(wù)還是有點(diǎn)簡(jiǎn)單。當(dāng)然有的老師可能有不同的觀點(diǎn),就是說(shuō)他們的變化這種東西可能比較難。但實(shí)際上人的視覺(jué)更多的時(shí)候可能不是這樣子的。所以,我覺(jué)得在計(jì)算機(jī)視覺(jué)里面一個(gè)很重要的問(wèn)題是怎么樣找到這樣的任務(wù),能夠更好的與我們?nèi)祟惖囊曈X(jué)任務(wù)匹配起來(lái),這樣的任務(wù)既不能太難也不能太簡(jiǎn)單。這樣的任務(wù)我覺(jué)得還需要我們多花時(shí)間去思考討論,我自己也不知道是什么任務(wù)。
王亮:
未來(lái)5到10年的CV發(fā)展趨勢(shì)這個(gè)主題的主要目的是希望聽(tīng)聽(tīng)我們國(guó)內(nèi)視覺(jué)界專家們的新見(jiàn)解。今天聽(tīng)了各位講了很多,方方面面都有。如果說(shuō)個(gè)趨勢(shì)的話,每一個(gè)方面可能都會(huì)有一定的趨勢(shì),但大家的意見(jiàn)有不相同,也有相同的地方。這個(gè)主題的定位是希望通過(guò)這次的深度研討梳理幾個(gè)視覺(jué)領(lǐng)域中最重要的大家都認(rèn)可的這樣一個(gè)發(fā)展趨勢(shì),有不同的意見(jiàn)沒(méi)有關(guān)系,而且這個(gè)討論也是有交叉的。
查紅彬:
這種討論我覺(jué)得挺好。講一些發(fā)展趨勢(shì),然后大家能夠有一些思想上的碰撞和火花。做視覺(jué)研究,大家在發(fā)展趨勢(shì)上,如果有完全一樣的看法會(huì)很奇怪。要整理出比較明確的發(fā)展趨勢(shì)也很難。為什么呢? 誰(shuí)要想做出很好的工作,他就應(yīng)該有一些與別人不一樣的看法,如果大家都是同樣的看法,這事情就很難往下做。所以我覺(jué)得,我們更多的是通過(guò)交流各自的想法,啟發(fā)我們自己能有一些新的思路,或者在我自己的這些想法上能找到一些更多的理由、依據(jù),然后把這個(gè)事情做下去。所以我想通過(guò)這些討論,更多的是咱們能不能將來(lái)在國(guó)際會(huì)議上,在研究成果方面,我們也有自己的一些特色在里邊。到目前為止,我們寫文章是在拼什么?就拼數(shù)據(jù)庫(kù)測(cè)試上性能提高了百分之幾,而且大多數(shù)是在別人方法上改進(jìn)一下,然后做個(gè)實(shí)驗(yàn)說(shuō)我提高了百分之多少。但是我們很少有說(shuō)你的想法跟別人在什么地方不一樣,然后你這個(gè)不一樣的東西在某個(gè)地方用起來(lái)會(huì)有一些效果。一開(kāi)始你可能效果會(huì)比較差,而且你也不容易輕松地打動(dòng)別人,但是在你的帶領(lǐng)之下很多人都會(huì)來(lái)做這個(gè)事情的時(shí)候就不一樣了。所以我想說(shuō),能不能將來(lái)不是只盯著這個(gè)數(shù)據(jù)庫(kù)上的數(shù)據(jù)去拼,而是有更多的比較好的創(chuàng)意出來(lái)。
山世光:
是不是可以倡議建立一個(gè)只評(píng)價(jià)idea、方法原理,不評(píng)價(jià)在benchmark或者數(shù)據(jù)庫(kù)上的好壞的審稿機(jī)制?
陳熙霖:
胡老師剛才提到的1994年CVGIP組織的一個(gè)?,當(dāng)年提出了三個(gè)需要改進(jìn)的方面,今天真正實(shí)現(xiàn)的只有一件——就是benchmark。那場(chǎng)討論中說(shuō)我們這個(gè)領(lǐng)域里的工作缺乏比較,自說(shuō)自話,之后就產(chǎn)生了各種各樣比較的數(shù)據(jù)集。所以我剛才有一句話,在過(guò)去近30年中Benchmark推動(dòng)了計(jì)算機(jī)視覺(jué)研究的進(jìn)步,就是指的那場(chǎng)討論開(kāi)始的。
查紅彬:
我同意你的觀點(diǎn),F(xiàn)在回過(guò)頭來(lái)看看,計(jì)算機(jī)視覺(jué)研究了這么多年,也許就是在那些文章出來(lái)之后,我們?cè)贈(zèng)]有看到什么新的主意、新的理論出來(lái)了。在那之前百家齊放,好像有很多新的說(shuō)法出來(lái)。在那個(gè)benchmark出來(lái)之后大家都在做同樣的事情,最后整個(gè)領(lǐng)域就變得不怎么活躍了。
胡占義:
我們既然研究計(jì)算機(jī)視覺(jué),我建議大家讀一讀Marr的書。
盧湖川:
剛才說(shuō)到的benchmark,我覺(jué)得至少計(jì)算機(jī)視覺(jué)這個(gè)benchmark的存在,使得計(jì)算機(jī)視覺(jué)有別于純粹的機(jī)器學(xué)習(xí),而且特別是起到了該有的歷史作用。現(xiàn)在大家對(duì)它的詬病最主要的原因就是它還是一個(gè)單一的benchmark。那只能說(shuō)這個(gè)benchmark并不像人一樣,那如果有人再去定一個(gè)更復(fù)雜的benchmark,它是多維的,也許這個(gè)benchmark就能夠驅(qū)動(dòng)下一個(gè)時(shí)代的發(fā)展,也許就能夠完成像人一樣的學(xué)習(xí)或者識(shí)別等等。我覺(jué)得benchmark本身并沒(méi)有太大問(wèn)題,因?yàn)槿藦男∈芙逃臅r(shí)候就是教他這是什么那是什么,只是人是一個(gè)綜合的智能體,F(xiàn)在的benchmark如果再往更高的維度發(fā)展,也許能夠有更好的收獲。
楊睿剛:
現(xiàn)在的benchmark太多了,哪些benchmark重要,哪些benchmark不重要,還有隨之而來(lái)的各種各樣的比賽,哪些是重要的,哪些不重要。在某種意義上是不是也跟大家說(shuō),我又拿了個(gè)世界第一,但可能這個(gè)世界第一里面只有十個(gè)人參加。那有沒(méi)有一種方法可以有這樣的一個(gè)更加好的量化機(jī)制,可以給benchmark一個(gè)benchmark。
王井東:
Benchmark現(xiàn)在有個(gè)很大的問(wèn)題是很多人做不了。Imagenet很多人做不了,那做不了從我們研究人員的角度來(lái)講,就是文章可能出不去,這是一個(gè)可能不好的地方。 但從另外一個(gè)角度來(lái)講benchmark挺重要的。視覺(jué)的任務(wù)目的很多,我們做視覺(jué)還有一個(gè)重要目的就是培養(yǎng)學(xué)生,那至于視覺(jué)培養(yǎng)學(xué)生這個(gè)功能可能是區(qū)別于其他的,比如Multimedia。Multimedia從培養(yǎng)學(xué)生的角度上我覺(jué)得是很好的。但它有個(gè)很大的缺點(diǎn),是沒(méi)有benchmark。從這個(gè)角度來(lái)講benchmark還是需要的。只是現(xiàn)在審稿人對(duì)數(shù)據(jù)集的規(guī)模期望更大了,這對(duì)很多人來(lái)講尤其是學(xué)校里面是很有挑戰(zhàn)的,現(xiàn)在可能就少數(shù)幾個(gè)公司比較強(qiáng)。這是我對(duì)benchmark的觀點(diǎn)。
王亦洲:
建議PRCV單開(kāi)一個(gè)track,鼓勵(lì)創(chuàng)新性。單開(kāi)一個(gè)不看性能的track。
機(jī)器人招商 Disinfection Robot 機(jī)器人公司 機(jī)器人應(yīng)用 智能醫(yī)療 物聯(lián)網(wǎng) 機(jī)器人排名 機(jī)器人企業(yè) 機(jī)器人政策 教育機(jī)器人 迎賓機(jī)器人 機(jī)器人開(kāi)發(fā) 獨(dú)角獸 消毒機(jī)器人品牌 消毒機(jī)器人 合理用藥 地圖 |