機器視覺漫談系列之一

      無論明與暗,無論光與影,也無論萬水千山還是滄海桑田,在我們的鏡頭里都是數字與數據。讓機器睜開眼睛看世界... ...

       

      (一)

        對于“機器視覺”來說,可以給出一個比較寬泛的定義,一般可以理解為:通過機器設備中對外界三維尺寸能夠感知的技術裝備和手段,實現對外界物體或周圍環境空間尺寸、位置、紋理及運動狀態進行感知和測量,產生人眼可直接觀察的圖形和圖像,并且通過圖像識別算法,解決關于圖形和圖像特定問題的機器系統及其所具有的對圖像處理的功能。

       

       

        符合以上定義的機器視覺系統,包括流水線上通過圖像識別檢查產品外觀缺損、標簽印刷錯誤、電路板焊接質量缺陷的圖像識別系統;通過機器學習能夠在海量圖像中上找出指定物體的系統;各類智能交通設備上用于汽車車號讀出和測速的系統;以及各類安全監控設備上對于人臉進行自動識別的系統等等。

       

        符合目前 “機器視覺”定義的系統,一般具有以下幾個特征:首先,系統對于外界需要具有感知能力,能夠自動生成人眼可直觀觀察的二維或三維圖像;其次,系統針對圖像必須具有一定的智能識別功能。只有符合以上兩個條件,才可以認為達到了機器視覺的基本要求。

       

      (二)

        目前,人工智能概念火熱,特別是江蘇衛視“最強大腦”節目,機器視覺使用童年照片就能在眾多人群中挑選出照片上的已經長大成人的女孩,而且還區別出長相基本相同的雙胞胎,按一些人的說法,機器視覺已經全面戰勝和超越人類。

       

        我們借助望遠鏡可以看到遙遠的星河;借助顯微鏡可以看到分子結構;通過百萬級數量圖片的比對,可以從監控中抓出隱藏的罪犯;在高速流水線上,每秒可以完成成百上千個標簽的檢查和驗證;在醫院里可以找出隱藏在身體內的變異細胞……是啊,按照目前的某些機器視覺功能,人類怎能匹敵?

       

        但仔細想一下,還是有些感覺不對。就拿“最強大腦”節目來說,如果再問一下,識別出的雙胞胎是男的還是女的?大概多大歲數?身高胖瘦幾何?是在跳舞還是唱歌?這些對于人的視覺能力來說,可以說完全不是問題,但對于參賽的那個機器視覺系統來說,估計很難達到。因為,它只設計了“看臉”和“比臉”的程序和系統,其它能力在程序中無法全部涵蓋。要識別性別,需要一套識別性別的系統;要識別身高,需要另一套測量身高的系統;要識別年齡、識別動作,還需要編制另外的系統。而且,就拿人臉系統來說,還需要人站在固定的位置、需要輔助照明、需要臉部正面圖像等等……

       

        所以說,目前的機器視覺在特定的場合和特定的任務方面,基本能夠達到甚至超過人類的視覺。但在視覺的智能化和自動化方面還有巨大差距,而且可以認為目前的機器視覺基本沒有類似生物視覺的智能特征,無法和任何一個智慧生物的“視覺”相比。

       

        我們認為在智能化方面現有的 “機器視覺”和生物視覺的差距主要表現在以下幾個方面:

       

        1、現有視覺系統功能的單一性??匆幌挛覀兘佑|最多的智能交通系統:抓拍車號的相機只能拍車號,不能測速,不能自動辨別車型,而且必須在固定位置,必須有外部輔助光源和拍照觸發和啟動傳感裝置;對于闖紅燈和超速的車輛檢測和識別,必須要由另外的相機完成。

       

        2、現有視覺系統的專業局限性和復雜性?,F有的機器視覺系統,都需要有專業技術人員,進行專門的編程和系統設計。一個功能對應一套軟件和一套專門的系統,這樣的系統一般都對應著高昂的價格和高級的人才,無法為普通用戶所掌握。

       

        3、現有視覺系統對于被攝物和環境有很強的相關性。不同的被攝物,不同的功能要求,需要不同的軟件,同時系統需要配備專用的相機、專用的鏡頭、專用的輔助流水線和專用的輔助燈光和對背景進行特定設置等等。只要被攝物發生任何改變,例如:規格、大小、型號、擺放位置、標簽等發生改變,都必須對程序進行修改和重新設計。

       

        4、現有視覺系統一般都是基于二維圖像的視覺感知,基本不具備三維實時感知能力。對于三維感知,目前一般采用激光掃描或雙目加結構光的方式,這些方式有時還需要提前標定,還需要完成長時間的三維建模運算,有時還要固定應用場景或提前對被視物建模,另外,大部分需要一些人工干預以及延時和后期處理。

       

        5、現有的圖像識別采用的機器學習方法,對于圖像的理解,一般針對特定圖像類別和固定的應用場景,還不具有智能生物的真正意義上的視覺感知和視覺理解能力。而且,智能生物對于外部空間和物體是依靠三維感覺而形成,目前的圖像機器學習算法,一般都是基于二維圖像數據,在對空間的感知和理解能力來說,具有先天的缺陷和弱點。

       

        基于以上分析,我們認為目前這樣的“機器視覺”應該是由人工智能計算來實現的,一種視覺就對應一種特有的軟件和系統,完成一種固定的視覺任務,在算法和數據層面無法實現各視覺系統在機器視覺上的統一。而且,對于圖像內容的理解方面,由于神經網絡存在的黑箱性質,機器無法達到令人信服的對視覺的理解要求。

        那么這樣的機器視覺系統,是否只應該叫做“人工的機器視覺”?因為這樣的“人工的機器視覺”不具有通用性,不能讓機器自動產生對視覺的理解。

       

      (三)

        那么,是否存在“機器的機器視覺”呢?這樣的“機器的機器視覺”系統應該能夠克服以上問題,就象生物的眼睛一樣,能夠快速、直觀的獲得外界空間的各類視覺信息,實現所見即所得,成為真正意義上機器的眼睛。這樣的機器的眼睛應該具有一定的算法通用特征和被動測量特征,能夠自動完成對外界和環境的認識和識別,就象生物視覺一樣,具有視覺上的智能。我們可以把它叫做“機器眼”。

       

        所以相對應于上述寬泛的機器視覺定義來說,我們可以得出一個更加狹窄的定義,那就是“機器的機器視覺”或可稱之為“機器眼”。這種“機器眼”是一種能夠自主產生觀測結果、不需要人工的設計和干預、實現對外界的空間環境的直觀感知和判斷的機器視覺。

        通常意義上的視覺“感知”,包括兩個組成部分,一個是“感覺”、另一個是“知道”?!案杏X”是對環境和物體的大小、位置、紋理、運動狀態等視覺特征進行測量并獲取這些視覺特征的相關數據;“知道”是通過視覺數據,判斷出物體的各類屬性數據,并通過這樣的屬性數據的分類,采用人工智能或者機器學習的手段,進一步得到被視物體的類別、名稱、空間位置、空間尺寸、表面紋理、以及運動狀態等等。

       

        目前人工智能正在向縱深方向發展,用機器可以理解的方式自動完成各類任務的具有通用特征的“機器智能”正逐步向我們走來。在這個過程中,作為“機器智能”必備的且起決定作用的“機器的視覺”,必然成為技術發展的焦點和熱點,對于“機器的視覺系統”必然要由目前“人工的機器視覺系統”,發展到“機器的機器視覺系統”。所以我們認為,機器視覺的定義,應該是指最后的一種狹窄的機器視覺定義,就是“機器的機器視覺”,也就是“機器眼”。這樣的視覺更像機器擁有生物的眼睛一樣,能夠主動地對外界環境進行動態的跟蹤、測量和感知。

       

        目前,對于機器人的聽覺,已經有了很深入的研究,對于語音的識別也具有了很高的準確率。對于服務機器人和擬人機器人,目前與外界的交互主要以語音為主。上述機器人系統以及無人機或無人汽車等需要機器視覺的無人自動系統,視覺方面主要是以激光測距或平面二維圖像的識別為主,三維感知功能很弱。這樣的視覺系統一般只針對特定場景使用,不能夠實現普遍性的機器視覺,達不到機器人的要求。因此對于機器智能來說,急需能夠具有普遍適用性的具有“機器的機器視覺”的“機器眼”。

       

      (四)

        那么,現在是否存在這樣的“機器的機器視覺”呢?北京清影機器視覺技術有限公司通過完全自主創新,自行開發完成“通用式三維即時視覺傳感技術”,研制成功具有通用視覺的三維“多目慧眼”,目前,該“多目慧眼”首先實現的是自動三維“感覺”,在秒級以內自動獲得被視場景的三維影像,其下步的目標就是“知道”。我們今后的目標,就是依托“多目慧眼”的自動三維成像能力,最終實現“機器的機器視覺”。

       

        這是我們的一小步,然而是機器世界的一大步……

      分享到
      Copyrihgt ? 2017 Clemage All Rights Reserved   北京清影機器視覺技術有限公司   京ICP備16052608號
      久久精品国产乱