全景主題

關(guān)于拼接全景技術(shù)

全景視頻拼接(Video Stitching)是一種通過實時視頻采集&拼接&融合&顯示實現(xiàn)實時全景空間漫游體驗的技術(shù)，它將多路視頻拼接成一幅大尺度圖像或360度全景圖，視頻拼接技術(shù)涉及到計算機視覺、計算機圖形學(xué)、數(shù)字視頻處理以及一些數(shù)學(xué)工具等技術(shù)。視頻拼接其基本步驟主要包括以下幾個方面：多路視頻的同步采集、攝相機的標定、傳感器圖像畸變校正、圖像的投影變換、匹配點選取、全景圖像拼接融合，以及亮度與顏色的均衡處理。

關(guān)于全景攝像機的標定及圖像坐標變換

由于安裝設(shè)計，以及攝相機之間的差異，會造成視頻圖像之間有縮放（鏡頭焦距不一致造成）、傾斜（垂直旋轉(zhuǎn)）、方位角差異（水平旋轉(zhuǎn)），因此物理的差異需要預(yù)先校準，得到一致性好的圖像，便于后續(xù)圖像拼接。

在實際應(yīng)用中，全景圖像的獲得往往需要攝像機以不同的位置排列和不同的傾角拍攝。例如由于機載或車載特性，相機的排列方式不盡相同，不能保證相機在同一面上，如柱面投影不一定在同一個柱面上，平面投影不一定在同一平面上；另外為了避免出現(xiàn)盲區(qū)，相機拍攝的時候往往會向下傾斜一定角度。這些情況比較常見，而且容易被忽略，直接投影再拼接效果較差。因而有必要在所有圖像投影到某個柱面（或平面）之前，需要根據(jù)相機的位置信息和角度信息來獲得坐標變換后的圖像。
理論上只要滿足靜止三維圖像或者平面場景的兩個條件中的任何一個，兩幅圖像的對應(yīng)關(guān)系就可以用投影變換矩陣表示，換句話說只要滿足這其中任何一個條件，一個相機拍攝的圖像可以通過坐標變換表示為另一個虛擬相機拍攝的圖像。

關(guān)于全景攝像機圖像畸變校正

由于制造、安裝、工藝等原因，鏡頭存在著各種畸變。為了提高攝像機拼接的精度，在進行圖像拼接的時候必須考慮成像鏡頭的畸變。一般畸變分為內(nèi)部畸變和外部畸變，內(nèi)部畸變是以攝影器材本身的構(gòu)造為起因的畸變，外部畸變?yōu)橥队胺绞降膸缀我蛩仄鹨虻幕儭ｇR頭畸變屬于內(nèi)部畸變，由鏡頭產(chǎn)生的畸變一般可分為徑向畸變和切向畸變兩類。徑向畸變就是幾何光學(xué)中的畸變像差，主要是由于鏡頭的徑向曲率不同而造成的，有桶形畸變和枕型畸變兩種。切向畸變通常被認為是由于鏡頭透鏡組的光學(xué)中心不共線引起的，包括有各種生成誤差和裝配誤差等。一般認為，光學(xué)系統(tǒng)成像過程當中，徑向畸變是導(dǎo)致圖像畸變的主要因素。

關(guān)于全景攝像機圖像投影變換

由于每幅圖像是相機在不同角度下拍攝得到的，所以他們并不在同一投影平面上，如果對重疊的圖像直接進行無縫拼接，會破壞實際景物的視覺一致性。所以需要先對圖像進行投影變換，再進行拼接。一般有平面投影、柱面投影、立方體投影和球面投影等。
平面投影就是以序列圖像中的一幅圖像的坐標系為基準，將其圖像都投影變換到這個基準坐標系中，使相鄰圖像的重疊區(qū)對齊，稱由此形成的拼接為平面投影拼接；柱面投影是指采集到的圖像數(shù)據(jù)重投影到一個以相機焦距為半徑的柱面，在柱面上進行全景圖的投影拼接；球面投影是模擬人眼觀察的特性，將圖像信息通過透視變換投影到眼球部分，構(gòu)造成一個觀察的球面；立方體投影是為了解決球面影射中存在的數(shù)據(jù)不宜存儲的缺點，而發(fā)展出來的一種投影拼接方式，它適合于計算機生成圖像，但對實景拍攝的圖像則比較困難。如下圖4所示，圖像拼接處理流程示意圖。

關(guān)于全景攝像機匹配點選取與標定

由于特征點的方法較容易處理圖像之間旋轉(zhuǎn)、仿射、透視等變換關(guān)系，因而經(jīng)常被使用，特征點包括圖像的角點以及相對于其領(lǐng)域表現(xiàn)出某種奇異性的興趣點。Harris等提出了一種角點檢測算法，該算法是公認的比較好的角點檢測算法，具有剛性變換不變性，并在一定程度上具有仿射變換不變性，但該算法不具有縮放變換不變性。針對這樣的缺點，Lowe提出了具有縮放不變性的SIFT特征點。

如上圖5所示，圖像的拼接需要在圖像序列中找到有效的特征匹配點。圖像的特征點尋找直接影響圖像拼接的精度和效率。對于圖像序列，如果特征點個數(shù)≥4個，則很容易自動標定圖像匹配點；如果特征點很少，圖像拼接往往不能取得較為理想的效果。

關(guān)于全景攝像機圖像拼接融合

圖像拼接的關(guān)鍵兩步是：配準(registration)和融合(blending)。配準的目的是根據(jù)幾何運動模型，將圖像注冊到同一個坐標系中；融合則是將配準后的圖像合成為一張大的拼接圖像。
在多幅圖像配準的過程中，采用的幾何運動模型主要有：平移模型、相似性模型、仿射模型和透視模型。
圖像的平移模型是指圖像僅在兩維空間發(fā)生了水平方向和垂直方向的位移，如果攝像機僅僅發(fā)生了平移運動，則可以采用平移模型。圖像的相似性模型是指攝像機本身除了平移運動外還可能發(fā)生旋轉(zhuǎn)運動，同時，在存在場景的縮放時，還可以利用縮放因子多縮放運動進行描述，因此，當圖像可能發(fā)生平移、旋轉(zhuǎn)、縮放運動時，可以采用相似性模型。圖像的仿射模型是一個6參數(shù)的變換模型，即具有平行線變換成平行線，有限點映射到有限點的一般特性，具體表現(xiàn)可以是各個方向尺度變換系數(shù)一致的均勻尺度變換或變換系數(shù)不一致的非均與尺度變換及剪切變換等，可以描述平移運動、旋轉(zhuǎn)運動以及小范圍的縮放和變形。圖像的透視模型是具有8個參數(shù)的變換模型，可以完美地表述各種表換，是一種最為精確變換模型。
圖像融合技術(shù)一般可分為非多分辨率技術(shù)和多分辨率技術(shù)兩類。在非多分辨率技術(shù)中主要有平均值法、帽子函數(shù)法、加權(quán)平均法和中值濾波法等。多分辨率技術(shù)主要有高斯金字塔、拉普拉斯金字塔、對比度金字塔，梯度金字塔和小波等。

關(guān)于全景攝像機亮度與顏色的均衡處理

因為相機和光照強度的差異，會造成一幅圖像內(nèi)部，以及圖像之間亮度的不均勻，拼接后的圖像會出現(xiàn)明暗交替，這樣給觀察造成極大的不便。
亮度與顏色均衡處理，通常的處理方式是通過相機的光照模型，校正一幅圖像內(nèi)部的光照不均勻性，然后通過相鄰兩幅圖像重疊區(qū)域之間的關(guān)系，建立相鄰兩幅圖像之間直方圖映射表，通過映射表對兩幅圖像做整體的映射變換，最終達到整體的亮度和顏色的一致性。

全景攝像機在VR領(lǐng)域的應(yīng)用

目前主流成像設(shè)備（包括攝像機、攝影機、運動DV、行車記錄儀、手機）都是采用“單Sensor+單鏡頭”的成像模式，該模式存在的的兩大問題：
1) 視場角受限，取決于單鏡頭的成像視角，最大不超過180度（采用魚眼鏡頭）；
2) 分辨率受限，受制于單個Sensor的成像像素，目前最大做到4k（800萬像素）。

但在非常多的視頻應(yīng)用場景下，用戶希望獲得更廣的成像視野、更高的成像清晰度。在單臺相機內(nèi)集成多個圖像傳感器（Image Sensor），并采用Multi-Image視頻拼接融合技術(shù)可實現(xiàn)寬視角（最大360度）、高清晰（目前最高可達1億像素）的全景視覺成像效果，大幅度改善和提升了當前單Sensor成像的視覺體驗。

隨著VR（虛擬現(xiàn)實）概念和技術(shù)的興起，全景式視覺體驗的需求開始在消費級和行業(yè)級市場得到快速的推廣和普及，面向電影、電視、網(wǎng)絡(luò)直播、視頻分享的視覺類媒體（包括視頻和圖片）對360全景視頻內(nèi)容的需求愈來愈大。大量的互聯(lián)網(wǎng)企業(yè)、上市公司、投資公司開始面向全景、VR/AR開發(fā)相關(guān)產(chǎn)品和投資布局，技術(shù)和資本的雙重力量將加速全景在未來幾年的大規(guī)模普及應(yīng)用。

全景技術(shù)在VR網(wǎng)絡(luò)直播、VR視頻分享、全景影視拍攝、消費級市場（全景運動DV、全景無人機航拍相機、全景行車記錄儀等）、行業(yè)級市場（安防、教育、醫(yī)療、遠程會議等）有著廣泛的應(yīng)用前景。