吳院長繼續演講:“大資料必然驅動大頻寬,這是全世界國際網際網路幹線的流量狀況,根據美國的預測顯示,2010年比2009年全世界的資料量增長了62%,按這個推斷,10年國際網際網路流量要增長1000倍,美國自身的網際網路流量也是10年增長1000倍。這個曲線是全世界骨幹網的流量,無論亞洲金融危機還是其他危機網際網路,流量都不受影響,依舊保持高速增長。”
“光纖傳輸能力十年擴大1000倍,目前來看還有很大發展空間,而且現在光纖光纜成本很低,中國生產世界一半的光纖光纜,同時也消耗了世界一半的光纖光纜。可以看到,95年的時候資料總容量比較小,只有2.5G到1G。2010年可以看到,通道單波長已經做到100G,2020年單波長要做到1T,總容量還會增大。”
眾人紛紛點頭,電信聯通的代表都在場,他們也點頭認可吳院長的話。
而杭雨比電信聯通的代表還要認可,還要了解吳院長的話。或許吳院長都想不到,在不久的將來,我們會做出量子計算機,量子衛星,量子通訊,進入5G時代。
“過去沒有人談雲端計算,80年代談資料庫、90年代談IBC,現在談雲端計算。實際上雲端計算應該更準確的是雲服務,當然未來會發展成什麼?不知道。雲端計算底層有一個基礎設施,像我們很多企業把它的資料庫託管到運營商那裡,這就使用了雲端計算,裡頭有資料中心、儲存器、伺服器,如果僅僅這樣還不夠,對運營商來講,無非是“數字房地產”。”
吳院長接著說道:“運營商希望進一步在上面增加開發工具,叫PaaS,可以提供JAVA、eb2.0一些開發工具、中介軟體等等,企業可以租用這些開發工具,開發企業要的一些軟體,比如說資料探勘等等。對於一些小企業而言,根本沒有開發能力,因此乾脆直接租用你的軟體,這是SaaS。”
“比如說現在談大資料分析,哪個企業都希望大資料分析,但是每個企業去買這些資料分析軟體是很不划算的,因此租用第三方的分析軟體可能是一個方向。當然更進一步的有Business,有能力的企業可以在上面更多的開發。所以雲端計算並不是為大資料而誕生的,但云計算正好適應了大資料的需要。”
“大資料技術涉及到資料採集、資料儲存、資料計算、資料探勘、資料呈現、資料安全等,涉及到很多環節。比如說挖掘就需要對資料進行清洗,進行合併、壓縮,要轉換格式,然後進行統計分析,知識發現以及視覺化處理。然後找出它的關聯規則,分類、聚類,排序列,最佳化路徑。這裡涉及到一大批的資料探勘的軟體。”
“簡單來說,首先是MapReducers,左邊的圖上很多資料,不同顏色表示不同型別,首先透過Map把這些資料進行分類,不同業務型別的資料分到不同的儲存伺服器裡頭,這樣就是為了簡化運算,在分類過程當中資料是要加標籤的,同時要把重複的去掉,這是進行大資料的預分析前的一些操作。另外,大資料需要有很多伺服器。”
“有人認為買高階伺服器才可靠,但是據我所知,江燕公司用的是低端的伺服器。杭先生,你們公司的微博雲可靠嗎,效能如何?”吳院長再次看向杭雨。
杭雨接過話筒,站起來道:“我可以很肯定地回答你,我們公司的微博雲絕對可靠,無論效能還是安全,跟那些用高階伺服器的沒差。”
吳院長接著問道:“低端伺服器的效能不好,你們是如何化腐朽為神奇的?”
關於使用高階還是低端伺服器的問題,當初建設資料中心的時候,江燕公司內部也掀起了相關的技術討論,最後是杭雨拍板決定使用低端伺服器。
一來,那時候公司資本不夠雄厚,使用低端伺服器省錢。二來,杭雨經歷過大資料時代,知道後世很多大企業用的都是低端伺服器。
杭雨不知道他們怎麼做到的,但這不妨礙他下決策,他一句話,技術部便明確目標,開始研究相關技術,結果當然成功了。
“這個問題問的太專業了,我想讓我們公司的關教授來回答。關教授是開發巴蛇系統的總工程師,他比我更清楚具體的技術問題。”杭雨把話筒給關永林。
“說到低端伺服器和高階伺服器的選擇問題,其實當時我們也是迫於無奈,因為董事長說資金困難,不肯批錢,所以我們只能退而求其次。”關永林站起來道。
眾人聞言笑了笑,感覺他們的開發故事挺有趣的。
“解決這個問題,得用到分佈儲存和冗餘配置的技術。分佈儲存大家都知道,冗餘配置就是把一個資料拷到三個伺服器裡頭,三個低端伺服器的價格仍然比一個高階的伺服器便宜,這樣一來既提高可靠性又降低了成本。”關永林簡單介紹道。
“感謝關教授的回答,我來補充一下。”吳院長說道:“大資料跟過去的分析不一樣,過去的資料都是存下來,存到靜止的資料庫裡頭,然後再分析。而大資料每時每刻都有,比如說幾毫秒就要送一個資料出來,飛機引擎也是不斷的送資料出來,資料根本沒有停止的時候。
“我們不可能等資料停下來再來分析,我們必須一邊走一邊分析,怎麼辦呢?過去的分析是靜止的,叫做“帶資料程序序”,現在的分析是在活動的,也就是“帶程式進資料”。所以大資料分析也會帶來很大的挑戰。”
“另外,更難的挑戰是非結構化的資料。所謂結構化就是說可以用文字表格等方式來表達,即便文字表格表達從語意理解還是比較難的。比如地震的時候,網路上為了監控輿情,看看究竟是正面的評論多還是負面的評論多,有一條資訊說“當他發現他兒子還活著的時候,他抱頭痛哭。”按照分析,“痛哭”肯定是負面的。但實際上這是正面的。這是因為什麼呢?要讓計算機懂得人的感情,這就難了。文字的分析況且這麼難,那麼對照片的分析就更難了,要透過OCR掃描出裡面的文字,把文字作為標籤加到照片上。照片還好說一點,而影片分析就更難了,你怎麼找這個人?去年1月份周克華在南京殺了人,當時攝像頭把他拍下來的,南京市調出幾十萬個攝像頭影片,拍多長就要看多長,沒有分析的辦法就靠人看,所以這是很慢的。因此大資料互換智慧化的處理、智慧化的分析。
“另外,大資料需要虛擬化和視覺化。”吳院長說道:“舉個例子,上海江蘇路,路上有很多攝像頭,每個攝像頭背後連一個電視螢幕,在交通管理中心的一面牆上放了很多屏。當然了,再大的牆壁也放不下全上海這麼多交通攝像頭,所以只能10秒鐘顯示一條馬路的攝像頭,這些都是分離的,一個一個看很難看出問題。”
“我們希望透過軟體把這條馬路的攝像頭合成一個影片,只要看這個影片就知道全馬路攝像頭的狀況了。當然只有一條馬路還不夠,我們還要把它合成全上海一幅圖,就像上海市領導坐著直升機俯視上海一樣,看到上海市整個城市裡頭,在東京北緯某個緯度,在某個時刻段,哪段路交通堵塞。大資料,無論資料有多大,無論是PB還是TB,最重要結果都應該非常直觀的一幅圖。”
吳院長的演講比較長,但是並不難懂,也不會枯燥,因為他舉了很多例子,讓大家更直觀的知道一些細節技術和發展趨勢。