“上面可沒說耕耘科技不能賺錢,我得問問張教授,為什麼不把技術商業化,難道我們公司要一直靠國家養著。”鄧雲吉當即前往研發部,許貢連忙跟上。
張教授正在辦公室裡研究演算法,無論是機器學習、模式識別、資料探勘、統計學習、計算機視覺、語音識別、自然語言處理都涉及到演算法。
大資料常用的演算法有很多種,分別是分類決策樹演算法,聚類演算法,關聯規則演算法,最大期望演算法,迭代演算法,分類演算法,向量機演算法等。
決策樹是在已知各種情況發生機率的基礎上,透過構成決策樹來求取淨現值的期望值大於等於零的機率,評價專案風險,判斷其可行性的決策分析方法,是直觀運用機率分析的一種圖解法。
由於這種決策分支畫成圖形很像一棵樹的枝幹,故稱決策樹。
舉個例子,假設一個包含很多病人資訊的資料集,我們知道每個病人的各種資訊,比如年齡、脈搏、血壓、最大攝氧量、家族病史等。
這些叫做資料屬性。
現在給定這些屬性,我們想預測下病人是否會患癌症。病人可能會進入下面兩個分類:會患癌症或者不會患癌症。 C4.5 演算法會告訴我們每個病人的分類。
做法是用一個病人的資料屬性集和對應病人的反饋型別,C4.5 構建了一個基於新病人屬性預測他們型別的決策樹。
那麼什麼是決策樹呢?決策樹學習是建立一種類似與流程圖的東西對新資料進行分類。使用同樣的病人例子,一個特定的流程圖路徑可以是:病人有癌症的病史,病人有和癌症病人高度相似的基因表達,病人有腫瘤,病人的腫瘤大小超過了5cm。
基本原則是:流程圖的每個環節都是一個關於屬性值的問題,並根據這些數值,病人就被分類了。
演算法是監督學習還是無監督學習呢?這是一個監督學習演算法,因為訓練資料是已經分好類的。使用分好類的病人資料,C4.5演算法不需要自己學習病人是否會患癌症。
在大部分機器學習課程中,迴歸演算法都是介紹的第一個演算法。
原因有兩個:一是迴歸演算法比較簡單,介紹它可以讓人平滑地從統計學遷移到機器學習中。二是迴歸演算法是後面若干強大演算法的基石,如果不理解迴歸演算法,無法學習那些強大的演算法。
迴歸演算法有兩個重要的子類:即線性迴歸和邏輯迴歸。
在大資料時代,資料探勘是最關鍵的工作。
大資料的挖掘是從海量、不完全的、有噪聲的、模糊的、隨機的大型資料庫中發現隱含在其中有價值的、潛在有用的資訊和知識的過程,也是一種決策支援過程。
其主要基於人工智慧,機器學習,模式學習,統計學等。透過對大資料高度自動化地分析,做出歸納性的推理,從中挖掘出潛在的模式,可以幫助企業、商家、使用者調整市場政策、減少風險、理性面對市場,並做出正確的決策。
目前,在很多領域尤其是在商業領域如銀行、電信、電商等,資料探勘可以解決很多問題,包括市場營銷策略制定、背景分析、企業管理危機等。
張教授正在做的,就是用這些演算法來最佳化“雲臺”的基礎技術。雲臺是他們在巴蛇系統的基礎上,不斷最佳化重新設計的大資料系統。
咚咚。
“進來。”聽到敲門聲,張教授頭也不抬道。