第607章商業化的難度（1 / 2）

“上面可沒說耕耘科技不能賺錢，我得問問張教授，為什麼不把技術商業化，難道我們公司要一直靠國家養著。”鄧雲吉當即前往研發部，許貢連忙跟上。

張教授正在辦公室裡研究演算法，無論是機器學習、模式識別、資料探勘、統計學習、計算機視覺、語音識別、自然語言處理都涉及到演算法。

大資料常用的演算法有很多種，分別是分類決策樹演算法，聚類演算法，關聯規則演算法，最大期望演算法，迭代演算法，分類演算法，向量機演算法等。

決策樹是在已知各種情況發生機率的基礎上，透過構成決策樹來求取淨現值的期望值大於等於零的機率，評價專案風險，判斷其可行性的決策分析方法，是直觀運用機率分析的一種圖解法。

由於這種決策分支畫成圖形很像一棵樹的枝幹，故稱決策樹。

舉個例子，假設一個包含很多病人資訊的資料集，我們知道每個病人的各種資訊，比如年齡、脈搏、血壓、最大攝氧量、家族病史等。

這些叫做資料屬性。

現在給定這些屬性，我們想預測下病人是否會患癌症。病人可能會進入下面兩個分類：會患癌症或者不會患癌症。 C4.5 演算法會告訴我們每個病人的分類。

做法是用一個病人的資料屬性集和對應病人的反饋型別，C4.5 構建了一個基於新病人屬性預測他們型別的決策樹。

那麼什麼是決策樹呢？決策樹學習是建立一種類似與流程圖的東西對新資料進行分類。使用同樣的病人例子，一個特定的流程圖路徑可以是：病人有癌症的病史，病人有和癌症病人高度相似的基因表達，病人有腫瘤，病人的腫瘤大小超過了5cm。

基本原則是：流程圖的每個環節都是一個關於屬性值的問題，並根據這些數值，病人就被分類了。

演算法是監督學習還是無監督學習呢？這是一個監督學習演算法，因為訓練資料是已經分好類的。使用分好類的病人資料，C4.5演算法不需要自己學習病人是否會患癌症。

在大部分機器學習課程中，迴歸演算法都是介紹的第一個演算法。

原因有兩個：一是迴歸演算法比較簡單，介紹它可以讓人平滑地從統計學遷移到機器學習中。二是迴歸演算法是後面若干強大演算法的基石，如果不理解迴歸演算法，無法學習那些強大的演算法。

迴歸演算法有兩個重要的子類：即線性迴歸和邏輯迴歸。

在大資料時代，資料探勘是最關鍵的工作。

大資料的挖掘是從海量、不完全的、有噪聲的、模糊的、隨機的大型資料庫中發現隱含在其中有價值的、潛在有用的資訊和知識的過程，也是一種決策支援過程。

其主要基於人工智慧，機器學習，模式學習，統計學等。透過對大資料高度自動化地分析，做出歸納性的推理，從中挖掘出潛在的模式，可以幫助企業、商家、使用者調整市場政策、減少風險、理性面對市場，並做出正確的決策。

目前，在很多領域尤其是在商業領域如銀行、電信、電商等，資料探勘可以解決很多問題，包括市場營銷策略制定、背景分析、企業管理危機等。

張教授正在做的，就是用這些演算法來最佳化“雲臺”的基礎技術。雲臺是他們在巴蛇系統的基礎上，不斷最佳化重新設計的大資料系統。

咚咚。

“進來。”聽到敲門聲，張教授頭也不抬道。

第607章 商業化的難度 （1 / 2）