好,那我們現在講完了這個,機器學習的這個完整的流程
那最後一點時間,我想要跟大家釐清一下,機器學習跟大家可能聽過的,一些相關領域的關係
我們要講的第一個領域,就是資料探勘,大家剛剛聽到這個 KDDCup,KDDCup
實際上是一個 資料探勘界的比賽,那你說,老師你為什麼又說它是機器學習界最重要的比賽?
那我們來看看資料探勘跟機器學習有什麼不一樣 我們剛剛對機器學習的定義是這樣,機器學習是我們希望用資料
去找出一個 Hypothesis 這個假說 g,然後它跟我們想要的這個
目標 f 很相像,資料探勘做的是什麼事情?
一個簡單的定義是,資料探勘希望能夠用資料去找出一些 有趣的事情。
你說這樣講很籠統,什麼有趣的事情? 譬如說如果你是個賣東西的人,你是一個超市的經營者好了
你可能會想到底一般人,如果買了這個東西的話,會不會也想要買另外一個東西
所以你有一堆超級市場的銷售資料,你可能想要知道說,有沒有哪些東西彼此之間是有關連性的
這就是一個有趣的,資料裡面有趣或有用的地方 那資料探勘在傳統上通常使用非常大量的資料
試圖找出對特定的應用有趣的一些,或有用的一些性質
好所以,從這兩個定義大家可以看得出來,如果有用的性質就是直接找出一個 Hypothesis
直接找出一個 g,讓我們可以拿來做這些預測等等 那資料探勘跟機器學習,其實沒什麼不一樣,它們目標是一致的
如果,這是一個很大的如果,因為資料探勘裡面有些問題它並不是這樣,它是這個
也許它在意的不是預測,它在意的只是說找出來以後,譬如說能不能幫助人進一步的來分析- 這個問題
好,所以例如說,我們剛剛講的 KDDCup
這樣的比賽上面 它定義的問題,通常是要你設計一個演算法,然後去增進某一種表現
增進某一種表現,也就是去趨近某一個我們理想上的 這個
f,所以在 KDDCup 這樣的比賽上
通常資料探勘跟機器學習沒什麼不一樣 好,那這個,如果今天
有趣的這個性質,資料探勘想要找出來的性質 跟機器學習想要做的事情,機器學習想要找出好的
Hypothesis 有點關係,例如說你如果找出這個性質,搞不好你就可以找出更好的
Hypothesis 那麼,這個資料探勘跟機器學習就可以
互相幫忙,也就是說你可以用資料探勘的工具,來幫助你機器學習做得更好 或你可以用機器學習的工具,來幫助你在資料探勘裡面找出有趣的東西
這也非常的常見,不是總是這樣,但是非常的常見
好,所以呢這是資料探勘跟機器學習,它們非常的相像,那在傳統上的資料探勘呢
通常還有另外一個重點,是它們希望
在很多很多的資料,特別是在資料庫裡面的資料,還能夠很有效率的計算
這是傳統資料探勘是從資料庫這邊切入的一個領域,所以這是機器學習跟資料探勘的一些關係 它們非常相像,有一些些不一樣
好,那現代,你說像我吧,我的研究領域是機器學習,但是你說
我有沒有做資料探勘?某種角度也有,所以現代來說你要找到一個研究者說,我只做機器學習- ,不做資料探勘
或我只做資料探勘不做機器學習,那幾乎是不可能的事,這兩個領域非常的密不可分
好那另外一個相關的領域是人工智慧,大家說機器學習跟人工智慧有什麼關係?
我們現在知道機器學習的定義,我們來看人工智慧的定義 人工智慧的定義是,我們希望電腦做出一個
某種東西,我們叫 something,這個 something 要什麼呢?這個 something 要 shows
intelligent behavior,就是說它要有一些聰明的表現 例如說電腦會自動下棋,這是很聰明的一件事,或者呢電腦會自動開車,這是很聰明的一件事
好那會預測,是很聰明的一件事沒有錯 機器學習說我們要找出一個 g,這個 g 跟我們想像的
f 很接近,也就是說會預測,會預測是一個 很聰明的事情沒有錯,所以從這個角度出發,我們可以看成機器學習是實現
人工智慧的一種方法,人工智慧有很多方法 可以實現,那機器學習是實現人工智慧的一種方法
那但是,它有什麼不同的方法?例如說,大家想像下棋這個問題好了
傳統人工智慧在解下棋這個問題,常常會使用到例如說,好今天我這個下棋
下這一步的好處壞處的這個分析,它可能像一個樹狀圖展下去 一般叫做一個
game tree,好這是傳統人工智慧在解決棋類問題的時候,可能會用的方法
那機器學習可能是一個不同的方法,例如說什麼? 好,我們 show
給機器看說,今天有這麼多的棋手,他們是這樣下棋 或者讓機器自己去下棋,下一下說這樣下會贏,這樣下會輸
然後從這些資料裡面,讓機器自己去分析,最後決定要怎麼樣下棋,好,它要看,两个不- 同的方式
好,我們設計演算法讓機器去分析這個樹狀圖,這是一種方式 我們設計演算法,讓機器去從資料裡面學到怎麼樣下棋,這是另外一種方式
好,那這個機器學習,是實現人工智慧的一種方式
第三個有關係的領域我想要跟大家講一講的是統計
機器學習跟統計的關係是什麼?兩個都使用資料,那統計想要使用資料來做一些推論
推論什麼?推論一個我們原來不知道的事情,例如說丟銅板,丟銅板 銅板的正面的機率是多少我們本來不知道,而我們丟了一千次以後,我們去估計一下
去推論一下說,這個銅板正面的機率是多少,這是統計要做的事情 那我們可以想像,g,我們想要的這個
這個假說 g,實際上是一個推論的結果 然後呢,我們想要的那個目標
f 實際上是一個我們不知道的事情,這在我們剛才的設定裡面都有
所以從這個角度來說,統計實際上是實現機器學習的一種方法 對不對?我們只要說 f
是我們不知道的那個,g 是我們想要從資料推論出來的東西
我們就可以用統計的工具來實現機器學習
好所以呢,傳統的統計很多工具會用在機器學習上面
但傳統統計學是從數學出發的,所以你會看到說在統計學裡面,很多東西他會想辦法
寫下一些假設,然後最後有可以證明的結果說,在這樣的狀況下
在這樣的統計的數量之下,我們可以有怎麼樣子的這個 可以證明的推論,那傳統統計學比較很多是數學上面的推論
然後但是機器學習的話,它是從電腦科學從資料等等這些資料庫
計算等等這些出發的,所以機器學習裡面,常常會有很多演算法是更重視
怎麼樣算出來,而不只是這個數學上的結果怎麼樣 所以這是一些方向上的細緻的差異
不過總的來說,我們其實之後會學到,我們在機器學習裡面 用的很多工具,其實有的很早很早在統計學裡面就有了
只是我們從統計學借過來,然後可以用機器學習的角度來看看 看看說這些工具對機器學習有什麼樣的幫助
好,所以又到了這個,讓大家看一看問題的時間了
那我這邊底下列了四個這個句子,請大家看一看說
這四個句子,哪一個,那些是對的,哪一個可能
沒有那麼正確,好,大家看一看之後,我希望大家能夠選出 正確的答案,我們建議的答案是 3,那這個
3 原來的句子說 資料探勘跟機器學習是一模一樣的,但是我們剛才有點花力氣跟大家講說
資料探勘和機器學習非常非常接近,但是呢它們的取向可能有一些不同,然後有一些細緻的差別 所以我們其實還是很難把它們說是一模一樣的東西
好,那 總結來說呢,我們今天跟大家講的這個
機器學習這個問題,我們從這個課的介紹出發,然後說 我們這個課會從基礎切入,並且呢這個像說故事一樣
那什麼是機器學習呢,我希望大家現在了解,機器學習實際上就是從資料出發 然後我們想要找到一個函數,這個函數跟我們最渴望的這個目標
是很接近的,那機器學習在很多很多的地方都有所應用
那機器學習裡面的核心,我們說最重要的演算法 A 資料 D,然後呢這個
hypothesis set H,然後我們最後要得到的 Hypothesis
是 g 那機器學習呢,跟其他不同領域的關係,跟資料探勘也好
人工智慧也好,統計也好,它們其實是有很多的關係的,但是各自有各自不一樣的取向
那我們在下一堂課,我們會開始跟大家講說,到底我們剛剛講的機器學習的演算法 機器學習的這個 hypothesis
set,也就是學習的整個模型,我們會跟大家講一個這個 很重要,很簡單但是很重要的一個模型,那請大家,下一次我們再回來
[音樂] [音樂]
[音樂]
[音樂]