2015.12.24 Machine Learning Approach to Visualization and Classification of Big Data講座報導

Machine Learning Approach to Visualization and Classification of Big Data

文/劉哲豪

    今日很榮幸能邀請到普倫斯頓大學電機系,同時也是IEEE Life Fellow的貢三元教授來到中山大學演講。貢教授:「今天的演講會比較偏向數學,雖然是對於數學系來說這些可能只是Simple Math,但往往Simple Math才是最困難的(Hardest)。」

圖一、新摩爾定律

    根據新摩爾定律(New Moore's Law):「若是不想出一個很好的方法來guiding,這些資料量遲早會overload超過我們所能處理的速度。」現在已經進入了大數據(Big Data)的時代,網路中我們無時無刻都在傳送接收龐大的數據,雜亂無章的數據可能包含了書籍、影片、音樂等等,而我們要如何將這些資料分類?而大數據有有何用處?貢教授舉了Google的例子:「Google利用5 million的巨量數據加上45個keyword預測了一個小鎮將會發生H1N1」,若是能夠提前知道,那人們將可以做事先的預防。例如:事先購買藥品、接種疫苗等等。

這裡貢教授介紹了兩種方法:PCA以及教授所想出的DCA。根據教授的解釋,PCA主要是在乎的是還原(Recoverability),而DCA則比較著重於分類(Classification),不過兩者最終都是要達到將資料分類的目的。且PCA是unsupervised,DCA是supervised,所以很明顯的,DCA是優於PCA的。教授也在放了許多simulation的結果證明data經過了DCA這個best data laundry後,我們幾乎可以將各種不同種類的data分門別類。

圖二、台下認真聆聽的教授與同學們

    最後貢教授也針對台下來聆聽的教授以及同學們所提出的疑問作出解答

許教授:「您有提到PCA會因為privacy的問題而不去recover,那之後在classify的過程當中是否會因為這樣造成最後得分類無法準確?」

貢教授:「這個會depends on neutral information,我會在星期六(12/26)的演講上做更詳細的說明。」

許蒼嶺教授:「您的模擬結果中有提到你在40% 的data missing下做分類,那請問這當中有沒有哪一種data missing會嚴重影響讓你之後的分類會很困難的?譬如哪一種data是重要不能missing的?」

貢教授:「在這裡我們先講一下deep learning,基本上我們不去care每一個data,我們只去看data與data之間的關係,所以其實我們不需要知道真正的data到底是如何我們還是可以去找出他們之間的關聯。而你的問題,missing的這些data,譬如可能因為privacy的緣故我們都不提供DNA資料,那我們就乾脆不去統計計算這些資料,這樣不就更簡單嗎?因為這樣所以我不知道該怎麼回答這個問題。」

官大智教授:「如果每個data不是各自獨立的,而是彼此之間是有關聯性的,譬如因為某種事件才會產生這種結果,不知道有沒有什麼好方法可以解決?以連續性以及不連續性來說,連續性就好比是爬山,當我爬到最高點之後我知道接下來就是下坡,而不連續就好比是下棋,以下象棋作為例子:可能我的這個重要的棋子被吃了,但是最終我卻將軍對方贏了。像這種情況的話該怎麼辦?」

貢教授:「基本上這種問題需要比較high level的判斷,是deep learning的weakness,deep learning都是做連續性的問題,所以我們不會去研究統計這種不連續的問題。」

詹同學:「在data laundry的時候,因為會把一部分的data變為noise…」

貢教授:「沒有沒有,data laundry裡面的轉換只是data matrix之間的座標轉換,並不會將Data轉變為Noise。在先前我們有提到這個就叫做Whitening。」

詹同學:「請問老師是怎麼分出不同的類別?還有像noise的範圍有多大?」

貢教授:「就像你可以把台灣當作是北台灣跟南台灣兩個cluster而從北台灣到南台灣就叫signal而南邊也有南邊的noise,北邊也有北邊的noise,就是這樣定義。」

本篇發表於 未分類。將永久鏈結加入書籤。