香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

雷鋒網按:騰訊暨 KDD China 大數據峰會在深圳舉行,其中香港科技大學教授、第四范式首席科學家楊強做了一期以《從深度學習到遷移學習》為主題的演講,本文主要闡述了楊強教授在會中講解遷移學習在產業界的實際應用,由雷鋒網亞峰、亞萌、宗仁聯合編輯。

遷移學習是什麼?

簡單講,就是能讓現有的模型算法稍加調整即可應用於一個新的領域和功能的一項技術。遷移學習能夠將適用於大數據的模型遷移到小數據上,做到個性化遷移。

人類很自然就具備舉一反三的遷移能力,如我們學會騎自行車後,學騎摩托車就很簡單了;會打羽毛球,再學打網球也就沒那麼難了。

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

遷移學習四種做到方法:

1.樣本遷移

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

樣本遷移即在數據集(源領域)中找到與目標領域相似的數據,把這個數據放大多倍,與目標領域的數據進行匹配。其特點是:需要對不同例子加權;需要用數據進行訓練。

2.特徵遷移

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

特徵遷移是通過觀察源領域圖像與目標域圖像之間的共同特徵,然後利用觀察所得的共同特徵在不同層級的特徵間進行自動遷移。

3.模型遷移

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

模型遷移利用上千萬的圖象訓練一個圖象識別的系統,當我們遇到一個新的圖象領域,就不用再去找幾千萬個圖象來訓練了,可以原來的圖像識別系統遷移到新的領域,所以在新的領域只用幾萬張圖片同樣能夠獲取相同的效果。模型遷移的一個好處是我們可以區分,就是可以和深度學習結合起來,我們可以區分不同層次可遷移的度,相似度比較高的那些層次他們被遷移的可能性就大一些。

4.關係遷移

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

如社會網路,社交網路之間的遷移。

遷移學習在產業界的實際應用

1.遷移學習在機器閱讀中的應用

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

所謂「機器閱讀」,就是把自然語言文本轉化為機器可以理解的模式,然後機器根據這個模式對個人進行服務。

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

這個模式可以從不同的層次進行「理解」,比如可以在字、句子、段落、文檔和多文檔當中產生各種隱式表達,而這些表達可以用空間的相似度來代替,這樣加一個詞,可以映射到高維空間。

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

有了這種表達之後,可以拿一句話到比如說 LSTM 裡 ,對應的就是輸出,這個輸出就會給我們對話一個現象。

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

同時,我們還可以拿 Attention 模型去標明一些問句裡面的概念,它可以利用同一個對比相似性找到這個概念。因為其內部隱含的表達是一個 text,把周邊字的名稱給理解了,它的應用就是可以自動產生文本摘要(Automatic Summarization)。

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

這個在 Information Retrieval裡面叫做 Summarization,過去的 Summarization 做法是「提取式」 (Extractive)的。

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

但是今天 Summarization 可以做到「理解」,並用自己的語言可能用戶喜歡的語言表達出來。所以這裡就要提出一個新的方式,就是既可以結合傳統 Summarization,並加入用戶反饋(比如用戶看了某篇文章、所看時長或點讚行為)。

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

所以,接下來就可以把模型個性化,給張三看的 Summarization和李四看的 Summarization不一樣,就像一篇文章我們需要產生一個吸引眼球的標題,但你給張三和李四看的標題都是不一樣的。

2.遷移學習在對話系統中的應用

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

訓練一個通用型的對話系統,該系統可能是閒聊型,也可能是一個任務型的。但是,我們可以根據在特定領域的小數據修正它,使得這個對話系統適應不同任務。比如,一個用戶想買咖啡,他並不想回答所有繁瑣的問題,例如是要大杯小杯,熱的冷的?

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

所以我們希望這個系統了解用戶的喜好,根據過去的數據分析,一步到位提供一杯符合用戶需求的咖啡。

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

這裡舉個例子,買咖啡的時候,可能你不喜歡每次都回答所有問題,比如你要大杯小杯啊?熱的冷的啊?而是想這個助手了解我,可以根據我們過去的小數據來一步到位。

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

據此,我做了一個推薦系統,把一個在三萬個對話基礎上做了一個通用型的對話系統,或者說任務型的對話系統,遷移到一個個性化的統計上,變成只有 9 個對話的(小數據)上,就像一個懂你的小秘書。同理,這個也可在金融系統,問一些金融和股票的問題,然後它通過強化學習,給你建議一些 Candidate。並且對收益和用戶的需求做排序。

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

在這個過程中,我們看到:

第一部分是深度學習效果。

第二部分是強化學習效果。

第三部分是遷移學習效果。

最後我要講最近一些做的遷移學習的工作。如果兩個領域,直接遷移是不行的,我們可以找到一些中間的領域。這個我們可以用深度學習的方法,假設我們用一個大數據,已經訓練好的一個系統,然後我們現在的目標是到達一個目標領域,若我們不能一步到位的話,會發現一旦我們用的小數據,各種數據的屬性相差很多,怎麼辦呢?我們去找一些中間的領域,中間的領域可以適度的的改變,
並且一些不應該改變的部分不會改變。這樣經過合理改變之後,部分數據加以梳理,最後就得到我們要的被遷移數據。

3.遷移學習在輿情分析中的應用

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

遷移學習也可應用在輿情分析中,如用戶評價方面。以電子產品和影片遊戲留言為例,上圖中綠色為好評標籤,而紅色為差評標籤。我們可以從上圖左側的電子產品評價中找到特徵,促使它在這個領域(電子產品評價)建立模型,然後利用模型把其遷移到影片遊戲中。這裡可以看到,輿情也可以進行大規模的遷移,而且在新的領域不需要標籤。

4.遷移學習在推薦系統中的應用

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

我們之前也與 IMBD 做過在線推薦系統,在某個領域做好一個推薦系統,然後應用在稀疏的、新的垂直領域。

風頭正勁的遷移學習

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

當今全世界都在推動遷移學習,當今 AAAI 中大概有 20 多篇遷移學習相關文章,而往年只有五六篇。與此同時,如吳恩達等深度學習代表人物也開始做遷移學習。

為什麼呢?因為要在一個領域找到高質量的數據非常難,而把現成的模型用在高質量數據量少的領域則是非常好的解決方案。

香港科技大學楊強 KDD China 技術峰會演講:遷移學習的本質與實際應用

最後,我做一個總結,昨天我們在深度學習上有著很高成就。但我們發現深度學習在有即時反饋的領域和應用方向有著一定的優勢,但在其他領域則不行。打個比方:就像我在今天講個笑話,你第二天才能笑得出來,在今天要解決這種反饋的時延問題需要強化學習來做。而在明天,則有更多的地方需要遷移學習:它會讓機器學習在這些非常珍貴的大數據和小數據上的能力全部釋放出來。做到舉一反三,融會貫通。

相關閱讀:

騰訊暨 KDD China 大數據峰會之前,楊強教授就曾在 2016 年雷鋒網承辦的 CCF- GAIR 全球人工智能與機器人峰會大會上,深入淺出地為大家講述了人工智能要取得成功應當具備的五個必要條件和遷移學習的本質。