第156章 步步緊逼的追趕者(下)
哈雷·普萊斯聽了埃克萊爾·基爾卡加這話,也不住點頭。
因為埃克萊爾·基爾卡加說得確實是很有道理。
相比於無私奉獻披荊斬棘的前輩,同時代的科研工作者可沒那麼多熱心腸。
有的時候同一個國家不同的科研團隊之間出於經濟利益、榮譽之類的等等因素都常常會互相挖坑。
更不要說LIN HUI這樣一個異國他鄉的科研工作者了。
憑什麼一廂情願地相信LIN HUI所闡述的線索就一定是正確的呢?
哈雷·普萊斯覺得LIN HUI即便留下的線索是正確的,也未必都是捷徑。
甚至於有的完全是彎路。
這種情況下還是自己思考得出的東西要更靠譜一些。
只聽埃克萊爾·基爾卡加接著道:「按照以往我們的研究得到的規律。
神經網絡的前一個輸入和後一個輸入是沒有關係的。
沒辦法處理序列數據這種前後輸入是有關聯信息的數據。
而LIN HUI在生成式摘要算法中提到的技術路線裡面明確表示了要將文本信息通過向量來實現序列化標記之後再進一步處理。
在這種情況下,我覺得LIN HUI所提出的算法裡面應用的絕對不是一般的神經網絡。
LIN HUI在生成式摘要算法中應用的大概率是循環神經網絡。
畢竟循環神經網路的結構非常適合用於處理序列信息。」
埃克萊爾·基爾卡加的話讓哈雷·普萊斯眼前一亮,不過旋即新的疑惑也隨之產生。
哈雷·普萊斯問道:「循環神經網絡不僅要輸入當前序列的數據。
還要輸入上一時刻循環神經網絡隱藏層參數的信息。
這樣才能很好地處理序列之間的關聯信息。
可是給我的感覺是LIN HUI算法中應用的那個神經網絡雖然有循環神經網絡的影子。
但是似乎又和傳統的循環神經網絡有些不一樣啊?」
埃克萊爾·基爾卡加嘀咕道:「確實如此,一般的循環神經網絡適合處理序列結構,但是卻不擅長處理長序列結構……」
沉吟之際,埃克萊爾·基爾卡加突然想到了什麼,呼喊道:
「我知道了,一定是LSTM神經網絡!」
哈雷·普萊斯被埃克萊爾·基爾卡加突然的呼喊嚇了一跳。
不過埃克萊爾·基爾卡加提到的LSTM神經網絡卻也讓他眼前一亮。
哈雷·普萊斯知道埃克萊爾·基爾卡加所說的LSTM神經網絡。
LSTM神經網絡更確切的稱呼應該叫做「長短期記憶神經網絡」。
這是一種特殊的循環神經網絡。
相比普通的循環神經網路,長短期記憶神經網絡在應用中對間隙長度不敏感。
這是長短期記憶神經網絡的一個優勢,使得其能夠在處理更長的序列中有不錯的表現。
哈雷·普雷斯仔細回想LIN HUI在技術路線中所描述算法特徵以及南風APP這款軟體的實際表現。
LIN HUI在生成式摘要算法中提到的技術路線裡面明確表示了要將文本信息通過向量來實現序列化標記之後再進一步處理。
而長短期記憶神經網絡恰好可以處理長序列文本。
LIN HUI鼓搗的算法在處理文本摘要時具有極高的準確性。
而長短期記憶神經網絡在處理實際問題的時候一大特點就是具有頗高的準確性。
LIN HUI依託於生成式摘要算法鼓搗出來的南風APP一次只能處理一條新聞摘要。
而長短期記憶神經網絡的缺點就是結構較為複雜,並行處理上存在劣勢。
如果LIN HUI的算法只是一個方面和長短期記憶神經網絡特性比較吻合。
哈雷·普萊斯或許會以為只是個巧合。
但現在,三個小概率事件湊到一塊。
哈雷·普萊斯覺得並不是簡單的巧合。
他越發感覺埃克萊爾·基爾卡加的推斷是正確的,不由得感慨道:
「我說為什麼LIN HUI算法中應用的那個神經網絡有循環神經網絡的影子但又和傳統的循環神經網絡有些不一樣呢,原來用的居然是長短期記憶神經網絡。
埃克萊爾·基爾卡加還真有你的!居然能想到這個這個方向。
說實話,我一開始雖然覺得LIN HUI算法中應用的神經網絡特性有點怪異。
但是還真沒往長短期記憶神經網絡那個方向想……」
埃克萊爾·基爾卡加能理解哈雷·普萊斯為什麼沒在第一時間想到長短期記憶神經網絡。
近幾年長短期記憶神經網絡主要都是用於語音識別方面的原因。
現在這個階段一般的研究學者還真不會想到會將長短期記憶神經網絡用在文本摘要這方面。
不過理論上講將長短期記憶神經網絡神經網路用於文本識別方面完全是可行的。
但具體如何將長短期記憶神經網絡應用於文本識別,暫時埃克萊爾·基爾卡加也不太清楚。
這個還需要一段時間的研究來探索。
哈雷·普萊斯沒有想到長短期記憶神經網絡神經網路應該還有另一方面的原因。
因為長短期記憶神經網絡並不是什麼新鮮玩意。
Hochreiter和Schmidhuber於1997年提出了長短期記憶神經網絡。
距今天已經將近二十年了,可以說是很久遠了。
雖然長短期記憶神經網絡在處理長序列文本的時候可能會有一定的優勢。
但實際上當初提出長短期記憶神經網絡並不是為了文本處理。
當時之所以提出長短期記憶神經網絡神經網路是為了處理訓練傳統循環神經網路時可能遇到的梯度消失和梯度爆炸問題。
在機器學習中,用基於梯度的學習方法和反向傳播訓練人工神經網絡時。
有時會遇到梯度消失和梯度爆炸的問題。
這兩種情況都不是研究人員希望看到的情況。
出現梯度消失或梯度爆炸後,原本的深度學習根本深不起來,只能說是淺度學習。
個別極端情況,別說淺度學習了,連最起碼的機器學習都做不到。
總而言之,梯度消失和梯度爆炸問題會極大地降低利用神經網絡的深度學習的訓練效率。
梯度消失和梯度爆炸問題也是一個極其難纏的問題。
和神經網絡有關的研究人員在1991年就注意到梯度消失和梯度爆炸現象。
該問題在長短期記憶神經網絡出現後得到一定的緩解。
但還是沒有徹底解決梯度消失和梯度爆炸問題。
除了利用長短期記憶神經網絡之外,其他的幾種處理梯度消失和梯度爆炸的問題的方式(比如說多級層次結構、利用更快的硬體、利用其他的激活函數等等。)也各有各的局限性。
總之梯度消失和梯度爆炸問題但還沒有被徹底解決。
到今天梯度消失和梯度爆炸問題已然成為了機器學習上空中一朵烏雲。
這個問題已然嚴重製約機器學習向前發展。
心念及此,埃克萊爾·基爾卡加不免有些感慨。
也不知道這個問題什麼時候會被什麼人徹底解決???
埃克萊爾·基爾卡加突然感覺他對LIN HUI算法這麼較真也沒什麼必要啊?
諸如梯度消失和梯度爆炸現象這問題都二十多年了還沒徹底解決。
不也沒什麼人著急嗎?至少看起來沒啥人著急?
自己為什麼要為要跟LIN HUI這麼一個算法較勁呢?
埃克萊爾·基爾卡加突然有些疲乏感。
不過面對興沖沖的同事,埃克萊爾·基爾卡加還不至於打退堂鼓。
埃克萊爾·基爾卡加:「我現在還不能夠肯定LIN HUI算法中用的就是長短期記憶神經網絡。
只能說LIN HUI算法中所採用的神經網絡的特徵有點類似於長短期記憶神經網絡。
至於到底是不是還有待驗證。
說起來那些高層跟麻省理工學院自然語言處理文本摘要研究小組那邊鬧得不歡而散還真是個損失。
據我了解伊芙·卡莉他們在研究抽取式文本摘要算法的時候就用到了循環神經網絡了。
只不過他們用的具體是哪種循環神經網絡暫時還不清楚。
不過不管怎麼說,我覺得能有麻省理工學院那邊的幫助的話對我們來說將會助力不小。」
哈雷·普萊斯:「這倒是個問題,不過問題不大。
m國最不缺的就是研究機構。
我前段時間聽尼克那傢伙說普林斯頓大學的朱爾斯教授正在搞一個循環神經網絡的項目。
或許我們可以跟普林斯頓大學展開合作?」
埃克萊爾·基爾卡加:「呃,你確定要跟普林斯頓那些傲慢的數學佬打交道?
他們看我們的就跟我們看那些文科生的一樣?
還有如果我們和他們合作的話,究竟是以誰為主導?研究出來的成果又怎麼劃分?」
哈雷·普萊斯:「他們怎麼看我們無所謂。
一群搞數學的現在搞循環神經網絡,誰更占優勢還不一定呢?
至於誰主導到時候再說吧,一切達者為尊。」
埃克萊爾·基爾卡加:「那你去聯繫吧,反正我是懶得跟朱爾斯那個老禿驢洽談。」
哈雷·普萊斯:「呃,其實我也不想去跟朱爾斯聯繫……」
埃克萊爾·基爾卡加:「那你還提這個餿主意?」
哈雷·普萊斯壞壞地道:「或許我們可以叫阿西萊·維拉斯克斯去,誰叫他賣專利給那個LIN HUI……」
埃克萊爾·基爾卡加:「這是個好主意!」
(本章完)