第339章 另類的學術風格
如果一如伊芙·卡莉猜測的那樣的話。
那林灰搞出的東西不止是效率驚人。
其延申出來的拓展功用也將是很離譜
要知道基於遷移思想搞定的東西某種意義上講是可以「遷移」的,也就是可移植性。
這特麼的就逆天了。
涉及到文本摘要甚至是整個自然語言處理這一領域的研究以前多多少少是有點圈地自萌的意味的。
但如果具有了遷移性那完全是有可能滲透到別的領域的。
心念及此,一時之間伊芙·卡莉感覺林灰的著眼點也一定不是自然語言處理的這個小魚塘。
林灰在下一盤大棋。
儘管和林灰相識不久,但作為一個跟林灰經常學術交流的人。
伊芙·卡莉能篤定林灰在學術方面的野心是極大的。
此前,伊芙·卡莉就感覺林灰能開啟自然語言處理這個方向嶄新的大門。
現在看來,以後林灰所影響的方向絕對不止是自然語言處理這一個方向。
涉及到整個機器學習領域,林灰都將有很大的建樹。
甚至可能還遠遠不止於此,對於這一切伊芙·卡莉很期待。
沒有什麼比見證一位天才的雄起更興奮的了。
(如果有,那或許只能是目睹一位「神」的破滅了。)
縱然現在的林灰還沒有什麼頭銜加持。
不過,過往林灰的成就已經足夠耀眼了。
伊芙·卡莉相信林灰會一點點將其野心所踐行的。
為什麼伊芙·卡莉能得出這樣的判斷呢?
林灰在過往在學術方面取得的璀璨成果只是伊芙·卡莉得出這樣推斷的原因之一。
這不是最重要的原因。
真正讓伊芙·卡莉得出林灰能將其野心踐行的原因在於林灰有自己的學術風格。
相比於看得見的學術成果。
學術風格這種東西很玄學,看不見摸不著。
聽起來很虛幻的東西。
但學術風格這東西確確實實存在。
關於「學術風格」這一名詞的討論也常常現於各種學術交流以及科研人員日常的討論中。
無論是學術路線、學術習慣這些東西某種意義上都會影響學術風格的形成。
衡量一個科研人員在學術方面是划水的還是水準之上的一般主要看是否有獨立的學術風格。
一般學術方面只是划水的科研人員普遍都沒有自己的學術風格。
其研究成果就比較隨心所欲那種,研究課題也以「跟隨研究」為主。
而水準之上的科研人員則普遍有著穩定的學術風格。
學術風格的穩定儘管不能意味著一切。
但起碼也意味著該研究者對學術路線有著比較明確的規劃。
或許林灰本人也沒注意到他的學術風格。
但伊芙·卡莉覺得林灰是有屬於其自己的學術風格的。
而且這風格很明顯。
林灰擁有學術風格這件事也能側面反映出其學術路線的穩定。
故而伊芙·卡莉是很相信林灰能夠按部就班實現其野心的。
而林灰是什麼樣的學術風格呢?
太具體的伊芙·卡莉暫時也無法精準描述。
但就學術習慣方面而言,伊芙·卡莉覺得林灰有一極其鮮明的特徵。
那就是林灰總是致力於贏在起跑線上。
當然贏在起跑線上只是比喻說法,確切地表述應該是
——在解決學術問題以及實際上的工程問題的時候林灰很傾向於將可能出現的問題扼殺在萌芽狀態。
得出這一判斷,伊芙·卡莉自然有相應的依據。
就拿前不久林灰在論文補充內容中所提到的預訓練來說吧。
此前涉及到「訓練」的時候人們往往想到是對訓練生成的模型由機器學習方面的專家進行調整。
很少有像林灰這樣的對訓練過程就有想法的。
畢竟涉及到語料訓練這個門類的研究在一個語言模型構建正常的步驟中已經是屬於很靠前的步驟了。
這個例子已經很能說明伊芙·卡莉的判斷了。
除了這個例子之外,還有此次來到中國和林灰的第一次談話。
當時兩人聊到了對「語料向量化之後再處理可能導致的維度爆炸」相關問題的處理時。
原本伊芙·卡莉設想的降維做法有將高維模型轉化為低維模型、將分析後得到的高維數據降低成低維數據等等。
而林灰提出的思路卻是將語料向量化之後得到原始高維向量數據直接進行降維處理。
要知道在此前涉及到維度爆炸這件事幾乎沒啥研究者想到直接對維度本就比較高的原始數據做文章。
畢竟這涉及到將語料信息抽象成向量原始數據已經差不多其對應研究中特別靠前的一個環節了。
伊芙·卡莉覺得這些都可以佐證她先前的判斷。
依據她先前的判斷的話,還可以在此基礎上進一步推斷。
如果一個科研項目涉及到多個環節,每個環節都有可施為的空間。
那林灰一定會在最初的環節下主要功夫或者是最初環節還要之前的地方開闢新的賽道。
知道這個有什麼用呢?
當然有用,甚至是有大用。
此前伊芙·卡莉對林灰為什麼要收購她搞出的那項專利即《文本判斷甄別比較的一種新方法》這個專利是很不明所以的。
在林灰提出了生成式文本摘要算法之後。
現在的自動文摘實現方法主要分為抽取式方法和生成式方法:
這兩種摘要方法有很多原理和實際效能的區別。
但此二者本質上都是自動文本摘要。
舉凡是自動文本摘要,其技術框架就都可以概括為:
內容表示→權重計算→內容選擇→內容組織。
內容表示是將原始文本劃分為文本單元的過程,主要是分字、詞、句等預處理工作;
內容表示的主要目的是通過預處理將原始文本處理成算法容易進行分析的形式。
權重計算則是要對文本單元(即預處理後原始文本)計算相應的權重評分,權重的計算方式多樣,如基於特徵評分、序列標註、分類模型等提取內容特徵計算權重。
這個步驟的目的是通過這一系列計算完成對預處理後的原始文本實現初步分析。
內容選擇是對經過計算權重後的文本單元(即經過步驟Ⅱ權重分析過的文本)選擇相應的文本單元子集組成摘要候選集,可根據要求的摘要長度、線性規劃、次模函數、啟發式算法等選擇文本單元;
內容組織是指對候選集的內容進行整理形成最終摘要,可根據字數要求按順序輸出,也有研究者提出使用基於語義信息、模板和神經網路學習的方法來產生符合要求的摘要。
從技術框架的這幾個層次的對應描述來看,可以看出無論是權重計算還是內容選擇抑或是內容組織此三者都是很重要的。
如果搞不定權重計算和內容選擇的話則根本搞不清楚摘要的時候具體對文本哪些地方進行摘要。
如果搞不定內容組織的話更是直觀影響用戶體驗。
在這種情況下,這個時空的人們在進行自動文本摘要方面的研究時也確實是比較重視自動文本摘要的權重計算、內容選擇和內容組織這三個方面。
(本章完)