第152章 伊芙·卡莉的困惑(續)
也正是因為上述原因,無論是哪個時空。
世界上很多國家都在對文本探索。
人類社會記錄方式的進步,某種程度上就集中表現在文本的不同凝練形式上。
文本的探索,對於一些大型企業來說,也是一項極為重要的工作。
涉及到文本摘要的發展,決定著一項又一項的產品的問世。
對於文本的探索,不僅僅對文學的深入研究有著很高的促進性,同樣對於科技的推進有著巨大的促進作用。
總而言之,對文本摘要傾注些心血不過分。
畢竟這是林灰在技術領域方面邁出的第一步。
說到伊芙·卡莉遇到的困惑。
林灰沒想到伊芙·卡莉的困惑主要集中在LH文本摘要準確度衡量模型的構建上。
林灰記得當時他關於這個模型構建已經闡述的夠清楚的了。
構建模型的話首先要運用語言模型來評估算法生成語言的流暢度,然後使用相似度模型評估文本和摘要之間的語義相關性,最後為了有效評估實體、專有詞的復現程度,引入原文信息量模型來評估。
雖然為了避免教會徒弟餓死師傅,林灰在這幾個步驟之間故意遺漏了一些瑣屑的步驟。
不過這種東西對於科研工作者來說,就像塹壕之於坦克。
雖然會有一些影響,但問題應該不大。
真的把所有的技術細節全部公布出來。
那也不能叫做公布技術路線了,那叫編教科書。
對於林灰提到的「運用語言模型來評估算法生成語言的流暢度」
伊芙·卡莉比較困惑林灰是怎麼搞定語言模型訓練的語料庫的?
這個問題往後幾年的話還真不是問題。
因為現成的語料庫就一大堆。
僅僅是簡體中文方面的語料庫就有國家語委現代漢語語料庫、京大語料庫、語料庫語言學在線等若干資源。
不過換到現在這個時空節點林灰顯然不能跟別人研究人員說他用的是現成的預料庫。
畢竟一些現成的語料庫基本都是16年左右才問世的。
儘管如此,如何解釋語料庫來源的問題難不倒林灰。
事實上即便沒有現成的語料庫,想要構建一個可堪一用的能調/教出早期生成式摘要算法的語料庫也不是太複雜。
最簡單的方式——藉助網際網路可以自動構建文本語料庫。
當利用這種方法構建語料庫的時候,用戶只需要提供所需的文本類別體系。
而後從網際網路中採集大量網站,提取並分析網站的內容層次結構和每個主題詞對應的網頁內容信息。
從每個網站中篩選出用戶所需要的文本作為候選語料。
這個過程其實不複雜,有點類似於爬蟲抓取網頁的過程。
比較困難的是這種方法形成的語料庫如何去噪。
但這對於林灰也不是問題。
只需要將從多個網站中匹配上的同一文本類別的候選語料合併成每個類別的候選語料庫。
而後再對候選語料庫中每個類別下的文本進行去噪處理就可以提高語料庫的質量。
在完成去噪之後就可以輸出語料庫。
雖然這個過程實現起來仍舊不容易。
但學術領域上除了個別被孤立的槓精喜歡鑽牛角尖之外。
大多數情況下只要邏輯自洽就沒人死磕。
除了好奇林灰是如何構建語料庫之外。
涉及到「使用相似度模型評估文本和摘要之間的語義相關性」
伊芙·卡莉比較好奇林灰究竟是使用何種相似度模型來評估文本摘要和摘要之間的語義相關的。
額,這個問題就比較涉及到林灰搞定的文本摘要準確度模型最核心的東西了。
關於這個問題的答案就不是三言兩語能說得清的了。
(本章完)