第107章 谷歌產生濃厚興趣(下)
然而作為具體的執行人員,對於谷歌提出的任務:
——評估LIN HUI提出的算法實現的可行性,並根據實際情況考慮能否短時間實現復現
伊芙·卡莉就很無語。
或許在那些屁股決定腦袋的人心中。
清楚技術路線了,技術復現能夠實現與否只是時間長短的問題了。
但事實哪有那麼簡單。
反正進行了一晚上嘗試的伊芙·卡莉發現想要進行復現很難。
拋開LINHUI提出的算法技術本身不談。
就是LIN HUI在生成式摘要算法專利中順手牽羊搞定的那個「LH文本摘要準確度衡量模型」
其他團隊想要從無到有的構建一個同樣的模型都有億點困難。
說起來LH文本摘要準確度衡量模型的構建過程思路倒是很清晰:
第一,運用語言模型來評估算法生成語言的流暢度;
第二,使用相似度模型評估文本和摘要之間的語義相關性;
第三,為了有效評估實體、專有詞的復現程度,引入原文信息量模型來評估。
……
然鵝也僅僅是說起來很簡單而已。
說到把大象放進冰箱也很簡單同樣是三步:
——打開冰箱門,放進大象,關上冰箱門。
知道怎麼做沒用,關鍵還是要執行。
沒辦法執行的話,步驟再清晰也沒用。
LH文本摘要準確度衡量模型的構建過程有三步。
第一步就很複雜。
該怎麼進行語言模型的構建呢?
按照LIN HUI提出的技術路線。
語言模型建模過程中,包括詞典、語料、模型選擇等。
問題出在語料庫上,語料庫一詞在語言學上意指大量的文本。
這類文本通常經過整理,具有既定格式與標記。
涉及到英文語料庫的信息還比較容易,畢竟伊芙所在的團隊和牛津、哈佛、耶魯三所大學的語言學方面都是深度合作的關係。
但涉及到中文以及其他文字預料信息該怎麼處理這就完全不好說了。
巧婦難為無米之炊。
沒有語料庫清楚技術路線什麼的也沒用。
倒是可以姑且先拋棄對中文以及其他新聞生成式摘要的研究。
但是這樣幾乎等同於放棄了一個龐大的市場。
而且最關鍵的是LIN HUI提出的算法本身就能兼顧中文新聞摘要以及英文新聞摘要。
那麼之後LIN HUI會不會直接開發個中文新聞處理成英文摘要的功能呢?
能搞定文本摘要處理算法的人沒道理一個翻譯算法都搞不定吧??
伊芙·卡莉越想越覺得這種可能性很大。
不然為什麼一個摘要軟體要做成類似於翻譯軟體那樣的交互風格呢?
在她們還在躊躇不前的時候。
對手卻早已經大步向前挺進了。
一時之間伊芙不禁有種酣戰過後的無力感。
這就是所謂的一步落後步步落後吧。
這種情況還評估啥?
直接建議谷歌方面把LIN HUI的算法買回來就好了!
雖然LIN HUI是華國人.
但這種技術又不是什麼涉及到國家命脈的重要技術。
總不至於不賣吧!
不賣的話謀求專利授權也可以啊!
總不至於非跟在別人身後造輪子吧。
伊芙又沒受/虐/欲。
(本章完)