第106章 谷歌產生濃厚興趣(中)
至於谷/歌為什麼會對林灰提出的算法感興趣?
這跟谷/歌的歷史有很大的關係。
谷/歌之所以能有今天很大程度是因為PageRank算法。
在網際網路早期,隨著網絡上的網頁逐漸增多,如何從海量網頁中檢索出我們想要的頁面,變得非常的重要。
當時著名的雅/虎和其它網際網路公司都試圖解決這個問題,但都沒能有一個很好的解決方案。
直到1998年前後,兩位史丹福大學的博士生,拉里·佩奇和謝爾蓋·布林一起發明了著名的PageRank算法,才完美的解決了網頁排名的問題。
正是因為這個算法,誕生了谷/歌公司。
PageRank是一種通過網頁之間的超連結來計算網頁重要性的技術。
以谷/歌創辦人Larry Page之姓來命名,谷/歌用它命名也體現了該算法的重視程度。
該算法可以通過計算計算出數值體現網頁的相關性和重要性。
PageRank通過網絡浩瀚的超連結關係來確定一個頁面的等級,把從A頁面到B頁面的連結解釋為A頁面給B頁面投票,谷/歌根據 A頁面甚至連結到A的頁面的等級和投票目標的等級來決定 B的等級。
簡單的說,一個高等級的頁面可以使其他低等級頁面的等級提升。
該算法把整個網際網路可以看作是一張有向圖,網頁是圖中的節點,網頁之間的連結就是圖中的邊。
藉助該算法可以衡量不同網頁的根搜索關鍵詞的關聯程度從而對網頁排序。
在很長一段時間內,當你在谷/歌鍵入關鍵詞後得到的搜索信息。
搜索信息里那一系列網頁對應著的網頁排列順序就是依託PageRank算法進行排序的。
這個算法的重要性可見一斑。
Page Rank算法不止用於搜尋引擎領域。
還跨界進入了自然語言處理(NLP)領域。
在NLP方面大名鼎鼎的TextRank算法就是在PageRank算法之上而來的。
而TextRank算法一向是抽取式摘要算法的核心算法。
雖然目前TextRank算法主要用於自然語言處理方面。
但並不代表這個算法不能應用於搜索方面。
畢竟TextRank算法和用於搜索的PageRank算法本是同根生。
而林灰搞得生成式文本摘要算法(GTSA)雖然表面上看是文本處理算法。
但事實上也有作用於未來搜索領域的潛質。
相比於PageRank算法對網頁超連結抓取排序。
有了GTSA算法,谷歌可以更進一步直接對PageRank算法下排名靠前的網頁內容進行抓取獲取相應的信息。
按照信息和搜索關鍵詞的關鍵度再進行二次精確排序。
這無疑可以大大提高谷/歌搜索的準確度。
儘管以現在的技術將生成式文本摘要算法嵌套在PageRank算法之下還很難保證搜索高效率。
但誰能保證未來的伺服器以及計算力水平不會突飛猛進呢?
萬一之後技術能夠暴漲呢?
而且就算短時間內谷歌無法將該技術用於搜索領域。
生成式文本摘要算法表現出的強大的文字處理能力也是很值得谷歌重視的技術。
反正從谷歌下達的任務的措辭來看。
對於生成式文本摘要算法,谷歌不僅重視。
而且急切渴望獲得該技術。
(本章完)