第195章 抱歉,你們真的好弱欸!

101看書

  第195章 抱歉,你們真的好弱欸!

  雖然這個時空西方學術界對於文本摘要的研究傾注了大量心血。

  但這個時空西方對於文本摘要方面的研究進展和前世那個時空的西方對文本摘要的研究情況依舊是有些差別的。

  儘管從客觀上講差別不是太大。

  但綜合衡量的話,這個時空西方世界對文本摘要的研究情況比前世那個時空節奏要慢兩年。

  (至於~國更是不用說,此時的學術界還是習慣摸著鷹醬過河的。

  老實說這種做法不完全算錯,可以避免資源浪費。

  但總是這樣的話太被動了。

  想要當老大,就得敢為天下先)

  雖然這個時空在相關領域的研究僅僅是節奏上慢了兩年時間。

  但兩年足以改變很多事情了。

  更何況,林灰原本就有著七年的信息優勢。

  此消彼長之下,林灰就相當於有了接近十年的信息優勢。

  或許有人不解,僅僅只是工作了三年,林灰憑什麼能夠把信息優勢發揮的淋漓盡致。

  雖然前世僅僅工作了三年,但林灰說是有六年的工作經驗也不過分。

  至於多餘的三年工作經驗哪來的?

  這說多了都是淚,加班加出來的。

  不得不說,這都是「福報」.

  這加班多是一件美逝啊。

  不是這樣的瘋狂加班林灰哪有能夠重生的機會?

  縱然能有重生的機會。

  不瘋狂加班林灰怎麼會對那些枯燥的東西記憶如此深刻呢?

  不過這些都是前塵往事了。

  因為過往的種種經歷,在現在這個時空里,林灰就是當之無愧的強者。

  至於同領域的其他研究者,林灰尊重他們的努力。

  但不得不說:抱歉,你們真的好弱欸!

  並不是林灰在信口開河。

  林灰先前搞得那個生成式文本摘要這個算法所涉及到的全部技術。

  如果被這個時空下的研究團隊徹底吃透。

  起碼能將這個時空全世界自然語言處理以及神經網絡學習方面的研究進展加速近一年的時間。

  當然這說的是馬上吃透的話,能加速近一年時間。

  如果這些研究團隊花了兩三年才搞定相應的進展,那反而是拖累他們正常的進度了。

  拋開生成式文本摘要這個專利不談。

  僅僅是林灰在弄生成式文本摘要時順手牽羊搞定的那個LH文本摘要準確度衡量模型也夠牛掰的了。

  如果這項技術能夠被這個時空的研究團隊所掌握的話,對於他們的研究也是有所助力的。

  儘管林灰當初就把如何構建模型表達的已經足夠清楚,就差手把手教了。

  (構建模型的話首先要運用語言模型來評估算法生成語言的流暢度,然後使用相似度模型評估文本和摘要之間的語義相關性,最後為了有效評估實體、專有詞的復現程度,引入原文信息量模型來評估)

  但此時的研究人員似乎仍然很好奇林灰是怎麼構建這一衡量標準的。

  林灰記得先前伊芙·卡莉在他發的郵件中就表達了對於「LH文本摘要準確度衡量模型」究竟是如何構建的困惑。

  林灰記得伊芙·卡莉當初除了好奇林灰是怎麼搞定語料庫這個問題之外。

  其困惑主要集中在林灰究竟採用什麼方法架構相似度模型的。

  當知道世界最頂尖學府附屬的研究機構的科研人員居然好奇這事,林灰還是意外的。

  林灰躊躇滿志地蓋了一個「華麗的大樓」。

  原本以為這個時空人們會好奇林灰是怎麼蓋出這個大樓的。

  沒想到反倒先被問道蓋大樓所用的材料是如何製作的?

  這就是林灰當初收到伊芙·卡莉郵件時的直觀感受。

  不過如果誠如伊芙·卡莉在郵件里介紹的那般,林灰也能理解伊芙·卡莉為什麼困惑。

  涉及到相似度模型的架構一般都是通過計算的方式。

  通過計算語義文本相似度以衡量這兩個文本的語義相似度。

  一般來說,語義相似度值越小,兩個文本之間的語義差異越大,它們在語義層面的相似度越低;

  反之,該值越大,兩個文本表達的語義越相似。

  或許在人們看來,區分相似文本是很簡單的一件事情啊?

  這不是隨便讀一下就能搞定麼?

  但是要知道區分相似文本不是要人來區分,而是要機器區分相似文本。

  涉及到相似度模型的構建確實不是容易的事情,畢竟人類語言表達是極其複雜的。

  更遑論大部分專業性比較強的文章里文本中還存在許多同義詞、縮略語、特指詞和多變的句法結構。

  這些都極大地增加了計算文本語義相似度的難度。

  但這個問題不解決不行,林灰知道計算文本語義相似度是一個很重要的分支領域。

  在信息檢索領域,語義文本相似性計算在文本分類、文本聚類和實體消歧等任務中發揮著重要作用;

  在人工智慧領域,也需要語義文本相似性算法來支持問答系統和智能檢索等任務。

  此外,語義文本相似性計算也被廣泛用於自然語言處理任務中,如抄襲檢測、文本總結和機器翻譯。

  總之,對語義文本相似性算法為代表的相似度模型研究具有重要的應用價值。

  如果不解決計算文本語義相似度這個問題的話,跟別提如何更進一步的文本處理了。

  拋開讓機器區分相似文本這個問題不談。

  僅僅是想要機器識別文本這件事情就極其困難了。

  自然語言一般就是說人類能理解的語言,比如看到的文字就是自然語言。

  但當我們需要機器或者說計算機處理自然語言時。

  機器/計算機卻沒辦法直接理解這些符號(漢字、字母、標點符號等)。

  這些符號必須先被數值化,然後才能輸入計算機進行後續處理。

  僅僅只是數值化之後也用途不大。

  必須引入其他的一些內容來反應出詞的屬性。

  就像我們不能從一個普普通通的代號知道這串數字究竟表示的是訂閱、收藏還是打賞。

  總之,僅僅是一個代號是看不出來每串數字對應的屬性的。

  這個問題也是計算文本語義相似度的一個研究熱門之一。

  (本章完)

101看書