第196章 有朋自遠方來

  第196章 有朋自遠方來

  如何表示數值化的自然語言相對應的屬性呢?

  研究人員一般做法是將數值化的語言矢量化或者說向量化。

  向量相比於標量的話就是帶方向的量。

  事實上這種研究方向並不算新潮。

  林灰記得前世早在1975年,就有研究人員首次提出向量空間模型(VSM),試圖利用該模型來處理數值化的自然語言。

  林灰通過搜索相關信息,發現這個時空雖然慢了一點,但VSM向量空間模型這個方法在1977年也被提出來了。

  所謂的VSM模型聽起來或許挺高大上的。

  其實沒那麼複雜。

  其主要思想就是假設一個文本的語義只與該文本中的單詞有關,而忽略其語序和單詞之間的相互關係,然後通過基於詞頻統計的方法,將文本映射成向量,最後通過向量間的距離計算以表徵文本間的相似度。

  計算兩個向量之間的距離?

  這玩意是高中課本上的內容。

  估計高考後腦子裡知識還沒忘記的一般考生都能拿過來利用這個模型算算文本相似度。

  不過很多高中生學的時候可能根本不知道他們學的這玩意能做這個。

  (ps:……高中學的東西很有用,不要覺得暫時看不到用途就放棄)

  當然,也正是由於該模型簡單高效。

  在該模型提出來之後很長的一段時間裡,它都是文本相似度計算領域的主流方法。

  但該模型並不是沒有缺點。

  基於VSM的方法仍然有兩點缺陷:

  一方面當文本量很大時,生成的文本向量是非常稀疏的,這就導致了空間和計算資源的浪費;

  另一方面VSM為達到簡化模型的效果忽略了詞語間的關係,但在很多情況下詞語之間是存在聯繫的,因此簡單地認為詞語間相互獨立是不合理的。

  這兩條缺陷尤其致命。

  第一條直接影響處理相似度的效率,第二條直接影響詞義相似度判別的準確度。

  在這種情況下,VSM模型在使用了一段時間之後,研究人員就將這個模型拋棄了。

  現在的人們具體應用什麼計算文本相似度林灰也不是很清楚。

  不過林灰注意到伊芙·卡莉先前發給他的郵件並沒有提到向量有關的內容。

  時下的研究人員似乎已經淡忘了向量化。

  或許現在再說到利用向量化進行自然語言文本處理似乎是一個很復古的研究方向了。

  但實際上向量化這個方向仍然有潛力可以挖掘。

  應用分布式詞向量完全可以進行文本相似度計算。

  不過這個時空的人們不知道也很正常。

  林灰記得前世涉及到自然語言處理這方面很多重要成果都是2013年、2014年這兩年井噴出來的。

  前世涉及到文本相似度模型的架構這方面。

  用於計算語義文本相似度的分布式詞向量這項技術就是就是在2013年誕生的。

  前世正是在分布式詞向量問世後,語義文本相似度才取得了突破性的進展。

  這個時空節奏上慢了兩年,應用分布式詞向量計算文本相似度沒被提出來也很正常。

  一步落後,步步落後。

  節奏上慢這兩年時間的話,這個時空無疑很多方面都落後了。

  這些對於林灰無疑是個好消息。

  應用分布式詞向量來構建計算文本相似度的方法雖然說起來容易。

  但具體闡述起來這個問題其實還是比較複雜的。

  因此林灰當初並沒有在郵件中回復伊芙·卡莉。

  如果這個時空涉及到文本相似度模型架構方面的研究都短腿的話。

  那林灰豈不是很有義務援助一下?

  看來跨時空之搬運工又要上線了。

  當然了這種搬運不是無償的。

  眼下林灰更關心的還是論文。

  在相關研究出現方向性偏差的情況下,林灰真要寫論文的話豈不是很容易就能發表好幾篇?

  這樣水平的論文林灰寫起來很容易。

  雖然林灰前世學術生涯上沒有走太遠,但前前後後發的論文加起來大概有七八篇了。

  有幾篇論文還是全英文的。

  總之發表論文這樣的事情,對林灰來說已然是輕車熟路。

  這種情況下,林灰感覺他很容易就能把麻省理工學院學士學位所要求的附加分刷滿。

  儘管如此,林灰還是決定先跟伊芙·卡莉見面溝通一下再弄論文相關的事情。

  畢竟林灰不是很清楚西方世界在文本相似度研究的具體進展,萬一不小心撞車就尷尬了。

  商業上的撞車可以美其名曰是商業競爭。

  學術上的撞車可是一輩子的污點。

  現在林灰只希望能夠快點和伊芙·卡莉見面了。

  好在林灰期待的見面沒多久就發生了。

  林灰在北域域北國際機場見到了「伊芙·卡莉」。

  伊芙·卡莉先前怕林灰不相信她的身份,於是在郵件里附上了一堆能夠佐證身份的證明。

  林灰當初就看到過伊芙·卡莉的照片。

  不得不說,伊芙·卡莉的樣貌很有辨識度。

  一頭金色微卷的長髮,身高目測一七六左右,身材比例很棒,曲線很S。

  儘管以挑剔的眼光來看,林灰覺得此時眼前的「伊芙·卡莉」的身材和樣貌似乎也能在90分以上。

  最關鍵的是給人一種很純真的感覺,給人一種不染纖塵的那種感覺。

  呃,這種感覺怎麼說呢,反正很有保護欲那種。

  不過林灰還沒那麼不淡定。

  女人而已,只會影響他肝論文/敲代碼的速度。

  「伊芙·卡莉」似乎還沒發現林灰。

  林灰迎著走了上去,主動用英語打招呼道:「你是伊芙·卡莉麼?我就是林灰,歡迎來到中國。」

  呃,這幾句程度的英文林灰還是能應付的。

  不過眼前這人反應明顯遲疑了一下。

  林灰感到很奇怪,莫非是搞錯了?

  正在林灰很糾結的時候,突然身後傳來的聲音。

  「你就是LIN HUI麼?我是伊芙·卡莉,很高興見到你!」

  林灰心想,這下尷尬了。

  第一次接人還認錯人了。

  不過,不應該啊,眼前之人很有辨識度的西方面孔,而且和伊芙·卡莉先前發來的證件照上那女的一模一樣啊。

  林灰不解地回過頭,看向聲音來源,又看到了一個「伊芙·卡莉」。

  (本章完)