第202章 瘋狂套娃的循環
伊芙·卡莉還在繼續陳述著她的看法:
「……我覺得將向量引入到語義文本相似度的衡量確實是一個不錯的主意。
不過在介入向量之後,就像打開了潘多拉的魔盒一樣。
向量在處理一些語義複雜的文本信息時。
極其容易形成一些高維空間,造成維度爆炸。
出現這種情況後,應用場景經常會變得極其糟糕。
經常出現維度爆炸的問題。
事實上,現在維度爆炸問題已經很制約我們的研究了。
Dear林,不知道您關於這個問題有什麼看法呢?」
林灰道:「維度爆炸主要是高維難處理的問題。
既然如此,為什麼不考慮將高維進行降維呢?」
林灰的語氣是那樣的風輕雲淡。
彷佛在敘述一件自然而然的事情一般。
降維?將高維的什麼進行降維??
聽了翻譯同傳過來的信息。
伊芙·卡莉有種要吐血的感覺。
她有點想學中文了。
她不知道林灰表達的原意就是將高維轉化為低維。
還是說林灰在表述的時候說的是將高維的某物轉化的低維但翻譯在轉達的時候卻省略了什麼東西。
如果是省略了一些重要的名詞那實在是太糟糕了。
到底林灰想表達是將高維數據轉化為低維數據?
還是說將高維模型轉化為低維模型?
抑或是什麼其他含義?
伊芙·卡莉很想詢問一下。
不過考慮到林灰先前為了米娜·卡莉做出的貼心之舉。
伊芙·卡莉並不好就這種事情讓林灰帶來的翻譯陷入到不安之中。
仔細思索林灰話里的含意。
首先伊芙·卡莉覺得林灰想說的應該不是將高維數據降低成低維數據。
在進行自然語言處理時如果出現了高維數據的話。
在分析高維數據時,確實是可以進行降維的。
也必須要進行降維!
高維數據模型雖然收集到的數據點很多。
但是所收集到的數據通常會散布在一個極其分散廣袤的高維空間中。
這種情況下很多統計方法都難以應用到高維數據上。
這也是「維度災難」存在的原因之一。
遇到這種維度災難,不降維的話高維數據是很難進行處理的。
(ps:……數學天賦點滿的人高維也能硬上)
作為數據去噪簡化的一種方法,降維處理對處理大多數現代機器學習數據很有幫助。
通過降低數據的維度,理論上講可以把這個複雜棘手的問題變得簡單輕鬆。
機器學習領域中所謂的降維就是指採用某種映射方法。
將原高維空間中的數據點映射到低維度的空間中。
這麼做是為了除去噪音同時保存所關注信息的低維度數據。
這樣對研究人員理解原本的高維數據所隱含的結構和模式很有幫助。
原始的高維度數據通常包含了許多無關或冗餘變量的觀測值。
降維可以被看作是一種潛在特徵提取的方法。
降維這種方法經常用於數據壓縮、數據探索以及數據可視化。
話雖如此,但降維並不是像科幻書里描述的那般扔一個二向箔就完事了。
涉及到降維是一件極其麻煩的事情!
在選擇降維方法的時候,人們不得不考慮很多因素。
首先要考慮輸入數據的性質。
比如說,對於連續數據、分類數據、計數數據、距離數據,它們會需要用到不同的降維方法。
對數據的性質和解析度的考慮是十分重要的。
如果不考慮輸入數據的性質貿然進行降維的話雖然能夠使得這些這些高維模型低維化。
極有可能使得原本離散的數據直接「糊」在一起。
這種情況比高維離散還要糟糕。
在應用正式的降維技術之前。
還要對高維數據進行適當的預處理。
畢竟不是所有的數據都是樣本數據。
而有的時候進行預處理時。
最佳的預處理方式又是引入降維。
這就會陷入一個瘋狂套娃的循環之中。
總而言之,對高維數據進行降維是一件超級麻煩的事情。
在實際進行處理時一般自然語言處理方向的研究人員一般都竭力避免出現高維爆炸的情況。
而不是等出現高維數據之後再進行低維處理。
高維數據的低維處理某種程度更像是一種迫不得已的異常麻煩的補救措施。
很多東西因為麻煩就足以讓人說再見了。
繁複的過程意味著容易出錯。
而美好的事物所呈現的形式應該是簡潔的。
就像歐拉公式一般。
正因為如此,伊芙·卡莉覺得林灰這種天才想表達的意思絕對不是將高維數據降維成低維數據。
如果林灰想表達的意思不是對高維數據做手腳。
而是說對傳統的向量空間模型做文章?
將高維向量空間模型轉化為維度較低的空間向量模型?
這種思路倒是不錯。
但這種嘗試先前並不是沒人做過。
很早之前就有人進行了嘗試。
早在上世紀末期就有人提出了潛在語義分析模型。
潛在語義分析模型是基於空間向量模型(VSM)而提出的。
潛在語義分析模型其基本思想是在得到文本的空間向量表示後。
通過奇異值分解,將高維且稀疏的空間向量映射到低維的潛在語義空間當中。
在得到低維的文本向量和單詞向量之後。
再用餘弦相似度等度量方式來計算文本間的語義相似度。
潛在語義分析的本質思想就是通過降維來去除原始矩陣中的噪音,從而提高計算準確度。
雖然這種思路不錯,但這種方法並沒有普適性。
這是因為潛在語義分析模型在架構模型的過程中採用的奇異值分解。
這種做法使得計算複雜度增高,並且可移植性較差。
在這種方法提出來之後。
並不是沒人嘗試對這種方法進行過改進。
同樣是上世紀末。
有研究人員提出了概率潛在語義分析模型。
這種模型是基於概率,而不是基於奇異值分解。
這種模型相比於潛在語義分析模型的主要差異是增加一個主題層。
而後使用期望最大化算法訓練主題,並找到一個概率性的潛在主題模型。
以此用來預測文本空間向量中的觀察數據。
(本章完)