第351章 高階博弈話語權之爭
理解了算法能換錢。
其實也就不難理解數據為什麼能換錢。
畢竟數據是很多機器學習算法構建的基石。
機器學習算法的出現往往要依賴於有標註的數據。
而且在相當長的一段時期內機器學習算法不僅是依賴於有標註的數據。
而且是依賴於大量有標註的數據。
標註數據量較小的情況下,很多時候是不足以訓練一個性能優異的機器學習算法的。
從這個角度出發,就不難理解數據為什麼可以換錢。
很多時候甚至可以完全可以把數據理解為是一種隱性的知識。
而數據標註的過程實際上就是將散漫自有的離散數據結構化、標籤化的過程。
在算法和數據之外,所謂的狹義知識是什麼呢?
狹義知識一般指通過規則或詞典等形式由人工定義的顯性知識。
狹義知識主要包括三種:
——即語言知識、常識知識和世界知識。
其中,語言知識是指對語言的詞法、句法或語義進行的定義或描述。
其主要特色是定義了同義詞集合。每個同義詞集合由具有相同意義的詞組成。
常識知識是指人們基於共同經驗而獲得的基本知識。
世界知識包括實體、實體屬性、實體之間的關係等。
或許有人不理解?
為什麼這類知識能換錢呢?
這些東西不都是顯而易見嗎?
這些知識雖然本質上依舊是人們所能理解的顯性知識。
但對人們來說顯而易見的顯性知識。
不等於對機器同樣是顯而易見的。
對於這類知識往往要通過規則化或者是詞典化的處理以便於這些知識能夠通過簡單的處理成讓機器理解。
這些很容易被機器所理解的知識叫狹義知識,也被稱為專家知識。
儘管現在主要訓練模型已經是謀求算法甚至是數據本身了。
但狹義知識是相當有市場的。
反正從此前和伊芙·卡莉的交流來看。
都2014了,矽谷現在開發點什麼機器學習仍舊是要動不動跟哈佛、牛津之類高校合作。
這些人之所以仰仗哈佛、牛津除了是指望這些高校進行下數據標註之外。
主要應該就是指望著這些高校在狹義知識方面的加持了。
這些人這麼做也容易理解。
畢竟最早涉及到自然語言處理方面的模型數據的時候人們是用狹義知識進行訓練的,而不是依靠數據和算法。
甚至林灰印象中,即便是前世,在網際網路迅速崛起之前,人們唯一訓練自然語言處理方面模型只能是用狹義知識。
而林灰手中就擁有相當多的狹義知識,且水平什麼的應該比現在西方世界所用的不知道高多少。
從矽谷為了獲取狹義知識每年砸幾千萬美元的架勢來看。
林灰手中的一些狹義知識如果能夠拿來變現的話要比利用標註數據變現還方便。
但這僅僅是理論上容易變現。
林灰沒有絕對的話語權以及隨之而來的權威性。
林灰怎麼去向潛在的受眾去說其所擁有的狹義知識資料要比現在矽谷所用的普遍材料更高明呢?
其實潛在的買家林灰倒是清楚的很。
要知道就算是在往後幾年對大量的狹義知識感興趣並且又不差錢的買家其實也不是特別多。
林灰估計這個時空下可能對大規模狹義知識庫感興趣的買家無外乎是Microsoft、Google之類的超級巨頭。
不過縱然是知道這些潛在買家,林灰也不可能去主動找對方啊。
那樣的話豈不是成為了兜售麼?
而兜售等於直接喪失了主動性。
畢竟按照買家的思維邏輯是:
兜售等同於賣家對產品不自信。
亦即商品缺乏權威。
對於有的商品缺乏權威等同於直接給判了死刑。
買家憑什麼要為缺乏權威性的內容買單呢?
或許這只是林灰的臆測,但林灰覺得這種事情是大概率事件。
沒權威性,縱然是更高水平的東西。
想拿來換錢也是很藍的啦。
而擁有了絕對的權威性,事情則不一樣了。
很多時候就成了賣家市場。
買家上門求著那種。
就像伊芙·卡莉描述下的自然語言處理方面的算法團隊興衰輪轉不斷。
但哈佛、牛津之類的高校卻始終不用擔心沒有算法團隊去同他們進行合作。
畢竟某種程度上這些頂級高校在狹義知識尤其是在部分NLP開發離不開的語言知識上幾乎就等同於權威。
這種情況下別說這些高校不用擔心吃飯的問題。
甚至是很多算法團隊也得看人家臉色。
擁有權威性。
實際上在狹義知識機器化水平方面沒那麼高的水平也很容易吸金。
甚至是不需要這些高校親自去產出知識。
很多時候第三世界國家生產出襯衫、褲子等等服裝,而發達國家直接拿去貼個商標。
這一過程發達國家幾乎做的是最少的,但卻輕鬆攫取最大頭的利潤。
偏偏貼標這事不只是存在在服裝領域。
在機器學習方面,很多時候擁有強大權威性的團隊一樣可以直接對「通行知識」進行「貼標」。
對,沒錯,知識貼標。
這才是真正意義上的躺著賺錢。
而且是躺在大氣層那種。
很美好,不過很遙遠。
不過林灰也不必要太灰心。
因為涉及到話語權的追求,林灰並不孤單。
和林灰同行並不是某人。
而是一個五千年悠久歷史的東方古國。
林灰相信通過不斷的求索會一天實現涉及到話語權的終極追求。
理想是美好的,道路是曲折的。
現在沒有話語權,想要依靠一些狹義知識去換錢是很難的。
除非是去找一些跟哈佛、牛津同一水準的高校,要他們為林灰背書。
不過這樣一來豈不是成了看別人臉色賺錢?
呃……最關鍵的是這麼一來七成還是人家的。
這種為他人做嫁衣的事林灰是不會搞得。
在沒有足夠的話語權之前,想靠狹義知識躺在大氣層是不可能的了。
似乎還是老實通過數據標註或者別的現實一點的手段去賺錢好一點。
即便是數據標註對於林灰來說,運用得當也是一筆巨大的財富了。
十八世紀末期,在美國的西進運動中,人們在薩克拉門托河裡發現了金砂。
在勇氣、貪婪的作用下,工人、農民、海員和傳教士,前仆後繼,前來淘金。
這就是赫赫有名的「淘金熱」。
不過在這場轟轟烈烈的西進運動中真正依靠淘金賺到大錢的人卻不見得有多少。
反倒是在淘金熱這一過程中另闢蹊徑的賣水人賺得盆滿缽滿。
「數據標註」這個領域某種程度上就是前世人工智慧迅速崛起時的「賣水人」。
(本章完)