第349章 技術強勢就是可以為所欲為
雖然SimpleT這款軟體在架構的時候同樣沒有進行全語種的互譯數據標註。
但最起碼涉及到中、英、俄、法、西、日這些常見語種之間的互譯數據標註肯定是要有的。
縱然這些語種之間的互譯數據不是所有的語種之間都能達到千萬條的互譯標註規模。
但最起碼中-英、英-中互譯標註數據肯定還是相當有規模的。
在這種情況下,林灰估算了一下前世SimpleT這款軟體所用到的標註數據在今天起碼也要擁有七八億美元的價值。
這無疑是一筆相當巨額的財富。
最關鍵的是即便林灰拿了這些語種之間的互譯標註數據去換錢。
也不妨礙林灰到時候將SimpleT這個軟體推向翻譯市場。
呃,雖然有點奸商的作風。
但怎麼說呢,一雞多吃是常態。
甚至於可以說一雞多吃是網際網路時代下的典型商業特色。
儘管短時間內林灰不大可能去突然涉及到翻譯領域的互譯標註。
但林灰手中的標註數據可不僅僅是翻譯領域。
以林灰此時所耕耘的自然語言處理這個方面吧。
儘管林灰在此前的生成式文本摘要模型的構建中主要是使用無監督訓練的方式進行的大量數據獲取以及相應的模型訓練。
但林灰手中確確實實是有自然語言處理方向的標註數據。
而且是超大規模的文本標註數據。
這更是一筆相當大的財富。
雖然這種文本數據標註相比於雙語互譯文本標註(標註起來門檻更高)的數據其價值肯定是要打折扣的。
但在形成規模的情況下縱然是一般的標註數據一樣是一筆不容小視的財富。
僅僅是涉及到文本摘要有關的一些普通標註數據林灰估計在這個時空換取幾千萬美元的話完全沒問題。
如果對這些標註數據加以一定包裝並且足夠幸運能夠遇到一些識(yuan)貨(da)人(tou)的話。
商業談判時如果談判的人很會的話談到近億美元也是有可能的。
如果對標註數據進行一定的包裝,林灰估計忽悠個上億美刀也是完全沒問題的。
對這些標註數據加以一定的包裝是什麼意思呢?
就是美化標註數據的質量。
嚴格來講的話,同樣是標註數據也是可以區分為專家標註和眾包的。
所謂的「專家標註」也不是真的專家去進行標註。
「數據標註」聽起來似乎蠻高大上的,但實際上呢?
進行數據標註過程往往非常複雜,涉及到數據量特別多的時候,對人工勞動力會有很高的要求。
雖然不能說低端吧,但這種機械而繁複的工作至少跟高端是沒啥關係的,磚家教授肯定是不會去幹這活的。
所謂的專家標註一般都是由苦逼的算法工程師進行兼職。
或者由專門的算法數據標註員進行標註。
所謂的數據標註員是一種新興職業。
前世,隨著大數據以及人工智慧時代的到來,為了應對數據標註的工作在網際網路上出現了一種新型職業——數據標註員。
數據標註員的工作是使用相應的工具從網際網路上抓取、收集數據,包括文本、圖片、語音等等。
然後對抓取的數據進行整理與標註。
這些數據標註員工具體的工作流程一般很明確:
首先,標註人員經過培訓,確定需要標註的樣本數據以及標註規則;
而後,根據事先安排好的規則對樣本數據進行打標;
其次,對標註完以後的結果進行合併。
而算法數據標註員稍稍有別於一般的數據標註員。
相比於一般的數據標註猿,算法數據標註猿往往在完成以上的步驟之後。
還要通過標註的數據餵模型進而調試模型。
儘管工作流程只是多了這一步,但專業的算法數據標註員依舊是鳳毛麟角。
從先前羅列的任務也可以看出算法數據標註員的任務不僅僅是數據標註。
往往還需要根據標註的數據進一步評估算法模型。
如此一來很多時候對書記標註員的要求是這些人不光要進行數據標註。
還得懂相應的算法。
同時滿足這兩個條件的人很多時候完全是鳳毛麟角。
正因為這種專業標註的人員很少。
往往專家級標註只能夠勝任小量級的數據。
對於大規模數據標記和超大規模數據的標記任務想要依靠專家標記很多時候只能是力不從心。
對於大規模數據標記和超大規模數據標記往往只能尋求眾包了。
眾包模式是將零散的個人(包括兼職)、小標註團隊,整合到平台上,完成一個完整項目的服務模式。
這種模式的主要優勢成本很低,且比較靈活。
儘管前世機器學習長期所致力於的工作就是能夠以眾包數據或者乾脆是無標數據取代專家標註。
但真要問專家標註和眾包數據哪個受歡迎。
那自然是前者。
這種情況下誇大標註數據中專家標註所占的比例很容易收穫到更高的溢價。
聽起來似乎很奸商。
但也僅僅只是聽起來而已。
如果林灰所大肆讚美的標註數據和現在的專家標註水平真的區別很大的話。
那林灰吹破大天也沒用。
畢竟打鐵還需自身硬。
林灰既然敢宣稱標註數據中專家標註所占的比例很高自然有底氣。
怎麼說呢?
往後幾年即便是一些非專家標註的數據,在行業標準化、規範化的情況下。
很多時候,就算是眾包的數據也未必比現在的行業尚未完全標準化以及規劃化的專家標註的水平差。
就算林灰拿往後幾年的非專家標註數據去忽悠人。
想來這個時空也會有人去買帳。
沒辦法,技術強勢就是可以為所欲為。
通常時候,有錢確實可以為所欲為。
但為所欲為的同時別人很可能拿你當孫子。
有技術一樣可以為所欲為。
但你為所欲為的時候,別人卻得拿你當爺爺。
看看後世某些廠商拜壽式搶首發(沒特指,勿對號入座)
大概就能夠對「因技術而來的爺爺地位」這種說法管窺一二了。
2021時空來到2014時空。
這兩個時空雖然只是七年的時間差。
但這就意味著林灰在大部分領域都最起碼擁有七年的信息差。
而這個時代某些方面的短腿又使得林灰在部分領域擁有遠不止於七年的信息差。
很多前世原本不那麼先進的技術放到這個時空就是領先時代的存在。
如此一來,林灰真的可以為所欲為。
(本章完)