第278章 紅彤彤的前程(第二更)

  第278章 紅彤彤的前程(第二更)

  儘管信心滿滿,但能夠這麼順利的就取得橘子大模型的原始碼,還是讓Madeline喜出望外。

  千尋的安全部門手裡有大量的0day漏洞(被黑客發現的,開發者和用戶不知道的漏洞),他們所製作的木馬就是利用了linux系統中的幾個0day漏洞來遠程執行代碼並獲取權限。

  千尋根本沒有等太久,那個加密包第二天就被柚子科技解密調用了,裡面果然是橘子大模型內測後的修復版本。

  吳恩德離開後,接替他工作的傅遠生雖然滿嘴軍令狀,但心裡其實還是忐忑的。

  他是內行,雖然此前沒有接觸過橘子大模型這種類型的神經網絡,但BP、LSTM、CNN、RNN、DNN、Seq2Seq等模型還是玩的很熟的。

  無論什麼神經網絡,本質上都沒有刪除數據這麼一說,只能重新訓練。

  深度學習並不是把數據資料存在某些地方供神經網絡調用,而是讓神經網絡「學習」這些內容,學習後的東西會導致「神經突觸」的變化,而大模型的「神經突觸」,就是所謂的「參數」。

  這些參數的數值變化和相互的連接,就像人類學習的時候神經突觸的連接一樣,意味著大模型真正「掌握」了訓練的知識。

  比如一個參數13B(130億)的大模型,存在一塊硬碟上,可能大小有20個G。

  讓它接受2個T的數據訓練後,可能它的大小還是20個G。

  大小沒有什麼變化,但這2個T的資料它卻已經完全掌握了。

  但既然是模仿人類神經形成的人工智慧模型,其實也存在了人類智能的某些問題。

  比如說「遺忘」的問題,就是明明學了,過一陣時間之後卻發現AI把學過的東西忘了。

  AI過度訓練後,可能會出現對新數據「想當然」的現象。

  就像人類面對新生事物時,明明什麼都不明白,卻用過往經驗進行解釋,這在AI領域中叫「過度擬合」。

  一堂課老師講了半本書,前三頁你還能聽明白,到後面就是聽天書,對於AI來說,就是「信息過載。」

  人類接觸到的信息是片面的情況下,就會導致認知偏差,AI的數據如果集中存在某一種意識形態的內容,同樣會導致認知偏差。

  林林總總。

  更有甚者,原本是個好模型,別人訓練都沒事,你來訓練,要麼無法收斂得到結果(可以理解為學不會),要麼災難性遺忘,要麼梯度爆炸或消失。

  在架構和參數沒有太大改動的情況下,能不能訓練出可用的大模型,甚至是一門玄學。

  AI的訓練與調優充滿了複雜性和不可預測性。

  有時候,一個微小的參數調整或數據處理步驟的變化,就能導致訓練結果的巨大差異。

  就算傅遠生嚴格按照科學的方法調整超參數,精心選擇數據集,並使用最先進的硬體設備,但他仍舊沒有足夠的信心在短短的一兩周時間內,把橘子大模型重新訓練一遍去除柚子科技的所有痕跡。

  但成了的話,自己可就是AGI之父啊!

  升職加薪啊!

  成為世界第一的AI權威啊!

  又有幾個人能抵擋這樣的誘惑呢?

  而且千尋早就準備好了,如果柚子科技那邊反擊,甚至放出橘子大模型是他們自我研發的實錘,千尋也不怕。

  掌握了十幾億經費的公關一號位可不是吃素的!

  哼!

  入關之後,自有大儒為我辯經。

  先攪渾水,過上半年再持續的歲月史書,柚子科技沒多久就成了歷史笑柄了!

  傅遠生實際上手之後,更是喜出望外感覺自己天命加身。

  這個橘子大模型和柚子訓練框架太踏媽好用了。

  無論用什麼策略調整參數,幾乎訓練效果都很好,效率奇高。

  應該三天就能完成一輪訓練。

  公測版本的橘子大模型相較內測版的130億參數又做了倍計的提升,足足有1500億的參數。

  傅遠生指揮自己三個忠實走狗,四個人開始關在小黑屋裡閉關,一邊去除橘子大模型內的柚子科技的痕跡,針對性的調整參數,一邊進行重複訓練,儘可能的覆蓋這個大模型原本學習的知識。

  尤其是那種「你是誰創造的?」之類的問題,必須對大模型進行監督學習,讓其遇到類似的問題都能回答是「我是『聞君一言』,是一個AI助手,千尋公司創造了我。」

  或,「千尋的天才工程師們日以繼夜的工作和努力,才讓我和伱見面,開心嗎?」

  為了徹底避免問題出現,傅遠生他們甚至把「柚子科技」、「柚子」及能夠聯想到的其他詞語都作為禁詞,禁止修改後的「聞君一言」在任何方式下提及到。

  當然,這仍然不能徹底解決問題,不過沒關係,千尋只準備公測三天,三天後,馬上就宣布公測結束,系統升級,剩下的時間慢慢搞。

  總是能把這個問題解決掉的。

  傅遠生熬夜熬的眼珠通紅,這是累紅的嗎?

  不,這是被我那紅彤彤的前程照紅的!

  ——

  柚子科技官方微博的表態,讓所有吃瓜群眾都覺得不明所以。

  那句有意思還能夠解釋為反擊的話,上面貼的那張集體穿著魔法袍的團隊照片什麼意思?

  想對千尋用個阿瓦達啃大瓜?

  你就是當事人啊,啃什麼瓜?

  看到柚子科技官方發的微博,估計是做賊心虛,千尋管理層幾乎全體出動,紛紛開始陰陽怪氣起柚子科技。

  牛亮,微博認證千尋金融服務事業組副總裁:「難以理解什麼樣的智商,會相信一家成立不足一年的小公司能夠改變世界。」

  荊浩,微博認證千尋江米總經理:「十年磨一劍,為千尋點讚,我們永遠都是那個追求技術與夢想的少年!@Robert李」

  袁山君,微博認證千尋營運副總裁:「童話很美好,但可惜,現實世界不相信童話。千尋從3057年就已經在AI領域每年至少投入上百億,到如今終於開花結果,可喜可賀。AI行業是資金密集型、技術密集型的行業,不是哪家小公司就能碰瓷的。」

  對於這些人的微博,柚子科技都做了轉發,每次轉發,還都配上那句「有意思」以及那張團隊照片。

  而輿論的導向,也開始在千尋巨額的公關費用下,開始向攻擊柚子科技的方向去引導。

  那些冷靜分析柚子科技不可能是抄襲者的文章,基本都沒有任何流量,而柚子科技的官微之下,則充斥了水軍和不明真相的辱罵。

  百分之九十九的回覆都認為柚子科技的回覆是不以為恥反以為榮。

  而對這些人,掛著柚子官微的方豫根本不在乎,開著小號跟著一起罵。

  由於罵的過於有特點,小號的很多條微博居然還被千尋的很多高管轉發了。

  千尋和柚子科技的公測是同一天同一時間,都是4月5日清明假期後的第一天上午。

  由於柚子科技的公測時間早就公開在4月5日上午十點,為了喝頭啖湯,千尋特意將公測時間提早一個小時在上午九點。

  不同於柚子科技的按兵不動,這些日子來,千尋可以說是外緊內也緊,媒體上努力控評,內部緊鑼密鼓的抓bug做測試。

  「請匯總出集團3061年所有研發項目的ROI for R&D,並根據上傳的模版形成一個報告。」Robert李在對話欄中輸入一行要求。

  「聞君一言」同樣具有企業api,現在Robert李就是把千尋的備用伺服器與企業api進行連接,針對性的開發出的千尋內部ai管理助手。

  收到指令後,「聞君一言」很快速的就把千尋3061年所有的研發項目的ROI進行了匯總排列,並依據多標準決策分析(MCDA)方法,對這些項目進行了綜合評估,隨後又用十幾秒的時間生成出了ppt。

  Robert李打開ppt一看,嚯,比平時CTO拿上來的報告還清晰。

  至於那些可能露餡的測試,他們早就做完了。

  「啪啪啪啪啪。」看到「聞君一言」的優異表現,Madeline帶頭鼓起了了掌。

  而其他的高管們,也都跟著鼓起掌來。

  從雙手在胸前輕拍,一直到雙手高舉頭頂用力鼓掌,在鼓掌內卷賊的帶動下,大會議室中很快就掌聲震天。

  好像誰鼓掌的動作小了,誰就對公司沒有認同感似的。

  Robert李看了看Madeline,直到現在,他仍舊覺得心裡不太踏實,因此他一直都沒有就這件事情發微博。

  但此情此景下,他也只能一如既往地微笑著,還拍了拍傅遠生的肩膀。

  「Robert,明天就是公測了,你作為千尋的唯一領袖,是不是也應該在社交媒體上支持一下『聞君一言』?。」Madeline帶著勝利者的微笑,雖然是建議的口吻,但Robert心裡卻明白,這就是變相的命令。

  Robert李抿了抿嘴,沉默了一會兒。

  「Robert?」Madeline對他使了個眼色。

  Robert這才發現周圍氣氛似乎有些古怪,只好微笑了一下,掏出手機發了一條「明天九點,見證奇蹟」的微博,隨後打趣到:「我看到柚子科技的官微把我們很多高管的微博都轉發了,也不知道我這條會不會也被轉。」

  老闆發微博,下面的高管們機靈的馬上就開始跟著評論和轉發。

  同時還得寫上幾百字的小作文,抒發一下對公司的感恩和對老闆的仰慕與崇拜。

  打字速度最快的馬屁精還沒寫完小作文呢,就看到已經有人轉發了。

  艹!誰手這麼快?

  打開一看,柚子科技?

  而且還配圖了?

  只不過這次他們倒是沒配那張團隊穿著魔法袍的合影,而是配了一張所有人都眼熟能詳的。

  吔S啦你。(成熟的讀者應當自己補圖)

  在AI領域,由於AI的黑箱特性,導致抄襲和套皮相比其他IT領域有很大的不一樣。

  針對一個複雜系統來說,套皮是很麻煩的一件事,億級的代碼量,哪個邊邊角角有點注釋什麼的,可能就會露餡。

  但大模型不是個軟體系統,而是是幾十上千甚至上萬億參數組成的神經網絡,這使得抄襲和套皮行為難以直接通過代碼檢查來識別,因為大模型的核心是參數而非顯式的代碼邏輯。

  而模型中的知識,只要重複訓練的次數足夠多,是能夠把過去的知識徹底清洗覆蓋掉的。

  這也是為什麼當初斯坦福的兩個學生膽子會大到將清華的llama小鋼炮直接套皮說成自己做的大模型。

  這件事在爆出來之初,也只是有人從性能上懷疑,因為這三個學生拿出的模型性能表現和小鋼炮太像了。

  這時候這三個人都沒有承認是套皮。

  只不過他們只是學生,算力和數據都不太夠,無法徹底完成模型的知識覆蓋,致使他們的模型居然能和小鋼炮的專有特性一樣可以識別清華簡,這才實錘了他們套皮抄襲。

  小鋼炮事件之所以能夠這麼快解決,是因為小鋼炮推出的比三個學生拿出的模型早的多,早就打出了名氣,再加上有獨有特性。但如果抄襲的不是三個學生,而是資源更豐富的大廠呢?如果兩者是同時推出的,幾乎沒有先後呢

  (本章完)