第064章 用科學方法解讀紅樓夢

  《盤點歷史十大偽作(1)》一出,頓時引起了無數網友的關注。

  東門慶工作室。

  「慶哥,三無出山了?」

  「啊?他不是不再盤點詩詞工作了麼?出爾反爾?又出來盤點詩詞了?」

  「沒,他這次盤點了歷史上的偽作,說《紅樓夢》是偽作。」

  「啥?臥槽啊!準備文稿,以前咱們一直是歌頌他的,這次準備開噴吧!爭取做出全網第一條批判他的短視頻!」

  ……

  片場。

  宋喬芸正坐在椅子上休息,身邊的化妝師在補妝。

  滴!

  【抖樂提示:您關注的短視頻博主發布了最新作品。】

  她連忙打開手機,見到印入眼帘的一行字後,整個人瞬間繃直了。

  「這……」

  「完了,歪了歪了歪了!」化妝師忙道。

  宋喬芸沉吟道:「三無的觀點,未必是歪的。」

  「我是說口紅給您畫歪了。」

  ……

  富旦大學。

  張教授正在和同事們暢聊歷史。

  突然有人匆匆跑來:「張主任,我萬萬沒想到,您口中的那個朋友,竟然是三無老師!」

  張教授一臉茫然:「什麼東西?」

  「您朋友啊,您不是說您有個朋友嘛,我做夢都不敢想,您口中的那個提出了《後出師表》偽作言論的朋友,竟然是詩人三無!張主任,您也太低調了吧,認識三無都不跟我們說?」

  張教授很茫然:「啥意思,我不懂你啥意思。」

  「您還裝!這不嘛,您朋友三無老師,剛剛發布了一條短視頻,您看啊,這上面不是寫著呢麼,《盤點歷史十大偽作(1)》,《紅樓夢》,他前幾天不是還說《後出師表》是偽作嘛!您可千萬別告訴我,這是兩個研究者碰巧想到一塊去了,都研究同一個方向了。」

  張教授腦袋「嗡」地一聲,他突然意識到了什麼,但又完全不敢相信。

  他一把抓過手機,因為激動手都是抖的,只見屏幕上徐徐展示出一段內容,然後他整個人,徹底懵住了。

  ……

  無數雙眼睛在不同時間盯著同樣的內容,有著同樣的震顫,這是一個挑戰了所有人固有認知的短視頻!

  短視頻在緩緩播放著內容。

  三無極具特色的嗓音,舒緩平和,娓娓道來。

  【我將《紅樓夢》分為兩部分,第一部分:前80回,第二部分,後40回。

  在經過我縝密而繁複的研究工作後,我發現了一個驚天的秘密——《紅樓夢》後四十回,其作者並不是曹雪芹,而是由後人續寫,狗尾續貂之作。】

  抖樂最近學習了其他短視頻網站,開通了彈幕功能。

  此時滿屏幕的彈幕全是問號。

  「???」

  「啊???」

  「三無,請回去寫你的詩詞吧,別在這逗我好麼?」

  「這不扯淡呢麼?」

  「現在的自媒體,為了流量真是啥瞎話都敢編啊!」

  ……

  視頻內容繼續:

  【接下來的一段時間裡,我將分若干集,從各個角度出發,來論證《紅樓夢》後四十回並不是曹雪芹手筆。

  而本集視頻,我們先從文本特徵差異研究開始。我將運用統計學方法,並結合 R語言技術,對我的觀點進行闡述!】

  彈幕上,網友們又蒙圈了。

  「R語言技術?統計學?跟《紅樓夢》有什麼關係?」

  「什麼是R語言?」

  「這不是文學方面的事情麼?怎麼涉及到數學和計算機技術了呢?」

  「對啊,文學就是文學,怎麼能和其他學科混為一談呢,一看就不靠譜!」

  「繼續圍觀,看這個詩人能扯出什麼花樣來。」

  ……

  【在大量事件的前提下,無論是在語言表述,還是在寫作中,每個人在特定情況下用字或是用詞都存在著某種規律。

  這種規律便是個人在說話與寫作中所形成的語言表達習慣,即是個人在其特定習慣中所形成特有的文體特徵。

  所以,不同的作者在用詞頻率與用詞風格上存在一定的差異性。

  我將運用R語言對《紅樓夢》著作進行文本分詞和詞頻統計,從高頻詞彙和虛字兩個研究角度,來分析《紅樓夢》前八十回與後四十回在文本特徵上的差異性。

  首先,我們率先研究高頻詞彙。

  在《紅樓夢》的高頻詞彙中,我首先將人名、地名、稱謂等剔除掉,以及對「一個」「一面」等表數量的沒有實際意義的詞彙進行剔除。

  於是,我們得到了65個高頻詞彙進行文本研究,現製作統計表格。

  如下圖!】

  短視頻中,貼出一張統計表。

  【高頻詞彙研究對象表】

  【1,什麼;2,我們;3,那裡;4,姑娘;5,你們……63,家裡;64這話;65到底。】

  短視頻解讀繼續:

  【……我的研究分組方案如下,一至三十回第一組,十六至四十五回第二組,三十一至六十回第三組……,以此類推,一共將《紅樓夢》分成7組。

  運用R語言,對各組進行分詞,對高頻詞彙研究對象進行詞頻統計。繪製高頻詞彙頻數變化折線圖。

  如下圖所示!】

  話音落,短視頻里,貼出了運用R語言繪製出的高頻詞彙頻數變化折線圖——一個帶有X、Y坐標的七條折線的統計表。

  而此時,網友們全看傻了。

  「懵逼了,這些都啥意思啊?」

  「這能代表啥啊,根本看不懂啊!」

  「詩人你到底啥意思,請你明說行麼?」

  「我感覺看了你的視頻,受到了侮辱!」

  「你高估我們了!」

  ……

  短視頻開始對這一折線圖進行講解:

  【我們可以發現折線圖有明顯的鋸齒形,那麼就表明高頻詞彙在各分組有明顯的波動……諸如 16(沒有)、21(聽見)、26(回來)、34(心裡)、51(那些)、65(到底)等詞彙,當第六組和第七組出現波峰的時候,其他組卻出現了波谷;

  而在42(不過)、61(姊妹)等詞彙,當第六組和第七組出現波谷的時候,其他組卻出現了波峰;這就說明第六組和第七組的折線圖與其他組的折線圖有明顯的相反的走勢……】

  彈幕瘋狂抗議:

  「求你了別說了,聽不懂啊,能直接告訴我結論麼?」

  「你讓數學常年不及格的我,如何理解你的高深莫測?」

  「直接說結論吧,真聽不懂!」

  ……

  【從部分高頻詞彙角度分析,前八十回和後四十回詞頻有較顯著的差異性,於是我得出初步結論,前八十回和後四十回,作者並不是同一個人。

  完成了高頻詞彙的分析後,下面,我們對虛字進行分析。

  虛字,是指不能單獨成句,意義比較抽象,而具有一定語法意義的字或詞。古典小說中的虛字是構成句子必不可少的成分,其使用不受故事情節的制約,僅與作者的寫作習慣有關。

  ……

  我們對44個虛字作為研究對象, 44個虛字如下:之、其、或、亦、方、於……偏、兒。

  在研究之前,首先我對監督學習作簡單介紹,監督學習分為回歸分析與分類分析兩大類別,本文應用了分類分析。所謂分類是通過分析已知數據,構造一個分類函數或者分類模型(即分類器),利用該模型將資料庫中數據映射到某一給定類別中……

  接下來,我將運用監督學習中的樸素貝葉斯法和BP神經網絡對紅樓夢各回作分類研究,並根據分類準確度分析前八十回和後四十回的差異性!】

  富旦大學。

  張教授身邊,人越聚越多。

  「他說的這是啥啊?」

  「我怎麼全程都聽不懂?」

  「什麼是樸素貝葉斯法?是數學麼?」

  「BP神經網絡啥意思?生物學?還是計算機?」

  「這確定是,在考證《紅樓夢》後四十回是偽作麼?」

  「張教授,你能看懂他說的是啥麼?」

  「張教授?」

  在場的所有教授都傻了,全都看不懂啊。

  什麼樸素貝葉斯法,什麼BP神經網絡,又什麼折線圖啊,這些文學方面的大教授們,哪懂這些?

  用數學、計算機技術等,去研究文史問題,他們聞所未聞啊。

  雖然這樣的研究在前世已經是常規手段,但是這一世的人們哪見過這個?

  對於這一世的所有網友來說,對於這些大教授來說,現在已經不是震不震驚的問題了,也不是吐不吐槽的問題了。而是,完全看不懂的問題!

  完全看不懂啊!

  想吐槽幾句,想罵幾句,都不知道從何開口!

  張教授傻了。

  視頻里講解的內容,他聽不懂,傻了!

  江小白就是三無的這個真相,他更接受不了,更傻了!

  他一時間怔在原地,他的認知上,從來都沒受到過如此重大的衝擊。

  ……

  「臥槽,他怎麼還列上數學式子了呢?」

  眾教授連忙再次望向手機屏幕!

  【設有m個輸入變量 x ={X?,X?,…,Xm},有n個可能取值分類型變量 y ={y?,y?,…,yn},則根據貝葉斯定理有: P( y = y0|x?,x?,…,Xm)= P( x?,x?,…,Xm……

  根據最大後驗概率原則,輸出變量應預測n個後驗概率中最大的概率值對應的類別。

  ……

  首先將前八十回標記為類別1,將後四十回標記為類別2,進行樸素貝葉斯分類估計。

  ……

  由表可知,準確率最小值為76000,而最大準確率達1(對測試集分類百分之百正確),平均準確率為91609。

  假定兩種分類方式的準確率總體服從正態分布,因為樣本量為1000,屬於大樣本檢驗,因此採用z檢驗。建立假設並進行檢驗:

  H0 :μ1 -μ2 ≤ 0

  H1:μ1 -μ2 > 0

  ……

  其中 ,xˉ1 = 91609 ,xˉ2 = 61587 ,s 2 1 = 00192 , s 2 2 = 00746 ……

  既然p是極顯著大於p2的,那麼就說明前八十回與後四十回的分類方式相比於任意一般的分類方式而言,類別之間的差異性更明顯,即前八十回和後四十回文本特徵存在顯著的差異。

  也就是說,從虛字角度分析,前八十回和後四十回,也不是同一作者的手筆。

  因此,無論是從高頻詞彙分析,還是從虛字分析,通過科學方法研究後,我得出以下結論:《紅樓夢》前80回,和後四十回,並不是出自同一人之手。】

  彈幕上終於鬆了一口氣:

  「終於完事了,腦袋裡全是漿糊,懵了啊!」

  「我剛剛究竟看了個啥?」

  「全程懵逼中!」

  「我突然想噴幾句話,但發現我完全不知道從何噴起。因為我啥啥都沒聽懂啊!」

  「視頻還沒結束麼?喲,才進行了三分之二?」

  「還沒結束麼?」

  【下面,為了對我的研究成果進行驗證,我們引入BP神經網絡。

  所謂BP神經網絡是一種利用誤差反向傳播算法的人工神經網絡,可以有效的解決很複雜的有大量互相相關的分類問題……】

  彈幕,集體崩潰了。

  「我靠,又來!」

  「神啊,救救我吧。」

  「請直接說結論!!」

  「蒼了個天!」

  ……

  【樸素貝葉斯分類器平均準確率為91677,方差為00201;而BP神經網絡分類器平均準確率為93513,方差為00175。

  因此,我的研究成果是沒有問題的。

  綜上所述,從高頻詞彙角度研究,我運用各組高頻詞彙頻數變化折線圖。從虛字角度,用了樸素貝葉斯和BP神經網絡分類方法,作了組內與組間對照研究。

  結果表明,】

  視頻中,三無的語氣加重,嚴肅而肯定:

  「《紅樓夢》前八十回與後四十回文本特徵存在顯著的差異性,即前八十回和後四十回作者不是同一個人!】

  短視頻播放完畢!

  富旦大學辦公室內,圍觀的眾教授,一頭霧水!

  此時此刻,他們和所有網友一樣,都沒看懂。

  這個全程運用了統計學、計算機技術等科學手段進行文史研究的方法,對於這一世的人們來說,太超前了。

  雖然在前世司空見慣,但是在這一世,所有人是聞所未聞,見所未見!

  「三無關於《後出師表》的研究,我聽得明明白白的。但是這個我完全懵了。」

  「我完全理解不了他剛剛的內容,是對是錯,完全不明白啊!」

  「咱們先別談這個研究哈,張主任,你竟然認識三無,你也太厲害了吧?」

  「張主任人脈是廣啊,竟然連三無都認識!」

  「原來你的朋友,竟然是大名鼎鼎的三無,哇,你真的是神通廣大啊。」

  「張主任,您幹嘛去?」

  「張主任?」

  張主任突然轉身離去,一路小跑著奔向樓梯,同事的聲音早已來不及回答。

  (PS:文中公式是錯的,因為正確的公式,字體識別不出來。)