大數據時代的古典文學研究
【編者按】對人文學者來說,作為工具的計算機,已從文獻檢索時代進入到數據分析時代。計算機不僅能幫助我們從海量文獻中快速檢索到所需的資料,還能以數據為基礎幫助我們發現問題和分析問題。隨著數字人文技術的發展,數據分析的技術和方法越來越有針對性和強效性,能清晰地揭示隱藏在文學史背后的作家與社會之間、作家與作家之間、文本與文本之間的直接與間接、顯性與隱性的多種關聯,能以全知型的視角系統整體地還原和呈現文學史的立體景觀,改變傳統的思維方式和文學研究范式。
目前的中國古代文學研究,在數據分析方面雖然已經起步,但還沒有完全跟上數字人文的發展步伐,可用于統計分析的關系型文學數據庫建設還比較薄弱,適用于古代文學研究的分析工具、分析方法、分析模型還相當有限。近些年學界和業界推出了相當豐富的數字化的文獻資源庫,如《中國基本古籍庫》《中華經典古籍庫》等,但主要用于檢索,還不是結構化的能進行統計分析和再生知識的數據庫。運用數字人文的分析工具和技術方法來研究古代文學,也取得了一定的實績,但還處在嘗試性階段,未成規模,影響不大。
為推進數字人文技術在古代文學研究中的應用與突破,本期約請清華大學中國古典文獻研究中心數字人文研究團隊的劉石、孫茂松、張力偉和劉京臣四位先生從不同的角度筆談他們的構想和規劃。劉石、孫茂松先生構建了古典文學研究的分析模型,劉京臣先生闡述了基于社會網絡分析的文本與人物研究的理路,既有理論的前瞻性,也有方法的可操作性;張力偉先生提出了建設“中國古典知識庫”(CCKB)的宏大構想,令人期待!(王兆鵬)
一
20世紀60年代,電腦就被西方國家運用于人文學科研究,稱為“人文計算”。美、英、法、德等國利用大數據技術研究文學開展得早、影響大,相繼成立了國家級項目組或研究中心,致力于莎士比亞戲劇、法國中世紀詩歌等多語種文學經典的內容分析,產生了一批引人注目的理論著述與應用成果。
進入新世紀,一些研究機構及企業開始對書籍進行大規模數據化。谷歌與哈佛大學共同研發的數據庫可對1600年至2000年間出版的500多萬冊書籍的單詞和短語的使用頻率進行統計,通過關鍵詞使用頻率的變化,可以嶄新的視角揭示500年來人類文化發展史的總體趨勢。伴隨人工智能技術的進步,機器的深度學習在文本分析方面展現了驚人效率。《布谷鳥的呼喚》原是《哈利·波特》的作者J. K. 羅琳于2013年匿名發表的小說。牛津大學的Peter Millican和杜肯大學的Patrick Juola運用法律語言學的分析方法對比分析,推測它很可能是羅琳的新作,最后,羅琳承認這部小說確出己手。
國內在20世紀80年代也出現了“人文計算應用”的概念,一些學者開始致力于運用電腦技術研究人文課題。早期對古典文學尤其詩詞的研究多為計算機或統計專業的學者。廈門大學周昌樂教授課題組針對宋詞風格“豪放與婉約”的分類問題,研創了基于字和詞為特征的風格分類模型、基于頻繁關鍵字共現的詩歌風格判定方法以及基于詞和語義為特征的風格分類模型。首都師范大學尹小林教授最早研發了“《全唐詩》檢索系統”,北京大學李鐸教授也研發了“《全宋詩》分析系統”“《全唐詩》分析系統”“《資治通鑒》分析系統”等。北京大學杜曉勤教授研發的“中國古典詩文聲律分析系統”首次實現對中國古典詩歌及有關韻文進行批量四聲自動標注和八病標識、數據統計功能,不僅有助于研究永明體詩歌的聲病情況,還可考察永明詩律向近體詩律演變的環節和過程。中南民族大學王兆鵬教授是較早采用量化分析研究古代文學經典的專家,他先后主持了“中國古代詩歌史的計量分析”“20世紀唐五代文學研究論著目錄檢索系統與定量分析”等多個項目,尤其是唐宋詩詞名篇的定量分析(排行榜)及國家社科重大項目“唐宋文學編年系地信息平臺”引發了社會的普遍關注。
鄭永曉先生數年前已經呼吁古典文學研究從數字化向數據化的轉變。基于大數據技術對古代文學經典文本進行高效和深度分析,可將文學研究納入到一個更宏觀的視野,提高研究結論的精準性、穩定性及可驗證性,促生新的研究理念、方法與范式。但總體來看,古典文學研究領域目前還基本處在古籍數字化、數字化檢索和少數專題數據平臺建設階段。
二
現階段數字人文研究的主要技術方法,包括機器學習與人工智能、數據庫建設、計算語言學、社會網絡與地理信息系統、數據與文本挖掘等方面。這些技術方法可分別用于古典詩歌分析系統的嘗試、作家生平事跡研究、古典小說研究、文本與人物研究、文體與文論研究,涵蓋了古典文學研究的主要方面。
基于這樣的理解,我們擬以先秦至明清品類紛繁的古代文學經典文本為中心,利用計算機、統計學、信息科學等學科的新興技術手段,形成如右上圖所示的研究結構。
研究的流程是文學專家提出問題——技術專家設計算法模型——借助知識庫或數據庫等平臺進行文本分析——文學專家對分析結果進行解析和研究。數據庫建設、技術創新運用與文本研究三位一體。數據庫是基礎,文本分析技術是關鍵,最終要落實到發掘依靠閱讀經驗難以發現的文本組織特征及相互關系,通過定量統計、定性分析,解決古典文學研究領域長期存在的疑而難決的作品歸屬、作品辨偽、異文辨析、修辭特色、風格生成、題材變遷、因革影響等方面的問題,期望在以下諸方向有所推進:
1.重新驗證已有成說的經典史論問題。比如,提出“文必秦漢,詩必盛唐”的明代前后七子為代表的文人群體,其詩文創作是否落實和如何落實其文學創作的主張?利用共詞分析、語義分析、人物事件交雜等技術思路,嘗試全新分析和解決諸如文體形式、社團流派、人物關系、情節演進、階段特征、歷史影響等問題。
2.解決人力難以徹底解決的疑難問題,為作品歸屬、重出異文、改編續寫、風格流派、文類劃分等提供新的證據、思路與方法。如唐宋詩“體格性分之殊”的判斷,詩詞曲三種相近文類格律、用韻、題材、語詞、典故、句法、意象、風格的窮盡性統計,為定性分析提供數據支撐,可以提高研究結論的精確性、穩定性及可驗證性。
3.超越主觀感受與印象分析層面,科學梳理文學史長時段中存在的特征、規律、關聯性問題。比如陸游詩近萬首,詞自中唐產生而歷經各代,他或它們的題材、修辭、風格變化軌跡究竟如何,數者之間的關系怎樣?通過對一個作家或一類作品的“深度學習”(計算語言學專業術語),發揮其文本比對、關聯分析等技術優勢,追蹤挖掘以往不曾注意到的跡象或線索,以期提高文學經典研究的可靠性與科學性。
三
利用大數據技術研究中國古代文學,對學術發展和學科建設的意義是明顯的,特別體現在研究范式與思維方式的革新。
傅斯年認為,“凡一種學問能擴張他所研究的材料便進步,不能的便退步”。大數據技術可以實現相關研究史料的全覆蓋,是對以往研究資料的極大擴充。目前研究中普遍存在的檢索依賴會造成史料的類型遮蔽,特別是反證材料的遮蔽。檢索依賴也會導致對史料的解讀脫離歷史語境,無數孤零零的沒有歷史氣息的材料斷片的組合,無法反映真實的歷史場域中的問題。文學研究者接受的信息如果是非全息的,文史研究的科學性和有效性必然值得懷疑。全數據分析模式拋棄了隨機性的樣本研究模式,讓研究者具有“上帝視角”,重視對事情整體系統的感知,又強調基于全數據的細節化,提高認知的精確度,是一種理想的學術研究模式。
傳統的文獻材料彼此間基本上呈現出相對明顯的線性關系,可以找到前因后果,進而形成相對完整和自洽的因果鏈。大數據時代面對的只是具有相關性的海量數據,幾乎不可能找到每個數據的微觀因果鏈,如果堅持因果路徑,將陷入無窮無盡的因果關系之中而茫然無措。因此,大數據時代不必非得知道現象背后的原因,而是讓數據自己發聲。對思想、情感和藝術為主體的古典文學學科而言,強調差異性、變異性和獨特性的相關性分析方法比因果性分析方法可能具有更強的裁斷力。
大數據技術的興起,使數據采集、存儲和處理極大地智能化、自動化。“全數據模式”將與問題相關的數據一網打盡,最大限度地擺脫客觀條件局限造成的以局部論全部,問題可以得到更系統、更全面、更整體的刻畫,從而得到更精確、更徹底的解決。這是數據化帶來的一種嚴格意義上的整體論,將使思維方式從還原性思維走向整體性思維。
歷史與邏輯、事實與價值的統一是人文社科研究的基本方法,大數據時代的研究尊重全體材料、重視量化分析和兼顧所有關系,這將有助于促進人文學科的研究由“解釋性”向“求是性”轉向。隨著人的思想、情感、心理的數據化,人文學科的研究對象也能夠實現數據化,可以通過數據挖掘、數據分析和數據建模來進行研究,這樣人文學科也就由以往被認作非科學的學科躋身于科學成員的大家庭中,進而發展出人文科學。
總之,大數據思維為人文社科研究的變革與創新帶來了千載難逢的歷史機遇,正如美國康奈爾大學教授杰弗里·漢考克(Jeffrey T. Hancock)所說:“這是社科研究的一個全新時代,就好比顯微鏡的誕生對化學科學發展所起到的促進作用。”
需要指出的是,古典文學研究中新技術手段的應用需要充分依靠計算機科學和統計學的專業技術,在尚缺乏此類技術力量的今天,必然會促進學術研究人力資源的整合,倒逼跨學科合作研究的開展。但文學性問題的提出和分析處理不可能完全交給機器,也就不可能完全交給技術專家。相反,從問題的設置到語料的選取再到分析結果的解讀、意義的闡釋、體系的建構等,都將由古代文學和文獻學相關領域高水平的專家學者完成。(作者:劉石,系清華大學人文學院教授;孫茂松,系清華大學計算機科學與技術系教授)
- 中醫藥已成為參與全球衛生治理和助力構建人類衛生健康共同體的重要力量
- 用好小柴胡,少去找大夫!掌握10個經典用法,或能成為半個醫生
- 看跨國藥械企業如何用創新方案踐行中國承諾 | 聚焦進博會
- 七國數據統計發現:男性和受教育程度高的未婚者抑郁風險更高
- 63歲女子吃降壓藥7年,卻腦出血離世!醫生:她犯了3個致命錯誤
- 三高、失眠“怕”這菜!抗炎癥、提高免疫力、強身體,常吃好處多
- 央視曝光:這種床墊含1級致癌物!用越久越危險,家里有的趕緊扔
- 復旦兒科攜手華東理工成立兒童健康社會工作聯合研究中心
- 安徽省胸科醫院巡回醫療隊:守望相助 共繪健康藍圖
- 乙肝疫苗技術轉讓35周年,默沙東再赴“進博之約” | 聚焦進博會