參與開發的第一個功能
由於一本文本動輒上萬字,研究者研究一個主題通常又需要閱讀多個文本,花費很多時間和精力。因此,數位人文(Digital Humanity)應運而生。數位人文是運用資訊系統來協助人文研究,提升研究者的質研究質量。廣義的數位人文則可以將資訊系統應用在教學、出版等領域。
引導查詢功能是數位人文其中一項方法。首先,主管先讓我看台灣大學數位人文研究中心發表的一篇論文-「簡化的詞夾子方法」。內容提到如何使用簡化的詞夾子來幫助研究者擷取出他們認為有意義的詞彙。有趣的是,對於不同研究領域,研究者認為有意義的詞彙也不同。簡化的詞夾子方法捨棄機器學習,要求使用者在擷取過程中提供選擇。因此這個方法被歸屬於半自動的演算法。
詞夾子的擷取成效,取決於文字在文本中的擷取成效,也就是「同位語」的結構。例如某一文本可能很常出現「宰相…等人」這樣的句子結構,也就是詞夾,所以很容易就會在「宰相」和在「等人」之間擷取出人名。但是對於其他文本,「宰相…等人」就不會是有效的詞夾。
簡化的詞夾子方法,需要使用者提供兩個詞夾子,分別作為「左詞夾」和「右詞夾」,然後系統會找出左詞夾左邊m個詞、右詞夾右邊n個詞。詞夾子公式定義如下:
f0(τ,L,R,m,n) = { t: L * t * R ∈ τ, m ≤ |t| ≤ n}
實習中參與開發的引導查詢類似論文當中提到簡化的詞夾子方法。不太一樣的是多了詞性標註和斷詞處理,操作的流程也不同。下圖是數位人文平台介面。
點開引導查詢的標籤後,使用者輸入認為有意義的詞彙(又稱為詞夾或詞查詢詞),並且決定要往詞夾的前面或後面各找幾個詞。
系統會自動尋找查詢詞附近所出現的詞有哪些,和那些詞所出現的頻率。使用者可以勾選出現的結果繼續查詢,從中探索出兩兩相關的詞。