李彥瑾


現在於中研院的數位文化中心擔任實習生,主要負責後端程式設計的工作。


Posted By 李彥瑾

使用到的平台與開發環境

使用到的平台與開發環境

Solr Figure 1. Aapche Solr Solr是一個企業級搜尋引擎,底層使用Apache Luence開發。Solr是一個NoSQL的技術,在資料儲存的時候,不需要馬上就設計出符合所有情形的框架。Solr有彈性的綱目設計(Flexible schema),因此每一筆資料不一定有相同的屬性,有需要的時候再添加欄位就可以了。 Solr有全文檢索功能,設定好資料欄位的型態(Field-Type)之後,Solr會自動建立索引,以後就可以下查詢語法快速取得必要的資料。Solr是一個NoSQL資料庫,用文件式的儲存方式,可以快速地找到每一筆資料。下圖是 Solr 的搜尋主要架構圖,一整個會由一個 Search Handler 來控制,Search Handler 當中的所有元素都可以覆寫,也可以直接覆寫一個 Search Handler 做自己想要的搜尋邏輯。其中最常被覆寫的是 last-components。last-components 是當所有的搜尋結束並得到結果之後,再對結果做其他處理,並且輸出會接續在查詢結果的後面。

Continue Reading
實習心得

實習心得

感謝系上為我們媒合實習公司,大學中有一年的實習機會真的很好,可以學習到很多學校所學不到的東西…

Continue Reading
斷詞系統學習筆記

斷詞系統學習筆記

學習使用斷詞系統 實習期間參與到的是與自然語言處理(NLP)有關的專案。因一開始的時候先學習使用三個的斷詞引擎,分別為CKIP、Jieba、Stanford。 CKIP CKIP是中研院資訊所開發的斷詞引擎,是第一個具備未知詞偵測與句法詞類預測能力的中文分詞系統。在繁體中文斷詞具有主導地位。 Figure 1. CKIP斷詞結果 CKIP pipline 是一個很豐富的自然語言工具,其功能有斷詞、詞性標註、實體辨識、指代消解、關係抽取、剖析系統(Parsing Tree)等功能。

Continue Reading