檔案管理局巨量資料搜尋引擎建置專案經驗
根據統計企業內部文件呈現倍數成長,並且散落在資料庫、檔案庫及各類系統中,對於企業員工而言,平均找一份文件需要花10分鐘以上,若企業希望員工不要花費在無產能的搜尋時間上,勢必需要建置一套巨量搜尋引擎系統,提供企業一個整合異質資料的搜尋入口網站,可以立即呈現使用者所要的搜尋結果,進而有效地提升員工工作效率。
2006年底網擎資訊完成檔案管理局巨量資料搜尋引擎建置專案,這是目前全國最大巨量資料庫搜尋引擎的專案,總共處理的資料筆數超過四億一千萬筆資料,並且持續地快速增加,預估未來一兩年內將成長到六億筆的資料量。
對於巨量搜尋引擎的專案來說,不但需要搜尋快速,並且要求準確,因此軟硬體部分必須改變傳統的搜尋引擎作法。
軟體的部分:
為了達到讓使用者查詢兩億筆資料低於一秒,四億筆資料低於兩秒的目標,系統架構必須改為分散式搜尋架構,將四億筆資料平均分散在各台搜尋主機上。當使用者在 Web 介面進行關鍵字查詢,系統會先將關鍵字及相關參數由 Web Server 傳至後端 Front-End Query 主機,再由 Front-End Query 主機查詢各台索引主機,由各台索引主機將查詢結果回傳至 Front-End Query 主機,並由 Front-End Query 主機進行群組、排序及篩選,最後再將結果顯示在使用者網頁上。
依據這樣的架構,後端的索引主機可以依據資料量不斷擴充,並且有效地提升搜尋效能。
硬體的部分:
捨棄使用傳統 2U 主機,而採用刀鋒主機與 SAN Storage 架構,各刀鋒主機與 SAN Storage 之間利用光纖傳輸,大幅提昇建置索引及查詢效能,平均每台主機可以處理八千萬到一億筆的資料量。
成功的最後關鍵在於整個專案團隊的努力不懈,克服許多專案進行間的困難,才能夠讓這個專案順利驗收結案。對於網擎資訊來說,經由這個專案得到許多寶貴的軟硬體建置經驗,包含異地備援規劃建置、資訊安全規劃等,並且加速我們下一代搜尋引擎產品的開發。對於客戶來說,網擎資訊豐富的企業巨量搜尋專案建置經驗,是企業搜尋引擎的最好選擇。 |