Large-scale Enterprise Search Solution 巨量資料搜尋之解決方案
隨著資訊科技的發達,與公司的發展,企業內的文件、郵件、資料庫內容都會成倍數成長。但是資料並不光是儲存下來就夠了,還必須能夠被精確快速的找到,當資料量大於一定水準的時候,當一般搜尋手法不再適用的時候,搜尋引擎就開始發揮它的功效,甚至一定程度上改變了大家的工作方式及生活習慣。但是搜尋引擎還是有它的極限,當資料量真的遠遠超過這個極限的時候,我們該如何因應?
一個搜尋引擎在一台機器上能夠負荷的處理資料量有一定限度,以目前 Openfind 的技術來說,在特定的環境下可以做到一台機器處理一億筆的資料,或是 1,000G ( 1T ) 的資料,而且可以在一秒內精確快速的產生搜尋結果。但是如果資料量超過這個大小呢?某些日本企業光 E-mail 的備份每個月就超過 1,000G ( 1T ),Openfind 目前也有客戶的資料庫資料筆數接近四億筆,這時候就需要 Large-scale Search 的解決方案。
以 Large-scale 來說,最有效的解決方法就是分散式架構,這也是目前所有搜尋引擎廠商的做法。Openfind 過去在服務各大入口網站與海內外大型企業客戶時,也都是採用分散式架構的技術。這個概念很單純,就是把所有資料分散給幾台機器,每台機器抓取、處理一部份的資料並提供查詢服務。當查詢時主機端將查詢字串分散給各台機器,蒐集各台機器的查詢結果,然後加以排序並做最後的加工,將最後結果送出。這樣的做法很直覺,但是難就難在:
- 如何讓每台機器處理量夠大。
- 如何把資料平均分散給每台機器。
- 如何快速的合併處理各個機器的回傳結果。
- 如何做好複雜的分散式架構管理 。
- 如何讓企業能夠快速簡易的安裝與管理這套系統。
Openfind 的優勢是,我們有 Large-scale 的核心技術,我們有鉅量資料的處理經驗,我們有分散式架構的處理能力,以及有著許多成功案例 。當未來資料量越來越大,當搜尋引擎已經變成企業內部不可或缺的工具,Openfind 相信一定能為客戶提供最完整的解決方案以及良好的服務品質。
|