行業概述
近年來,隨著網絡技術的快速發展和網絡基礎設施的不斷完善,各種基于互聯網的應用層出不究。人們中不出戶就可以享受到豐富的娛樂、購物、交友。相對于傳統方式,這不僅給人們的生活帶來更大的便利,也帶來了前所未有的體驗。據中國互聯網信息中心權威統計,截至 2011 年 12 月底,中國網民數量達到 5.13 億。龐大的用戶群體產生了更旺盛的需求,和技術進步一起推動互聯網保持高速發展。
互聯網應用大量的數據是網頁、圖片、文字、文檔、音頻、視頻等非結構化數據。絕大部分互聯網應用的文件存儲部分都符合一次性寫入,多次讀取的數據訪問模式。互聯網特有的應用模式要求存儲系統具有高度共享、大容量、高并發性能、高可用、在線擴容和軟件升級以及簡易管理等特性。
常見的DAS、NAS、SAN存儲系統在互聯網行業中都有較多應用,但一般的NAS和SAN架構存儲系統無法勝任互聯網行業管理海量數據的要求。隨著存儲技術的發展和互聯網應用的促進,集群存儲系統具備良好的擴展性,可以管理海量數據并滿足高并發下的聚合處理能力的要求。如果針對某些應用進行適當的調節,可以滿足互聯網企業幾乎全部應用的要求。
方案架構
互聯網應用中的數據可心籠統地歸為結構化數據、非結構化數據和半結構化數據。結構化數據如用戶信息,交易信息和物品的描述信息等一般存放在MySQL數據庫,甚至是Oracle RAC數據庫集群中。非結構化的數據,如圖片、音視頻等均以文件形式直接存儲在集群文件系統中。某些可以歸為使用關鍵字進行操作的數據,即key-value類型的數據保存在半結構化存儲系統中。這些數據包括短小的文本內容,采用URL索引的網頁數據等。由于幾乎所有的應用都需要存儲非結構化的數據,而且某些應用文件數量和尺寸都很大,全系統對于文件存儲的要求很高。
上圖是大型互聯網企業的服務結構,它分為存儲,服務和緩存三層,每一層次都可以按需訪問下一層的數據。存儲層對外提供數據庫存儲、key-value存儲和文件系統三類存儲形式,上層的各種應用共享所有這些存儲子系統。其中所有的文件均可直接存儲在ParaStor并行存儲系統中。服務層運行在一組Web Server上,對外提供靜態和動態的數據訪問服務。一種應用可以運行在若干臺Web Server組成的負載均衡集群上。緩存層緩存靜態數據,如圖片、靜態頁面、音視頻文件等。
用戶的請求通過全局智能DNS負載平衡后,找到一個最近的緩存服務器并向它發出請求。如果數據是靜態的且已經被緩存,緩存服務器直接應答,否則將請求直接轉發給Web Server。Web Server將動態數據請求的應答直接發給客戶端,靜態數據則發給緩存服務器保存。
方案優勢
目前ParaStor可以管理到百億級的文件,生產系統中已經部署了十幾PB的系統。相對于過去的文件存儲,有如下優勢:
可以有效地整合多種規模相對較小的應用。ParaStor可以將虛擬化的文件存儲池靈活地劃分成多個邏輯卷,分配給不同應用使用。增加新的應用或者應用存儲需求擴大均可在同一存儲池中動態滿足,無須復雜規劃。
支撐單一高容量和高性能要求的應用。ParaStor針對互聯網應用中海量小文件管理和高聚合帶寬要求優化。根據需求配置專門型號的存儲系統,并進行針對性的設置,可以滿足高IOPS和高帶寬苛刻要求。
簡易管理。ParaStor通過應用聚集減少了企業中所需的存儲系統數目,并且對于存儲監控、維護、擴容等工作限制在存儲系統本身。ParaStor提供的圖形化、面向運維設計的管理工具大大簡化了管理員的工作流程。
應用服務器接入數據不再受限。ParaStor提供足夠多的以太網絡接口,允許成千上萬的應用服務器接入單套存儲系統。
擴容成本低。ParaStor存儲系統只需要將新的存儲控制器接入系統即可實現擴容。新增容量的成本和初始安裝是一致的,擴容操作簡單,節省維護成本。