本文轉自【美通社】;
北京2020年7月14日 /美通社/ -- 數據之於人工智能就如同燃油之於汽車。人工智能模型開發需要輸入海量訓練數據,單個樣本數據集大小即可達到上百GB,如果採用人工拷貝、搬運數據,不僅費時費力,而且存在數據衝突和數據安全風險,在這種情況下,數據對於AI模型訓練來説不是“加油”,而是成為模型開發的瓶頸,影響企業AI應用效率。浪潮AIStation企業級人工智能開發平台,可以一站式進行AI模型開發和部署,在數據管理方面可實現集中管理,兼顧讀取速度與安全性,打破數據孤島和IO瓶頸,幫助用户獲得200%-300%的開發效率提升。
可視化&多種數據訪問方式 兼顧便捷與數據安全
AI開發涉及的數據包括樣本數據集、模型文件等,種類非常多,格式和特性各異。此外,AI開發需要企業內各業務組的協同工作,必須有完善的數據管理機制保障數據的流通和共享,否則就會存在數據冗餘、版本衝突、權限控制等方面的問題。
AIStation平台內置數據管理模塊,可無縫對接各類存儲系統,提供可視化界面對數據進行集中管理。開發人員可在數據管理界面快速上傳數據,並通過目錄掛載的方式實時調取數據,進行數據預處理、模型開發、模型調試等工作。訓練結束後,用户可按需保存、上傳、共享模型文件。
AIStation提供了個人數據、組內數據和公共數據三種數據訪問控制方式,滿足了企業內部用户數據隔離與共享的需求。併為每個用户和部門創建了不同的命名空間,以及相應的權限控制功能,讓開發人員能夠根據業務需求靈活共享數據,並保障數據安全。
數據緩存加速,訓練效率提升200%-300%
數據輸入輸出是影響模型訓練週期的重要因素。即使GPU性能再強,也需要高性能的輸入/輸出系統不斷的將數據傳送給GPU進行運算。輸入的樣本數據通常是小文件,並且在迭代過程中會隨機讀取樣本進行訓練,產生較高的隨機讀負載。而AI企業一般使用共享存儲或者分佈式存儲管理數據,計算節點通過網絡掛載的方式訪問存儲數據,這樣即便使用萬兆網絡或者Infiniband網絡,也有可能存在數據帶寬不能滿足GPU計算輸入的問題。
AIStation綜合考慮AI計算對數據I/O的需求以及企業內部的實際場景,通過數據緩存機制滿足高性能計算需求,可讓模型訓練效率獲得200%-300%的提升,縮短模型開發週期。
AIStation可在各計算節點劃分數據緩存區域,用來臨時存放用户訓練所需的樣本數據,通過本地SSD盤的高速I/O降低數據讀寫延遲。此外,AIStation會根據節點的數據緩存情況自動調度訓練任務,從而避免訓練數據的重複下載,節省數據加載時間,加速模型訓練進度。並且支持數據自動下載和數據緩存管理。
安全沙箱技術,為數據隱私護航
數據安全對企業AI開發至關重要,一套優秀的數據管理解決方案必須能夠保證數據安全,確保數據不會發生增加、修改、丟失和泄露等。
AIStation採用安全沙箱技術,將企業數據存儲區域與個人數據區分開,保證數據隱私安全。管理員可以設置數據下載權限,限制指定用户或用户組的下載功能,使涉密數據只能在平台內部使用,保障企業數據的安全性。
此外,AIStation可實現數據自動多副本備份,降低宕機等原因導致的系統中斷對AI開發的影響。
浪潮AIStation平台針對AI開發中的數據管理問題輸出整體解決方案,可以幫助企業用户建立穩定高性能的數據管理機制,消除數據安全、數據衝突、帶寬延時等問題,讓模型訓練效率獲得200%-300%的提升,顯著提升企業AI研發效率。
除了數據,AIStation還能高效管理計算資源、開發環境,幫助AI用户提高計算資源利用率,秒級構建開發環境,加速AI研發創新進程。