導語:英偉達本月推出的RAPIDS開源GPU加速平臺為數據科學家提供標準化的流水線式工具,數據處理速度較僅用CPU提升50倍。
智東西10月23日消息,今天,英偉達在北京召開RAPIDS平臺的媒體溝通會,英偉達亞太區解決方案架構主管趙立威詳解了RAPIDS開源GPU加速平臺。
該平臺發布于2018年10月10日的GTC Europe大會上,是一款針對數據科學和機器學習的GPU加速平臺,為數據科學家提供標準化的流水線式工具,數據處理速度較僅用CPU提升50倍。
目前該平臺已經與SAP、IBM、Oracle等公司建立合作關系。
一、針對數據科學和機器學習
這款RAPIDS開源GPU加速平臺有三個特征:
1.它是一個開源平臺;
2.它是一個軟件平臺;
3.這個產品,或者叫技術,面向數據科學以及機器學習的市場。
英偉達創始人黃仁勛在GTC Europe大會上著重強調了數據科學這一市場。據分析師估計,面向數據科學和機器學習的服務器市場每年價值約為200億美元,加上科學分析和深度學習市場,高性能計算市場總價值大約為360億美元,且該市場還在持續快速發展。
“數據分析和機器學習是高性能計算市場中最大的細分市場,不過目前尚未實現加速,”黃仁勛在GTC Europe上發布RAPIDS時說。
黃仁勛還在GTC Europe上提及“數據驅動”的概念。互聯網、零售等行業都是典型的數據驅動型行業,比如沃爾瑪生鮮產品的物流和倉儲需要基于大量數據去測算。
RAPIDS開源GPU加速平臺能對這一過程進行加速,通過數據準備、數據合并、數據降維三個步驟加速處理數據。
二、RAPIDS比僅有CPU的系統快50倍
RAPIDS開源GPU加速平臺構建于Apache Arrow、pandas和scikit-learn等流行的開源項目之上,為最流行的Python數據科學工具鏈帶來了GPU提速。
傳統的數據科學運算都是基于大數據框架Hadoop SPARK來做的,跑在分布式的CPU上。隨著摩爾定律的終結,CPU的算力提升會越來越慢。市場上也有幾家GPU Data base加速非常快,但他們沒有把數據的準備、操作、ETL的過程和Machine Learning等做成標準化的Pipeline(流水線)。英偉達的RAPIDS平臺實際上把數據操作、Machine Learning的一些庫整合成了一個Pipeline,所以整個流程會加快。
趙立威玩笑道,過去當數據科學家是一件非常悠閑幸福的事,有大量的時間喝咖啡,因為數據處理的過程中涉及到大量等待時間。用了RAPIDS之后,等待(圖中綠)時間變短,需要數據科學家創造性參與的部分(紅色)相應變多了。
訓練結果表明,與僅有CPU的系統相比,RAPIDS速度快50倍,這可將數據科學家的數據處理時間從數天減為數小時或從數小時減為數秒。
三、與開源社區、以及各行業開展緊密合作
為了將更多的機器學習庫和功能引入RAPIDS,英偉達廣泛地與開源生態系統貢獻者展開合作,其中包括Anaconda、BlazingDB、Databricks、Quansight、scikit-learn、Ursa Labs負責人兼Apache Arrow締造者Wes McKinney以及迅速增長的Python數據科學庫pandas等。
為了推動RAPIDS的廣泛應用,英偉達正努力將RAPIDS與分析及數據科學方面領先的開源框架Apache Spark進行整合。
沃爾瑪、惠普等企業已經率先應用了RAPIDS開源GPU加速平臺,IBM等企業也表示期望利用RAPIDS來為客戶提供全新的機器學習工具。
關鍵詞: