因子挖掘是量化交易的基礎。隨著歷史交易數據日益增多,交易市場量化競賽的不斷升級和進化,量化投研團隊開始面對數據頻率高、因子數量多的場景,以10分鐘線10000個因子5000個股票為例,一年的因子數據約為2.3T左右,1分鐘線的數據量達到23T,3秒線的數據量將達到460T。如此量級的數據就對因子存儲方案提出了很高的要求。
那么,我們要如何解決中高頻多因子數據的存儲問題呢?目前行業有哪些核心挑戰?
因子庫存儲有哪些挑戰?
龐大的數據量
因子計算通常有3個維度,股票、因子和時間。我們做一個簡單的計算,國內股票總個數按5000來算;因子個數一般機構大約為1000起,多的甚至有10000;時間頻率高的是每3秒生成一次數據,頻率低的也有10分鐘一次——也就是說,一只股票一個因子一天會生成24到4800個tick。面對如此龐大的數據量,如何保證高效的數據寫入是因子庫存儲的一大挑戰。
動態變化的因子庫
因子庫經常會發生變化,往往需要新增因子、修改因子定義,或加入新的股票等。面對T級的因子數據,單個因子的新增、修改、刪除耗時應該保證在秒級才能確保整體量化投研的效率。
最適合金融計算的輸出方式
量化金融的多因子建模通常需要以面板數據進行截面因子分析。用戶需要從海量的因子數據中盡可能高速并精準的讀取數據,對齊多個因子后以面板的方式輸出。這對數據庫的性能提出了極大的挑戰。
直播預告
2022年12月1日晚7點半,DolphinDB 創始人周小華博士,和 DolphinDB 數據分析負責人毛忻玥,將與大家共聚直播間,圍繞「高頻多因子存儲的最佳實踐」與大家展開探討。點擊海報并長按,掃描二維碼報名吧!
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。
關鍵詞: