首頁 > 期貨頻道 > 正文

吳廣奇:主成分分析法在黃金期貨量化策略中的應用

2020年03月30日 02:00
作者:吳廣奇
來源: 期貨日報

東方財富APP

  • 方便,快捷
  • 手機查看財經快訊
  • 專業,豐富
  • 一手掌握市場脈搏

手機上閱讀文章

  • 提示:
  • 微信掃一掃
  • 分享到您的
  • 朋友圈

原標題:主成分分析法在黃金期貨量化策略中的應用

摘要
【吳廣奇:主成分分析法在黃金期貨量化策略中的應用】我們在研究某些問題時,需要處理帶有很多變量的數據。變量和數據雖然很多,但可能存在噪音和冗余。然而,主成分分析法可以用少數變量來代表所有的變量,用來解釋研究者所要研究的問題,化繁為簡,抓住關鍵,也就是降維思想。(期貨日報)

  我們在研究某些問題時,需要處理帶有很多變量的數據。變量和數據雖然很多,但可能存在噪音和冗余。然而,主成分分析法可以用少數變量來代表所有的變量,用來解釋研究者所要研究的問題,化繁為簡,抓住關鍵,也就是降維思想。本文以黃金期貨為例,通過對其基本面數據進行分析,提取了對黃金影響較大的10個基本面變量,使用主成分分析法對數據進行降維處理,并使用降維后的新變量構建黃金期貨的量化擇時策略。

  主成分分析法的核心思想

  我們在研究某些問題時,需要處理帶有很多變量的數據。比如,研究房價的影響因素,需要考慮的變量有物價水平、土地價格、利率、就業率等。變量和數據很多,但可能存在噪音和冗余,因為這些變量中有些是相關的,那么就可以從相關的變量中選擇一個,或者將幾個變量綜合為一個變量,作為代表。用少數變量來代表所有的變量,用來解釋所要研究的問題,就能化繁為簡,抓住關鍵,這也就是降維的思想。

  主成分分析法(Principal Component Analysis,PCA)就是一種運用線性代數的知識來進行數據降維的方法。它將多個變量轉換出少數幾個不相關的變量來,但轉換后的變量能比較全面地反映整個數據集。這是因為數據集中的原始變量之間存在一定的相關關系,可用較少的綜合變量來表達各原始變量之間的信息。

  具體來看,在數學變換中保持變量的總方差不變,使第一變量具有最大的方差,稱為第一主成分,第二變量的方差次大且和第一變量不相關,稱為第二主成分。依次類推,i個變量就有i個主成分。其中,Li為p維正交化向量(Li×Li=1),Zi之間互不相關且按方差由大到小排列,則稱Zi為X的第i個主成分。設X的協方差矩陣為Σ,則Σ必為半正定對稱矩陣,求特征值λi(按從大到小排序)及其特征向量。可以證明,λi所對應的正交化特征向量,即為第i個主成分Zi所對應的系數向量Li,而Zi的方差貢獻率定義為λi/Σλj,通常要求提取的主成分的數量K滿足Σλk/Σλj>0.85。

  圖為相關變量線性轉換

  主成分分析法的核心思想是降維,而降維的基礎是變量之間的相關性。主成分分析法不要求所有變量都相關,但部分變量之間的相關性比較大才能滿足降維的條件,否則強制對不相關的變量進行降維,主成分分析法就失去了實際意義。因此,對于價格內在影響因素相關度較強的期貨品種,用主成分分析法進行分析研究是比較合適的,而對于影響因素相關度較弱的期貨品種不適合。

  那么主成分分析法是如何降維的呢?我們從坐標變換的角度來獲得一個感性的認識。

  圖為主成分分析法降維正態分布

  在短軸上,觀測點數據的變化比較小,如果把這些點垂直地投影到短軸上,那么有很多點的投影會重合,這相當于很多數據點的信息沒有被充分利用到。而在長軸上,觀測點的數據變化比較大。因此,如果坐標軸和橢圓的長短軸平行,那么代表長軸的變量直接可以從數據集的原始變量中找到,它描述了數據的主要變化。而另一個原始變量就代表短軸的變量,描述的是數據的次要變化。

  在極端情況下,短軸退化成一個點,那么就只能用長軸的變量來解釋數據點的所有變化,就可以把二維數據降至一維。不過,坐標軸通常并不和橢圓的長短軸平行,就像上圖所展示的那樣。因此,需要構建新的坐標系,使得新坐標系的坐標軸與橢圓的長短軸重合或平行。這需要用到坐標變換,把觀測點在原坐標軸的坐標轉換到新坐標系下,同時也把原始變量轉換為長軸的變量和短軸的變量,這種轉換是通過對原始變量進行線性組合的方式而完成的。

  舉例來說,一個觀測點在原X—Y坐標系中的坐標為(4,5),坐標基為(1,0)和(0,1),如果長軸為斜率是1的線,短軸為斜率是-1的線,新坐標系以長軸和短軸作為坐標軸,那么新坐標基可以取為

  和

  。我們把兩個坐標基按行放置,作為變換矩陣,乘以原坐標,即對原坐標進行線性組合,可以得到該點在新坐標系下的坐標

  。可以看到,變換后長軸變量的值遠大于短軸變量的值。

  如果長軸變量解釋了數據集中的大部分變化,那么就可以用長軸變量來代表原來的兩個變量,從而把二維數據降至一維。橢圓的長軸和短軸的長度相差越大,這種做法的效果也就越好。本文以黃金期貨為例,使用主成分分析法,對影響黃金期貨價格的基本面變量數據進行降維,構建其量化交易策略。

  影響黃金價格的主要因素

  黃金作為一種特殊的大宗商品,具有商品、貨幣和投資避險的多重屬性。本文從黃金的供需、經濟數據、金融資產三個維度中,選一些基本面因子對黃金價格的影響進行分析。

  首先來看黃金的供需。作為一個大宗商品,黃金的上游供給量受到金礦開采以及廢金回收的影響,而主要的下游需求可分為制造業需求(珠寶首飾、工業材料等)和金融投資需求。此外,像央行這樣的大型市場參與者的售金、買金行為也會影響市場供需格局。

  其次來看經濟數據。黃金作為金融投資品,受到所處時期經濟周期的影響,比如,經濟滯漲時期,黃金的表現通常較好,投資者也更愿意將資金配置在黃金上。經濟數據除了描繪當前的經濟圖景外,也會影響各國央行的貨幣政策。而以美聯儲為代表的大國央行的貨幣政策,也對同時期黃金價格走勢產生比較大的影響。

  最后來看金融資產。一方面,一些金融資產的變化可以直接影響黃金價格和投資者偏好。比如,在利率較低的時期,黃金的持有成本相對較低,配置價值也相對較高。外匯的波動會直接影響以該貨幣計價的黃金價格等。另一方面,一些金融資產和黃金受到相同影響因素的影響,價格波動有著較高的相關度,并且能夠更好更快地反映當時市場的經濟和金融氛圍。

  根據以上分析,筆者選取了10個與黃金相關度較高的基本面指標進行分析回測,分別是美國10年期國債收益率、美國10年期國債實際收益率、美元指數、VIX恐慌指數、美國失業率、美國新增非農就業人數、美國CPI、美國PPI、美國ISM制造業PMI、各國央行和其他機構黃金需求。

  數據處理

  數據預處理

  商品期貨的基本面數據具有種類多、時間離散、公布時間不規律等特點,需要對其進行預處理,預處理的主要目的是將其轉化為可以對比分析的數據。對其進行數據公布頻率的分類,并將其在時間上進行對齊處理。在數據處理時,要注意美國數據的公布時間和國內數據公布時間的時區差異,以及月度和季度數據公布的滯后性。

  Z—Score模型

  由于基本面數據量綱不統一,需要將其處理成無量綱且可對比的數據。在基本面分析中,一般采用Z-Score的方法對基本面數據進行處理。Z-score模型是以多變量的統計方法為基礎,以破產企業為樣本,通過大量的實驗,對企業的運行狀況、破產與否進行分析、判別的系統。具體處理方法為,將原始數據減去一段時間的均值再除以這段時間數據的標準差。Z-Score數據能夠真實地反映一個分數距離平均數的相對標準距離,能確實反映原始數據的波動率信息。

  舉例來說,假設我們要比較A與B的考試成績,A的考卷滿分是100分(及格60分),B的考卷滿分是700分(及格420分)。很顯然,A考出的70分與B考出的70分代表著完全不同的意義,但從數值來講,A與B在數據表中都是用數字70代表各自的成績。那么如何能夠用一個同等的標準來比較A與B的成績呢?Z-Score就可以解決這一問題。

  量化回測

  變量選取

  首先要確定降維后的變量個數,其次通過對其波動變量方差占比進行分析,最后選出對變量集合波動貢獻較大的變量。

  圖為變量波動方差貢獻分布

  從波動的貢獻來看,波動率貢獻最大的前四個變量對數據整體波動率貢獻分別為25.24%、16.74%、12.85%和11.76%,均大于10%。考慮到后面兩個影響較少和盡量精簡模型輸入,選取最為重要的兩個變量。確定好最終的變量個數后,用主成分分析法對數據進行降維處理,降維后得到兩個新的數據序列。

  變量分析

  為方便識別,降維后的變量序列稱為principalcomponent1和principalcomponent2。對原始基本面數據變量進行編碼:fx為美國10年期國債收益率;realfx為美國10年期國債實際收益率;dollarindex為美元指數;vixindex為VIX恐慌指數;lossjob為美國失業率;offfarm為美國新增非農就業人數;uscpi為美國CPI環比;usppi為美國PPI環比;uspmi為美國ISM制造業PMI;balancedata為各國央行和其他機構黃金需求量。

  圖為原始變量和降維后變量關系(絕對值)

  從上圖可以看出,和降維后數據關系較為密切的變量為美國10年期國債收益率、美國10年期國債實際收益率、美國CPI環比和PPI環比等數據,這說明在這10個基本面的變量中,單個變量對其他的變量影響較大的為以上四個變量。在實際分析中,美國10年期國債收益率、美國10年期國債實際收益具有較高的相關性,CPI和PPI長期走勢趨于統一。因此,對基本面影響較大的兩個變量可以概括為美國10年期國債收益率和CPI。部分數據,如各國央行和其他機構黃金需求量公布頻率較低,經過數據處理后,整體波動不大,弱化了它對其他變量的影響。美元指數和VIX指數盡管公布頻率較高,但整體對基本面數據影響較小。

  數據回測

  對降維后的兩個變量進行處理,構建與黃金價格的關系,其較為直接的想法是對兩個變量進行賦權,構建成一個包含兩個變量的線形變量。

  綜合變量被設計成一個與黃金期貨價格正相關的變量。從原始變量和降維后變量關系圖中可以看出,principalcomponent1與美國10年期國債收益率相關度較高,由此可以判斷它與黃金價格為負相關關系;principalcomponent2與美國CPI、PPI相關度較高,由此可以判斷它與黃金價格為正相關關系。不過,在構建變量時,不能簡單地做權重分布,還要考慮方向問題。

  圖為降維后的變量走勢

  由于前期做了數據的Z-Score處理,數據本身具有均值回復的特征,類似布林帶指標,設定一個閾值,當綜合指標低于閾值的反數時,做多黃金期貨;在綜合指標高于閾值時,做空黃金期貨。為充分反映趨勢,當做多時,綜合指標高于閾值時平倉;當做空時,綜合指標低于閾值的反數時平倉,平倉和開倉不同時進行,不做止損和止盈。

  數據回測中,采用黃金期貨指數,資金不加杠桿,策略的開平倉費率設為0.02%,數據結果僅供投資者參考。用年化波動率對收益凈值進行倉位控制,控制目標為年化波動率為10%,其收益走勢如下:

  圖為收益凈值和倉位控制后凈值

  該量化策略近10年時間共交易58次,做多38次,做空20次,持有時間波動較大,最近一次交易為2019年6月10日收盤做多,多單持有至今。策略不經倉位控制的年化收益為8.22%,最大回撤為23.20%;經倉位控制后年化收益為7.15%,最大回撤為10.36%。

  總結

  本文對黃金期貨的基本面數據進行分析,提取了對黃金影響較大的10個基本面變量,使用主成分分析法對數據進行降維處理,并使用降維后的新變量構建黃金期貨的量化擇時策略。

  通過數據回測,筆者發現,基本面數據對黃金的量化擇時(利用數量化的方法,通過對各種宏觀、微觀指標的量化分析,試圖找到影響大盤走勢的關鍵信息)起到一定效果,在不加杠桿的情況下,總體年化收益在7%以上。在數據降維后,研究發現,黃金基本面數據較為核心的影響因素為美國10年期國債收益率和CPI,美元指數和VIX指數對基本面數據的整體影響則較弱。

(文章來源:期貨日報)

(責任編輯:DF524)

鄭重聲明:東方財富網發布此信息的目的在于傳播更多信息,與本站立場無關。
2591人參與討論 我來說兩句… 舉報
您可能感興趣
  • 必讀
  • 股票
  • 全球
  • 港股
  • 美股
  • 期貨
  • 外匯
  • 生活
    點擊查看更多
    沒有更多推薦
    • 名稱
    • 代碼
    • 最新價
    • 漲跌幅
    請下載東方財富產品,查看實時行情和更多數據
    鄭重聲明:東方財富網發布此信息的目的在于傳播更多信息,與本站立場無關。東方財富網不保證該信息(包含但不限于文字、視頻、音頻、數據及圖表)全部或者部分內容的準確性、真實性、完整性、有效性、及時性、原創性等。相關信息并未經過本網站證實,不對您構成任何投資建議,據此操作,風險自擔。

    掃一掃下載APP

    掃一掃下載APP
    信息網絡傳播視聽節目許可證:0908328號 經營證券期貨業務許可證編號:913101046312860336 違法和不良信息舉報:021-34289898 舉報郵箱:[email protected]
    滬ICP證:滬B2-20070217 網站備案號:滬ICP備05006054號-11 滬公網安備 31010402000120號 版權所有:東方財富網 意見與建議:021-54509966/952500
    魔域手游牛牛客户端 福建36选7玩法 pc蛋蛋赔率怎么看 股票投资怎么玩 内蒙古快三今日开奖结果 2019香港开奖记录结果 小说 摆渡配资网 河北福彩排七开奖结果 新疆十一选五 时时乐开奖结果走势图直选走势图 湖北快3手机软件 叶檀论股市分析 江苏11选五最大遗漏号码 财经报道股市行情 黑龙江快乐十分计划单 股票融资到期怎么办 排列三预测