近日,一個關于圖注意力網絡可視化的項目吸引了大批研究人員的興趣,上線僅僅一天,收獲 200+ 星。該項目是關于用 PyTorch 實現的圖注意力網絡(GAT),包括易于理解的可視化。
在正式介紹項目之前,先提一下圖神經網絡(GNN)。GNN 是一類基于深度學習的處理圖域信息的方法。由于其較好的性能和可解釋性,GNN 最近已成為一種廣泛應用的圖分析方法。現已廣泛應用于計算生物學、計算藥理學、推薦系統等。
GNN 把深度學習應用到圖結構 (Graph) 中,其中的圖卷積網絡 GCN 可以在 Graph 上進行卷積操作,但是 GCN 存在一些缺陷。因此,Bengio 團隊在三年前提出了圖注意力網絡(GAT,Graph Attention Network),旨在解決 GCN 存在的問題。
GAT 是空間(卷積)GNN 的代表。由于 CNNs 在計算機視覺領域取得了巨大的成功,研究人員決定將其推廣到圖形上,因此 GAT 應運而生。
現在,有人用 PyTorch 實現了 GAT 可視化。我們來看看該項目是如何實現的。
可視化
Cora 可視化
說到 GNN,就不得不介紹一下 Cora 數據集。Cora 數據集由許多機器學習論文組成,是近年來圖深度學習很喜歡使用的數據集。Cora 中的節點代表研究論文,鏈接是這些論文之間的引用。項目作者添加了一個用于可視化 Cora 和進行基本網絡分析的實用程序。Cora 如下圖所示:
節點大小對應于其等級(即進出邊的數量)。邊的粗細大致對應于邊的「popular」或「連接」程度。以下是顯示 Cora 上等級(進出邊的數量)分布的圖:
進和出的等級圖是一樣的,因為處理的是無向圖。在底部的圖(等級分布)上,我們可以看到一個有趣的峰值發生在 [2,4] 范圍內。這意味著多數節點有少量的邊,但是有 1 個節點有 169 條邊(綠色大節點)。
注意力可視化
有了一個訓練好的 GAT 模型以后,我們就可以將某些節點所學的注意力可視化。節點利用注意力來決定如何聚合周圍的節點,如下圖所示:
這是 Cora 節點中邊數最多的節點之一(引用)。顏色表示同一類的節點。
熵直方圖
另一種理解 GAT 沒有在 Cora 上學習注意力模式 (即它在學習常量注意力) 的方法是,將節點鄰域的注意力權重視為概率分布,計算熵,并在每個節點鄰域積累信息。
我們希望 GAT 的注意力分布有偏差。你可以看到橙色的直方圖是理想均勻分布的樣子,而淺藍色的是學習后的分布,它們是完全一樣的。
分析 Cora 嵌入空間 (t-SNE)
GAT 的輸出張量為 shape=(2708,7),其中 2708 是 Cora 中的節點數,7 是類數。用 t-SNE 把這些 7 維向量投影成 2D,得到:
使用方法
方法 1:Jupyter Notebook
只需從 Anaconda 控制臺運行 Jupyter Notebook,它將在你的默認瀏覽器中打開 session。打開 The Annotated GAT.ipynb 即可開始。
注意,如果你得到了 DLL load failed while importing win32api: The specified module could not be found,只需要 pip uninstall pywin32,或者 pip install pywin32、onda install pywin32。
方法 2:使用你選擇的 IDE
如果使用自己選擇的 IDE,只需要將 Python 環境和設置部分連接起來。