代數拓撲在資料科學中有何應用？

1樓：Tikvatenu

首先，我們很難對一些漂亮的理論（e.g., Lurie's Higher Topos Theory, Topological K-Theory）在資料科學裡的應用有太樂觀的信念。

我們知道資料科學的通常場景是從高維分布裡取樣的資料點集，而我們不見得具備關於這個分布的先驗知識。這也是為什麼流形學習看起來是個很難成功的領域——它所賴以降維的微分結構可能是太強的預設。

相比之下，TDA的適用條件要弱得多。給資料空間乙個度量，TDA基於取樣點的拓撲特徵——使用持續同調這個不變數，還原出原始分布的拓撲結構。

對於不熟悉持續同調的同學，一種直觀（當然，不嚴格）的理解方式是看圖[1]：

引於一五年刊於JMLR的Persistence Landscape

這張圖里有乙個資料點集，以它們為球心不斷增大半徑，圖形的拓撲結構——洞和連通性，會有乙個生滅過程（不是隨機過程裡那個生滅過程），這是說，比如，稀疏的分布，它的holes就會消失得慢點。

根據這樣的資訊，我們就能繪製出資料集的Persistence landscape。我直接把原文的圖二貼過來：

我們也會用其他方法對不變數進行視覺化，比如在

離散Morse理論（DMT）

裡所引用的Betti數Barcode：

這樣，我們可以看到資料集的拓撲性質。

關於sota的應用，在這裡分享乙個激動人心、尚不成熟的例子，是TDA的深度學習理論，被稱為神經同調（NHT）理論。

NHT最早應該發端於Monica Bianchini對深度分類器的有趣觀察，即：

當輸入維度為常數時，深度神經網路所能表示的Betti數與隱藏單元數成線性關係。

這個觀察在ICLR 2018被拒的《On Characterizing the Capacity of Neural Networks Using Algebraic Geometry》

On Characterizing the Capacity of Neural Networks Using Algebraic...

中被擴充為神經同調原理。這篇文章攻擊了Neural Architecture Search中基於泛化誤差的傳統觀點，提出通過定義同調複雜度來評估神經結構的泛化能力或者說capability，所謂的同調複雜度是這樣表述的：On Characterizing the Capacity of Neural Networks Using Algebraic...

中被擴充為神經同調原理。這篇文章攻擊了Neural Architecture Search中基於泛化誤差的傳統觀點，提出通過定義同調複雜度來評估神經結構的泛化能力或者說capability，所謂的同調複雜度是這樣表述的：

我們用表示樣本空間，其中為負樣本點集，為正樣本點集，用表示所需要的二元分類器的函式空間，用表示乙個函式正支集上的同調不變數，則是正樣本集的同調不變數，那麼同調原理是說：

如果存在乙個使得，存在乙個正樣本子集讓所有的都在中出錯。

這是說，如果乙個函式族（或者說一種神經架構）不具備和資料相匹配的拓撲結構，不管採用何種優化方案，一定存在它無法分類正確的點。至於這篇Capacity為什麼被拒，可以看OpenRiview鏈結上的交鋒過程，在這裡不給出主觀判斷。

相較之下，ICLR2019上有一篇命運更好的文章《Neural persistence: A complexity measure for deep neural networks using algebraic topology》

Neural persistence: A complexity measure for deep neural networks using algebraic topology

它的思路同樣是來估算神經結構的複雜性，通過定義neural persistence，或者說barcode的範數

來刻畫神經網路的複雜性。

繼這兩篇文章後有更多利用TDA的深度學習理論工作，如[2]

[3][4]

[5]，在此權且不表.....希望通過這個回答拋磚引玉。

代數拓撲在資料科學中有何應用？

代數拓撲好的中文教材？

學習代數拓撲需要什麼前置知識？

拓撲量子場論在數學上有什麼應用？

其他用戶還看了：