代數拓撲在資料科學中有何應用?

時間 2021-11-01 23:34:57

1樓:Tikvatenu

首先,我們很難對一些漂亮的理論(e.g., Lurie's Higher Topos Theory, Topological K-Theory)在資料科學裡的應用有太樂觀的信念。

我們知道資料科學的通常場景是從高維分布裡取樣的資料點集,而我們不見得具備關於這個分布的先驗知識。這也是為什麼流形學習看起來是個很難成功的領域——它所賴以降維的微分結構可能是太強的預設。

相比之下,TDA的適用條件要弱得多。給資料空間乙個度量,TDA基於取樣點的拓撲特徵——使用持續同調這個不變數,還原出原始分布的拓撲結構。

對於不熟悉持續同調的同學,一種直觀(當然,不嚴格)的理解方式是看圖[1]:

引於一五年刊於JMLR的Persistence Landscape

這張圖里有乙個資料點集,以它們為球心不斷增大半徑,圖形的拓撲結構——洞和連通性,會有乙個生滅過程(不是隨機過程裡那個生滅過程),這是說,比如,稀疏的分布,它的holes就會消失得慢點。

根據這樣的資訊,我們就能繪製出資料集的Persistence landscape。我直接把原文的圖二貼過來:

我們也會用其他方法對不變數進行視覺化,比如在

離散Morse理論(DMT)

裡所引用的Betti數Barcode:

這樣,我們可以看到資料集的拓撲性質。

關於sota的應用,在這裡分享乙個激動人心、尚不成熟的例子,是TDA的深度學習理論,被稱為神經同調(NHT)理論。

NHT最早應該發端於Monica Bianchini對深度分類器的有趣觀察,即:

當輸入維度 為常數時,深度神經網路所能表示的Betti數與隱藏單元數 成線性關係。

這個觀察在ICLR 2018被拒的《On Characterizing the Capacity of Neural Networks Using Algebraic Geometry》

On Characterizing the Capacity of Neural Networks Using Algebraic...

中被擴充為神經同調原理。這篇文章攻擊了Neural Architecture Search中基於泛化誤差的傳統觀點,提出通過定義同調複雜度來評估神經結構的泛化能力或者說capability,所謂的同調複雜度是這樣表述的:On Characterizing the Capacity of Neural Networks Using Algebraic...

中被擴充為神經同調原理。這篇文章攻擊了Neural Architecture Search中基於泛化誤差的傳統觀點,提出通過定義同調複雜度來評估神經結構的泛化能力或者說capability,所謂的同調複雜度是這樣表述的:

我們用 表示樣本空間,其中為負樣本點集, 為正樣本點集,用 表示所需要的二元分類器的函式空間,用 表示乙個函式 正支集上的同調不變數, 則是正樣本集的同調不變數,那麼同調原理是說:

如果存在乙個 使得 ,存在乙個正樣本子集 讓所有的 都在 中出錯。

這是說,如果乙個函式族(或者說一種神經架構)不具備和資料相匹配的拓撲結構,不管採用何種優化方案,一定存在它無法分類正確的點。至於這篇Capacity為什麼被拒,可以看OpenRiview鏈結上的交鋒過程,在這裡不給出主觀判斷。

相較之下,ICLR2019上有一篇命運更好的文章《Neural persistence: A complexity measure for deep neural networks using algebraic topology》

Neural persistence: A complexity measure for deep neural networks using algebraic topology

它的思路同樣是來估算神經結構的複雜性,通過定義neural persistence,或者說barcode的 範數

來刻畫神經網路的複雜性。

繼這兩篇文章後有更多利用TDA的深度學習理論工作,如[2]

[3][4]

[5],在此權且不表.....希望通過這個回答拋磚引玉。

代數拓撲好的中文教材?

大筒目輝夜 我比較推薦尤承業老師的 基礎拓撲學講義 作為入門,想深入學習的話姜伯駒院士的 同調論 是很好的銜接。至於同倫論太難了,我就完全不懂了。 王箏 如果n 2那麼用基本群就能夠解決,但是n 2的時候就要用比如同調群或者其他工具了。然而遺憾的是Munkres的這本書裡面只講了基本群。當然,最好的...

學習代數拓撲需要什麼前置知識?

NIHAO 不用太多前置。需要提前適應比較 soft 的思維方式,先嘗試去想象一些homotopyequivalences.代數拓撲的很多概念和例子是需要想象的,否則你根本不知道怎麼去計算 參考 Allen Hatcher 的習題 比如我們從最簡單的乙個例子 體會 一下,為啥 identify 乙個...

拓撲量子場論在數學上有什麼應用?

拓撲量子場論既是數學結構的應用,也在數學上有所應用。拓撲量子場論最早應該是在拓撲量子反常,指標定理,量子場論的大範圍性質,量子群和量子可積系統等研究中慢慢產生的想法,最早被阿提亞大力鼓吹,鼓動了威騰等人的一些理論物理研究。威騰的關於超對稱量子力學的工作是乙個里程碑式的工作,引起了很多人的注意,也是他...