機器學習有很多關於核函式的說法,核函式的定義和作用是什麼?

時間 2021-05-12 00:43:55

1樓:Aray

Under some technical conditions of symmetry and positive-definiteness, implicitly define an inner product in a high-dimensional space.

2樓:SleepyBag

其實是乙個非常簡單的概念。

首先給你兩個向量 。在一般的機器學習方法,比如 SVM 裡面,這裡乙個向量是乙個實體。比如乙個向量代表乙個人。每個向量有兩個維度,身高和體重。比如可以有

現在要求兩個人的相似度,最簡單的方法是計算它們的內積 " eeimg="1"/>。這很簡單,只要按照維度相乘求和就可以了。

= 180 * 160 + 70 * 50 = 32300" eeimg="1"/>

但是有的時候(比如 SVM 的資料線性不可分的時候),我們可能會想對資料做一些操作。我們可能認為體重的二次方,身高的二次方,或者身高體重的乘積是更重要的特徵,我們把這個操作記為過程 ,比如可能有

我們認為 比 更能表示乙個人的特徵。我們再計算兩個人的相似度時,使用 與 的內積:

&= <(180^2,70^2,\sqrt 2*180*70),(160^2,50^2,\sqrt 2*160*50)>\\ &=180^2*160^2+70^2*50^2+\sqrt 2*180*70*\sqrt 2*160*50\\ &=1043290000 \end \end" eeimg="1"/>

在上面的操作中,我們總共要計算11 次乘法,2 次加法

但是如果我們定義核函式

)^2\\ \end \end" eeimg="1"/>

那麼有)^2\\ &=(x_1z_1+x_2z_2)^2\\ &=(180*160+70*50)^2\\ &=1043290000 \end \end" eeimg="1"/>

可以看到 " eeimg="1"/>。但是這次我們只計算了3 次乘法,1 次加法

所以其實核函式就是這麼一回事:

當我們需要先對資料做轉換,然後求內積的時候,這樣的一系列操作往往成本過高(有時候根本不可能,因為我們可能想要公升到無窮維)。因此我們可以直接定義乙個核函式 K 直接求出做轉換後求內積的結果,從而降低運算量。

3樓:

核函式等於對映至高維空間後的高維特徵的點積" eeimg="1"/>

如:已知 可得 = <(X_1,X_1^2),(X_2,X_2^2)> = X_1X_2+X_1^2 X_2^2" eeimg="1"/>

很多時候,我們只關心核函式,不需要顯式地表示對映函式。可以用核函式表示低維空間下特性向量的操作(例子中的 ),令其代替對映後高維特徵的點積( 與 的點積)。

4樓:NLP小學生

定義核函式設 是輸入空間(即 , 是 的子集或離散集合 ),又設 為特徵空間( 是希爾伯特空間[3]),如果存在乙個從 到 的對映

使得對所有 ,函式 滿足條件

則稱 為核函式。其中 為對映函式, 為內積。

即核函式輸入兩個向量,它返回的值跟兩個向量分別作 對映然後點積的結果相同。

核技巧是一種利用核函式直接計算 ,以避開分別計算 和 ,從而加速核方法計算的技巧。

核方法是一類把低維空間的非線性可分問題,轉化為高維空間的線性可分問題的方法。核方法不僅僅用於SVM,還可以用於其他資料為非線性可分的演算法。核方法的理論基礎是Cover's theorem,指的是對於非線性可分的訓練集,可以大概率通過將其非線性對映到乙個高維空間來轉化成線性可分的訓練集。

詳見 核方法、核技巧和核函式

5樓:

1. 定義:設 是輸入空間(歐氏空間或離散集合), 為特徵空間(希爾伯特空間),如果存在乙個從 到 的對映,使得對所有的 ,函式 則稱 為核函式, 為對映函式, 為x,y對映到特徵空間上的內積

2. 核函式 = 內積 = 對映 = 相似度

3. 空間

歐式空間:常見的1,2…n維且滿足可度量條件的空間(可檢視歐式五大公理)

賦範空間:距離+線性結構+範數

希爾伯特空間:賦範空間+內積運算+完備性

4. 距離的定義:設任意非空集合X,對X中任意兩點x,y,滿足乙個實數

非負性、同一性: ,且 當且僅當 ;

對稱性: ;

直遞性: (類勾股定理)

線性結構:指的是加減乘除,交換律,結合律等。

範數:空間到空間零點的距離。

內積運算:引入空間中的概念。

完備性:空間內包含任意極限(封閉,即永遠逃不出的空間體系)。

5.核函式

(1)找到對映函式(對映到高維空間去);

(2)高維空間裡面通過內積(其實內積僅僅是其中一種在高維空間裡面度量其資料相似度一種手段,這裡的相似度可能定義不準確,可以這麼說,算是常規空間中度量的一種標準);

(3)優化問題求解;

(4)最優解還原到原始空間。

6. 高斯核函式可以把低維空間轉化為無限維空間,同時又在實現了在低維計算高維點積

(1)把有限空間對映到無限空間;

(2)從無限返回有限;

7. 投影:實現無限維空間返回到有限維。

對於有限維向量,定義投影的最常用方法是使用點積:這時我們通過將兩個向量的相應座標相乘,然後將它們全部加在一起。我們通過兩個函式相乘來對函式執行類似的操作,實現資料集點的對應特徵值相乘。

由於我們不能將所有這些無數個數字加在一起,所以,我們採用積分。如果我們將兩個高斯函式相乘並積分,則該數字等於中心點之間距離的高斯函式。換句話說,高斯核將無限維空間中的點積轉換為資料空間中點之間距離的高斯函式。

因此如果資料空間中的兩個點在附近,則在核空間表示它們的向量之間的角度會很小。如果點相距很遠,則相應的向量將接近"垂直"。

8.泰勒級數:實現維度的無限延展和有限維度的計算。

6樓:Todd

核函式幾何上就是不同的空間距離衡量方式,線性核使用的向量夾角,高斯核使用的向量差平方和然後加上指數衰減,這就很明顯解釋為啥線性核不能劃分非線性問題

7樓:jackxy

從低緯度到高維度的對映很好理解,有非常多種辦法,我想題主困惑的是為什麼是核函式?為什麼是 這種形式的對映,而不是 這種直接對映。

原因是SVM 使用支援向量來代替引數W : " eeimg="1"/>其中是支援向量。所以,

這種替換的意義在於不再關注向量的維度,也不關注它在高維中的具體是什麼,而只需要關注兩個向量的關係。那麼,理論上,只要我們找到 ) = " eeimg="1"/>這種形式的函式,那麼:

= \sum a_i y_if()" eeimg="1"/>

從高維的內積運算變成了低維的內積運算。

那麼具體來說RBF的 f(x) 是什麼形式,具體對映的,是多少維的,我們不需要care,只需要知道它等效於乙個低緯度到高緯度的對映。

8樓:爸爸的大肚皮

簡單地說,核函式是乙個函式,將x對映至y。

為什麼要這麼做呢?回憶一下隨機變數的數學期望,隨機變數取值有某種分布規律,但隨機變數經過函式處理後的輸出是什麼樣的?N個滿足某種分布的隨機變數,經過函式處理後的輸出有什麼規律?

一種衡量或描述的方式是輸出的數學期望,將分布概率和輸出做乘積,再求和用以衡量總體。另外,有多少人把數學期望和平均值混為一談的?這說明變數經函式處理後的輸出可以展現出原資料的一部分性質。

但什麼函式可以展現什麼性質並不那麼清晰易見,我們不能否認核函式能進行高維對映,但也不能想當然的認為經過對映的資料一定具有可分性。

9樓:xlvector

kernel的本質是給出了任意兩個樣本之間關係的度量。如果不嚴謹的形象解釋,分類器有兩種,一種是找到乙個分類面函式,這個函式只要輸入乙個樣本的特徵就知道類別。還有一大類分類器(比如knn),他們的思想就是和我像的樣本類別一定大概率和我一樣,而kernel就是定義了什麼叫「像」。

所以帶kernel的svm也不是能解決任意非線性分類問題,是否能解決某一類問題,取決於它的kernel定義出的「像」是否能讓這個問題裡互相比較「像」的樣本具有同樣類別的概率大。

10樓:張可愛

在現實世界中我們可以一眼看出乙個人是高是矮。

可如何一眼看出乙個人是不是智障?

答案是看不出的,但若用svm的思想,這個問題很容易解決。

就是把這個人變成乙個參加過智商測試的人。再劃一道分數線,60分以下是智障。就能輕而易舉的看出乙個人是不是智障。

這中間的智商測試就是核函式。

參加過智商測試過的人組成的世界就叫做特徵空間。

60分的分數線就是分類的超平面。

11樓:

TLDR: 通過定義核函式 ,我們可以保證存在乙個對應的希爾伯特空間 以及 到 的對映 ,滿足 。

即通過定義核函式,我們間接地定義了乙個對映,且原空間上任意兩點的核函式等於目標空間上對應的兩個點的內積。

這個回答主要解釋兩個問題:

原空間上任意兩點的核函式等於目標空間上對應的兩個點的內積 和分類有什麼關係?以及

具體來說,這個對映/希爾伯特空間大致是什麼樣子的?

對於第乙個問題,回想二分類SVM的形式 -- ,其中 。

由於經過了對映 ,因此分類的邊界在空間 中可以是乙個曲面;然而在空間 中,分類面仍然是若干個點得線性組合,因此仍然是超平面。所以與其說「把原始資料投影到更高維的空間裡去」 就能 「從而增加資料可分的概率」;不如說通過核函式,更高維空間中的線性分類器變成了低維空間中的非線性分類器。

對於第二個問題,鑑於Reproducing kernel Hilbert space 上已經給出了說明,我就簡單地提一下結論--對應的希爾伯特空間是 上的線性泛函張成的空間,其中 中的點 被對映到了 ,因此 。

12樓:掉下個小石頭

書上解釋核函式是將低維線性不可分樣本對映到高維線性可分空間。

不一樣的擴充套件~採集到的特徵也可能是一些有影響的基本因素綜合作用後得到的值。

總結~方法而已,能達到目的就行。

13樓:

核函式的目的就是為了分類,你所在的維度是不可分,或者說是不可線性分的時候。是不是眼像個辦法進行分?核函式說我幫你,把資料對映到乙個高維空間。

在這個高維空間資料是可分的。然後就在高位空間對資料進行切分。

機器學習中的目標函式 損失函式 代價函式有什麼區別?

zys 嚴謹來說是有區別的 A loss function is a part of a cost function which is a type of an objective function.損失函式 loss function 通常針對單個樣本2.代價函式 cost function 針對...

孔子有很多關於君子標準的名言,如果想成為君子,必須全部做到嗎?

子正 當然不是。君子周而不比,週是目標,是進行時,而不是完成時。所以儒學先輩臨死時才會如同卸下重負,覺得可以得免,可以松一口氣。士有百行,得一善,皆可稱為君子。因為在這個事項上,你就是道義的化身。 徐曉軼 論語是夫子言傳身教 身體力行的展示了君子在各種情況下當何為 不當何為。但是,如鄉黨篇,時代不同...

大家好,我有很多關於大資料時代架構下的想法,請問如何尋找初創團隊與專業性人材?謝謝 ?

億翔昱誠眾創集團 你需要乙個願意同一家初創企業一起奮鬥和成長的人才。而這樣的人才才是最難找到的。並不是所有專業人員都願意離開現在穩定的工作,然後全職加入一家初創企業。因為加入一家初創企業意味著在剛開始的1 2年時間裡,他們需要成熟巨大的壓力,每天都要拼命的工作,而且收入偏低。我的建議是,你應該多參加...