歡迎訪問(wèn)合肥育英學(xué)校!

合肥育英學(xué)校

您現(xiàn)在的位置是: 首頁(yè) > 課外活動(dòng) >激活函數(shù)初學(xué)者指南pdf(激活函數(shù)的使用)

激活函數(shù)初學(xué)者指南pdf(激活函數(shù)的使用)

發(fā)布時(shí)間:2024-08-12 00:21:57 課外活動(dòng) 560次 作者:合肥育英學(xué)校

激活函數(shù)將非線性引入網(wǎng)絡(luò),因此激活函數(shù)本身也稱為非線性。神經(jīng)網(wǎng)絡(luò)是通用函數(shù)逼近器,而深度神經(jīng)網(wǎng)絡(luò)是基于反向傳播進(jìn)行訓(xùn)練的,因此需要可微的激活函數(shù)。反向傳播在此函數(shù)上應(yīng)用梯度下降來(lái)更新網(wǎng)絡(luò)的權(quán)重。了解激活函數(shù)非常重要,因?yàn)樗谏疃壬窠?jīng)網(wǎng)絡(luò)的質(zhì)量中起著關(guān)鍵作用。本文將列出并描述不同的激活函數(shù)。

線性激活函數(shù)

激活函數(shù)初學(xué)者指南pdf(激活函數(shù)的使用)

恒等函數(shù)(Identity)或線性激活(Linearactivation)函數(shù)是最簡(jiǎn)單的激活函數(shù)。輸出與輸入成正比。線性激活函數(shù)的問(wèn)題在于它的導(dǎo)數(shù)是一個(gè)常數(shù),而梯度也是一個(gè)常數(shù),所以梯度下降不起作用。

取值范圍:(-,+)

示例:f(2)=2或f(-4)=-4

階躍函數(shù)

階躍函數(shù)(Heaviside階躍函數(shù))通常僅對(duì)單層感知器有用,單層感知器是神經(jīng)網(wǎng)絡(luò)的早期形式,可用于對(duì)線性可分離數(shù)據(jù)進(jìn)行分類。這些函數(shù)可用于二元分類任務(wù)。其輸出為A1(如果輸入之和高于某個(gè)閾值)或A0(如果輸入之和低于某個(gè)閾值)。感知器使用的值為A1=1,A0=0。

取值范圍:0或1

示例:f(2)=1、f(-4)=0、f(0)=0、f(1)=1

圖片來(lái)源:維基百科

sigmoid函數(shù)

sigmoid函數(shù),也稱為邏輯激活函數(shù)(Logistic激活函數(shù)),最常用于二元分類問(wèn)題。它存在梯度消失問(wèn)題。經(jīng)過(guò)一定數(shù)量的epoch后,網(wǎng)絡(luò)拒絕學(xué)習(xí),或者學(xué)習(xí)速度非常慢,因?yàn)檩斎?X)導(dǎo)致輸出(Y)的變化非常小。如今,sigmoid函數(shù)主要用于分類問(wèn)題。該函數(shù)在后續(xù)層中更容易遇到飽和問(wèn)題,導(dǎo)致訓(xùn)練困難。計(jì)算sigmoid函數(shù)的導(dǎo)數(shù)非常簡(jiǎn)單。

就神經(jīng)網(wǎng)絡(luò)的反向傳播過(guò)程而言,每一層都會(huì)壓縮(至少)四分之一的誤差。因此,網(wǎng)絡(luò)越深,關(guān)于數(shù)據(jù)的知識(shí)就會(huì)“丟失”得越多。某些輸出層中的“大”誤差可能不會(huì)影響相對(duì)較淺的層中神經(jīng)元的突觸權(quán)重(“較淺”意味著更接近輸入層)。

sigmoid函數(shù)定義

sigmoid函數(shù)的導(dǎo)數(shù)

取值范圍:(0,1)

示例:f(4)=0.982、f(-3)=0.0474、f(-5)=0.0067

圖片來(lái)源:維基百科

圖片來(lái)源:深度學(xué)習(xí)納米基金會(huì)

tanh函數(shù)

tanh函數(shù)是一個(gè)拉伸sigmoid函數(shù),以零為中心,因此導(dǎo)數(shù)更陡。tanh比sigmoid激活函數(shù)收斂得更快。

取值范圍:(-1,1)

示例:tanh(2)=0.9640,tanh(-0.567)=-0.5131,tanh(0)=0

圖片來(lái)源:維基百科

ReLU函數(shù)

ReLU(修正線性單元)訓(xùn)練速度比tanh快6倍。當(dāng)輸入值小于零時(shí),輸出值為零。當(dāng)輸入值大于或等于0時(shí),輸出值等于輸入值。當(dāng)輸入值為正時(shí),導(dǎo)數(shù)為1,因此sigmoid函數(shù)反向傳播時(shí)不會(huì)有擠壓效應(yīng)。

取值范圍:[0,x)

示例:f(-5)=0、f(0)=0、f(5)=5

圖片來(lái)源:維基百科

不幸的是,ReLU可能很脆弱,可能在訓(xùn)練時(shí)“死亡”。例如,通過(guò)ReLU神經(jīng)元的大梯度可能會(huì)導(dǎo)致權(quán)重更新過(guò)多,從而導(dǎo)致神經(jīng)元永遠(yuǎn)不會(huì)觸發(fā)任何數(shù)據(jù)點(diǎn)。如果發(fā)生這種情況,從現(xiàn)在開始,通過(guò)該單元的梯度將始終為零。也就是說(shuō),ReLU單元可能在訓(xùn)練期間不可逆地死亡,因?yàn)樗鼈儽惶叱隽藬?shù)據(jù)流形。例如,您可能會(huì)發(fā)現(xiàn),如果學(xué)習(xí)率設(shè)置得太高,40%的網(wǎng)絡(luò)可能會(huì)“死亡”(即神經(jīng)元永遠(yuǎn)不會(huì)在整個(gè)訓(xùn)練數(shù)據(jù)集上激發(fā))。設(shè)置合適的學(xué)習(xí)率可以緩解這個(gè)問(wèn)題。——安德烈·卡帕西CS231n課程

LeakyReLU函數(shù)

LeakyReLU允許單元在未激活時(shí)具有小的非零梯度。這里,小的非零梯度是0.01。

取值范圍:(-,+)

PReLU函數(shù)

PReLU(參數(shù)化整流線性單元)函數(shù)與LeakyReLU類似,只不過(guò)使用系數(shù)(一個(gè)小的非零梯度)作為激活函數(shù)的參數(shù)。該參數(shù)與網(wǎng)絡(luò)的其他參數(shù)一樣,是在訓(xùn)練過(guò)程中學(xué)習(xí)的。

取值范圍:(-,+)

RReLU函數(shù)

RReLU也和LeakyReLU類似,只不過(guò)系數(shù)(小非零梯度)在訓(xùn)練時(shí)取一定范圍內(nèi)的隨機(jī)值,在測(cè)試時(shí)固定。

取值范圍:(-,+)

ELU函數(shù)

ELU(指數(shù)線性單元)嘗試加速學(xué)習(xí)?;贓LU,可以獲得比ReLU更高的分類精度。這里是一個(gè)超參數(shù)(限制:0)。

取值范圍:(-,+)

SELU函數(shù)

SELU(縮放指數(shù)線性單元)是ELU的延伸版本。

照片來(lái)源:EliorCohen

SReLU函數(shù)

SReLU(S-shapeRectifiedLinearActivationUnit,S形校正線性激活單元)由三個(gè)分段線性函數(shù)組成。這些系數(shù)作為網(wǎng)絡(luò)訓(xùn)練期間學(xué)習(xí)的參數(shù)。

取值范圍:(-,+)

不同參數(shù)的SReLU圖像;圖片來(lái)源:arXiv:1512.

APL函數(shù)

APL(AdaptivePiecewiseLinear,自適應(yīng)分段線性)函數(shù)

圖片來(lái)源:arXiv:1512.

取值范圍:(-,+)

SoftPlus函數(shù)

SoftPlus函數(shù)的導(dǎo)數(shù)是邏輯函數(shù)??偟膩?lái)說(shuō),ReLU與SoftPlus非常相似,不同之處在于SoftPlus是平滑的并且可微分接近于零。此外,計(jì)算ReLU及其導(dǎo)數(shù)比SoftPlus容易得多。

取值范圍:(0,)

圖片來(lái)源:維基百科

bentidentity函數(shù)

彎曲恒等函數(shù),顧名思義,彎曲恒等函數(shù)。

取值范圍:(-,+)

圖片來(lái)源:維基百科

softmax函數(shù)

softmax函數(shù)將原始值轉(zhuǎn)換為后驗(yàn)分布,可以用來(lái)衡量確定性。與sigmoid一樣,softmax將每個(gè)單元的輸出值壓縮在0和1之間。但是,softmax還確保輸出之和等于1。

圖片來(lái)源:dataaspirant.com

softmax函數(shù)的輸出相當(dāng)于類概率分布,它告訴您任何分類為真的概率。

結(jié)語(yǔ)

選擇激活函數(shù)時(shí),優(yōu)先考慮ReLU及其變體,而不是sigmoid或tanh。同時(shí),ReLU及其變體的訓(xùn)練速度更快。如果ReLU導(dǎo)致神經(jīng)元死亡,請(qǐng)使用LeakyReLU或ReLU的其他變體。Sigmoid和tanh存在梯度消失問(wèn)題,不應(yīng)該在隱藏層中使用。最好使用ReLU及其變體作為隱藏層。使用易于區(qū)分和訓(xùn)練的激活函數(shù)。

午夜亚洲国产理论片一二三四,亚洲av无码乱码在线,最新中文字幕av专区不卡,中文字幕人妻在线二区