LSTM-ji rešujejo težavo z uporabo edinstvene aditivne gradientne strukture, ki vključuje neposreden dostop do aktivacij vrat pozabiti, ki omogočajo omrežju, da spodbuja želeno vedenje iz gradienta napak s pogostim posodabljanjem vrat na vsakem časovnem koraku učnega procesa.
Kako LSTM rešuje eksplodirajoči gradient?
Zelo kratek odgovor: LSTM loči stanje celice (običajno označeno s c) in skrito plast/izhod (običajno označeno s h) in izvaja samo aditivne posodobitve c, zaradi česar so spomini v c stabilnejši. Tako se gradient, ki teče skozi c, ohrani in ga je težko izginiti (zato je celoten gradient težko izginiti).
Kako je mogoče rešiti problem izginjajočega gradienta?
Rešitve: Najpreprostejša rešitev je uporaba drugih aktivacijskih funkcij, kot je ReLU, ki ne povzroči majhne izpeljanke. Preostala omrežja so še ena rešitev, saj zagotavljajo preostale povezave naravnost do prejšnjih slojev.
Kakšen problem rešuje LSTM?
LSTM. LSTM (okrajšava za dolgotrajni kratkoročni spomin) predvsem rešuje problem izginjajočega gradienta pri širjenju nazaj. LSTM uporabljajo mehanizem za zapiranje, ki nadzoruje proces pomnjenja. Informacije v LSTM-ih je mogoče shraniti, zapisati ali prebrati prek vrat, ki se odpirajo in zapirajo.
Zakaj LSTM preprečijo, da bi vaši gradienti izginili iz pogleda z vzvratnega prelaza?
Razlog za to je, ker je bil za uveljavitev tega konstantnega toka napak izračun gradienta okrnjen, da ne bi tekel nazaj do vhodnih ali kandidatnih vrat.