Da li se dodavanje slučajne buke skrivenim slojevima smatra regularizacijom? Koja je razlika između toga i dodavanja normalizacije odustajanja i šarže?


Odgovor 1:

Da, dodavanje slučajne buke skrivenim slojevima predstavlja regularizaciju na potpuno isti način kao i ispust. Ključna je intuicija da, ako je neuronski odgovor na svakom sloju bučan, tada trening mora prilagoditi utege za odvojene kategorije s razmakom većim od buke. Stoga bi u vrijeme ispitivanja, kad buka ne postoji, klasifikacija trebala biti stabilnija. To je vrlo slično načinu na koji funkcionira klasifikacija najveće marže, a svi znamo koliko su uspješne tehnike maržiranja (npr. Mašine za podršku vektora). Morate biti oprezni kako biste bili sigurni da šum ne preplavi signal.

Odustajanje se smatra metodom regularizacije jer obavlja prosječno modeliranje. To jest, tijekom treninga, model u određenom trenutku vremena zapravo je raspodjela vjerojatnosti na klasu modela neuronske mreže u kojima su utezi fiksni, ali bilo koji od neurona u modelu može nedostajati. Ukupna vjerojatnost svake neuronske mreže određena je pojedinačnom vjerojatnošću da je određeni neuron prisutan ili odsutan. Ovo je regularizacija, jer se prosječno upoređuje pristranost pojedinih instanci, izravnavajući troškovnu funkciju.

Dodavanje slučajne buke skrivenom sloju djeluje na isti način, ali s različitom raspodjelom vjerojatnosti. Umjesto da imate fiksne utege, imate fiksnu topologiju, a raspodjela vjerojatnosti bira nasumične utege prema Gaussovoj distribuciji usredotočene na "prave" utege, tj. Utege koje pohranjujete na tvrdom disku. Opet, ovo je prosjek modela i trebao bi imati regulirajući utjecaj, s upozorenjem da buka (varijanca) ne bi trebala nadvladati signal. Na primjer, ako prvi put primijenite BatchNorm, imat ćete približno standardni normalan izlazni profil (jedinice usredotočene na nulu s varijancom jedna), a zatim možete primijeniti šum sa varijancom od, recimo, 0,1. Možete se igrati s varijancom da biste vidjeli što djeluje.

EDIT: Budući da je u pitanju spomenuto BatchNorm, želio sam naglasiti da se BatchNorm zapravo ne koristi za regularizaciju. Odnosno, BatchNorm ne poravnava troškove. Umjesto toga, dodaje se BatchNorm kako bi se poboljšala učinkovitost povratnog širenja. U biti, sprječava da postane prevelik ili mali stražnji razgranati gradijent skalom i ponovnom procjenom; kao tehnika ima dublje veze s metodama optimizacije drugog reda koje pokušavaju modelirati zakrivljenost površine troškova. Kao što sam gore spomenuo, BatchNorm se može koristiti i za jamstvo da je relativno skaliranje ispravno ako ćete dodavati slučajni šum neuronskim aktivnostima.


Odgovor 2:

Smatrao bih to optimizacijskim trikom više od regularizacije.

Učinak treba biti jednak učinku stohastičnosti u SGD-u.

SGD i njegove inspiracije Monte Carlo metodama izbjegavaju da se zaglave u lošim lokalnim minimumima praveći nasumičan korak svaki puta, umjesto da strogo slijede smjer najbržeg spuštanja; ili radeći nešto ekvivalentno u njihovim različitim utjelovljenjima, npr. dodavanju slučajne komponente u svaki korak, umjesto da povremeno poduzimaju slučajni korak.

Dodavanjem slabe slučajne buke utezima će se postići točno isto. [Savjet: Gradient spuštanje također dodaje utege u svakoj iteraciji!]


Odgovor 3:

UREDI:

Dodavanje slučajnih buka raspoređenih u gausijama u ulaznim podacima svakog sloja može vaš model učiniti robusnijim na male promjene podataka što će vašoj mreži omogućiti bolje razlikovanje buke od signala. Kao što je rekao Zeeshan Zia, to bi u biti bilo stohastički nagib pristojan. Još uvijek ne bih razmatrao tu regularizaciju. Više je to tehnika koja pomaže vašem modelu da nauči obrasce za odvajanje buke od signala.

Odustajanje nasumično onemogućuje određeni dio čvorova u skrivenom sloju na svakom prolazu. To poboljšava mrežu jer je prisiljava da nauči kako prepoznati iste obrasce na više načina, što dovodi do boljeg modela.

Paketna normalizacija je gdje preuzimate ulaze u jedan sloj i provjerite jesu li svi normalizirani između 0 i 1. To pomaže mreži da bolje uči jer održava gradijent pristojan i dosljedniji i glatkiji. Na taj način izbjegavate skakati oko minima jer vam je gradijent prevelik.