ztráta MSE se používá pro regresní úlohy. Jak název napovídá, tato ztráta se vypočítá pomocí průměru čtvercových rozdílů mezi skutečnými (cílovými) a předpokládanými hodnotami.
příklad
například máme neuronovou síť, která bere data domu a předpovídá cenu domu. V tomto případě můžete použít ztrátu MSE
. V zásadě v případě, že výstup je skutečné číslo, měli byste použít tuto funkci ztráty.
Binární Crossentropy
PŘ. n. l. ztráta se používá pro binární klasifikaci úkolů. Pokud používáte BCE
ztrátovou funkci, stačí jeden výstupní uzel pro klasifikaci dat do dvou tříd. Výstupní hodnota by měla projít sigmoidní aktivační funkcí a rozsah výstupu je (0-1).
příklad
například máme neuronovou síť, která bere data atmosféry a předpovídá, zda bude pršet nebo ne. Pokud je výstup větší než 0,5, síť jej klasifikuje jako rain
a pokud je výstup menší než 0,5, síť jej klasifikuje jako not rain
. (mohlo by to být opačné v závislosti na tom, jak trénujete síť). Čím větší je hodnota pravděpodobnostního skóre, tím větší je šance na déšť.
Zatímco školení sítě, cílové hodnoty fedu k síti by měl být 1, pokud prší, jinak 0.
Poznámka 1
Jedna důležitá věc, pokud používáte BCE
ztráta funkce výstupního uzlu by měla být v rozmezí (0-1). To znamená, že musíte použít sigmoidní aktivační funkci na vašem konečném výstupu. Vzhledem k tomu, sigmoid převádí jakoukoli reálnou hodnotu v rozmezí mezi (0-1).
Poznámka 2
co když nepoužíváte sigmoidní aktivaci na konečné vrstvě? Pak můžete předat argument nazvaný from logits
jako true
funkci ztráty a interně použije sigmoid na výstupní hodnotu.
kategorická Crossentropie
když máme klasifikační úkol pro více tříd, jedna z funkcí ztráty, kterou můžete pokračovat, je tato. Pokud používáte CCE
ztrátovou funkci, musí existovat stejný počet výstupních uzlů jako třídy. A výstup konečné vrstvy by měl projít aktivací softmax tak, aby každý uzel vyvedl hodnotu pravděpodobnosti mezi (0-1).
příklad
například máme neuronovou síť, která pořídí obraz a klasifikuje jej na kočku nebo psa. Pokud má uzel kočky skóre s vysokou pravděpodobností, pak je obrázek klasifikován jako kočka jinak pes. V podstatě, bez ohledu na uzel třídy má nejvyšší skóre pravděpodobnosti, obraz je zařazen do této třídy.
Pro krmení cílové hodnoty v době tréninku, musíme one-hot enkódování. Pokud je obraz kočky, pak cílový vektor by byl (1, 0) a pokud je obraz psa, cílový vektor by byl (0, 1). V zásadě by cílový vektor měl stejnou velikost jako počet tříd a indexová pozice odpovídající skutečné třídě by byla 1 a všechny ostatní by byly nulové.
Poznámka
co když nepoužíváme softmax aktivaci na finální vrstvě? Pak můžete předat argument nazvaný from logits
jako true
funkci ztráty a interně použije softmax na výstupní hodnotu. Stejně jako ve výše uvedeném případě.
řídká kategorická Crossentropie
tato ztrátová funkce je téměř podobná CCE
s výjimkou jedné změny.
když používáme SCCE
ztrátovou funkci, nemusíte jeden horký kódovat cílový vektor. Pokud je cílový obrázek kočky, jednoduše projdete 0, jinak 1. V podstatě, bez ohledu na třídu, kterou právě projdete indexem této třídy.