Waarom zijn kunstmatige terugkerende neurale netwerken vaak moeilijk te trainen?

Video: Lecture 7.4 — Why it is difficult to train an RNN? [Neural Networks for Machine Learning]

Inhoud

Q:
EEN:

Q:

Waarom zijn kunstmatige terugkerende neurale netwerken vaak moeilijk te trainen?

EEN:

De moeilijkheid om kunstmatige, terugkerende neurale netwerken te trainen, heeft te maken met hun complexiteit.

Een van de eenvoudigste manieren om uit te leggen waarom terugkerende neurale netwerken moeilijk te trainen zijn, is dat ze geen feedforward neurale netwerken zijn.

In feedforward neurale netwerken bewegen signalen slechts één kant op. Het signaal gaat van een invoerlaag naar verschillende verborgen lagen en naar voren, naar de uitvoerlaag van een systeem.

Daarentegen hebben terugkerende neurale netwerken en andere verschillende soorten neurale netwerken complexere signaalbewegingen. Geklasseerd als "feedback" -netwerken, kunnen terugkerende neurale netwerken signalen hebben die zowel vooruit als achteruit reizen en kunnen verschillende "lussen" in het netwerk bevatten waar getallen of waarden worden teruggekoppeld naar het netwerk. Experts associëren dit met het aspect van terugkerende neurale netwerken die verband houden met hun geheugen.

Bovendien is er een ander soort complexiteit die terugkerende neurale netwerken beïnvloedt. Een uitstekend voorbeeld hiervan is op het gebied van natuurlijke taalverwerking.

Bij geavanceerde natuurlijke taalverwerking moet het neurale netwerk dingen kunnen onthouden. Het moet ook input in con nemen. Stel dat er een programma is dat een woord binnen een zin van andere woorden wil analyseren of voorspellen. Het systeem kan bijvoorbeeld een vaste lengte van vijf woorden hebben om te evalueren. Dat betekent dat het neurale netwerk input moet hebben voor elk van deze woorden, samen met de mogelijkheid om te “onthouden” of te trainen op de con van deze woorden. Om die en andere soortgelijke redenen hebben terugkerende neurale netwerken meestal deze kleine verborgen lussen en feedbacks in het systeem.

Experts betreuren dat deze complicaties het moeilijk maken om de netwerken te trainen. Een van de meest voorkomende manieren om dit uit te leggen, is door het probleem van de exploderende en verdwijnende gradiënt te citeren. In wezen zullen de gewichten van het netwerk ofwel leiden tot exploderende of verdwijnen waarden met een groot aantal passages.

Neuraal netwerkpionier Geoff Hinton verklaart dit fenomeen op het web door te zeggen dat achterwaartse lineaire passages ervoor zorgen dat kleinere gewichten exponentieel krimpen en grotere gewichten exploderen.

Dit probleem, vervolgt hij, wordt erger met lange reeksen en meer talloze tijdstappen, waarin de signalen groeien of vervallen. Gewichtsinitialisatie kan helpen, maar die uitdagingen zijn ingebouwd in het terugkerende neurale netwerkmodel. Theres zal altijd dat probleem zijn dat verbonden is aan hun specifieke ontwerp en bouw. In wezen trotseren sommige van de meer complexe typen neurale netwerken ons vermogen om ze gemakkelijk te beheren. We kunnen een vrijwel oneindige hoeveelheid complexiteit creëren, maar we zien vaak uitdagingen voor voorspelbaarheid en schaalbaarheid groeien.