: 찾아봐야 함.
Abstract
residual network는 optimize 하기 쉽고, depth를 증가할 수록 accuracy 증가를 얻을 수 있다.
ImageNet 데이터셋으로 152 layers로 진행(VGG Net보다 8배 많은), test set에서 3.57 % error.
CIFAR-10 데이터셋으로 100과 1000 layers로도 진행
Introduction
network depth는 중요한 부분이지만, vanishing/exploding gradients 문제를 가지고 있다.
이 문제는 SGD와 back propagation을 위해 converging을 시작하기 위한 레이어들끼리 있는 네트워크를 가능하게 하는 normalized initialization, intermediate normalization layers에 의해 설명된다.
깊은 네트워크가 convergin을 시작할 때 degradation 문제가 발견된다. 이것은 오버핏 때문이 아니라 레이어를 추가함으로써 높은 training error 가 나오게 한다.
이 논문에서는 deep residual learning framework를 소개함으로써 degradation 문제에 대해 설명한다.
residual mapping
H(x) = F(x) + x
F(x) = H(x) - x
F(x) + x = feedforward neurla networks with shortcut connections
shortcut connections : 레이어 하나 혹은 여러 개를 뛰어넘는 것(skip).
이런 shortcut connections는 identity mapping으로 구현된다. output은 쌓인 레이어의 output에 더해진다.
ILSVRC 2015 에서 1등해따.
Related Work
Residual Representations
Shortcut Connections:
일부 intermediate layers가 다이렉트로 auxiliary classifiers에 연결하는 것도 있다. inception layer
highway networks는 short connection을 gating functions와 나타내지만 이것은 data-dependent하고 파라미터를 갖고 있고 닫혀있다. 반면에 resnet 의 shortcut은 파라미터가 없고 닫혀있지 않아서 모든 정보가 학습되기 위해 추가적인 residual functions을 통과한다. 추가적으로 highway networks는 엄청나게 증가한 깊이에서 정확도가 높게 나오지 않는다.
Deep Residual Learning
Residual Learning
x : 레이어의 첫번째를 위한 인풋
H(x) : underlying mapping
residual function F(x) := H(x) - x
origiinal function F(x) + x
'공부 > 논문' 카테고리의 다른 글
VITS (0) | 2023.01.06 |
---|---|
RCNN : Rich feature hierarchies for accurate object detection and semantic segmentation tech report (v5) (0) | 2022.12.24 |
A Survey on Modern Recommendation System based on Big Data (0) | 2022.11.26 |
Real-time Facial Surface Geometry from Monocular Video on Mobile GPUs (0) | 2022.04.08 |
BlazeFace (0) | 2022.03.30 |