공부/튜토리얼

서울대 딥러닝 (2020) 윤성로 교수님 강의

내공얌냠 2022. 3. 7. 16:11

https://www.youtube.com/playlist?list=PLDhCIPjHgzmoFMMUItlmjToPFk_2Uynn5 

 

딥러닝 (2020) - 윤성로 교수 [SNU Deep Learning] #샤딥

서울대학교 딥러닝 강의 (윤성로 교수)

www.youtube.com

강의명 청강일
Lecture 1 | Foundations of Deep Learning(1/3) 2022.03.06
Lecture 2 | Foundations of Deep Learning(2/3) 2022.03.06
Lecture 3 | Foundations of Deep Learning(3/3) 2022.03.06
Lecture 4 | Neuron Modeling 2022.03.09
Lecture 5 | Deep Feedforward Networks (1/3) 2022.03.10
Lecture 6 | Deep Feedforward Networks (2/3) 2022.03.10
Lecture 7 | Deep Feedforward Networks (3/3) 2022.03.11
Lecture 8 | Optimization (1/2) 2022.03.24
Lecture 9 | Optimization (2/2) 2022.03.25
Lecture 10 | Regularization (1/2) 2022.03.28
Lecture 11 | Regularization (2/2) 2022.03.28~
Lecture 12 | CNN [part 1] (1/2)  
Lecture 13 | CNN [part 1] (2/2)  
Lecture 14 | CNN [part 2]  
Lecture 15 | The Art of Neural Net Training (1/2)  
Lecture 16 | The Art of Neural Net Training (2/2)  
Lecture 17 | CNN Architectures (1/2)  
Lecture 18 | CNN Architectures (2/2)  

 

1강

AI = computational rationality

referes to maximizing expected utility 기대되는 효용을 최대화하는 것

측정할 수 있는 것은 계산할 수 있다. 

Google duplex -> google ai 가 전화를 건다 - human-level intelligence

DL < Representation learning (feature를 기계가 자동으로 찾아내는 학습) < ML < AI

3 key driving forces

1. Big data

2. Parallel / distributed computing (GPU)

3. algorithms

crossover point -> data 가 많지 않으면, 기존 ML이 더 나을 수도.

ML : learning from data

Task에서 Experience로 Performance가 올라간다면 배운다고 한다.

  • Supervised - 값을 가지고
  • Unsupervised - 값없이, 데이터의 구조나 그런 것으로
  • Reinforcement - 환경과 interaction
  • 하나를 알면 둘을 알지는 못하고는 상태
  • Visual/speech 인식은 사람 레벨
  • Structured data, some perception task (e.g. massive surveillance) 는 능가
  • Supervised learning - classification, regression
  • unsupervised learning - clustering, density, pmf estimation
  • 산업체 - anomaly detection
  • 자연어 - machin translation

Dataset

  • Training set - for fitting
  • Validation(dev) set - for model selection
  • Test set - for generalization

Performance measure : 정하기 어렵고, 알아도 측정하기 어렵다 impractical

Central challenge in ML : Generalization

  • 보지 않아도 example에 대해서도 잘해야
  • Generalization error: Egen : train없이 모든 data에 대해 잰 값, 이론적.
  • Etest ~= Egen ~= 0

Etest ~= 0

  • Etest ~= Etrain
  • Etrain ~= 0

Etest ~= Etrain 하도록 만들기

  • 실패 시:  Overfitting -> high variance(어떤 건 되고 어떤 건 안되고)
  • 해결: regularization, more data

Etrain ~= 0 하도록 만들기

  • 실패 시: Underfitting -> high bias(진실과의 거리)
  • 해결: optimization, more complex model

generalization과 approximation의 trade off

capacity of a model (얼마나 다양한 function을 fit 할 수 있는지 복잡성)

  • Representation - 어떻게 생겼냐
  • Learning algorithm - 어떻게 찾느냐

Model capacity가 좌지우지 한다

  • Overfitting <- Regularization 
  • Underfitting <- Optimization

2강

Ocam's razor - 전통적으로는 간단한 모델을 골라라

vc generalization bound - 확률적으로 둘이 더 가깝게 된다

Model이 복잡해질수록 서로의 차이가 커질 확률이 올라간다

(N이 커지면 줄어든다 -> big data의 힘)

Approximation-generalization tradeoff ( or bias-variance tradeoff)

모델의 복잡도 증가 시 트레이닝 에러 감소, 오버피팅 증가, generalization 필요

Etest            ~=            Etrain            ~=        0

simple model is better              Complex model is better

=> 이론적으로는 간단한 모델이 낫다. 최근에는 복잡한 데이터 때문에 꽤 복잡한 모델 선택

Fight the trade off tools

  • Optimization : better approximation, bias reduction (ex. SGD)
  • Regularization : better generalization, variance reduction (ex. Dropout, weight decay)

Optimization

  • 뉴턴
    • zero finding 
    • minimization / maximization
  • gradient decent
    • minimization / maximization

모델을 고르기 위한 현대적 추천 : Complex model + effective regularization + Big data

                    (For approximation -> Etrain ~= 0)    (Reduce generalization gap -> Etest ~= Etrain)

model complexity 증가할수록 training error는 낮아지고 bias가 낮아지니까.(모델링 안되는 데이터가 줄어서), variance는 증가(noise까지 같이 학습)

<-              optimum            ->

underfitting             overfitting

 

Linear model

  • 간단, 구현하기 쉽고, 해석하기도 쉽다
  • 좋은 generalization => Etest ~= Etrain

세 가지 문제 해결

  1. Classification
  2. Regression -> 연속적인 값 예측
  3. Probability estimation(logistic regression) -> 확률을 return

Decision making 은

  1. Threshold에 비교
  2. Score를 만들고

Perceptron

---- 앞으로는 아이패드로 정리해서 그냥 노트를 넣어야겠습니다..

728x90
반응형