CS231n 8강

8강에서는 Deep Learning에 필요한 Hardware와 Software에 대해 배웁니다.

CPU vs GPU

CPU

GPU

실제 hardware적으로 CPU와 GPU는 분리되어 존재하고, 여기서 문제가 발생

문제점

Model의 Weight는 GPU의 개별 RAM에 저장되어 있고, train data는 SSD, HDD등에 저장되어 있다는 점에서 train data는 매우 큰 데이터이기에 GPU에서 train을 반복 수행할 때 데이터를 복사해서 이동하는 큰 계산 작업이 반복됨.

문제 해결 방법

DeepLearning Frameworks를 사용해야 하는 이유는 다음과 같습니다.

Computational Graphs

Numpy
- Backward pass연산을 단계적으로 계산
- GPU연산 이용을 못함
Tensorflow
- Forward pass는 Numpy와 비슷해보이지만, backward pass를 한번에 수행한다.
- grad_x, grad_y, grad_z = tf.gradients(c,[x,y,z]) => GPU에서 연산을 수행한다는 코드
Pytorch
- 한줄의 코드로 backward pass 가능
- cuda() => GPU에서 연산을 수행한다는 코드

1. Computational Graph 정의
=> 실제로 계산을 수행하지 않고, Computational Graph를 그려주고, 계산식 구조를 완성하는 단계

2. TensorFlow Session - 실제 데이터를 넣고 그래프를 실행시키는 단계

3. gradient를 이용한 weight update를 위해 graph 연산을 반복 수행
=> 매 step마다 CPU에 저장한 weigths를 GPU로 copy해와야 하는데 계산량이 많다

Loss가 최소가 되도록 variable들을 조절해주는 역할을 하는 Optimizer를 정의하여 weight를 업데이트

1. Tensor

2. Variable

x.data는 Tensor를 말하고, x.grad는 gradient를 말하고, x.grad.data는 gradient를 담은 Tensor를 말함
Variable과 Tensor는 동일한 API를 갖기에 Tensor를 Variable로 바꾸고 코드 실행이 가능
requires_grad = True는 해당 데이터에 대한 gradient를 구한다는 것을 의미

TensorFlow와 PyTorch의 차이점

TensorFlow는 computational Graph를 미리 그리고, 실행하는 두 단계로 나눠져 있다.
PyTorch는 그래프를 그리지 않고, forward pass를 할 때 마다 새로 그려 코드가 깔끔해 보인다.
PyTorch는 자동으로 gradient를 계산하는 AutoGrad함수가 있어 forward와 backward를 알아서 그래프에 넣을 수 있다.

3. Module

torch.nn

torch.optim

torch.nn.Module

DataLoaders

TensorFlow와 PyTorch의 차이점

TensorFlow - Static Graph, 처음에 구성한 Computational Graph를 매 iteration마다 재사용
- Static Graph 장점
  1. 그래프 최적화 - 동일한 그래프를 계속 재사용하므로 최적화에 유리
  2. Serialize - 전체 그래프의 자료구조를 파일형태로 저장하여 original code에 접근하지 않고도 해당 파일을 구동 가능
PyTorch - Dynamic Graph, iteration마다 새롭게 Computational Graph를 생성
- Dynamic graph 장점
  1. 코드가 쉽고 깔끔