본문 바로가기

딥러닝(DL)5

Word-Embedding - Embedding Layer 워드 임베딩(Word Embedding)은 단어를 벡터로 표현하는 방법으로, 단어를 밀집 표현(Dense Representation)으로 변환한다. 이러한 밀집 벡터, 즉 임베딩 벡터를 왜 네트워크 입력으로 넣어주지 않고 이전 방식인 원 핫 벡터를 넣어주는 것일까? 간단하게 말하면 Task(작업)에 따라 알맞게 Embedding Layer 의 Weight 를 최적화 시켜주어야 하기 때문이다. (기울기를 찾으며 역전파가 이루어진다. 이 과정에서 최적의 Weight 로 조절된다.) 보통 word2vec을 통해 만들어진 Dense Vector는 주변 단어를 잘 예측하는 목적에 최적화된 벡터이다. (주변 단어 예측에 필요한 Features로 구성된 Vector) 다시말해 Dense Vector의 상태는 해당 단.. 2022. 7. 24.
Word-Embedding 1. 희소 표현(Sparse Representation) 원-핫 인코딩을 통해서 나온 원-핫 벡터들은 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현 방법이다. 이렇게 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법을 희소 표현(sparse representation)이라고 한다. (원-핫 벡터는 희소 벡터(sparse vector)이다.) 이러한 희소 벡터의 문제점은 단어의 개수가 늘어나면 벡터의 차원이 한없이 커진다는 점이다. Ex) 강아지 = [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 중략 ... 0] # 이때 1 뒤의 0의 수는 9995개. 이러한 벡터 표현은 공간적 낭비를 불러일으키고 또한 원-핫 벡터와 같은 희소 벡.. 2022. 7. 24.
성능 개선을 위한 regularization 기법들 Weight Decay Weight Decay는 과적합을 억제하는 학습 기법의 하나 학습 과정에서 큰 가중치에 대해서 그에 상응하는 큰 패널티를 부과하여 overfitting을 억제하는 방법이다. overfitting은 weight 매개변수의 값이 커서 발생하는 경우가 많기 때문이다. 전체적인 관계의 강도를 제한하여 출력 노드가 다수의 입력 노드로 부터 많이 배우지 않도록 제한 두 term 사이의 균형을 유지하는 것이 관건 : hyper parameter를 통해 조절 wight decay는 SDG, Adam의 초기화 파라미터로 제공한다(직접구현x) 거의 사용할 일 없음, 성능차이가 많이난다. 데이터 첨가 (Data augmentation) 핵심 특징(feature)를 간직한 채, noise를 더하여 데이.. 2022. 7. 10.
역전파(backpropagation) + 미분 역전파에 대한 강의나 수식이 비전공자인 나에게 잘 와닿지 않아 내가 이해한 가장 간단하고 쉬운 방법으로 역전파의 미분을 정리해보았다. 역전파는 신경망의 각 노드가 가지고 있는 가중치(Weight)와 편향(Bias)을 학습시키기 위한 알고리즘 목표(Target)와 모델의 예측 결과(Output)가 얼마나 차이가 나는지 확인하고 그 오차를 바탕으로 가중치와 편향을 뒤에서부터 앞으로 갱신해가는 것을 의미한다. 역전파란 명칭도 바로 이처럼 뒤에서부터 다시 앞으로 거슬러 올라간다는 것에서 나온 것이다. 위 과정을 이해하려면 미분에 대해 알아야 한다. 미분 미분은 함수 ff의 주어진 점 (x,f(x))(x,f(x))에서의 접선의 기울기를 구하는 과정이다. y증가량/ x증가량 좀 더 간단히, 위 그림을 두고 말하자면.. 2022. 7. 8.