본문 바로가기

분류 전체보기83

다양한 빅데이터 관련 툴에 대한 개념(하둡,하이브,스파크,HBase, 주키퍼, Kafka, Flink 등) 데이터 엔지니어란, : 회사마다 사람마다 조금씩 다를 수 있지만 크게 데이터를 수집, 변환, 저장하여 데이터가 필요한 다른 분들(ex.분석가 ) 이 쉽게 가져다 사용할 수 있게끔 관리 & 제공하는 것이 데이터 엔지니어의 주 역할이라고 생각한다. 하둡(Hadoop) : 큰 규모의 데이터를 클러스터화된 범용적 컴퓨터로 처리한다. 분산처리를 위한 오픈소스 프레임워크이다. 하이브(Hive) - 아파치HDFS, HBase 와 같은 저장소에 저장된 대용량 데이터 집합 분석 - 하둡에서 정형화된 데이터를 처리하기 위한 인프라. - 하둡에서 동작하는 데이터웨어하우스 인프라 구조로써 데이터 요약, 질의 및 분석 기능을 제공한다. HBase - HDFS위에 구축된 DB, (하둡 자체의 기능이 유연하지 못해서 탄생) - 빠.. 2022. 9. 4.
Word-Embedding - Embedding Layer 워드 임베딩(Word Embedding)은 단어를 벡터로 표현하는 방법으로, 단어를 밀집 표현(Dense Representation)으로 변환한다. 이러한 밀집 벡터, 즉 임베딩 벡터를 왜 네트워크 입력으로 넣어주지 않고 이전 방식인 원 핫 벡터를 넣어주는 것일까? 간단하게 말하면 Task(작업)에 따라 알맞게 Embedding Layer 의 Weight 를 최적화 시켜주어야 하기 때문이다. (기울기를 찾으며 역전파가 이루어진다. 이 과정에서 최적의 Weight 로 조절된다.) 보통 word2vec을 통해 만들어진 Dense Vector는 주변 단어를 잘 예측하는 목적에 최적화된 벡터이다. (주변 단어 예측에 필요한 Features로 구성된 Vector) 다시말해 Dense Vector의 상태는 해당 단.. 2022. 7. 24.
Word-Embedding 1. 희소 표현(Sparse Representation) 원-핫 인코딩을 통해서 나온 원-핫 벡터들은 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현 방법이다. 이렇게 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법을 희소 표현(sparse representation)이라고 한다. (원-핫 벡터는 희소 벡터(sparse vector)이다.) 이러한 희소 벡터의 문제점은 단어의 개수가 늘어나면 벡터의 차원이 한없이 커진다는 점이다. Ex) 강아지 = [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 중략 ... 0] # 이때 1 뒤의 0의 수는 9995개. 이러한 벡터 표현은 공간적 낭비를 불러일으키고 또한 원-핫 벡터와 같은 희소 벡.. 2022. 7. 24.
성능 개선을 위한 regularization 기법들 Weight Decay Weight Decay는 과적합을 억제하는 학습 기법의 하나 학습 과정에서 큰 가중치에 대해서 그에 상응하는 큰 패널티를 부과하여 overfitting을 억제하는 방법이다. overfitting은 weight 매개변수의 값이 커서 발생하는 경우가 많기 때문이다. 전체적인 관계의 강도를 제한하여 출력 노드가 다수의 입력 노드로 부터 많이 배우지 않도록 제한 두 term 사이의 균형을 유지하는 것이 관건 : hyper parameter를 통해 조절 wight decay는 SDG, Adam의 초기화 파라미터로 제공한다(직접구현x) 거의 사용할 일 없음, 성능차이가 많이난다. 데이터 첨가 (Data augmentation) 핵심 특징(feature)를 간직한 채, noise를 더하여 데이.. 2022. 7. 10.