네이버 부스트캠프 26

Day1 학습정리 - EDA

1. 오늘의 학습목표 대회 플랫폼 사용법 익히기 주어진 이미지 데이터 탐색 2. 목표를 달성하기 위해 한 행동 우선 train 폴더에 들어가서 폴더명과 파일명은 어떤 식으로 되어있는지, 어떤 이미지들이 있는지 대충 확인해보았다. 그다음 트레인 이미지 정보가 담겨있는 CSV 파일을 읽어서 데이터 분포를 확인했다. 분석 결과 성비는 여자:남자가 6:4 정도 되었고 나이 분포를 그래프로 그려 확인해보니 양 끝에 많이 분포해있는 것을 알 수 있었다. 그리고 각 이미지들의 클래스를 분류하여 라벨링했다. 클래스별 이미지 개수를 확인해보니까 불균형이 있었다. 그다음 각 클래스별로 이미지를 5장씩 뽑아 출력해보았다. 마스크 대신 천을 쓴 사람도 있었고 눈에 마스크를 한 사람도 있었다. 처음에는 이미지가 모두 jpg 형..

Day32 학습정리 - CV2

강의복습 1. Image classification II 더보기 1) Problems with deeper layers Gradient vanishing / exploding Computationally coomplex Degradation 2) CNN architectures for image classification 2 GoogLeNet 채널 개수 줄이기 위해 1×1 convolution 적용 Stem network Stacked inception modules Auxiliary classifiers Classifier output (a single FC layer) ResNet Degradation 문제 해결하기 위해 Shortcut connection 적용 기타 DenseNet SENet Eff..

Day31 학습정리 - CV1

강의복습 1. Image classification 1 더보기 1) Course overview 2) Image classification k Nearest Neighbors(k-NN) Convolutional Neural Netwoks(CNN) 3) CNN architectures for image classification 1 AlexNet VGGNet GoogLeNet ResNet DenseNet, SENet, EfficientNet 2. Annotation data efficient learning 더보기 1) Data augmentation Brightness adjustment Rotate, flip Crop Affine transformation CutMix 2) Leveraging pre-..

Day23 학습정리 - 군집 탐색 & 추천시스템 (기초)

강의복습 1. 그래프의 구조를 어떻게 분석할까? 더보기 1) 군집 구조와 군집 탐색 문제 군집(Community): 다음 조건들을 만족하는 정점들의 집합 집합에 속하는 정점 사이에는 많은 간선이 존재 집합에 속하는 정점과 그렇지 않은 정점 사이에는 적은 수의 간선이 존재 실제 그래프의 군집들은 무엇을 의미할까? 온라인 소셜 네트워크의 군집: 사회적 무리(Social Circle), 부정 행위, 조직 내의 분란 키워드-광고주 그래프의 군집: 동일한 주제의 키워드 뉴런간 연결 그래프의 군집: 뇌의 기능적 구성 단위 군집 탐색(Community Detection) 문제: 그래프를 여러 군집으로 잘 나누는 문제 2) 군집 구조의 통계적 유의성과 군집성 배치 모형(Configuration Model): 각 정점의..

Day22 학습정리 - 페이지랭크 & 전파 모델

강의복습 1. 검색 엔진에서는 그래프를 어떻게 활용할까? 더보기 1) 페이지랭크의 배경 웹: 웹페이지와 하이퍼링크로 구성된 거대한 방향성 있는 그래프 구글 이전의 검색 엔진의 한계 디렉토리: 웹페이지 수가 증가하면 카테고리의 수와 깊이도 무한정 커짐, 카테고리 구분 모호 키워드: 악의적인 웹페이지에 취약 구글의 창업자인 래리 페이지(Larry Page)와 세르게이 브린(Sergey Brin)이 페이지랭크 개념 제안 2) 페이지랭크의 정의 투표 관점: 하이퍼링크를 통한 가중 투표(주체: 웹페이지) 악용 막기 위해 가중 투표 함 씨가 (자신의 페이지랭크 점수 / 나가는 이웃의 수) 재귀(Recursion): 연립방정식 풀이 페이지랭크 점수: 측정하려는 웹페이지의 관련성 및 신뢰도 임의 보행 관점: 웹서퍼가 ..

Day21 학습정리 - 그래프 이론 기초 & 그래프 패턴

강의복습 1. 그래프란 무엇이고 왜 중요할까? 더보기 1) 그래프란 무엇이고 왜 중요할까? 그래프(Graph): 정점(Vertex) 집합과 간선(Edge) 집합으로 이루어진 수학적 구조 하나의 간선은 두 개의 정점을 연결 그래프는 네트워크(Network)로도 불림 정점: Node, 간선: Link 복잡계를 표현하고 분석하기 위한 언어 2) 그래프 관련 인공지능 문제 정점 분류, 연결 예측, 추천, 군집 분석, 랭킹, 정보 검색, 정보 전파, 바이럴 마케팅 등 3) 그래프 관련 필수 기초 개념 방향성이 없는 그래프(Undirected Graph) / 방향성이 있는 그래프(Directed Graph) 가중치가 없는 그래프(Unweighted Graph) / 가중치가 있는 그래프(Weighted Graph) ..

Day20 학습정리 - NLP5

강의복습 1. Self-supervised Pre-training Models 더보기 1) GPT-1 효과적인 transfer learning 위해 // $ 와 같은 special token 사용 2) BERT masked language modeling task large-scale data & large-scale model Pre-training Tasks Masked Language Model (MLM) Mask some percentage of the input tokens at random, and then predict those masked tokens. 15% of the words to predict 80% of the time, replace with [MASK] 10% of the ..

Day19 학습정리 - NLP4

강의복습 Transformer 더보기 1) Scaled Dot-Product Attention input: Query, Key, Value (벡터) output: weighted sum of values multiple queries 2) Multi-head attention : W 행렬을 사용해 Q, K, V를 h개의 lower dimensional space에 mapping시킴 3) Block-Based Model 각 블록은 2개의 sub-layer로 구성 Multi-head attention, Two-layer feed-forward NN (with ReLU) 각 단계마다 Residual connection, layer normalization 존재 → 𝐿𝑎𝑦𝑒𝑟𝑁𝑜𝑟𝑚(𝑥 + 𝑠𝑢𝑏𝑙𝑎𝑦𝑒𝑟(𝑥)..

Day18 학습정리 - NLP3

강의 복습 1. Sequence to Sequence with Attention 더보기 Seq2Seq Model Sequence를 입력받아서 Sequence를 출력 (many to many) encoder와 decoder로 구성 Seq2Seq Model with Attention NMP 퍼포먼스 향상 Bottleneck 문제 해결 Vanishing gradient 문제 해결 Interpretability Different Attention Mechanisms Luong attention Bahdanau attention 2. Beam Search and BLEU 더보기 1) Beam search Greedy decoding: decision 취소할 수 없음, 토큰 생성할 때까지 디코딩 Exhaustiv..

Day17 학습정리 - NLP2

강의 복습 1. Recurrent Neural Network and Language Modeling 더보기 1) Basics of Recurrent Neural Networks (RNNs) 2) Types of RNNs One-to-one: Standard Neural Networks One-to-many: Image Captioning Many-to-one: Sentiment Classification Many-to-many(Sequence-to-sequence): Machine Translation, Video classification on frame level 3) Character-level Language Model Backpropagation through time (BPTT) RNN의 문제..