부스트캠프 AI Tech 1기 [T1209 최보미]/U stage

Day35 학습정리 - CV5

B1001101 2021. 3. 12. 23:46


1. Multi-modal: Captioning and speaking


1) Overview of multi-modal learning

  • multi-modal
  • Challenge
    • Different representations between modalities
    • Unbalance between heterogeneous feature space
    • biased on a specific modality

2) Multi-modal tasks(1) - Visual data & Text

  • Text embedding
  • Joint embedding
  • Cross modal translation
  • Cross modal reasoning

3) Multi-modal tasks(2) - Visualo data & audio

  • Sound representation
  • Joint embedding
  • Cross modal translation
  • Cross modal reasoning

2. 3D understanding


1) Seeing the world in 3D perspective

  • 3D data reprersentation

2) 3D tasks

  • 3D recognition
  • 3D semantic segmentation
  • 3D object detection
  • Conditional 3D generation

3) 3D application example

  • Photo refocusing


어느새 7주차 강의가 모두 끝났다. 오늘은 빠르게 수업을 듣고 과제에 집중했다. 빈칸을 채우기 위해 열심히 이것저것 찾아보면서 공부가 많이 된 것 같다. 모델 구조도 더 잘 이해할 수 있었고 hook 등 새로 알게 된 함수들도 많았다.

그리고 마스터클래스때 교수님께서 Convolution Layer는 레고블록, Transformer는 진흙에 비유하신 것이 인상깊었다. 지금까지 트랜스포머에 대해 막연하게만 이해하고 있었는데 이 비유를 듣고 느낌이 확 왔다.