Deep Learning/Paper study
[딥러닝 논문 스터디] 논문미식회(CV) - 2021.09.16
danaing
2021. 9. 17. 07:48
2021년 9월 16일 저녁 9시에 진행된 스터디는 2분이 발표를 해주셨다. 발표자 분께서 정리해서 올려주신 자료를 참고하여 논문의 핵심인 부분이나 느낀 점을 함께 올려보았다.
1. Self-Damaging Contrastive Learning (ICML 2021)

- Contrastive learning의 성능 향상은 ImageNet와 같은 큰 데이터를 pretrain시킴으로서 모델이 다양한 이미지의 feature를 label없이 학습할 수 있게 한다.
- 이전에 Contrastive learning에서는 다루지 않았던 unlabaled imbalance 데이터 (real-world 데이터)를 활용하는 SDCLR framework를 제안한다.
- Contrastive learning + pruning을 사용하여 자동으로 representation을 label없이 balance시켜준다. 이전 contrastive learning SOTA인 simCLR pipeline을 따른다고 한다.
- 다양한 실험을 통해 SDCLR이 imbalance문제를 잘 해결하는 모습을 보여준다.
사실 Contrastive learning이라는 것을 처음 들어봤는데, Contrastive learning이란 Self-Supervised Learning의 하나로 현재의 이미지와 매칭되는 이미지의 특징 벡터는 가깝게 학습하고, 다른 데이터에 대해서는 멀어지도록 학습하는 것을 의미한다고 한다.
2. PoseAug: A Differentiable Pose Augmentation Framework for 3D Human Pose Estimation (CVPR 2021 Oral Paper)
- Pose estimation 분야에서 기존의 augmentation은 모델 학습과 별도의 단계로 이뤄지기 때문에 학습에 너무 쉬운 비효율적인 데이터를 만들고, 모델의 일반화 성능 향상이 미미하다.
- 정해진 데이터 안에서만 하다보니 존재하는 학습 데이터 내의 관절 각도 제한이나 kinematics constrains(운동학적 제한)과 같은 미리 정의된 규칙에 의존해서 in-the-wild 이미지 수준을 충족시키지 못한다.

- Pose Discriminator : 추론된 포즈가 맞는지를 판단하는 역할을 한다. augmented pose는 관절 각도 또는 position, view point가 심하게 변형되어 타당하지 않을 수 있기 때문에 타당성 보장을 위해 pose discriminator 모듈을 사용한다. 3D pose discriminator로 관절 각도 타당성을 평가하고, 2D pose discriminator로 신체 크기와 view point, position 타당성을 평가한다. 또한 augmented pose를 더 다양하게 하기 위해, 전신이 아닌 몸의 부분(torso, left/right arm/leg)들로 나눠서 입력값으로 사용한다.
- Pose Augmentor : 3D pose인 X가 주어지면 bone vector를 먼저 얻고, 이 vector를 hierarchical transformation을 통해 bone direction vector(joint angle을 나타내는 vector)와 bone length vector(body size를 나타냄)로도 변환한다. 그리고 augmentor는 input 3D pose인 X에서 feature extraction을 위해 MLP를 사용하고, 가우시안 분포에 기반한 noise vector를 X에 concat해서 다양성을 증가시킨다. 위에서 추출된 features는 joint angles, body size, (view point, position) 3개의 파라미터를 regress하기 위해 사용된다.

- Pose Estimator : 2D pose에서 3D pose를 추론하는 역할을 하며, 실험 전반에 걸쳐서 VideoPose3D의 single frame 버전을 기본 모델로 사용한다.

- 기존의 Pose estimator모델들에 비해 PoseAug를 적용한 모델의 에러가 줄어든 걸 확인할 수 있다.
직접 골프치는 사람의 포즈 사진에 논문을 적용해보신 결과를 보여주셨는데, 생각보다 잘 안됐다고 하셨지만 그래도 성능이 놀라웠다.
오늘도 멋진 분들에게 새로운 것들을 배울 수 있는 유익한 시간이었다. 아쉬운 것은, 내가 잘 모르는 것에 대해 질문하기가 어렵다는 것이다. 질의응답 시간에 소통은 발표에 대한 관심의 표현과 매너라고 생각하는데 앞으로 질의응답 시간에 유익한 질문도 할 수 있는 실력까지 키우고 싶다. 화이팅!