[논문정리] StyleGAN

Posted Feb 28, 2026 Updated Mar 1, 2026

By MinSeo Kim

14 min read

[논문정리] StyleGAN

Tero Karras, Samuli Laine, Timo Aila(2019).A Style-Based Generator Architecture for Generative Adversarial Networks.CVPR2019

1. Introduction

스타일 기반 생성기 구조를 통해 포즈 같은 고수준 속성, 잡티같은 무작위 요소를 자동으로 분리하여 생성 고정에 대한 직관적이고 정밀한 제어를 가능하게 한다. 이를 통해 더 정교하고 통제 가능한 고품질 이미지 생성 원리를 파악할 수 있다.

2. Style-based generator

기존 gan 한계를 극복하고 이미지 생성과정에 대한 정밀한 제어를 가능하게 한다.

기존 gan의 문제점:
생성기는 블랙박스처럼 작동하여 이미지 합성 과저에 대한 이해가 부족하다.
잠재 공간의 속성이 잘 이해되지 않는다
일반적인 잠재 공간 interpolation은 정량적인 비교 방법을 제공하지 않는다

그렇다면 정량적인 비교 방법은? 어떤 부분에서 정량적이지 않은 것인지

스타일 기반 생성기의 목표:
고수준의 속성과 무작위 변동을 자동으로 분리한다
스케일별 혼합 및 보간을 직관적으로 제어할 수 있게 한다

중간 잠재 공간의 역할:
입력 잠재 코드z를 중간 잠재 공간으로 임베딩 한다

중간 잠재 공간은 훈련 데이터의 확률 밀도를 따를 필요가 없어 entanglement가 덜하다
이는 스케일별 제어 강도를 직접적으로 조절한다

새로운 방법론:
기존의 잠재 공간 분리 정도 측정 방법은 직접 적용하기 어렵다
Perceptual Path Length와 선형 분리 가능성이라는 두 가지 새로운 자동화된 측정 방법을 제안한다. 새로운 방법론이 기존 방식보다 더 선형적이고 덜 얽힌 표현을 가진다.

Perceptual Path Length
잠재 공간에서 이미지를 만들 때 얼마나 부드럽게 변화하는지를 측정하는 방법. 잠재 공간에서 두 지점 사이를 이동할 때 이미지의 변화가 얼마나 자연스러운지를 본다. 값이 낮을수록 좋다

스타일 기반 생성기 구조

입력 레이어를 제거하고 잠재 코드를 중간 공간으로 매핑한 후 각 합성 레이어에서 스타일을 통해 제어한다.

기존 생성기는 잠재 코드를 입력 레이어를 통해 전달한다. 제안된 방법은 입력 레이어를 생략하고 학습된 상수 입력에서 시작한다.

잠재 코드는 중간 잠재 공간 w으로 매핑된다. 이 W는 합성 네트워크의 각 컨볼루션 레이어에서 스타일을 제어한다. 스타일은 각 스케일에서 특징의 강도를 직접적으로 제어한다.

매핑 네트워크(f):
8개의 레이어로 구성된다. $z \in Z$를 $w \in W$로 변환한다.

합성 네트워크:
18개의 레이어로 구성된다. 4X4에서 1024x1024까지 해상도를 높인다

Adaptive Instance Normalization(ADaIN):
각 컨볼루션 레이어의 출력에 스타일 y를 적용하여 정규화하고 스케일 및 바이어스를 적용한다. 낮은 해상도 층에서 주입된 스타일은 얼굴 방향이나 형태 같은 거시적인 특징을 결정하고 높은 해상도 층에 주입된 스타일은 색감이나 미세한 조명 같은 세부적인 특징을 결정한다.
$\text{AdaIN}(x_i, y) = y_b + y_s \frac{x_i - \mu(x_i)}{\sigma(x_i)}$

노이즈 입력:
각 레이어에 가우시안 노이즈를 주입하여 무작위 세부사항 생성을 돕는다. 노이즈는 각 특징 맵에 동일하게 적용된다

2.1. Quality of generated images

스타일 기반 설계는 이미지 품질을 크게 향상시키며 ffhq데이터셋에서 기존 방식 대비 fid점수를 크게 개선한다.

스타일 기반 생성기는 전통적인 생성기 대비 FID를 대략 20% 향상시킨다.

트리밍 기법(trancation):
생성된 이미지의 품질을 보장하기 위해 샘풀링 범위를 평균 스타일 근처로 강제로 모으는 기술이다.
트리밍 트릭을 사용하여 극단적인 W영역 샘플링을 피할 수 있다. 이는 고해상도 세부 사항에 영향을 주지 않도록 낮은 해상도에만 선택적으로 적용할 수 있다.
논문에서 모든 FID는 트리밍 트릭 없이 계산되었으며 시각 자료에만 사용되었다.

2.2. Prior art

3. Properties of the style-based generator

스타일 기반 아키텍처는 스타일 제어를 통해 이미지 합성의 localization 제어를 가능하게 한다. 노이즈 주입은 무작위 세부사항을 담당한다.

3.1. Style mixing

style localization:
AdaIN의 정규화 단계 때문에 특정 스타일은 해당 스타일이 적용된 다음 컨볼루션 레이어까지만 영향을 미치고 다음 AdaIn에 의해 덮어씌워진ㄷ.

믹싱 normalization:
훈련 중 일정 비율의 이미지를 두 개의 무작위 latent 코드로 생성하여 스타일을 혼합한다.
합성 네트워크의 특정 지점에서 한 잠재 코드에서 다른 코드로 스타일 제어를 전환한다.
인접 스타일 간의 상관관계를 방지한다.

가장 거친 스타일(4x4-8x8)을 복사하면 포즈, 얼굴모양, 안경 같은 고수준 측면이 변경된다.
중간 해상도 스타일(16x16-32-32) 을 복사하면 작은 규모의 얼굴 특징 머리 모양 드이 변경된다.
가장 세밀한 스타일(64x64-1024x1024) 을 복사하면 주로 색구성표와 미세 구조가 변경된다.

3.2. Stochastic variation

명시적인 노이즈 입력은 머리카락 배치, 주근깨 등 무작위적인 세부 사항을 제어하는데 사용되며 정체성이나 포즈 같은 전역적 측면에는 영향을 주지 않는다.

거친 노이즈는 머리카락의 큰 덩어리나 배경 특징을 유발하고 미세 노이즈는 머리카락의 작은 컬, 피부 모공 같은 미세한 디테일을 만든다. 노이즈는 각 픽셀에 독립적으로 추가되어 무작위성을 제어한다.

3.3. Separation of global effects from stochasticity

스타일은 전역적 일관성을 유지하며 포즈나 조명 같은 전역적 속성을 제어하고
노이즈는 픽셀별로 독립적으로 추가되어 무작위 세부사항을 제어한다.

스타일은 공간적으로 불변적인 통계를 인코딩하여 포즈,조명, 배경 스타일 같은 전역적 효과를 일관되게 제어한다.
AdaIN에서 전체 특징 맵에 동일한 스케일 편향 값이 적용되기 때문이다.

채널 하나에 속한 모든 픽셀(위치)에 똑같은 스타일 값을 곱하고 더해준다. AdaIN은 스타일을 입힌다. 동일한 값을 적용하면 이미지의 구조와 스타일을 분리하기 쉬워진다.

노이즈는 각 픽셀에 독립적으로 추가되어 무작위 변동에 이상적으로 적합하다. 네트워크가 노이즈로 포즈를 제어하려 하면 공간적으로 일관성 없는 결정으로 인해 판별자에게 불이익을 받는다.

4. Disentanglement studies

중간 잠재 공간 W는 Z공간보다 더 선형적이고 얽힘이 적은 표현을 학습하며 새로운 측정 방법으로 정량화된다.

4.1. Perceptual path length

잠재 공간 보간 시 이미지의 지각적 변화 정도를 측정하여 잠재 공간의 비선형성(얽힘)을 정량화한다.

PPL의 필요성:
잠재 공간 보간 시 이미지에 비선형적인 변화가 생기는 것은 잠재 공간이 얽혀 있음을 의미한다.
less curved 잠재 공간이 더 부드러운 시각적 전환을 가져와야한다.

perception기반 이미지 거리(d)를 VGG16 임베딩의 가중 차이로 사용한다.
보간 경로를 선형 세그먼트로 나누고 각 세그먼트의 지각적 차이 합을 총 지각 거리 경로 길이로 정의한다.

스타일 기반 생성기(F)는 노이즈 입력이 있을때 PPL이 전통적인 생성기보다 훨씬 짧다. W공간에서의 PPL은 Z공간에서의 PPL보다 일관되게 짧다. 매핑 네트워크를 추가하면 PPL이 개선된다.

4.2. Linear separability

선형 분리 가능성은 잠재 공간에서 특정 이진 속성을 선형 초평면으로 얼마나 잘분리할 수 있는지 층정하여 분리 정도를 정량화한다.

분리된 latent space에서는 단일 변동 요소를 제어하는 방향 벡터를 찾을 수 있어야한다. 이진 속성에 대해 잠재 공간 포인트를 두 집합으로 나누는 선형 초평면을 찾는 것으로 측정한다.

W공간은 Z공간보다 훨씬 분리가 잘된다. 전통적인 생성기도 W공간을 도입하면 Z공간보다 분리 가능성이 크게 향상된다. 매핑 네트워크 깊이가 증가할수록 W공간의 분리 가능성이 향상된다.

5. Conclusion

전통적인 GAN 생성기 구조는 스타일 기반 설계에 비해 모든 면에서 뒤쳐진다. 중간 잠재 공간 분리 연구는 GAN합성 이해, 제어에 유용하다. 중간 잠재 공간 W를 도입하는 것만으로도 전통적인 생성기의 성능이 향상된다.

향후 연구 방향:
제안된 PPL측정법을 훈련 중 정규화 기법으로 활용할 수 있다.
선형 분리 가능성 측정법의 변형도 정규화에 사용할 수 있다.
훈련 중 중간 잠재 공간을 직접 조작하는 방법이 흥미로운 연구 분야가 될 것이다.

MyStudy

AI GAN StyleGAN

This post is licensed under CC BY 4.0 by the author.