ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 노이즈 제거 확산 확률 모델(DDPM)
    카테고리 없음 2024. 1. 5. 22:30
    728x90
    반응형

    노이즈 제거 확산 모델은 반복적인 노이즈 제거 프로세스를 통해 노이즈로부터 이미지를 합성하는 생성적 AI 프레임워크입니다. 이는 분류자 지침 및 분류자 없는 지침을 포함하여 텍스트 또는 클래스 조건부 지침에 주로 기인하는 뛰어난 이미지 생성 기능과 다양성으로 유명합니다. 이러한 모델은 다양하고 고품질의 이미지를 만드는 데 특히 성공적이었습니다. 최근 연구에 따르면 수업 캡션 및 라벨과 같은 안내 기술이 이러한 모델이 생성하는 이미지의 품질을 향상시키는 데 중요한 역할을 하는 것으로 나타났습니다.

    그러나 확산 모델과 유도 방법은 특정 외부 조건에서 한계에 직면합니다. 라벨 삭제를 사용하는 CFG(Classifier-Free Guidance) 방법은 훈련 프로세스에 복잡성을 추가하는 반면, CG(Classifier Guidance) 방법은 추가 분류기 훈련이 필요합니다. 두 가지 방법 모두 힘들게 얻은 외부 조건에 의존하여 잠재력을 제한하고 조건부 설정으로 제한하므로 다소 제약이 있습니다.

    이러한 제한 사항을 해결하기 위해 개발자는 SAG(Self-Attention Guidance)라고 알려진 확산 지침에 대한 보다 일반적인 접근 방식을 공식화했습니다. 이 방법은 확산 모델의 중간 샘플 정보를 활용하여 이미지를 생성합니다. 이 기사에서는 SAG를 탐색하고 현재 최첨단 프레임워크 및 파이프라인과 비교하여 SAG의 작동 방식, 방법론 및 결과를 논의합니다.

    Self-Attention Guidance: 확산 모델의 샘플 품질 개선

    노이즈 제거 확산 모델(DDM)은 반복적인 노이즈 제거 프로세스를 통해 노이즈로부터 이미지를 생성하는 기능으로 인기를 얻었습니다. 이러한 모델의 이미지 합성 능력은 주로 사용된 확산 유도 방법에 기인합니다. 이러한 장점에도 불구하고 확산 모델과 안내 기반 방법은 복잡성 증가 및 계산 비용 증가와 같은 문제에 직면해 있습니다.

    현재의 한계를 극복하기 위해 개발자는 확산 지침의 외부 정보에 의존하지 않는 확산 지침의 보다 일반적인 공식화인 Self-Attention Guidance 방법을 도입하여 조건이 없고 유연한 지침 접근 방식을 촉진했습니다. 확산 프레임워크. Self-Attention Guidance가 선택한 접근 방식은 궁극적으로 외부 요구 사항이 있거나 없는 경우에 전통적인 확산 안내 방법의 적용 가능성을 향상시키는 데 도움이 됩니다. 

    Self-Attention Guidance는 일반화된 공식화의 간단한 원리를 기반으로 하며 중간 샘플에 포함된 내부 정보도 지침 역할을 할 수 있다는 가정을 기반으로 합니다. 이 원칙을 바탕으로 SAG 방법은 먼저 샘플 품질을 향상시키는 간단하고 직접적인 솔루션인 Blur Guidance를 도입합니다. 블러 안내는 가우시안 블러의 결과로 제거된 정보를 사용하여 중간 샘플을 안내함으로써 미세한 세부 사항을 자연스럽게 제거하기 위해 가우시안 블러의 양성 속성을 활용하는 것을 목표로 합니다. Blur 안내 방법은 적당한 안내 규모로 샘플 품질을 향상시키지만 전체 지역에 구조적 모호성을 초래하는 경우가 많기 때문에 대규모 안내 규모로 결과를 복제하는 데 실패합니다. 결과적으로 Blur 안내 방법은 원래 입력을 저하된 입력 예측과 정렬하는 것이 어렵다는 것을 알게 됩니다. 더 큰 지침 규모에서 Blur 지침 방법의 안정성과 효율성을 향상시키기 위해 Self-Attention Guidance는 최신 확산 모델이 이미 아키텍처 내에 self-attention 메커니즘을 포함하고 있으므로 확산 모델의 self-attention 메커니즘을 활용하려고 시도합니다. 

    핵심 정보를 포착하려면 self-attention이 필수적이라는 가정 하에 Self-Attention Guidance 방법은 확산 모델의 self-attention 맵을 사용하여 핵심 정보가 포함된 영역을 적대적으로 흐리게 하고 그 과정에서 확산 모델 필요한 잔여 정보가 포함되어 있습니다. 그런 다음 이 방법은 확산 모델의 역 프로세스 중에 주의 지도를 활용하여 이미지 품질을 높이고 자체 조절을 사용하여 추가 교육이나 외부 정보 없이 아티팩트를 줄입니다. 

    요약하면 Self-Attention Guidance 방법은

    1. 추가 교육이 필요하지 않거나 외부 조건에 의존하지 않고 생성된 샘플 이미지 품질을 향상시키기 위해 확산 프레임워크의 내부 self-attention 맵을 사용하는 새로운 접근 방식입니다. 
    2. SAG 방법은 조건부 지침 방법을 추가 자원이나 외부 조건 없이 모든 확산 모델과 통합할 수 있는 조건 없는 방법으로 일반화하여 지침 기반 프레임워크의 적용성을 향상시키려고 합니다. 
    3. SAG 방법은 또한 기존 조건부 방법 및 프레임워크와의 직교 능력을 입증하여 다른 방법 및 모델과의 유연한 통합을 촉진함으로써 성능 향상을 촉진합니다. 

    계속해서 Self-Attention Guidance 방법은 Denoising Diffusion Models, Sampling Guidance, Generative AI Self-Attention 방법 및 Diffusion Models의 내부 표현을 포함한 관련 프레임워크의 결과를 통해 학습합니다. 그러나 핵심적으로 Self-Attention Guidance 방법은 DDPM 또는 Denoising Diffusion Probabilistic Models, Classifier Guidance, Classifier-free Guidance 및 Self-Attention in Diffusion 프레임워크의 학습을 구현합니다. 다음 섹션에서 이에 대해 자세히 설명하겠습니다. 

    자기 주의 지침: 예비, 방법론 및 아키텍처

    노이즈 제거 확산 확률 모델(DDPM)

    DDPM 또는 잡음 제거 확산 확률 모델 백색 잡음으로부터 이미지를 복구하기 위해 반복적인 잡음 제거 프로세스를 사용하는 모델입니다. 전통적으로 DDPM 모델은 Markovian 프로세스로 알려진 순방향 프로세스를 사용하여 이미지를 얻기 위해 시간 단계에서 입력 이미지와 분산 일정을 수신합니다. 

    GAN 구현을 통한 분류자 및 분류자 없는 지침

    GAN 또는 Generative Adversarial Networks는 충실도를 위해 고유한 거래 다양성을 보유하고 있으며 GAN 프레임워크의 이러한 기능을 확산 모델에 적용하기 위해 Self-Attention Guidance 프레임워크는 추가 분류자를 사용하는 분류자 안내 방법을 사용할 것을 제안합니다. 반대로, 동일한 결과를 얻기 위해 추가 분류기를 사용하지 않고 분류기가 없는 안내 방법을 구현할 수도 있습니다. 이 방법은 원하는 결과를 제공하지만 추가 레이블이 필요하기 때문에 여전히 계산적으로 실행 가능하지 않으며 텍스트나 클래스와 같은 추가 조건과 복잡성을 가중시키는 추가 학습 세부 사항이 필요한 조건부 확산 모델로 프레임워크를 제한합니다. 모델. 

    확산 지침 일반화

    분류자 및 분류자 없는 안내 방법은 원하는 결과를 제공하고 확산 모델의 조건부 생성에 도움이 되지만 추가 입력에 따라 달라집니다. 특정 시간 단계에 대해 확산 모델의 입력은 일반화된 조건과 일반화된 조건이 없는 교란된 샘플로 구성됩니다. 더욱이, 일반화된 조건은 교란된 샘플 내의 내부 정보나 외부 조건, 또는 심지어 두 가지 모두를 포함합니다. 결과 지침은 일반화된 조건을 예측할 수 있다는 가정과 함께 가상 회귀 변수를 활용하여 공식화됩니다. 

    Self-Attention Map을 사용하여 이미지 품질 개선

    일반화된 확산 지침은 교란된 샘플에 포함된 일반화된 조건에서 중요한 정보를 추출하여 확산 모델의 역과정에 대한 지침을 제공하는 것이 가능함을 의미합니다. 이를 기반으로 Self-Attention Guidance 방법은 사전 학습된 확산 모델에서 배포 외 문제로 인해 발생하는 위험을 제한하면서 역 프로세스에 대한 주요 정보를 효과적으로 캡처합니다. 

    흐림 안내

    Self-Attention Guidance의 흐림 지침은 입력 신호가 가우시안 필터와 컨볼루션되어 출력을 생성하는 선형 필터링 방법인 가우시안 흐림을 기반으로 합니다. 표준 편차가 증가하면 Gaussian Blur는 입력 신호 내의 미세한 세부 사항을 줄이고 입력 신호를 상수 쪽으로 평탄화하여 국부적으로 구별할 수 없는 입력 신호를 생성합니다. 또한, 실험에 따르면 입력 신호와 출력 신호에 더 미세한 정보가 포함된 가우시안 블러 출력 신호 사이의 정보 불균형이 나타났습니다. 

    이러한 학습을 ​​기반으로 Self-Attention Guidance 프레임워크는 확산 프로세스 중에 중간 재구성에서 정보를 의도적으로 제외하는 기술인 Blur 지침을 도입하고 대신 이 정보를 사용하여 이미지의 관련성을 높이는 방향으로 예측을 안내합니다. 정보를 입력합니다. 블러 지침은 본질적으로 원래 예측이 흐릿한 입력 예측에서 더 많이 벗어나게 만듭니다. 또한 가우시안 블러의 온화한 특성은 출력 신호가 중간 정도의 편차로 원래 신호에서 크게 벗어나는 것을 방지합니다. 간단히 말해서, 이미지에서 자연스럽게 블러가 발생하므로 가우시안 블러가 사전 훈련된 확산 모델에 적용하기에 더 적합한 방법이 됩니다. 

    Self-Attention Guidance 파이프라인에서 입력 신호는 먼저 가우시안 필터를 사용하여 블러링된 다음 추가 노이즈로 확산되어 출력 신호를 생성합니다. 이를 통해 SAG 파이프라인은 가우시안 노이즈를 줄이는 결과적인 흐림의 부작용을 완화하고 지침이 무작위 노이즈에 의존하기보다는 콘텐츠에 의존하도록 만듭니다. 흐림 지침은 적당한 지침 규모의 프레임워크에서 만족스러운 결과를 제공하지만 다음 이미지에서 볼 수 있듯이 노이즈가 많은 결과를 생성하기 쉽기 때문에 지침 규모가 큰 기존 모델의 결과를 복제하지 못합니다. 

    이러한 결과는 전역 흐림으로 인해 프레임워크에 도입된 구조적 모호함으로 인해 SAG 파이프라인이 원래 입력의 예측을 저하된 입력과 정렬하기 어렵게 만들고 결과적으로 잡음이 많은 출력이 발생하기 때문일 수 있습니다. 

    셀프 어텐션 메커니즘

    앞서 언급했듯이 확산 모델에는 일반적으로 내장형 self-attention 구성 요소가 있으며 이는 확산 모델 프레임워크에서 가장 필수적인 구성 요소 중 하나입니다. Self-Attention 메커니즘은 확산 모델의 핵심에서 구현되며, 이를 통해 맨 윗줄에 고주파 마스크가 있는 다음 이미지에서 볼 수 있듯이 모델이 생성 프로세스 중에 입력의 중요한 부분에 주의를 기울일 수 있습니다. 최종 생성된 이미지의 맨 아래 행에 셀프 어텐션 마스크가 있습니다. 

    제안된 Self-Attention Guidance 방법은 동일한 원리를 기반으로 하며 확산 모델에서 self-attention 맵의 기능을 활용합니다. 전반적으로 Self-Attention Guidance 방식은 입력 신호의 self attention 패치를 흐리게 하거나 쉽게 말하면 확산 모델이 주의를 기울이는 패치 정보를 숨깁니다. 또한 Self-Attention Guidance의 출력 신호에는 입력 신호의 손상되지 않은 영역이 포함되어 있습니다. 즉, 입력의 구조적 모호성을 초래하지 않고 전역 흐림 문제를 해결합니다. 그런 다음 파이프라인은 GAP 또는 전역 평균 풀링을 수행하여 self-attention 맵을 차원으로 집계하고 가장 가까운 이웃을 업샘플링하여 입력 신호의 해상도와 일치시킴으로써 집계된 self-attention 맵을 얻습니다. 

    자기 주의 지침: 실험 및 결과

    성능을 평가하기 위해 Self-Attention Guidance 파이프라인은 8개의 Nvidia GeForce RTX 3090 GPU를 사용하여 샘플링되었으며 사전 훈련된 IDDPM, ADM 및 안정적인 확산 프레임워크

    Self-Attention Guidance를 통한 무조건적 생성

    무조건 모델에서 SAG 파이프라인의 효과를 측정하고 분류자 지침 및 분류자 자유 지침 접근 방식이 보유하지 않은 조건 없는 속성을 입증하기 위해 SAG 파이프라인은 50개 샘플에 대해 무조건 사전 훈련된 프레임워크에서 실행됩니다. 

    관찰할 수 있듯이 SAG 파이프라인을 구현하면 무조건 입력의 FID, sFID 및 IS 측정항목이 향상되는 동시에 재현율 값이 낮아집니다. 또한 SAG 파이프라인 구현에 따른 질적 향상은 다음 이미지에서 확연히 드러납니다. 위쪽 이미지는 ADM 및 Stable Diffusion 프레임워크의 결과이고 아래쪽 이미지는 ADM 및 Stable Diffusion 프레임워크의 결과입니다. SAG 파이프라인. 

    SAG를 사용한 조건부 생성

    기존 프레임워크에 SAG 파이프라인을 통합하면 무조건 생성에서 탁월한 결과를 얻을 수 있으며, SAG 파이프라인은 조건부 생성에도 SAG 파이프라인을 구현할 수 있도록 하는 조건 불가지성이 가능합니다. 

    Self-Attention Guidance를 통한 안정적인 확산

    원래 Stable Diffusion 프레임워크가 고품질 이미지를 생성하더라도 Stable Diffusion 프레임워크를 Self-Attention Guidance 파이프라인과 통합하면 결과가 크게 향상될 수 있습니다. 그 효과를 평가하기 위해 개발자는 각 이미지 쌍에 대해 무작위 시드가 있는 Stable Diffusion에 대한 빈 프롬프트를 사용하고 Self-Attention Guidance가 있거나 없는 500쌍의 이미지에 대해 사람의 평가를 사용합니다. 결과는 다음 이미지에 나와 있습니다.  

    또한, SAG 구현은 Classifier-Free Guidance와 Self-Attention Guidance를 융합하여 Stable Diffusion 모델의 범위를 텍스트-이미지 합성으로 확장할 수 있으므로 Stable Diffusion 프레임워크의 기능을 향상시킬 수 있습니다. 또한 Self-Attention Guidance를 사용하는 Stable Diffusion 모델에서 생성된 이미지는 다음 이미지에서 볼 수 있듯이 SAG 파이프라인의 자체 조절 효과 덕분에 아티팩트가 적고 품질이 높습니다. 

    현재 제한 사항

    Self-Attention Guidance 파이프라인을 구현하면 생성된 이미지의 품질이 크게 향상될 수 있지만 몇 가지 제한 사항이 있습니다. 

    주요 제한 사항 중 하나는 분류자 지침과 분류자 없는 지침의 직교성입니다. 다음 이미지에서 볼 수 있듯이 SAG를 구현하면 FID 점수와 예측 점수가 향상됩니다. 즉, SAG 파이프라인에는 기존 안내 방법과 동시에 사용할 수 있는 직교 구성 요소가 포함되어 있습니다. 

    그러나 여전히 복잡도와 계산 비용을 추가하는 특정 방식으로 확산 모델을 훈련해야 합니다. 

    또한 Self-Attention Guidance의 구현은 메모리나 시간 소비를 늘리지 않습니다. 이는 SAG의 마스킹 및 블러링과 같은 작업으로 인한 오버헤드가 무시할 수 있음을 나타냅니다. 그러나 지침이 없는 접근 방식과 비교할 때 추가 단계가 포함되므로 여전히 계산 비용이 추가됩니다. 

    최종 생각

    이 기사에서는 고품질 이미지를 생성하기 위해 확산 모델 내에서 사용 가능한 내부 정보를 활용하는 안내 방법의 새롭고 일반적인 공식화인 Self-Attention Guidance에 대해 설명했습니다. Self-Attention Guidance는 일반화된 공식화의 간단한 원리를 기반으로 하며 중간 샘플에 포함된 내부 정보도 지침 역할을 할 수 있다는 가정을 기반으로 합니다. Self-Attention Guidance 파이프라인은 다양한 확산 모델에서 구현할 수 있는 조건과 훈련이 필요 없는 접근 방식이며, 자체 조절을 사용하여 생성된 이미지의 아티팩트를 줄이고 전반적인 품질을 향상시킵니다. 

    반응형
Designed by Tistory.