Artificial.Intelligence

[AI-11] 유에서 무로, 다시 유로 : Diffusion Model

De-v-signer 2024. 11. 7. 23:33

확산(Diffusion)이란, 자연 현상에서 무언가 다른 두 물질이 만나 서로 동화되며 섞여가는 과정을 의미한다. 이 때 원래 각각의 물질로서 높은 순도를 가지고 있던 두 물질은 순도가 낮아지고 동화된다. 예를 들어 커피에 우유를 섞으면 처음에는 각각 높은 순도의 커피와 우유였던 두 물질이 점차 서로에게 동화되며 커피와 우유로서의 순도는 낮아지게 된다. 커피가 우유로, 우유가 커피로 확산되면서 높은 엔트로피에서 낮은 엔트로피로 흐르는 것이다.

인공지능에서 말하는 '확산 모델'도 이러한 과학에서의 확산 개념과 무관하지 않은데, 학습 과정에서 마치 확산을 시키듯 데이터를 자연 속에 확산시키면 잘 정돈되어있던(High Entrophy) 생성물의 순도는 낮아지게 될 것(Low Entrophy)이다. 즉, 풍화나 열화 작용과 유사하게 완성품을 일부러 망가뜨리는 것이다.

Diffusion Model Processes (https://cvpr2022-tutorial-diffusion-models.github.io/ )

이렇게 망가뜨리는 과정을 확산 모델에서는 전진(forward process)이라고 하는데, 데이터를 열화시키는 과정을 의미한다. 마치 물질이 풍화하듯이 이미지를 구성하는 화소(pixel)들을 일정한 규칙으로 열화시키면 궁극적으로는 완전히 균등하게 분포된 순수한 노이즈(noise)의 상태로 변한다. 이는 마치 무(無)의 상태와 유사하다. 아무런 의미를 가지지 않는 어떤 원자나 분자의 상태와 유사하며, 형태로서의 최소한의 맥락조차 없는 상태이다.

그런데 그 노이즈에 열화의 과정에서 적용된 규칙을 반대로 적용하면 다시 형태를 갖추게 된다. 이를 후진(reverse process)이라고 하는데, 시간을 거슬러 다시 원래의 배치로 재구성해가는 과정을 통해 아무 의미도 없던 무의 상태에서 의미있는 결과물이 생성되게 된다.

즉, 확산 모델에서의 생성이란 노이즈에서 원하는 이미지를 복원시키는 것과 유사하며, 모델은 다양한 노이즈를 가진 이미지들과 그 노이즈 정도에 따른 열화 규칙, 그리고 복원 규칙들을 학습하는 과정에서 실제 노이즈와 예측한 노이즈 정도가 높은 일치를 보이는 방향으로 학습을 진행한다. 이 예측의 정확도가 높다는 것은 모델이 노이즈의 규칙과 복원의 규칙을 이해했다는 의미이며, 이 복원의 규칙이란 결국 '생성'의 규칙과도 같다.

 

확산모델의 대표주자인 Stable Diffusion, DallE, Midjourney 등과 같이 확산모델은 주로 이미지 생성형 인공지능에서 두각을 보이는데, 인간은 이미지를 직관적이고 동시적으로 이해하여 시각 정보를 덩어리 짓고 의미를 담아 처리할 수 있지만, 기계에게 이미지는 화소의 나열에 불과하므로 직관적인 이해도 어렵고 순차적으로 처리되어 첫 화소부터 마지막 화소까지 전부 분석되어야 하며, 이를 조합하여 처리하기도 어렵다. 확산 모델은 이러한 기계의 태생적 문제를 아예 인간의 방식과는 다른 접근을 통해 해결하는 방법으로 보이며, 그래서 이미지 처리 분야에서 독보적인 모습을 보이는 것으로 보인다. 

 

반응형