OpenAI의 DALL-E 2 AI는 일부 아티스트에게 나쁜 소식입니다.

2022/06/23

OpenAI의 DALL-E 2 는 인공 지능이 창의성의 영역에 절대 침투하지 않을 것이라고 생각했던 사람들에게 충격으로 다가왔습니다. 그러나 DALL-E 2는 아티스트를 바쁘게 유지하기 위해 여기에 있습니까?

DALL-E 2는 어떻게 작동합니까?

DALL-E 2는 너무 인상적이어서 거의 마술처럼 느껴지지만 어떻게 그렇게 놀랍고 생생한 이미지를 만드는지에 대한 일반적인 세부 사항은 이해하기 어렵지 않습니다.

DALL-E 2는 두 가지 주요 구성 요소로 구성됩니다. 첫 번째는 현재까지 가장 발전된 자연어 기계 학습 알고리즘인 GPT-3 입니다. DALL-E 2는 CLIP (Contrastive Language-Image Pre-training) 으로 알려진 또 다른 OpenAI 모델도 사용합니다 .

GPT-3 및 CLIP를 사용하면 컴퓨터가 복잡한 자연어를 이해하고 생성할 수 있습니다. 수십억 개의 이미지와 (대부분) 인터넷의 자연어 설명으로 DALL-E 신경망을 훈련함으로써 개념 간의 관계를 학습합니다.

어떤 면에서 DALL-E는 이미지를 제공하고 AI가 보이는 것을 설명하려고 하는 일반적인 기계 학습 방식의 반대입니다.

실리콘 밸리 TV 쇼 의 악명 높은 ” Not a Hot Dog ” 앱을 생각해 보십시오 . 여기서 차이점은 AI에게 이미지가 핫도그인지 여부를 묻는 대신 핫도그에 대해 설명하고 학습한 모든 것을 기반으로 완전히 독창적인 핫도그 이미지를 생성한다는 것입니다.

DALL-E의 두 번째 중요한 부분은 이미지를 생성하는 방법입니다. 그것은 “확산”으로 알려진 기술을 사용합니다. 특히, 생성된 이미지의 인간 언어 설명을 이해하면 GLIDE 라는 OpenAI 모델을 사용하여 이미지로 변환됩니다 . GLIDE는 무작위로 생성된 노이즈로 구성된 이미지를 촬영한 다음 자연어로 설명된 이미지와 일치할 때까지 해당 노이즈를 점진적으로 제거합니다. 마치 조각가가 한 조각의 대리석으로 시작하여 조각상만 남을 때까지 조각내어 조각내는 것과 같습니다.

DALL-E 2 내부에 대한 훨씬 더 기술적이고 자세한 설명을 보려면 AssemblyAI 딥 러닝 블로그 에서 DALL-E 2 설명을 적극 권장합니다 .

DALL-E 2가 혁신적인 이유

DALL-E 2는 이미지를 생성할 수 있는 최초의 기계 학습 소프트웨어와는 거리가 멉니다. 많은 이전 시스템이 있었고 DALL-E 2는 다른 프로젝트에서 배운 교훈을 기반으로 합니다. 그렇다면 이 시간이 분수령의 전환점처럼 느껴지는 이유는 무엇입니까?

한 가지 중요한 이유는 DALL-E와 DALL-E 2가 만드는 이미지가 미학적으로 보기 좋기 때문입니다. 다른 AI 이미징 시스템은 종종 사람들이 불안하거나 꿈에서 본 것과 같은 이미지를 생성합니다. 약간 Uncanny Valley와 비슷하지만 순수 예술입니다. DALL-E 2는 분명히 예술적인 눈이나 약간의 미적 감각이 있는 이미지를 만듭니다.

따라서 DALL-E 2가 만들어내는 이미지는 평생 미적 감각을 길러온 재능 있는 예술가나 사진작가의 이미지에 견줄만하다. 이런 사람이 DALL-E 2가 몇 초 만에 만들어낼 수 있는 이미지를 보고 관련성이 없어질 것 같은 느낌을 받는 것을 상상하는 것은 어렵지 않습니다.

이 시스템은 자연어 신호에서 몇 초 만에 아름다운 고해상도 이미지를 생성할 수 있을 뿐만 아니라 해당 이미지를 사용자 지정 및 편집하거나 기존 이미지의 여러 변형을 제공할 수도 있습니다(사용자가 제공한 이미지 포함). 이것은 예술가들이 이젤과 드로잉 태블릿을 포장하고 대신 ” 코딩을 배워야 ” 한다는 것을 의미합니까?

DALL-E 2는 아티스트가 사라지는 것이 아니라 변할 것임을 의미합니다.

OpenAI는 단순히 자신의 기술을 세상에 알리는 데 매우 신중했습니다. 남용의 여지가 분명히 많기 때문에 이것은 합리적입니다. 그러나 이제 그들이 할 수 있음을 보여주었으므로 상업적 또는 독립적인 AI 연구원이 DALL-E가 하는 일을 복제하고 모든 사람이 사용할 수 있게 하는 데 시간이 없을 것입니다. 머신 러닝 분야의 주요 업체에는 Google Imagen 과 같은 고성능 AI 아티스트도 있습니다 .

판도라의 상자는 닫을 수 없기 때문에 미술계가 돌이킬 수 없이 변한다는 사실을 받아들여야 하지만 그렇다고 예술가들이 사라진 것은 아니다.

그것을 보는 한 가지 방법은 이러한 종류의 기술을 통해 누구나 손에 예술을 만들 수 있다는 것입니다. 이제 강조점은 이미지를 생성하는 기술적인 능력에서 화면에서 보는 것이 생각했던 것과 일치할 때까지 비전을 정확하게 설명하고 반복하는 능력으로 옮겨가고 있습니다. 즉, 계산기의 존재로 인해 더 많은 사람들이 정확한 계산을 할 수 있게 된 것처럼, 더 많은 사람들이 이제 시각적으로 자신을 표현할 수 있게 될 것입니다.

특정 유형의 아티스트는 더 이상 실행 가능한 비즈니스 모델이 없을 수 있습니다. 수수료를 받고 수수료를 받고 있다면 고객의 설명에 따라 한 시간에 수백 개의 이미지를 만들고 해당 이미지를 거의 즉시 변경할 수 있는 프로그램과 경쟁하는 데 어려움을 겪을 것입니다. 대신 이러한 도구를 사용하여 자신의 비전을 실현한 다음 감정에 따라 고유한 이미지를 판매할 수 있습니다.

고객은 항상 옳다

궁극적으로 이러한 이미지는 인간이 소비하기 위해 생성된다는 점을 기억하는 것도 중요합니다. 우리 인간에게는 편리함과 기술적 우수성을 넘어선 고유한 가치가 있습니다. 생성된 예술이 풍부하여 상대적으로 저렴하고 일회용이 되는 세상에서는 단순히 인간이 만든 예술이 상대적으로 드물기 때문에 기꺼이 감상(그리고 구매)하려는 청중이 있을 것입니다.

다시 말해, DALL-E 2와 같은 소프트웨어는 조립 라인에서 예술로 생계를 유지하는 아티스트에게 종말을 고할 수 있지만, 할 말이 있고 독특한 시각적 정체성을 가진 아티스트의 전망을 꺾지는 않을 것입니다. 통해 말할 수 있습니다.

DALL-E 2는 어떻게 작동합니까?

DALL-E 2가 혁신적인 이유

DALL-E 2는 아티스트가 사라지는 것이 아니라 변할 것임을 의미합니다.

고객은 항상 옳다

답글 남기기 응답 취소