Малюємо з ШІ: лафа для безталанних неуків?

4 Липня, 2023

Олівець або пензель – такими ми уявляємо необхідне приладдя, за допомогою якого митці народжуюсь неповторні полотна. Багато сучасних художників застосовуюсь графічні планшети, опановуючи техніку малювання за допомогою цього гаджета.
Як і в будь-якій справі, такі речі, як час, зусилля та талант приносять бажаний результат — досягнення професійного рівня. Але чи можливо, не використовуючи художнього приладдя та не витрачаючи багато часу на практику, створювати картини, наприклад, словом?

Коротка відповідь на це питання – так. Слово є потужним інструментом, який може створити картину високого художнього рівня, але є тонкощі.

По-перше, художній опис зазвичай викликає живі образи та емоції, а також залишає простір для їх уяви та інтерпретації.

По-друге, штучний інтелект навчився створювати зображення на основі тексту.

Поєднання штучного інтелекту та підготовленого людиною текстового опису відкриває нові можливості в створенні картин. Така взаємодія людини та машини схоже на діалог між замовником та митцем-виконавцем, хоча в цьому випадку, мабуть кращим буде порівняння, коли штучний інтелект виступає як співтворець, що перетворює слова на візуальні образи. Вона дозволяє поєднати силу слова з потужними обчислювальними можливостями штучного інтелекту, щоб створити нові, унікальні та вражаючі шедеври мистецтва.

На сьогоднішній день існують наступні алгоритми для створення зображень:

Stable Diffusion є алгоритмом, який використовує метод дифузії для генерації зображень. Він базується на розподіленій моделі генерації, де шумне зображення прогресивно згладжується, щоб отримати бажану кінцеву версію зображення. Такий підхід дає можливість контролювати якість зображення та збереження глобальної структури зображення.

Приклад створеного зображення Stable Diffusion 1.5 в стилі фотографія (була зроблена корекція контрасту в програмі FastStone Image Veiwer):

Приклад створеного зображення Stable Diffusion 2.1: в стилі фотографія:

Приклад створеного зображення наступною версією Stable Diffusion – SDXL BETA в стилі портрет:

Приклад створеного зображення наступною версією Stable Diffusion – SDXL BETA в стилі фотографія:

Вважається, що початківцем, який підтвердив можливість перетворення текстового опису в зображення, був алгоритм DALL-E розроблений компанією OpenAI. DALL-E 2 є наступною його версію. Він використовує глибокі нейронні мережі для створення зображень на основі тексту. Висока якість та деталізація зображення та широкий спектр концепцій найбільш притаманні для цього алгоритму.

Алгоритм CLIP-Guided Diffusion поєднує модель дифузії з використанням CLIP – моделі, розробленої OpenAI для зв”язку між текстом і зображеннями. Вона
використовує контекстуальне розуміння тексту та зображень, щоб керувати
процесом дифузії та генерації зображень. Сильні сторони – генерація зображень, які відповідають текстовим описам з високою точністю та контекстом, а також створення зображень з різними стилями, адаптуючись до різних текстових описів.

VQGAN+CLIP алгоритм є комбінацією моделі VQGAN і моделі CLIP. VQGAN
відповідає за генерацію зображень, використовуючи векторний квантувальний
кодер, а CLIP забезпечує розуміння тексту та зображень. Можливість створювати зображення, що відповідають текстовим описам з великою точністю та збереженням контексту, а також широкій набір стилів відрізняють його від інших.

Neural Style Transfer: Цей алгоритм базується на перенесенні стилю з одного зображення на інше. Він використовує нейромережі для аналізу стилю джерела та переносу цього стилю на цільове зображення. Це дозволяє створювати зображення, які поєднують стиль одного зображення з контентом іншого. Для цього алгоритму характерно створення художнього ефекту, можливість впливати на стиль та вигляд зображення.

Приклад створеного натюрморту в стилі голландського художника золотого століття Хармена Стенвика:

В інтернеті багато сервісів, які створюють зображення на основі тексту за допомогою штучного інтелекту. Зазвичай вони пропонують платні підписки та мають англомовний інтерфейс. Але деякі з них надають можливість безкоштовної генерації обмеженої кількості зображень щодня, що дозволяє користувачам експериментувати та спробувати функціонал платформи. Щодо англомовного інтерфейсу, наявність онлайн перекладачів спрощує взаємодію з такими сервісами для користувачів, які не достатньо володіють англійською мовою.

Важливо зазначити, що сервіси можуть пропонувати преміум-функціонал для отримання більш широких можливостей або вводити обмеження при безкоштовному доступі.
Перед використанням будь-якого сервісу варто ознайомитися з його умовами та
вибрати той, який найкраще відповідає вашим потребам.

За твердженням студії NightCafe (https://nightcafe.studio/), вона має найширший вибір алгоритмів для створення зображень, ніж інші подібні сервіси. Це дає можливість експериментувати з різними алгоритмами та стилями, щоб отримати найбільш бажаний результат. Важливо пам”ятати, що результати можуть змінюватися в залежності від обраних налаштувань, текстового опису та стилю.
Якщо перший результат не відповідає вашим очікуванням, раджу продовжувати
експериментувати і вдосконалювати співпрацю, вносячи зміни до текстового опису, вибору стилів та використовування різних алгоритмів. Не забувайте, що творчий процес може зайняти деякий час, але через кілька спроб ви зможете досягти найбажаніших результатів. Не зупиняйтесь. Розділ із зображеннями, створеними іншими користувачами в сервісі NightCafe надасть вам уявлення про те, які алгоритми, стилі та текстові описи добре співпрацюють для досягнення бажаних результатів. Вивчаючи досвід інших користувачів, ви можете зекономити час і визначити оптимальні комбінації алгоритмів та стилів, а також уточнити свій текстовий опис. Дивлячись на зображення, створені іншими користувачами, ви можете бачити, які результати можливі з різними поєднаннями. Не соромтеся досвіду інших користувачів, але не забувайте, що ваш власний творчий процес є унікальним.

Згенероване зображення на основі тексту – “Чи вміє слово салювати” (Can word draw)

Згенероване зображення на основі тексту – “Натюрморт, олійний живопис, свічка, відкрита стара рукописна книга, білий людський череп, голландський традиційний стиль, чітке темне тло, реалістичні світлові ефекти, приглушені кольори, домінуючий коричневий колір, композиція із золотим перерізом, гіпердеталізація” (fine-art oil painting of still life, candle, open old handwritten book, white human skull, Dutch tradition style, clear dark background, realistic light effects, muted colors, brown color dominating, golden ratio composition, hyper-detailed)

Згенероване зображення на основі тексту – “Маленький струмок, що протікає крізь чарівний осінній ліс із золотистими променями світла, що йдуть зверху” (Small brook flowing through a magic autumn time forest with golden rays of light coming from above)

Не треба забувати про те, що створення певних зображень може бути викликом для штучного інтелекту з таких причин:

Складна композиція: Зображення зі складними композиціями, наприклад, сюжетні сцени з багатьма елементами та перспективами, можуть бути викликом для штучного інтелекту. Він може мати труднощі у відтворенні глибини, пропорцій та взаємодії об”єктів.

Натуралістичний стиль: Відтворення натуралістичного стилю, де необхідно передати малюнок якомога більш точно, вимагає великої уваги до деталей, текстур, світла і тіней. Це може бути викликом для штучного інтелекту, оскільки він може мало уваги приділяти мікродеталям та відтворенню відтінків.

Емоційна виразність: Штучний інтелект може мати обмежені можливості передавати емоційну виразність, особливо в абстрактних або нестандартних художніх стилях. Він може пропустити нюанси, які важливі для передачі виразу та емоційної глибини.

Портрет молодої дівчини в білому платті в стилі італійського художника Сандро Боттічеллі:

Келих та пляшка чероного вина в стилі мінімалізму:

Який алгоритм намалює краще руку людини?

Створення реалістичного зображення руки людини є викликом для багатьох алгоритмів. Вибір найкращого алгоритму для навалювання руки людини залежить від ваших вимог до реалістичності, деталізації та особливостей руки, які ви хочете відтворити. Однак, серед алгоритмів, які можуть забезпечити добрі результати, можна розглянути наступні:

Завдяки своїй здатності до генерації реалістичних зображень на основі тексту,
DALL-E 2 може намалювати руки з високою якістю та деталізацією.

VQGAN+CLIP може створити зображення руки з урахуванням деталей та позиціонування. Він може дати реалістичні результати з високою якістю.

Застосовуючи GANs до створення рук, можна отримати зображення з реалістичними деталями, формою та жестами руки.

Свіжа риба в натюрморті, хто з моделей штучного інтелекту з чим впорається краще?

DALL-E 2: може намалювати деталізовану свіжу рибу з урахуванням текстового опису, включаючи форму, текстуру та кольори риби. Враховуючи свою здатність до генерації реалістичних зображень, DALL-E 2 може створити зображення свіжої риби з високою якістю та деталізацією.

VQGAN+CLIP Він може забезпечити добру деталізацію та реалістичність зображення, враховуючи особливості свіжої риби, такі як блиск, текстура та кольори.

GANs можуть бути навчені на великій кількості зображень свіжої риби, що дозволяє їм генерувати нові зображення з реалістичними деталями та атрибутами риби. Застосування GANs може забезпечити добрі результати для створення зображення свіжої риби в натюрморті.

Віталій Глущенко

Всі зображення в цьому матеріалі створені автором за допомогою ШІ, а для створення тексту статті використаний ChatGPT.