Mata manusia selalu butuh sesuatu yang menyenangkan, menyentuh, memukau bahkan juga mampu membuat merinding. Ada pembangkitan emosi ketika melihat visualisasi rupa atau bentuk dalam dua dimensi. Jika dahulu hal itu dilakukan dalam proses menggambar sketsa, melukis dan aktivitas manusia secara manual, maka kini dapat dilakukan dengan bantuan Artificial Intelligence atau AI. Jika dulu kebutuhan tersebut dapat sampai pada hasil akhir berupa karya seni, maka kini bisa juga dilakukan dalam konteks fungsional seperti bahan iklan, promosi, kampanye di ruang market bisnis bahkan politik. SIngkatnya, AI membantu untuk dapat mengubah rangkaian kata atau teks sebagai command dalam bentuk prompt untuk menjadi rupa visual yang diinginkan. Fiturnya pun beragam mulai dari format, karakteristik, gaya, hingga hasil akhir yang diinginkan.
Hingga kini ada banyak engine berbasis Large Language Model (LLM) yang digunakan oleh AI untuk pembuatan visual. LLM adalah model pembelajaran mendalam yang sangat besar yang telah dilatih sebelumnya pada sejumlah besar data. Transformator yang mendasarinya adalah sekumpulan jaringan saraf yang terdiri dari encoder dan decoder dengan kemampuan perhatian mandiri. Dengan kata lain, semakin banyak data yang dikumpulkan yang sebagian merupakan feedback si pembuat prompt, maka kemampuan engine juga dapat ditingkatkan.
“Artificial intelligence will reach human levels by around 2029. Follow that out further to, say, 2045, we will have multiplied the intelligence, the human biological machine intelligence of our civilization a billion-fold.” ~Ray Kurzweil
Salah satu yang terpopuler adalah Microsoft Copilot, Designer atau Bing Image. Banyak nama memang. Ini disukai karena gratis. Itu juga karena engine yang digunakan adalah DALL E3 yang hasilnya sangat baik. BIng juga memberi 15 poin untuk mempercepat proses. Jika poin habis, masih bisa digunakan meski menunggu agak lama. Apalagi jika prompt yang dimasukkan bersifat kompleks. Hanya saja format gambar yang disediakan hanya 1:1. Selain itu, Bing sangat rewel terhadap diksi yang dianggap melanggar aturan seperti berbau kekerasan atau seksual. Bahkan jika si pembuat memaksa, bisa juga kena banned.
Ada juga ChatGPT4 yang juga menggunakan DALL E3. Bedanya, format bisa diatur sesuka mungkin, jarang ada penolakan jika disiasati dengan baik. Kualitas yang dihasilkan bisa jauh lebih bagus dari Bing meski bermesin sama. Selain itu, baik Bing maupun ChatGPT4 bisa memproduksi satu hingga gambar dalam permintaan. Hanya saja fitur membuat gambar beragam ukuran ini, cuma ada di ChatGPT4 yang memang berbayar USD20 per bulan ketimbang ChatGPT3,5 gratisan.
Kini Google Gemini pun muncul sebagai tandingan. Sebagai pencari data dan konsultasi teks, jelas Google tidak ada tandingannya. Cuma sayangnya dalam membuat imaji, masih menggunakan engine Transformator yang setara dengan DALL E2. Jadi kualitasnya masih dibawah Bing dan ChatGpt4. Masih bergaya animasi dan belum terlalu realistis. Meski ada juga Gemini Advanced yang berbayar, namun itu hanya menawarkan Gemini Ultra 1.0 yang versi awal dan dukungan penyimpanan 2Tb. Tergolong relatif kecil sebenarnya dibandingkan kebutuhan disain grafis zaman sekarang.
Butuh yang lebih canggih? Ada Midjourney v6 yang banyak digunakan ilustrator. Hasilnya sangat artistik meski terkesan soft. Meski sanggup memenuhi permintaan beraneka rupa, namun versi trial-nya sudah dihilangkan sejak tahun lalu. Berlangganan standar sekitar USD24 per bulan. Mesin ini sangat direkomendasikan buat mereka yang memang profesional dalam ilustrasi, ketimbang cuma buat senang-senang. Rugi buang duit, katanya.
Jika masih mau senang-senang, masih banyak AI lain yang menawarkan alternatif berbeda seperti uncensored, adult version atau sejenisnya. Tiada batas larangan etis lah pokoknya. Tapi engine yang digunakan juga tidak secanggih DALL E3 yang memang lagi naik daun saat ini. Hasil yang diberikan jauh dari kata standar estetika, kreativitas dan detail. Padahal dua unsur terakhir itu umumnya menjadi standar dialog tak terlihat antara mesin dengan manusia sebagai pengguna. Maka beberapa engine semacam itu membuat fitur untuk unggah foto/gambar sebagai referensi yang diinginkan. Hal serupa bisa saja dilakukan dengan DALL E3, namun sangat jarang dilakukan.
Jadi secara positif mesin AI mampu mewujudkan imaji seperti yang diinginkan, tanpa seseorang harus menjadi artis atau seniman. Tinggal persoalan selera dan keindahan yang dihasilkan dalam proses pembelajaran selama menggunakan prompt. Ini jelas sangat menganggu mereka yang entah karena merasa gaptek, terancam atau masih berpandangan konvensional soal kemampuan dan profesionalisme yang harus berbanding lurus. Padahal di era pascadigitalisme sekarang, bukankah semua orang berhak untuk mengeksplorasi kapasitas, minat dan gagasan dalam dirinya masing-masing dalam ruang dan waktu yang kian terbatas? Coba pikirin.