Baru-baru ini terdapat sebuah model AI terbaru yang telah di luncurkan tahun 2024 oleh OpenAI bernama Sora yang dapat membuat sebuah video dalam durasi satu menit dengan menggunakan perintah text. Sora berasal dari bahasa jepang yang berarti “langit”, dimana tidak akan bisa di gunakan oleh masyarakat umum dalam waktu dekat. Sebaliknya, OpenAI menyediakan akses bagi seklompok akademisi dan para peniliti yang akan menilai bahaya dan potensi penyalahgunaan dalam video yang di buat oleh Sora tersebut.
OpenAI mengatakan bahwa model ini bekerja berkat “pemahaman mendalam tentang bahasa,” agar hasil dari penafsiran permintaan teks lebih akurat. Namun, seperti pada umunya generator gambar dan video AI dari Sora tidaklah terlalu sempurna. OpenAI juga memperingatkan bahwa model ini dapat kesulitan memahami sebab dan akibat — ia dapat menghasilkan video seseorang yang sedang makan kue, misalnya, tetapi kuenya mungkin tidak memiliki bekas gigitan.
Sora bukanlah model teks-ke-video pertama. Perusahaan lain termasuk Meta, Google, dan Runway, telah menggoda alat teks-ke-video atau membuatnya tersedia untuk publik. Namun, tidak ada alat lain yang saat ini mampu menghasilkan video sepanjang 60 detik. Sora juga menghasilkan video lengkap sekaligus, bukan dengan menyusunnya secara frame-by-frame seperti model lain, yang memastikan bahwa subjek dalam video tetap sama bahkan ketika mereka keluar dari pandangan sementara.
Sora, diklaim memiliki kemampuan untuk menafsirkan teks panjang dengan baik, bahkan contoh tertentu berjumlah 135 kata. Video contoh yang dibagikan oleh OpenAI menunjukkan bahwa Sora mampu menciptakan berbagai karakter dan adegan yang kompleks, dari manusia, hewan, monster berbulu hingga pemandangan kota, taman zen, dan bahkan New York City yang tenggelam di bawah air. Ini berkat sebagian pada karya masa lalu OpenAI dengan model Dall-E dan GPT-nya. Model AI terbaru OpenAI, GPT-4 Turbo, juga telah diperkenalkan pada November. Sora juga meminjam teknik recaptioning dari Dall-E 3, yang diklaim menghasilkan “deskripsi yang sangat deskriptif untuk data pelatihan visual.” Sora dianggap mampu menghasilkan adegan yang kompleks dengan karakter multiple, jenis gerakan yang spesifik, dan detail yang akurat dari subjek dan latar belakang, serta mampu memahami konteks fisiknya. Model ini juga dapat menghasilkan video dari gambar diam dan memperpanjang video yang ada atau mengisi bingkai yang hilang. OpenAI percaya bahwa Sora dapat menjadi dasar bagi model-model yang mampu memahami dan mensimulasikan dunia nyata, menuju pencapaian kecerdasan buatan umum.
OpenAI mengakui bahwa Sora memiliki kelemahan, seperti kesulitan dalam menggambarkan fisika dari adegan yang kompleks dan memahami sebab akibat. Sebagai contoh, dalam satu kasus, seseorang menggigit kue, tetapi kemudian kue tersebut tidak memiliki bekas gigitan. Selain itu, Sora juga bingung membedakan kiri dan kanan. Meskipun demikian, OpenAI belum membagikan kapan Sora akan tersedia secara luas, tetapi mencatat bahwa mereka ingin mengambil “beberapa langkah penting keamanan” terlebih dahulu, termasuk memenuhi standar keamanan yang ada yang melarang konten kekerasan ekstrem, konten seksual, gambar yang membenci, kemiripan selebriti, dan hak kekayaan intelektual orang lain. Meskipun telah melakukan penelitian dan pengujian yang luas, OpenAI menyadari bahwa mereka tidak dapat memprediksi semua cara yang menguntungkan orang akan menggunakan teknologi mereka, maupun semua cara orang akan menyalahgunakannya. Oleh karena itu, mereka percaya bahwa belajar dari penggunaan dunia nyata merupakan komponen kritis dalam menciptakan dan merilis sistem kecerdasan buatan yang semakin aman dari waktu ke waktu.
Munculnya alat teks-ke-video telah menimbulkan kekhawatiran atas potensi mereka untuk lebih mudah menciptakan rekaman palsu yang tampak realistis. “Saya benar-benar ketakutan bahwa hal semacam ini akan mempengaruhi pemilihan yang sangat ketat,” kata Oren Etzioni, seorang profesor di Universitas Washington yang mengkhususkan diri dalam kecerdasan buatan, dan pendiri True Media, sebuah organisasi yang berusaha mengidentifikasi disinformasi dalam kampanye politik, kepada The New York Times. Dan kecerdasan buatan generatif secara lebih luas telah menimbulkan kecaman dari seniman dan profesional kreatif yang khawatir tentang teknologi ini digunakan untuk menggantikan pekerjaan.
Dengan demikian, meskipun terdapat potensi positif dalam pengembangan model seperti Sora, penting untuk mempertimbangkan implikasi etis dan sosialnya serta mengambil langkah-langkah untuk memitigasi risiko penyalahgunaan dan dampak negatif yang mungkin timbul.