17 December 2022

by Daniel Hamiaz

Riffusion: Teknologi AI yang Mampu Menggubah Musik dari Rangkaian Kata

Dengan memasukkan kata-kata yang valid, Riffusion mampu menghasilkan klip suara tanpa batas

Dalam beberapa waktu terakhir, teknologi kecerdasan buatan sempat membuat heboh internet. Pasalnya, kini komputer sekalipun mampu melukis sebuah pemandangan yang indah, hanya dengan bermodalkan kata-kata atau gambar sederhana.

Padahal untuk menghasilkan gambar atau desain yang memukau, dibutuhkan proses belajar yang panjang dan juga kepiawaian desainer/seniman dalam menggambar dan mendesain. Hal tersebut akan menjadi tantangan baru untuk para pekerja seni di era modern seperti sekarang ini.

Kini, inovasi lain dari teknologi artificial intelligence mulai melebar ke dunia musik. Perkenalkan Riffusion, sebuah teknologi kecerdasan buatan yang mampu menyusun musik berdasarkan deskripsi teks yang diberikan. Anda bisa mencobanya langsung di sini.

Karena mungkin masih berada pada tahap pengembangan, musik yang dihasilkan Riffusion tidak sekompleks yang dibayangkan. Genre musik yang dihasilkan juga sepertinya masih terbatas pada genre-genre populer, seperti jazz, rock, pop, dan lain sebagainya. Genre-genre yang lebih lokal, seperti dangdut, keroncong, atau koplo, mungkin masih membutuhkan waktu, namun tidak menutup kemungkinan akan dikelola juga.

Deskripsi yang dimasukkan juga sebenarnya tidak sebatas genre saja, namun juga bisa diisikan dengan berbagai macam kombinasi kata, contohnya seperti "clarinet with maracas", "post-teen pop talent show winner", "west coast rap" dan lainnya.

Tentunya, sound clip yang dihasilkan masih sedikit monoton dan berulang-ulang, namun setidaknya AI ini bisa membuktikan konsep yang mereka miliki. Pengembang Riffusion menjelaskan bahwa Riffusion akan mengolah sebuah input yang dikenal dengan istilah spektrogram.

Spectrogram, via: Riffusion

Ketika Anda mencoba AI ini di situs mereka, akan tampak sebuah visualisasi berupa garis-garis yang akan berjalan naik di bagian kiri, ketika musik sedang diputar. Itulah spektrogram yang dimaksud.

Jika diuraikan, spektrogram memiliki tiga elemen, yakni sumbu X yang akan merekam satuan waktu (dalam detik), sumbu Y untuk frekuensi (dalam Hz), dan warna yang merepresentasikan amplitudo (dalam dB). Proses mengubah spektrogram menjadi suara ini disebut dengan Short-time Fourier Transform atau STFT.

Riffusion merupakan teknologi AI yang bersifat open-source, sehingga semua kode dan aksesnya bisa didapatkan dan dikembangkan secara bersama dan cuma-cuma. Untuk lebih detailnya, Anda bisa cek di sini.