Netral Generasi Musik, Bisakah kita mereproduksi kreativitas seniman melalui Sunburst?

Sebuah aplikasi menarik dari muka baru-baru ini di AI adalah buatan Music Generation. Bisakah kita mereproduksi kreativitas seniman melalui AI? Bisakah model Deep Learning menjadi inspirasi atau alat produktivitas bagi musisi? Pertanyaan-pertanyaan itu membawa kita pada definisi kreativitas dan kegunaan alat-alat semacam itu di luar kepentingan penelitian mereka sendiri.

Tujuan Generasi Musik Buatan

Mensimulasikan kreativitas manusia

Tia gol pertama dari penelitian di daerah ini adalah untuk artifisial menghasilkan musik terdengar manusia atau artis terdengar musik yang lebih spesifik, seperti Mozart. Salah satu tantangan di sini adalah menghasilkan komposisi asli yang tetap menghormati aturan dan pola klasik yang Anda harapkan.

Mengembangkan alat untuk membantu seniman dalam kreasi mereka

Dapatkah AI digunakan untuk meningkatkan kreativitas seniman, meskipun inspirasi, tetapi juga dengan menyediakan alat untuk mengembangkan ide-ide mereka secara efisien? Kita telah melihat bagaimana munculnya perangkat lunak yang kuat untuk menggubah musik, seperti Ableton, telah membentuk ruang musik saat ini, lebih beragam dari sebelumnya. Sekarang, sampai sejauh mana AI akan memperluas tren ini?

Tantangan dengan Generasi Musik

dia generasi buatan musik menimbulkan banyak tantangan. Pertama-tama kita perlu memutuskan bagaimana menyandikan fitur musik yang berbeda. Maka, kita harus memastikan bahwa komposisi kita menghormati aturan musikal utama tentang struktur dan dinamika.

Dinamika
Warna nada
Granularity dan Temporal scope

Pendekatan canggih untuk Generasi Musik

beberapa potong penelitian yang dilakukan di daerah, itu tidak lengkap tetapi menyajikan beberapa pendekatan yang menarik untuk masalah ini.

Magenta - 2016

Proyek yang dikembangkan oleh Google Brain ini bertujuan untuk menciptakan alat baru bagi para seniman untuk digunakan ketika bekerja dan mengembangkan lagu-lagu baru. Mereka telah mengembangkan beberapa model untuk menghasilkan musik.

Pada akhir 2016, mereka menerbitkan model LSTM yang disesuaikan dengan Reinforcement Learning. Ide yang menarik adalah menggunakan Reinforcement Learning untuk mengajarkan model untuk mengikuti aturan tertentu, sambil tetap membiarkannya menyimpan informasi yang dipelajari dari data. [2]

Untuk itu, beberapa metrik didefinisikan: Pertama, metrik yang kami inginkan rendah, yang dikaitkan dengan penalti :

Catatan tidak ada di kunci
Mean autocorrelation (log1 - log2 - log3): tujuannya adalah untuk mendorong variasi, sehingga model tersebut dihukum jika komposisi sangat berkorelasi dengan dirinya sendiri.
Catatan berulang berulang: LSTM cenderung mengulangi pola yang sama, Reinforcement Learning digunakan di sini untuk membawa pendekatan yang lebih kreatif.

Lalu, metrik yang kita inginkan tinggi, terkait dengan hadiah :

Komposisi dimulai dengan nada tonik
Lompatan diselesaikan: kami ingin menghindari interval yang canggung, jadi ketika itu terlalu besar, kami bergerak kembali ke arah yang berlawanan. Dalam istilah RL: melompat dua kali ke arah yang sama dihargai secara negatif
Komposisi dengan max note unik atau min note unik
Catatan dalam motif: model dihargai untuk memainkan motif: serangkaian not mewakili "ide" musikal pendek

Metrik tersebut mendefinisikan semacam aturan teori musik . Tingkat peningkatan metrik ini ditentukan oleh tingkat penghargaan yang diberikan pada perilaku tertentu. Dengan cara ini, kami dapat memberikan lebih banyak penekanan pada beberapa metrik yang dianggap lebih penting. Sebagai contoh, di sini, penalti yang kuat diberikan setiap kali catatan diulangi secara berlebihan (-100), sedangkan hadiah yang jauh lebih kecil diberikan pada akhir komposisi untuk catatan ekstrem unik (+3). Pilihan metrik, serta bobot, menentukan bentuk musik yang ingin kita buat .

Baru-baru ini, tim Magenta telah menggunakan GAN dan Transformers untuk menghasilkan musik dengan struktur jangka panjang yang lebih baik.

Dalam model Transformers, perhatian diri relatif digunakan. Ini memodulasi perhatian, sesuai dengan seberapa jauh jarak token. Arsitektur ini membantu menangkap berbagai tingkatan di mana fenomena referensial diri ada dalam musik.

Model-model tersebut kemudian dimanfaatkan untuk membuat alat kreativitas yang dapat digunakan oleh seniman selama komposisi mereka. Ini adalah konsep Magenta Studio yang ditambahkan sebagai plugin ke Ableton Live.

MuseGAN - 2017

Dalam proyek ini, untuk mengatasi pengelompokan not, bar digunakan sebagai pengganti not sebagai unit komposisi dasar. Oleh karena itu, musik dihasilkan satu bar demi satu menggunakan CNN, yang baik untuk menemukan pola lokal, terjemahan invarian.

Pendekatan yang menarik dalam makalah ini adalah metrik evaluasi yang digunakan. Lima karakteristik utama yang kita inginkan untuk musik kita didefinisikan dan digunakan untuk melatih jaringan. Kemudian, kami mengevaluasi masing-masing dan menilai seberapa baik prediksi tersebut dilakukan:

Rasio bilah kosong
Jumlah kelas pitch yang digunakan per batch (dari 0 hingga 12)
Rasio "catatan yang memenuhi syarat". Di sini, catatan yang lebih panjang dari tiga langkah waktu dianggap memenuhi syarat. Catatan yang memenuhi syarat menunjukkan jika musik terlalu terfragmentasi.
Drum Pattern: Rasio not dalam pola beat 8 atau 16
Tonal Distance: mengukur keharmonisan antara sepasang trek. Jarak nada yang lebih besar menyiratkan hubungan harmonik antar lintasan yang lebih lemah.

Wavenet - 2016

Ini adalah contoh proyek yang menggunakan pengodean kontinu alih-alih pengodean terpisah. Model ini menghasilkan bentuk gelombang audio mentah . Oleh karena itu, ia dapat menghasilkan segala jenis suara, seperti suara manusia.

Modelnya adalah CNN, di mana lapisan konvolusional memiliki banyak faktor dilatasi dan prediksi hanya bergantung pada catatan waktu sebelumnya. Aplikasi termasuk generasi potongan piano dan generasi bicara.

MuseNet - 2019

Ini adalah model generasi musik OpenAI. Ini memanfaatkan keadaan seni arsitektur NLP - model transformator skala besar - untuk memprediksi token berikutnya secara berurutan. Itu dapat menggabungkan gaya dari komposer terkenal yang berbeda serta genre musik yang berbeda.

Pendekatan Maia untuk Generasi Musik

M aia adalah proyek penelitian saya dikembangkan di UC Berkeley, bersama dengan Edward T. dan Louis R., untuk memberikan salah satu solusi untuk tantangan yang luas ini.

Latar Belakang

Kami mulai dengan maksud menciptakan AI yang dapat menyelesaikan komposisi Mozart Lacrimosa yang belum selesai - urutan kedelapan Requiem - yang ditulis hanya sampai bar kedelapan pada saat kepergiannya.

Kami mendekati masalah ini dengan membingkai generasi musik sebagai masalah pemodelan bahasa. Idenya adalah untuk menyandikan file midi ke dalam kosa kata token dan memiliki jaringan saraf memprediksi token berikutnya secara berurutan dari ribuan file midi.

Pengkodean

Kami mengadopsi metode 'Notewise' [7] yang diusulkan oleh Christine Payne - staf teknis di OpenAI '- untuk menyandikan durasi, nada, dan dinamika setiap komposisi ke dalam urutan teks - menghasilkan ukuran kosakata 150 kata.

Selain itu, untuk menambah dataset kami, kami menggunakan modulasi untuk menduplikasi setiap bagian sebanyak dua belas kali - masing-masing, satu nada lebih rendah dari yang berikutnya.

Tokenisasi dan pengurutan

Kami mengeksplorasi token khusus ditambahkan ke masing-masing bagian sehingga urutannya akan berisi informasi tentang komposer, ketika musik dimulai dan kapan berakhir.

Kami juga mengeksplorasi tokenization ngram, yang memperlakukan string n "kata" berturut-turut sebagai token tunggal. Motivasinya adalah untuk melihat apakah kita bisa menangkap semantik kata majemuk, yang mewakili akor atau pola melodi yang sama. Akhirnya, kami masih terjebak dengan token unigram untuk model akhir kami, karena setiap urutan ngram yang lebih tinggi meningkatkan ukuran kosakata secara substansial dibandingkan dengan dataset kami.

Selanjutnya, data teks yang disandikan dikumpulkan ke dalam urutan 512 token untuk pelatihan. Alih-alih hanya memotong mereka menjadi urutan yang saling eksklusif, kami tumpang tindih urutan, yaitu setiap urutan berikutnya berbagi 50% tumpang tindih dengan urutan sebelumnya. Dengan cara ini, kami tidak akan kehilangan informasi kesinambungan pada titik-titik yang membagi urutan.

encoding ia dipilih menentukan ruang lingkup dan keterbatasan model yang Anda buat. Memilih representasi diskrit dengan file MIDI menyebabkan hilangnya informasi yang tak terhindarkan dari file audio kontinu asli.

Alternatifnya adalah bekerja dengan file suara secara langsung. Ini juga akan memungkinkan analisis kayu yang lebih baik. Penelitian terbaru telah mengembangkan model Deep Learning yang mentransfer timbre dari pelatihan yang ditetapkan ke ﬁ le input, sambil mempertahankan pitch-nya.

Selain itu, untuk mengatasi tantangan pola yang berulang melalui waktu, tetapi dalam versi yang diperpanjang atau dikompresi, perlu untuk melihat lembaran musik secara horizontal maupun vertikal - untuk memperhitungkan pola dan struktur lembaran musik yang lebih baik.

Lihat bagaimana model Machine Learning tersebut dapat digunakan untuk menciptakan pengalaman baru bagi para seniman dengan proyek Fruit Genie yang dikembangkan oleh tim Magenta dan The Flaming Lips:

Arlina Theme

Arlina Design merupakan sebuah blog pribadi tempat Saya berbagi mengenai tips seputar blogger dan template khusus blogger.

Mudah-mudahan kedepannya blog ini dapat memberikan kontribusi serta informasi bermanfaat bagi Anda semua. Terima kasih.