本文會用 TensorFlow 來寫一個音樂生成器。
當你對一個機器人說: 我想要一種能夠表達出希望和奇跡的歌曲時,發生了什么呢?
DeepMind 發表了一篇論文,叫做WaveNet, 這篇論文介紹了音樂生成和文字轉語音的藝術。
他們用的模型是 CNN。這個模型的每一個隱藏層中,每個擴張因子,可以互聯,并呈指數型的增長。每一步生成的樣本,都會被重新投入網絡中,并且用于產生下一步。
接著我們對它進行編碼,來產生一個 Tensor,這個 Tensor 有一些 sample 和 channel。然后把它投入到 CNN 網絡的第一層中。這一層會產生 channel 的數量,為了進行更簡單地處理。然后把所有輸出的結果組合在一起,并且增加它的維度。再把維度增加到原來的 channel 的數量。把這個結果投入到損失函數中,來衡量我們的模型訓練的如何。最后,這個結果會被再次投入到網絡中,來生成下一個時間點所需要的音波數據。重復這個過程就可以生成更多的語音。這個網絡很大,在他們的 GPU 集群上需要花費九十分鐘,并且僅僅只能生成一秒的音頻。
接下來我們會用一個更簡單的模型在 TensorFlow 上來實現一個音頻生成器。
數據科學包 Numpy ,數據分析包 Pandas,tqdm 可以生成一個進度條,顯示訓練時的進度。
import numpy as np
import pandas as pd
import msgpack
import glob
import tensorflow as tf
from tensorflow.python.ops import control_flow_ops
from tqdm import tqdm
import midi_manipulation
我們會用到一種神經網絡的模型 RBM-Restricted Boltzmann Machine 作為生成模型。
先定義需要模型生成的 note 的 range
lowest_note = midi_manipulation.lowerBound #the index of the lowest note on the piano roll
highest_note = midi_manipulation.uPPerBound #the index of the highest note on the piano roll
note_range = highest_note-lowest_note #the note range
接著需要定義 timestep ,可見層和隱藏層的大小。
num_timesteps = 15 #This is the number of timesteps that we will create at a time
n_visible = 2note_rangenum_timesteps #This is the size of the visible layer.
n_hiDDen = 50 #This is the size of the hidden layer
num_epochs = 200 #The number of training epochs that we are going to run. For each epoch we go through the entire data set.
BAtch_size = 100 #The number of training examples that we are going to send through the RBM at a time.
lr = tf.constant(0.005, tf.float32) #The learning rate of our model
x 是投入網絡的數據
w 用來存儲權重矩陣,或者叫做兩層之間的關系
此外還需要兩種 bias,一個是隱藏層的 bh,一個是可見層的 bv
x = tf.placeholder(tf.float32, [None, n_visible], name=”x”) #The placeholder variable that holds our data
W = tf.Variable(tf.random_normal([n_visible, n_hidden], 0.01), name=”W”) #The weightMATrix that stores the edge weights
bh = tf.Variable(tf.zeros([1, n_hidden], tf.float32, name=”bh”)) #The bias vector for the hidden layer
bv = tf.Variable(tf.zeros([1, n_visible], tf.float32, name=”bv”)) #The bias vector for the visible layer
接著,用輔助方法 gibbs_sample 從輸入數據 x 中建立樣本,以及隱藏層的樣本:
gibbs_sample 是一種可以從多重概率分布中提取樣本的算法。
#The sample of x
x_sample = gibbs_sample(1)
#The sample of the hidden nodes, starting from the visible state of x
h = sample(tf.sigmoid(tf.matMUl(x, W) + bh))
#The sample of the hidden nodes, starting from the visible state of x_sample
h_sample = sample(tf.sigmoid(tf.matmul(x_sample, W) + bh))
size_bt = tf. CA
st(tf.shape(x)[0], tf.float32)
W_adder = tf.mul(lr/size_bt, tf.sub(tf.matmul(tf.transpose(x), h), tf.matmul(tf.transpose(x_sample), h_sample)))
bv_adder = tf.mul(lr/size_bt, tf.reduce_sum(tf.sub(x, x_sample), 0, True))
bh_adder = tf.mul(lr/size_bt, tf.reduce_sum(tf.sub(h, h_sample), 0, True))
#When we do sess.run(updt), TensorFlow will run all 3 update steps
updt = [W.assign_add(W_adder), bv.assign_add(bv_adder), bh.assign_add(bh_adder)]
5.運行 Graph 算法圖:
with tf.Session() as sess:
#First, we train the model
#initialize the variables of the model
init = tf.initialize_all_variables()
首先需要 reshape 每首歌,以便于相應的向量表示可以更好地被用于訓練模型。
for epoch in tqdm(range(num_epochs)):
for song in sonGS:
#The songs are stored in a time x notes format. The size of each song is timesteps_in_song x 2*note_range
#Here we reshape the songs so that each training example is a vector with num_timesteps x 2*note_range elements
song = np.array(song)
song = song[:np.floor(song.shape[0]/num_timesteps)*num_timesteps]
song = np.reshape(song, [song.shape[0]/num_timesteps, song.shape[1]*num_timesteps])
接下來就來訓練 RBM 模型,一次訓練一個樣本
for i in range(1, len(song), batch_size):
tr_x = song[i:i+batch_size]
sess.run(updt, feed_dict={x: tr_x})
模型完全訓練好后,就可以用來生成 music 了。
需要訓練 Gibbs chain
其中的 visible nodes 先初始化為0,來生成一些樣本。
然后把向量 reshape 成更好的格式來 playback。
sample = gibbs_sample(1).eval(session=sess, feed_dict={x: np.zeros((10, n_visible))})
for i in range(sample.shape[0]):
if not any(sample[i,:]):
#Here we reshape the vector to be time x notes, and then save the vector as a midi file
S = np.reshape(sample[i,:], (num_timesteps, 2*note_range))
midi_manipulation.noteStateMatrixToMidi(S, “generatedchord{}”.format(i))1212
綜上,就是用 CNN 來參數化地生成音波,用 RBM 可以很容易地根據訓練數據生成音頻樣本,Gibbs 算法可以基于概率分布幫我們得到訓練樣本。
