【TensorFlow】实现、训练并评估简单的回归模型和分类模型
1 回歸模型
回歸算法模型用來預(yù)測連續(xù)數(shù)值型,其目標(biāo)不是分類值而是數(shù)字。為了評估這些回歸預(yù)測值是否與實(shí)際目標(biāo)相符,我們需要度量兩者間的距離,打印訓(xùn)練過程中的損失,最終評估模型損失。
這里使用的例子是從均值為1、標(biāo)準(zhǔn)差為0.1的正態(tài)分布中抽樣隨機(jī)數(shù),然后乘以變量A,損失函數(shù)為L2正則損失函數(shù)。理論上,A的最優(yōu)值是10,因?yàn)樯傻臉永龜?shù)據(jù)均值是1?;貧w算法模型擬合常數(shù)乘法,目標(biāo)值是10。
1.1 實(shí)現(xiàn)模型
# TensorFlow實(shí)現(xiàn)、訓(xùn)練并評估回歸模型 import numpy as np import matplotlib.pyplot as plt import tensorflow as tf# 1.創(chuàng)建計(jì)算圖、數(shù)據(jù)集、變量和占位符。 # 創(chuàng)建完數(shù)據(jù)后,將它們隨機(jī)分割成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。 # 不管算法模型預(yù)測的如何,我們都需要測試算法模型,這點(diǎn)相當(dāng)重要。 # 在訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)上都進(jìn)行模型評估,以搞清楚模型是否過擬合: sess = tf.Session() x_vals = np.random.normal(1, 0.1, 100) y_vals = np.repeat(10., 100) x_data = tf.placeholder(shape=[None, 1], dtype=tf.float32) y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) batch_size = 25 train_indices = np.random.choice(len(x_vals),round(len(x_vals) * 0.8),replace=False) test_indices = np.array(list(set(range(len(x_vals))) -set(train_indices))) x_vals_train = x_vals[train_indices] x_vals_test = x_vals[test_indices] y_vals_train = y_vals[train_indices] y_vals_test = y_vals[test_indices] A = tf.Variable(tf.random_normal(shape=[1, 1]))# 2.聲明算法模型、損失函數(shù)和優(yōu)化器算法。初始化模型變量A my_output = tf.matmul(x_data, A) loss = tf.reduce_mean(tf.square(my_output - y_target)) init = tf.global_variables_initializer() sess.run(init) my_opt = tf.train.GradientDescentOptimizer(0.02) train_step = my_opt.minimize(loss)1.2 訓(xùn)練模型
# 3.迭代訓(xùn)練模型 for i in range(100):rand_index = np.random.choice(len(x_vals_train),size=batch_size)rand_x = np.transpose([x_vals_train[rand_index]])rand_y = np.transpose([y_vals_train[rand_index]])sess.run(train_step,feed_dict={x_data: rand_x, y_target: rand_y})if (i + 1) % 25 == 0:print('Step # ' + str(i+1) + ' A = ' + str(sess.run(A)))print('Loss = ' + str(sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y})))1.3 評估模型
mse_test = sess.run(loss, feed_dict={x_data: np.transpose([x_vals_test]),y_target: np.transpose([y_vals_test])}) mse_train = sess.run(loss, feed_dict={x_data: np.transpose([x_vals_train]),y_target: np.transpose([y_vals_train])}) print("MSE on test: " + str(np.round(mse_test, 4))) print("MSE on train: " + str(np.round(mse_train, 4))) //輸出結(jié)果 Step # 25 A = [[6.699071]] Loss = 12.127724 Step # 50 A = [[8.651022]] Loss = 2.3122501 Step # 75 A = [[9.345232]] Loss = 0.95689005 Step # 100 A = [[9.618834]] Loss = 1.1624776 MSE on test: 1.2316 MSE on train: 0.93312 分類模型
分類算法模型基于數(shù)值型輸入預(yù)測分類值,實(shí)際目標(biāo)是1和0的序列。我們需要度量預(yù)測值與真實(shí)值之間的距離。分類算法模型的損失函數(shù)一般不容易解釋模型好壞,所以通常情況是看下準(zhǔn)確預(yù)測分類的結(jié)果的百分比。
這里的例子是一個(gè)簡單的二值分類算法。從兩個(gè)正態(tài)分布N(-1, 1)和N(3, 1)生成100個(gè)數(shù)。所有從正態(tài)分布N(-1, 1)生成的數(shù)據(jù)標(biāo)為目標(biāo)類0;從正態(tài)分布N(3, 1)生成的數(shù)據(jù)標(biāo)為目標(biāo)類1。模型算法通過sigmoid函數(shù)將這些生成的數(shù)據(jù)轉(zhuǎn)換成目標(biāo)類數(shù)據(jù)。換句話講,模型算法是sigmoid(x+A)sigmoid(x+A)sigmoid(x+A),其中,A是要擬合的變量,理論上A=?1A=-1A=?1。假設(shè),兩個(gè)正態(tài)分布的均值分別是m1和m2,則達(dá)到A的取值時(shí),它們通過?m1+m22-\frac{m1+m2}{2}?2m1+m2?轉(zhuǎn)換成到0等距的值。
2.1 實(shí)現(xiàn)模型
import numpy as np import matplotlib.pyplot as plt import tensorflow as tfsess = tf.Session()# 聲明批大小 batch_size = 25# 創(chuàng)建數(shù)據(jù) x_vals = np.concatenate((np.random.normal(-1, 1, 50),np.random.normal(2, 1, 50))) y_vals = np.concatenate((np.repeat(0., 50), np.repeat(1., 50))) x_data = tf.placeholder(shape=[1, None], dtype=tf.float32) y_target = tf.placeholder(shape=[1, None], dtype=tf.float32)# 將數(shù)據(jù)分為 訓(xùn)練集/測試集 = 0.8/0.2 train_indices = np.random.choice(len(x_vals), round(len(x_vals)*0.8), replace=False) test_indices = list(set(range(len(x_vals))) - set(train_indices)) x_vals_train = x_vals[train_indices] x_vals_test = x_vals[test_indices] y_vals_train = y_vals[train_indices] y_vals_test = y_vals[test_indices] A = tf.Variable(tf.random_normal(mean=10, shape=[1]))# 設(shè)置模型和損失函數(shù),初始化變量并創(chuàng)建優(yōu)化器 my_output = tf.add(x_data, A)xentropy = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=my_output, labels=y_target))my_opt = tf.train.GradientDescentOptimizer(0.05) train_step = my_opt.minimize(xentropy)init = tf.global_variables_initializer() sess.run(init)2.2 訓(xùn)練模型
for i in range(1000):rand_index = np.random.choice(len(x_vals_train), size=batch_size)rand_x = [x_vals_train[rand_index]]rand_y = [y_vals_train[rand_index]]sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y})if (i + 1) % 200 == 0:print('Step # ' + str(i + 1) + ' A = ' + str(sess.run(A)))print('Loss = ' + str(sess.run(xentropy, feed_dict={x_data: rand_x, y_target: rand_y})))2.3 評估模型
# 評估模型 # 創(chuàng)建預(yù)測操作,用squeeze()使得預(yù)測值和目標(biāo)值有相同的維度 # 用equal()函數(shù)檢測是否相等, # 把得到的true或false的boolean型張量轉(zhuǎn)化成float32型 # 再對其取平均值,得到一個(gè)準(zhǔn)確度值。 y_prediction = tf.squeeze(tf.round(tf.nn.sigmoid(tf.add(x_data, A)))) correct_prediction = tf.equal(y_prediction, y_target) accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32)) acc_value_test = sess.run(accuracy, feed_dict={x_data: [x_vals_test], y_target: [y_vals_test]}) acc_value_train = sess.run(accuracy, feed_dict={x_data: [x_vals_train], y_target: [y_vals_train]}) print('訓(xùn)練集準(zhǔn)確率:' + str(acc_value_train)) print('測試集準(zhǔn)確率:' + str(acc_value_test)) # 訓(xùn)練集準(zhǔn)確率:0.975 # 測試集準(zhǔn)確率:0.92.4 可視化
A_result = sess.run(A) bins = np.linspace(-5, 5, 50) plt.hist(x_vals[0:50], bins, alpha=0.5, label='N(-1, 1)', color='green') plt.hist(x_vals[50:100], bins[0:50], alpha=0.5, label='N(2, 1)', color='skyblue') plt.plot((A_result, A_result), (0, 8), 'k--', linewidth=3, label = 'A = ' + str(np.round(A_result, 2))) plt.legend(loc = 'upper right') plt.show()
兩個(gè)正態(tài)分布的均值分別是-1和2,理論上最佳分割點(diǎn)是?2+(?1)2=0.5-\frac{2+(-1)}{2}=0.5?22+(?1)?=0.5,可以看出,這里的模型結(jié)果為0.51非常接近理論值。
3 總結(jié)
從上述兩個(gè)例子可以看出,模型評估是必不可少的,為了對模型進(jìn)行評估需要先劃分?jǐn)?shù)據(jù)集,除了訓(xùn)練集和測試集外,有時(shí)還需要驗(yàn)證集。模型訓(xùn)練完成后可以得到準(zhǔn)確率、MSE的結(jié)果,可以利用這些結(jié)果對機(jī)器學(xué)習(xí)模型進(jìn)行評估。
總結(jié)
以上是生活随笔為你收集整理的【TensorFlow】实现、训练并评估简单的回归模型和分类模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 笔记:《幸福的方法》
- 下一篇: 聚类算法当中的K-means算法如何去做