tensorflow教程 开始——数据集:快速了解 tf.data
參考文章:數(shù)據(jù)集:快速了解
數(shù)據(jù)集:快速了解
tf.data
- 從 numpy 數(shù)組讀取內(nèi)存數(shù)據(jù)。
- 逐行讀取 csv 文件。
基本輸入
學習如何獲取數(shù)組的片段,是開始學習 tf.data 最簡單的方式。
Premade Estimators
def train_input_fn(features, labels, batch_size):"""一個用來訓練的輸入函數(shù)"""# 將輸入值轉(zhuǎn)化為數(shù)據(jù)集。dataset = tf.data.Dataset.from_tensor_slices((dict(features), labels))# 混排、重復、批處理樣本。dataset = dataset.shuffle(1000).repeat().batch(batch_size)# 返回數(shù)據(jù)集return dataset下面我們來對這個函數(shù)做更仔細的分析。
參數(shù)
這個函數(shù)一共需要三個參數(shù)。如果一個參數(shù)的期望類型是 “array” (數(shù)組),那么它將可以接受幾乎所有可以用 numpy.array 來轉(zhuǎn)化為數(shù)組的值。我們可以看到只有一個例外:tuple,它對 Datasets 有特殊的含義。
- features:一個形如 {‘feature_name’:array} 的數(shù)據(jù)字典(或者是 DataFrame),它包含了原始的輸入特征。
- labels:一個包含每個樣本的 label 的數(shù)組。
- batch_size:一個指示所需批量大小的整數(shù)。
在 premade_estimator.py 中,我們使用 iris_data.load_data() 函數(shù)來檢索虹膜數(shù)據(jù)。
你可以運行該函數(shù),并按如下方式解壓結(jié)果:
然后用像下面這樣的一行代碼,將數(shù)據(jù)傳遞給 input 函數(shù):
batch_size=100 iris_data.train_input_fn(features, labels, batch_size)讓我們來具體看看 train_input_fn() 函數(shù)。
(數(shù)組)片段
TF Layers 教程:構(gòu)建卷積神經(jīng)網(wǎng)絡
返回這個 Dataset 的代碼如下所示:
train, test = tf.keras.datasets.mnist.load_data() mnist_x, mnist_y = trainmnist_ds = tf.data.Dataset.from_tensor_slices(mnist_x) print(mnist_ds)張量
<TensorSliceDataset shapes: (28,28), types: tf.uint8>上述的 Dataset 表示數(shù)組的簡單集合,但數(shù)據(jù)集比這更復雜。Dataset 可以透明地處理任何嵌套的字典或元組組合(或者 namedtuple)。
例如,將 irls 的 features 轉(zhuǎn)換為標準 python 字典之后,你可以將數(shù)組字典轉(zhuǎn)換為字典的 Dataset,如下所示:
dataset = tf.data.Dataset.from_tensor_slices(dict(features)) print(dataset) <TensorSliceDatasetshapes: {SepalLength: (), PetalWidth: (),PetalLength: (), SepalWidth: ()},types: {SepalLength: tf.float64, PetalWidth: tf.float64,PetalLength: tf.float64, SepalWidth: tf.float64} >張量
iris 的第一行 train_input_fn 使用相同的功能,但是增加了一層結(jié)構(gòu)。它創(chuàng)建了一個包含 (features_dict, label) 數(shù)據(jù)對的數(shù)據(jù)集。
以下代碼表明,標簽是類型為 int64 的標量:
# 將輸入轉(zhuǎn)化為數(shù)據(jù)集。 dataset = tf.data.Dataset.from_tensor_slices((dict(features), labels)) print(dataset) <TensorSliceDatasetshapes: ({SepalLength: (), PetalWidth: (),PetalLength: (), SepalWidth: ()},()),types: ({SepalLength: tf.float64, PetalWidth: tf.float64,PetalLength: tf.float64, SepalWidth: tf.float64},tf.int64)>操作
目前,Dataset 會按照固定順序遍歷數(shù)據(jù)一次,且一次只能生成一個元素。在可以用于訓練之前,它需要進一步的處理。幸運的是,tf.data.Dataset 類提供了方法來讓數(shù)據(jù)為訓練作出更好的準備。train_input_fn 的下一行代碼就利用了幾個這樣的方法:
# 樣本的混排、重復、批處理。 dataset = dataset.shuffle(1000).repeat().batch(batch_size)tf.data.Dataset.shuffle
tf.data.Dataset.repeat
tf.data.Dataset.batch
print(mnist_ds.batch(100)) <BatchDatasetshapes: (?, 28, 28),types: tf.uint8>注意,因為最后一個批次將會有比較少的元素,因此數(shù)據(jù)集的批量大小是不確定的。
在 train_input_fn 中,批處理之后,數(shù)據(jù)集 包含元素們的一維向量,這些一維向量的前面部分是:
print(dataset) <TensorSliceDatasetshapes: ({SepalLength: (?,), PetalWidth: (?,),PetalLength: (?,), SepalWidth: (?,)},(?,)),types: ({SepalLength: tf.float64, PetalWidth: tf.float64,PetalLength: tf.float64, SepalWidth: tf.float64},tf.int64)>返回
此時,Dataset 包含 (features_dict, labels) 對。這是 train 和 evaluate 方法所期望的格式,因此 input_fn 將返回數(shù)據(jù)集。
在使用 predict 方法時,可以/應該省略 labels。
讀取 CSV 文件
tf.data
如下對 iris_data.maybe_download 函數(shù)的調(diào)用,將會在必要的時候下載數(shù)據(jù),并返回結(jié)果文件的路徑:
import iris_data train_path, test_path = iris_data.maybe_download()iris_data.csv_input_fn 函數(shù)包括了一個用 Dataset 解析 csv 文件的替代方案。
讓我們來看看如何構(gòu)建一個兼容 Estimator 的、可以讀取本地文件的輸入函數(shù)。
建立 Dataset
tf.data.Dataset.skip
ds = tf.data.TextLineDataset(train_path).skip(1)建立一個 csv 行解析器
我們從建立一個可以解析一行的函數(shù)開始。
tf.decode_csv
tf.decode_csv
# 描述文本列的元數(shù)據(jù) COLUMNS = ['SepalLength', 'SepalWidth','PetalLength', 'PetalWidth','label'] FIELD_DEFAULTS = [[0.0], [0.0], [0.0], [0.0], [0]] def _parse_line(line):# 將行解碼到 fields 中fields = tf.decode_csv(line, FIELD_DEFAULTS)# 將結(jié)果打包成字典features = dict(zip(COLUMNS,fields))# 將標簽從特征中分離label = features.pop('label')return features, label解析多行
tf.data.Dataset.map
這個 map 方法接受一個 map_func 參數(shù),這個參數(shù)描述了 Dataset 中的每一個元素應該如何被轉(zhuǎn)化。
tf.data.Dataset.map
因此,為了在多行數(shù)據(jù)被從 csv 文件中讀取出來的時候解析它們,我們?yōu)?map 方法提供 _parse_line 函數(shù):
ds = ds.map(_parse_line) print(ds) <MapDataset shapes: ({SepalLength: (), PetalWidth: (), ...},()), types: ({SepalLength: tf.float32, PetalWidth: tf.float32, ...},tf.int32)>現(xiàn)在,數(shù)據(jù)集中包含的是 (features, label) 數(shù)據(jù)對,而不是簡單的字符串標量了。
iris_data.csv_input_fn 函數(shù)的余下部分和 Basic input 中介紹的 iris_data.train_input_fn 函數(shù)相同。
實踐
這個函數(shù)可以作為 iris_data.train_input_fn 的替代。它可以像如下這樣,來給 estimator 提供數(shù)據(jù):
train_path, test_path = iris_data.maybe_download()# 所有的輸入都是數(shù)字 feature_columns = [tf.feature_column.numeric_column(name)for name in iris_data.CSV_COLUMN_NAMES[:-1]]# 構(gòu)建 estimator est = tf.estimator.LinearClassifier(feature_columns,n_classes=3) # 訓練 estimator batch_size = 100 est.train(steps=1000,input_fn=lambda : iris_data.csv_input_fn(train_path, batch_size))Estimator 期望 input_fn 沒有任何參數(shù)。要解除這個限制,我們使用 lambda 來捕獲參數(shù)并提供預期的接口。
總結(jié)
為了從不同的數(shù)據(jù)源中便捷的讀取數(shù)據(jù),tf.data 模塊提供了類和函數(shù)的集合。除此之外,tf.data 有簡單并且強大的方法,來應用各種標準和自定義轉(zhuǎn)換。
現(xiàn)在你已經(jīng)基本了解了如何為 Estimator 高效的獲取數(shù)據(jù)。(作為擴展)接下來可以思考如下的文檔:
- 創(chuàng)建定制化 Estimator
- 底層 API 編程介紹
- 數(shù)據(jù)導入
總結(jié)
以上是生活随笔為你收集整理的tensorflow教程 开始——数据集:快速了解 tf.data的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 图卷积网络是什么?(行为识别)
- 下一篇: pycharm导入(import)报红(