當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

使用 Fastai 构建食物图像分类器

發(fā)布時(shí)間：2023/12/14 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了使用 Fastai 构建食物图像分类器小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

背景

社交媒體平臺是分享有趣的圖像的常用方式。食物圖像，尤其是與不同的美食和文化相關(guān)的圖像，是一個(gè)似乎經(jīng)常流行的話題。Instagram 等社交媒體平臺擁有大量屬于不同類別的圖像。我們都可能使用谷歌圖片或 Instagram 上的搜索選項(xiàng)來瀏覽看起來很美味的蛋糕圖片來尋找靈感。但是為了讓這些圖片可以通過搜索獲得，我們需要為每張圖片設(shè)置一些相關(guān)的標(biāo)簽。

這使得搜索關(guān)鍵字并將其與標(biāo)簽匹配成為可能。由于手動(dòng)標(biāo)記每張圖像極具挑戰(zhàn)性，因此公司使用 ML （機(jī)器學(xué)習(xí)）和 DL （深度學(xué)習(xí)）技術(shù)為圖像生成正確的標(biāo)簽。這可以使用基于一些標(biāo)記數(shù)據(jù)識別和標(biāo)記圖像的圖像分類器來實(shí)現(xiàn)。

在本文中，讓我們使用 fastai 構(gòu)建一個(gè)圖像分類器，并使用一個(gè)名為“ fastai”的庫來識別一些食物圖像。

Fastai 簡介

Fastai 是一個(gè)開源深度學(xué)習(xí)庫，它為從業(yè)者提供高級組件，可以快速輕松地在傳統(tǒng)深度學(xué)習(xí)領(lǐng)域產(chǎn)生最先進(jìn)的結(jié)果。它使研究人員可以混合和組合低級組件以創(chuàng)建新技術(shù)。它旨在在不影響可用性、靈活性或性能的情況下實(shí)現(xiàn)這兩個(gè)目標(biāo)。

由于 fastai 是用 Python 編寫的，并且基于 PyTorch，因此需要 Python 知識才能理解本文。我們將在 Google Colab 中運(yùn)行此代碼。除了 fastai，我們將使用圖形處理單元 (GPU) 以盡可能快地獲得結(jié)果。

使用 Fastai 構(gòu)建圖像分類器

讓我們從安裝 fastai 庫開始：

!pip?install?-Uqq?fastai

如果你使用的是 Anaconda，請運(yùn)行以下命令：

conda?install?-c?fastchan?fastai?anaconda

讓我們導(dǎo)入分類任務(wù)所需的包。該庫分為模塊，其中最常見的是表格、文本和視覺。因?yàn)槲覀兪诸^的任務(wù)包括視覺，所以我們從vision庫中導(dǎo)入我們需要的所有功能。

from?fastai.vision.all?import?*

通過 fastai 庫可以獲得許多學(xué)術(shù)數(shù)據(jù)集。其中之一是 FOOD，它是 URL 下的URLs. FOOD

第一步是獲取并提取我們需要的數(shù)據(jù)。我們將使用 untar_data 函數(shù)，它會自動(dòng)下載數(shù)據(jù)集并解壓它。

foodPath?=?untar_data(URLs.FOOD)

該數(shù)據(jù)集包含 101,000 張圖像，分為 101 個(gè)食物類別，每個(gè)類別有 250 個(gè)測試圖像和 750 個(gè)訓(xùn)練圖像。訓(xùn)練中的圖像沒有被清理。所有圖像的大小都調(diào)整為每邊最大 512 像素。

你可以從這里下載數(shù)據(jù)集：https://course.fast.ai/datasets

下一個(gè)命令將告訴我們必須處理多少圖像。

len(get_image_files(foodPath))

此外，使用以下命令，我們將打印 Food 數(shù)據(jù)集的元目錄的內(nèi)容。

print(os.listdir(foodPath))

meta文件夾包含八個(gè)文件，其中四個(gè)是文本文件：train.txt、test.txt、classes.txt和labels.txt。train.txt 和 test.txt 文件分別包含訓(xùn)練集和測試集的圖像列表。classes.txt 文件包含所有食品類別和標(biāo)簽的列表。txt 提供了所有食品圖像標(biāo)簽的列表。該目錄還包含一個(gè)帶有預(yù)訓(xùn)練模型的 .h5 文件和一個(gè)包含 101,000 張 JPG 格式圖像的圖像文件夾。最后，訓(xùn)練集和測試集以 JSON 格式提供。

要查看所有圖像類別，我們將運(yùn)行以下命令：

image_dir_path?=?foodPath/'images' image_categories?=?os.listdir(image_dir_path) print(image_categories)

然后，我們將執(zhí)行以下命令以查看 101,000 張圖像集合中的示例圖像。

img?=?PILImage.create('/root/.fastai/data/food-101/images/frozen_yogurt/1942235.jpg') img.show();

我們將使用 pandas 函數(shù)讀取 JSON 格式的訓(xùn)練和測試文件。JSON 是一種以人類可讀的形式存儲信息的數(shù)據(jù)格式。

以下代碼從目錄中讀取 train.json 文件并將結(jié)果保存在 df_train 數(shù)據(jù)幀中。

df_train=pd.read_json('/root/.fastai/data/food-101/train.json')

然后可以使用 head() 函數(shù)打印數(shù)據(jù)幀的標(biāo)題，如下所示。

df_train.head()

同樣，通過使用 pandas 函數(shù)，我們將讀取 test.json 文件并將其存儲在 df_test 數(shù)據(jù)幀中。

df_test=pd.read_json('/root/.fastai/data/food-101/test.json') df_test.head()

我們正在創(chuàng)建三個(gè)帶有我們選擇的食物名稱的標(biāo)簽來對食物圖像進(jìn)行分類。

labelA?=?'cheesecake' labelB?=?'donuts' labelC=?'panna_cotta'

現(xiàn)在我們將創(chuàng)建一個(gè) for 循環(huán)，它將遍歷我們下載的所有圖像。在此循環(huán)的幫助下，我們將刪除沒有標(biāo)簽 A、B 或 C 的圖像。此外，我們使用以下函數(shù)重命名具有各自標(biāo)簽的圖像。

for?img?in?get_image_files(foodPath):?if?labelA?in?str(img):img.rename(f"{img.parent}/{labelA}-{img.name}")elif?labelB?in?str(img):img.rename(f"{img.parent}/{labelB}-{img.name}")elif?labelC?in?str(img):img.rename(f"{img.parent}/{labelC}-{img.name}")else:?os.remove(img)

讓我們使用以下命令檢查運(yùn)行循環(huán)后獲得的圖像數(shù)量：

len(get_image_files(foodPath))

讓我們在三個(gè)選擇的食物中嘗試一個(gè)示例標(biāo)簽，看看重命名是否正確。

def?GetLabel(fileName):return?fileName.split('-')[0]GetLabel("cheesecake-1092082.jpg")

以下代碼生成一個(gè) DataLoaders 對象，該對象表示訓(xùn)練和驗(yàn)證數(shù)據(jù)的混合。

dls?=?ImageDataLoaders.from_name_func(foodPath,?get_image_files(foodPath),?valid_pct=0.2,?seed=42,label_func=GetLabel,?item_tfms=Resize(224))dls.train.show_batch()

在這種情況下，我們將：

使用路徑選項(xiàng)指定下載和提取數(shù)據(jù)的位置。
使用 get_image_ files 函數(shù)從指定位置收集所有文件名。
對數(shù)據(jù)集使用 80–20 拆分。
使用 GetLabel 函數(shù)從文件名中提取標(biāo)簽。
將所有圖像調(diào)整為相同大小，即 224 像素。
使用 show_batch 函數(shù)生成一個(gè)輸出窗口，顯示帶有指定標(biāo)簽的訓(xùn)練圖像網(wǎng)格。

是時(shí)候?qū)⒛Ｐ头胖玫轿涣恕Ｊ褂?ResNet34 架構(gòu)，我們將通過專注于稱為 vision_learner () 的單個(gè)函數(shù)調(diào)用來構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)。

vision_learner 函數(shù)（也稱為 cnn_learner）有利于訓(xùn)練計(jì)算機(jī)視覺模型。它包括你的原始圖像數(shù)據(jù)集、預(yù)訓(xùn)練模型 resnet34 和一個(gè)度量錯(cuò)誤率，它決定了在驗(yàn)證數(shù)據(jù)中錯(cuò)誤識別的圖像的比例。resnet34 中的 34 指的是這種架構(gòu)類型中的層數(shù)（其他選項(xiàng)有 18、50、101 和 152）。使用更多層的模型需要更長的訓(xùn)練時(shí)間并且更容易過度擬合。

Fastai 提供了一個(gè)“fine_tune”函數(shù)，用于調(diào)整預(yù)訓(xùn)練模型，以使用我們選擇的數(shù)據(jù)解決我們的特定問題。為了訓(xùn)練模型，我們將 epoch 數(shù)設(shè)置為 10。

learn?=?vision_learner(dls,?resnet34,?metrics=error_rate,?pretrained=True) learn.fine_tune(epochs=10)

也可以通過將指標(biāo)替換為“accuracy”來檢查相同模型的準(zhǔn)確性。

從上面的結(jié)果，我們可以說，即使只有 10 個(gè) epoch，預(yù)訓(xùn)練的 ResNet34 模型在多標(biāo)簽分類任務(wù)中表現(xiàn)出 > 85% 的良好準(zhǔn)確率。如果我們增加 epoch 的數(shù)量，模型的準(zhǔn)確性可能會提高。

現(xiàn)在，讓我們測試一些示例圖像來檢查我們的模型的性能。

示例圖片 #1

示例圖片 #2

示例圖片 #3

從上面的結(jié)果，我們可以說我們的模型能夠正確識別樣本圖像。

訓(xùn)練模型后，我們可以將其部署為 Web 應(yīng)用程序供其他人使用。盡管 fastai 主要用于模型訓(xùn)練，但你可以使用“l(fā)earn.export”函數(shù)快速導(dǎo)出 PyTorch 模型以用于生產(chǎn)。

結(jié)論

在本教程中，我們學(xué)習(xí)了如何使用基于 PyTorch 的 fastai 構(gòu)建食物圖像分類器。可以使用 Heroku 或 Netlify 等服務(wù)部署此模型，以使此模型可用作 Web 應(yīng)用程序。

以下是本文的一些主要內(nèi)容：

我們可以使用 fastai 以最少的代碼建立深度學(xué)習(xí)模型。因此，fastai 使得使用 PyTorch 進(jìn)行深度學(xué)習(xí)任務(wù)變得更加容易。
食品分類對于計(jì)算機(jī)視覺應(yīng)用來說是一項(xiàng)具有挑戰(zhàn)性的任務(wù)，因?yàn)楦鶕?jù)裝飾和供應(yīng)方式的不同，同一種食品在不同地方看起來可能會有很大差異。盡管如此，通過利用遷移學(xué)習(xí)的力量，我們可以使用預(yù)訓(xùn)練模型來識別食品并對其進(jìn)行正確分類。
我們?yōu)榇朔诸惼魇褂昧祟A(yù)訓(xùn)練模型 ResNet34。但是，你可以使用其他預(yù)訓(xùn)練模型，如 VGG、Inception、DenseNet 等，來構(gòu)建你自己的模型。

☆ END ☆

如果看到這里，說明你喜歡這篇文章，請轉(zhuǎn)發(fā)、點(diǎn)贊。微信搜索「uncle_pn」，歡迎添加小編微信「 woshicver」，每日朋友圈更新一篇高質(zhì)量博文。

↓掃描二維碼添加小編↓

總結(jié)

以上是生活随笔為你收集整理的使用 Fastai 构建食物图像分类器的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：台式计算机开始不显示,台式机连接投影仪不
下一篇：（九）隐私计算--安全多方计算