成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<button id="toctp"></button>

<u id="toctp"></u>

<label id="toctp"></label>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

手勢圖像識別實戰(LeNet模型) 原創

發布于 2024-12-5 11:13

瀏覽

0收藏

前言

上一章內容我們初步了解了卷積、卷積神經網絡、卷積神經網絡的搭建過程以及經典的LeNet網絡結構，本篇內容將基于LeNet網絡結構，實現手勢識別。

手勢識別

數據集介紹

在開展手勢識別之前，我們需要先下載并初步了解數據集的情況。

數據下載地址

下載地址：手勢識別數據集

├── train                   # 訓練集
├── G0                  # 手勢0
├── IMG_1118.jpg    # 手勢0的圖片
├──...
├── G1                  # 手勢1
├── IMG_1119.jpg
├──...
├──...
├── G9                  # 手勢9
├──test# 測試集
├── G0
├──...
├── G9

手勢圖像識別實戰(LeNet模型)-AI.x社區

項目流程

在《【課程總結】Day8（上）：深度學習基本流程》中，我們已了解到深度學習的基本流程為：

數據預處理 1.1 數據讀取 1.2 數據切分 1.3 數據規范化
批量化打包數據
模型搭建
籌備訓練
訓練模型 5.1 定義監控指標和方法 5.2 實現訓練過程 5.3 開始訓練

因此，本次項目也采用如上的基本流程。

數據預處理

由上述目錄結構可知，我們需要在訓練前使用DataLoader將數據集打包成適合訓練的格式，因此需要解決2個問題：

問題1：如何記錄標簽數據和圖片數據

解決方法：

獲取標簽：上述目錄中的G0、G1、G2...G9文件夾名稱即為手勢標簽，因此我們可以通過os.listdir()函數獲取文件夾名稱。
保存標簽：將上述遍歷的G0、G1、G2...G9文件夾名稱保存到列表??label_train??中，方便后續使用。
獲取圖片路徑：通過os.listdir()函數獲取文件夾中的圖片名稱，從而獲取圖片路徑。
保存圖片路徑：將上述遍歷的圖片路徑保存到列表??img_train??中，方便后續使用。

# 讀取gestures\train\G0目錄下的所有圖片路徑，添加至list中
import os
import random
import numpy as np
import cv2


defload_img_label(train_root):
    img_train =[]
    label_train =[]
for label in os.listdir(train_root):
        label_path = os.path.join(train_root, label)
# 排除掉.開頭的文件
if label.startswith('.'):
continue
for img_name in os.listdir(label_path):
            img_path = os.path.join(label_path, img_name)
            img_train.append(img_path)
            label_train.append(label)
return img_train, label_train

# 1，讀取基圖像的本信息
root ="gestures"

# 1,訓練集
train_root = os.path.join(root,'train')
train_img, train_label = load_img_label(train_root)


# 2,測試集
test_root = os.path.join(root,'test')
test_img, test_label = load_img_label(test_root)

lable_list =list(set(train_label))
lable_list.sort()

# 3,構建標簽字典
label2idx ={label: idx for idx, label inenumerate(lable_list)}
idx2label ={idx: label for idx, label inenumerate(lable_list)}
print(label2idx)
print(idx2label)

問題2：如何將圖片和標簽數據打包成適合訓練的格式

解決方法：

構建自定義數據集類GesturesDataset
重寫__getitem__(),len(),init()方法
在__getitem__()方法中:

使用cv2.imread()讀取圖片
使用cv2.resize()調整圖片大小
將圖像轉為numpy數組
對矩陣數組中的數據進行歸一化處理，規范化為[-1, 1]
使用torch將數據轉為張量
將數據從圖片數據的[H(高度), W(寬度), C(通道數)]轉維度為[N(批量個數), H(高度), W(寬度), C(通道數)]
將標簽轉為數字，例如：G0 -> 0, G1 -> 1, G2 -> 2, ..., G9 -> 9
將標簽轉為張量

import torch
from torch.utils.data importDataset

classGesturesDataset(Dataset):
"""
    自定義數據集
    """
def__init__(self, X, y):
        self.X = X
        self.y = y

def__len__(self):
returnlen(self.X)

def__getitem__(self, idx):
        img_path = self.X[idx]
        img_label = self.y[idx]

# 1,讀取圖像
        img = cv2.imread(img_path)

# 2,圖像轉為32*32
        img = cv2.resize(img,(32,32))

# 3,圖像轉為numpy數組
        img = np.array(img)

# 4,數據規范化到 [-1, 1]
        img = img /255.0
        img =(img -0.5)/0.5

# 5,數據轉為torch張量
        img = torch.tensor(img, dtype=torch.float32)

# 6,數據轉維度 [H, W, C]
        img = img.permute(2,0,1)

# 7,標簽轉為數字
        label = label2idx[img_label]
        label = torch.tensor(label, dtype=torch.long)

return img, label

模型搭建

本次模型使用LeNet網絡結構，相關結構已在《【課程總結】Day10：卷積網絡的基本組件》闡述，本次過程不再贅述。

import torch
from torch import nn


classConvBlock(nn.Module):
"""
        一層卷積：
            - 卷積層
            - 批規范化層
            - 激活層
    """
def__init__(self, in_channels, out_channels, 
                 kernel_size=3, stride=1, padding=1):
super().__init__()
        self.conv = nn.Conv2d(in_channels=in_channels, out_channels=out_channels,
                             kernel_size=kernel_size, stride=stride,padding=padding)
        self.bn = nn.BatchNorm2d(num_features=out_channels)
        self.relu = nn.ReLU()

defforward(self, x):
        x = self.conv(x)
        x = self.bn(x)
        x = self.relu(x)
return x

classLeNet(nn.Module):
def__init__(self, num_classes=10):
super().__init__()
# 1, 特征抽取部分
        self.feature_extractor = nn.Sequential(
# 卷積層1
ConvBlock(in_channels=3,
                      out_channels=6,
                      kernel_size=5,
                      stride=1,
                      padding=0),

# 亞采樣（池化）
            nn.MaxPool2d(kernel_size=2, stride=2, padding=0),

# 卷積層2
ConvBlock(in_channels=6,
                      out_channels=16,
                      kernel_size=5,
                      stride=1,
                      padding=0),

# 亞采樣（池化）
            nn.MaxPool2d(kernel_size=2, stride=2, padding=0),

)

# 2, 分類
        self.classifier = nn.Sequential(
            nn.Flatten(),
            nn.Linear(in_features=400, out_features=120),
            nn.ReLU(),
            nn.Linear(in_features=120, out_features=84),
            nn.ReLU(),
            nn.Linear(in_features=84, out_features=num_classes)
)

defforward(self, x):
# 1, 提取特征
        x = self.feature_extractor(x)
# 2， 分類輸出
        x = self.classifier(x)
return x

將以上代碼單獨封裝為model.py文件，方便后續直接import。
在主程序中使用以下方式直接調用即可：??from models import LeNet model = LeNet()??

籌備訓練

由于計算的數據量較大，所以我們需要借助torch以及GPU來提升訓練速度。

# 檢測是否有可用的CUDA設備，如果有則使用第一個可用的CUDA設備，否則使用CPU
device ="cuda:0"if torch.cuda.is_available()else"cpu"

# 將模型移動到指定的設備（CUDA或CPU）
model.to(device=device)

# 設置訓練的總輪數
epochs =80

# 設置學習率
lr =1e-3

# 定義損失函數為交叉熵損失
loss_fn = nn.CrossEntropyLoss()

# 定義優化器為隨機梯度下降（SGD），傳入模型的參數和學習率
optimizer = torch.optim.SGD(params=model.parameters(), lr=lr)

模型評估

為了觀察訓練過程情況，定義模型評估函數：

# 準確率計算
defget_acc(data_loader):
    accs =[]
    model.eval()
with torch.no_grad():
for X, y in data_loader:
            X = X.to(device=device)
            y = y.to(device=device)
            y_pred = model(X)
            y_pred = y_pred.argmax(dim=-1)
            acc =(y_pred == y).to(torch.float32).mean().item()
            accs.append(acc)
    final_acc =round(number=sum(accs)/len(accs), ndigits=5)
return final_acc

實現訓練過程

# 訓練過程
deftrain():

    train_accs =[]
    test_accs =[]
    cur_test_acc =0

# 1，訓練之前，檢測一下準確率
    train_acc = get_acc(data_loader=train_dataloader)
    test_acc = get_acc(data_loader=test_dataloader)
    train_accs.append(train_acc)
    test_accs.append(test_acc)

print(f"訓練之前：train_acc: {train_acc},test_acc: {test_acc}")

# 每一輪次
for epoch inrange(epochs):
# 模型設置為 train 模式
        model.train()
# 計時
        start_train = time.time()
# 每一批量
for X, y in train_dataloader:
# 數據搬家
            X = X.to(device=device)
            y = y.to(device=device)
# 1，正向傳播
            y_pred = model(X)
# 2，計算損失
            loss = loss_fn(y_pred, y)
# 3，反向傳播
            loss.backward()
# 4，優化一步
            optimizer.step()
# 5，清空梯度
            optimizer.zero_grad()
# 計時結束
        stop_train = time.time()
# 測試準確率
        train_acc = get_acc(data_loader=train_dataloader)
        test_acc = get_acc(data_loader=test_dataloader)
        train_accs.append(train_acc)
        test_accs.append(test_acc)
# 保存模型
if cur_test_acc < test_acc:
            cur_test_acc = test_acc
# 保存最好模型
            torch.save(obj=model.state_dict(), f="lenet_best.pt")
# 保存最后模型
        torch.save(obj=model.state_dict(), f="lenet_last.pt")

# 格式化輸出日志
print(f"""
        當前是第 {epoch + 1} 輪：
        ------------------------------------------------------------
        | 訓練準確率 (train_acc) | 測試準確率 (test_acc) | 運行時間 (elapsed_time) |
        ------------------------------------------------------------
        | {train_acc:<18} | {test_acc:<17} | {round(number=stop_train - start_train, ndigits=3)} 秒    |
        ------------------------------------------------------------
        """)
return train_accs, test_accs

開始訓練

train_accs, test_accs = train()

圖形化監控數據

plt.plot(train_accs, label="train_acc")
plt.plot(test_accs, label="train_acc")
plt.legend()
plt.grid()
plt.xlabel(xlabel='epoch')
plt.ylabel(ylabel="acc")
plt.title(label="LeNet Training Process")

運行結果：

手勢圖像識別實戰(LeNet模型)-AI.x社區

手勢圖像識別實戰(LeNet模型)-AI.x社區

通過以上執行過程可以看到，經過80輪訓練后，LeNet模型在訓練集上的準確率達到99%，在測試集上的準確率達到94%。

模型預測

接下來，我們使用streamlit實現一個前端頁面，用戶在頁面上輸入圖片，模型會自動識別圖片中的手勢。

整體實現流程：

創建一個streamlit應用，并導入相關依賴。
顯示當前設備是GPU設備還是CPU
加載模型
使用streamlit.file_uploader顯示上傳圖片控件
使用streamlit.image顯示上傳的圖片
使用加載的模型進行預測 6.1 讀取圖像 6.2 圖像預處理 6.3 圖形轉為張量 6.4 轉換圖形的維度為[C, H, W] 6.5 新建一個批量維度[N, C, H, W] 6.6 數據搬家 6.7 模型設為評估模式 6.8 模型預測 6.9 預測結果轉為標簽 0 → G0, 1 → G1, 2 → G2, 3 → G3, 4 → G4, 5 → G5 6.10 返回標簽結果

import streamlit
import torch
import os
import numpy as np
from PIL importImage
from models importLeNet


# 生成idx2label字典，用于顯示預測結果
idx2label ={
0:'G0',
1:'G1',
2:'G2',
3:'G3',
4:'G4',
5:'G5',
6:'G6',
7:'G7',
8:'G8',
9:'G9'
}

definfer(img_path, model, device, idx2label):
"""
        輸入：圖像地址
        輸出：預測類別
    """
# 1，讀取圖像
ifnot os.path.exists(img_path):
raiseFileNotFoundError("文件沒找到")

# 2, 判斷當前局部變量中是否有model
# if "m1" not in globals() or not isinstance(globals()["m1"], LeNet):
#     raise ValueError("m1模型不存在")

# 3，讀取圖像
    img =Image.open(fp=img_path)

# 4，預處理
    img = img.resize((32,32))
    img = np.array(img)
    img = img /255
    img =(img -0.5)/0.5

# 5, 轉張量
    img = torch.tensor(data=img, dtype=torch.float32)

# 6, 轉換維度
    img = img.permute(dims=(2,0,1))

# 7, 新增一個批量維度
    img = img.unsqueeze(dim=0)

# 8，數據搬家
    img = img.to(device=device)

# 9，模型設為評估模式
    model.eval()

# 10，無梯度環境
with torch.no_grad():
# 11，正向傳播
        y_pred = m1(img)

# 12, 解析結果
        y_pred = y_pred.argmax(dim=-1).item()

# 13，標簽轉換
        label = idx2label.get(y_pred)

# 14, 返回結果
return label

if __name__ =="__main__":
# 1, 顯示當前設備是GPU設備還是CPU
# 檢測設備
    device ="cuda"if torch.cuda.is_available()else"cpu"
    streamlit.write(f"當前設備是{device}設備")


# 2, 加載模型
    m1 =LeNet()
    m1.to(device=device)
# 加載權重
    m1.load_state_dict(state_dict=torch.load(f="lenet_best.pt", map_locatinotallow=device),
                    strict=False)
ifnotisinstance(m1,LeNet):
raiseValueError("模型加載失敗")

# 3, 上傳一張圖片
    img_path = streamlit.file_uploader(label="上傳一張圖片",type=["png","jpg","jpeg"])
# 3.1, 將上傳的圖像文件保存到臨時文件
if img_path:
withopen(file="temp_img.jpg", mode="wb")as f:
            f.write(img_path.getvalue())
        img_path ="temp_img.jpg"
# 4, 顯示上傳的圖片
if img_path:
        img =Image.open(fp=img_path)
        streamlit.image(image=img, captinotallow="上傳的圖片", use_column_width=True)

# 5, 加載本地的lenet_best.pt模型
if img_path:
        label = infer(img_path=img_path, model=m1, device=device, idx2label=idx2label)
        streamlit.write(f"預測結果是{label}")

運行結果：

手勢圖像識別實戰(LeNet模型)-AI.x社區圖片

內容小結

回顧深度學習的整體流程，仍然是：數據預處理→批量化打包數據→模型搭建→訓練模型→模型評估→模型預測
圖片數據預處理時，批量化打包數據需要構造為[N, C, H, W]的格式
預處理的過程大致為：讀取圖片→調整圖片大小→轉為numpy數組→歸一化→轉為張量→調整維度→標簽轉為數字→轉為張量，該過程需要在自定義數據集的__getitem__函數中完成
模型構建使用的是LeNet模型，該模型定義可以單獨在models.py中實現，訓練代碼中直接import引用即可
訓練過程以及訓練時的監控過程，與前兩章學習的深度學習訓練過程是一樣的

本文轉載自公眾號一起AI技術作者：熱情的Dongming

原文鏈接：??https://mp.weixin.qq.com/s/uLcszdSP99AepL5d47e6ZQ??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

手勢圖像識別

計算機視覺

已于2024-12-5 11:14:19修改

贊

收藏

回復

舉報

回復

相關推薦

GPT4V可有效識別DeepFake圖像！

pangguiyu ? 4906瀏覽 ? 0回復
標注受限也能識別多標簽圖像！中山大學等發布異構語義轉移HST框架 | IJCV 2024

duhorse ? 2661瀏覽 ? 0回復
MUMU：用文本、圖像引導，多模態圖像生成模型

Aceryt ? 2867瀏覽 ? 0回復
大模型微調：Hugging Face Transformers全流程實戰

51CTO內容精選 ? 7224瀏覽 ? 0回復
輕量級級表格識別算法模型-SLANet

大模型自然語言處理 ? 3164瀏覽 ? 0回復
一次多模態大模型表格識別解析探索小實踐記錄

大模型自然語言處理 ? 2842瀏覽 ? 0回復
多模態語言模型實戰之音樂轉錄

51CTO內容精選 ? 2902瀏覽 ? 0回復
從零開始掌握OpenCV：Python圖像處理最詳細入門教程（實戰代碼全解析）

唐克 ? 4456瀏覽 ? 0回復
文本文字識別、公式識別、表格文字識別核心算法及思路及實踐-DBNet、CRNN、TrOCR

大模型自然語言處理 ? 3266瀏覽 ? 0回復
Moonshine 語音模型：資源受限設備的語音識別超強 “芯” 動力！

穿越時空111 ? 2574瀏覽 ? 0回復
大模型面試實戰！Prompt調優

ermulong ? 3082瀏覽 ? 0回復
人臉識別和MTCNN模型

一起AI技術 ? 2366瀏覽 ? 0回復
基于 LlamaFactory 微調大模型的實體識別的評估實現

AI悠閑區 ? 2661瀏覽 ? 0回復
大語言模型推理框架llama.cpp開發實戰

51CTO內容精選 ? 2465瀏覽 ? 0回復
人臉識別，你真的了解嗎?

zhcs333 ? 3080瀏覽 ? 0回復
X-CLR：通過新型對比損失函數提升圖像識別能力

51CTO內容精選 ? 2187瀏覽 ? 0回復
關于大模型智能體意圖識別不準確問題——function call的缺陷

AI探索時代 ? 2380瀏覽 ? 0回復
模型上下文協議（MCP）開發實戰——構建LangChain代理客戶端

51CTO內容精選 ? 4504瀏覽 ? 0回復
公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力

大模型自然語言處理 ? 1387瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

【模型測試】基于OpenCompass構建Dify應用的自定義評測體系 2025-04-09 12:07:35發布
【模型測試】ai-eval-system在線評測系統v0.2預覽版本介紹 2025-04-09 06:38:42發布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統OneRec！ 0回復

上一篇：大模型體驗之Qwen2模型

下一篇：大模型三階段訓練方法(LLaMa Factory)

社區精華內容

目錄

主站蜘蛛池模板：亚洲国产成人精品在线 | 国产一区久久 | 免费污视频| 999视频| 99热国产精品 | 日本视频一区二区三区 | 久久麻豆精品 | www.久久| 人成在线视频 | 中文字幕视频在线 | 欧美成人一区二免费视频软件 | 91久久国产| 在线一区视频 | 亚洲国产成人精品女人久久久 | 午夜影院在线视频 | 日韩欧美一区二区三区免费看 | 欧美日在线 | 欧美炮房| av日韩在线播放 | 成人精品一区二区 | 毛片com | 亚洲精品视频网站在线观看 | 黄免费在线 | 中文字幕日韩一区 | 国产精品久久久久久亚洲调教 | 91在线视频观看免费 | 免费在线观看成年人视频 | 在线国产精品一区 | 国产精品久久久久久久粉嫩 | 玖玖玖在线 | 波多野结衣先锋影音 | 欧美精品在线观看 | 色噜噜色综合 | 欧美激情a∨在线视频播放成人免费共享视频 | 日韩欧美视频 | 欧美日韩国产在线观看 | 啪啪免费 | 国产精品色av | 国产精品观看 | 日韩欧美一区二区三区免费看 | 久久99视频这里只有精品 |

<ol id="gceei"><dl id="gceei"><sup id="gceei"></sup></dl></ol>

<code id="gceei"><dl id="gceei"><meter id="gceei"></meter></dl></code>

<u id="gceei"><form id="gceei"></form></u>

<output id="gceei"></output>