成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何在Tensorflow.js中處理MNIST圖像數(shù)據(jù)

開(kāi)發(fā) 開(kāi)發(fā)工具 機(jī)器學(xué)習(xí)
數(shù)據(jù)清理是數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)中的重要組成部分,本文介紹了如何在 Tensorflow.js(0.11.1)中處理 MNIST 圖像數(shù)據(jù),并逐行解釋代碼。
有人開(kāi)玩笑說(shuō)有 80% 的數(shù)據(jù)科學(xué)家在清理數(shù)據(jù),剩下的 20% 在抱怨清理數(shù)據(jù)……在數(shù)據(jù)科學(xué)工作中,清理數(shù)據(jù)所占比例比外人想象的要多得多。一般而言,訓(xùn)練模型通常只占機(jī)器學(xué)習(xí)或數(shù)據(jù)科學(xué)家工作的一小部分(少于 10%)。

——Kaggle CEO Antony Goldbloom

對(duì)任何一個(gè)機(jī)器學(xué)習(xí)問(wèn)題而言,數(shù)據(jù)處理都是很重要的一步。本文將采用 Tensorflow.js(0.11.1)的 MNIST 樣例

(https://github.com/tensorflow/tfjs-examples/blob/master/mnist/data.js),逐行運(yùn)行數(shù)據(jù)處理的代碼。

[[234124]]

MNIST 樣例

  1. 18 import * as tf from '@tensorflow/tfjs'; 
  2. 19 
  3. 20 const IMAGE_SIZE = 784
  4. 21 const NUM_CLASSES = 10
  5. 22 const NUM_DATASET_ELEMENTS = 65000
  6. 23 
  7. 24 const NUM_TRAIN_ELEMENTS = 55000
  8. 25 const NUM_TEST_ELEMENTS = NUM_DATASET_ELEMENTS - NUM_TRAIN_ELEMENTS; 
  9. 26 
  10. 27 const MNIST_IMAGES_SPRITE_PATH = 
  11. 28 'https://storage.googleapis.com/learnjs-data/model-builder/mnist_images.png'; 
  12. 29 const MNIST_LABELS_PATH = 
  13. 30 'https://storage.googleapis.com/learnjs-data/model-builder/mnist_labels_uint8';` 

首先,導(dǎo)入 TensorFlow(確保你在轉(zhuǎn)譯代碼)并建立一些常量,包括:

  • IMAGE_SIZE:圖像尺寸(28*28=784)
  • NUM_CLASSES:標(biāo)簽類(lèi)別的數(shù)量(這個(gè)數(shù)字可以是 0~9,所以這里有 10 類(lèi))
  • NUM_DATASET_ELEMENTS:圖像總數(shù)量(65000)
  • NUM_TRAIN_ELEMENTS:訓(xùn)練集中圖像的數(shù)量(55000)
  • NUM_TEST_ELEMENTS:測(cè)試集中圖像的數(shù)量(10000,亦稱(chēng)余數(shù))
  • MNIST_IMAGES_SPRITE_PATH&MNIST_LABELS_PATH:圖像和標(biāo)簽的路徑

將這些圖像級(jí)聯(lián)為一個(gè)巨大的圖像,如下圖所示:

[[234125]]

MNISTData

接下來(lái),從第 38 行開(kāi)始是 MnistData,該類(lèi)別使用以下函數(shù):

  • load:負(fù)責(zé)異步加載圖像和標(biāo)注數(shù)據(jù);
  • nextTrainBatch:加載下一個(gè)訓(xùn)練批;
  • nextTestBatch:加載下一個(gè)測(cè)試批;
  • nextBatch:返回下一個(gè)批的通用函數(shù),該函數(shù)的使用取決于是在訓(xùn)練集還是測(cè)試集。

本文屬于入門(mén)文章,因此只采用 load 函數(shù)。

load

  1. async load() { 
  2.  // Make a request for the MNIST sprited image. 
  3.  const img = new Image(); 
  4.  const canvas = document.createElement('canvas'); 
  5.  const ctx = canvas.getContext('2d'); 

異步函數(shù)(async)是 Javascript 中相對(duì)較新的語(yǔ)言功能,因此你需要一個(gè)轉(zhuǎn)譯器。

Image 對(duì)象是表示內(nèi)存中圖像的本地 DOM 函數(shù),在圖像加載時(shí)提供可訪(fǎng)問(wèn)圖像屬性的回調(diào)。canvas 是 DOM 的另一個(gè)元素,該元素可以提供訪(fǎng)問(wèn)像素?cái)?shù)組的簡(jiǎn)單方式,還可以通過(guò)上下文對(duì)其進(jìn)行處理。

因?yàn)檫@兩個(gè)都是 DOM 元素,所以如果用 Node.js(或 Web Worker)則無(wú)需訪(fǎng)問(wèn)這些元素。有關(guān)其他可替代的方法,請(qǐng)參見(jiàn)下文。

imgRequest

  1. const imgRequest = new Promise((resolve, reject) => { 
  2.  img.crossOrigin = ''
  3.  img.onload = () => { 
  4.  imgimg.width = img.naturalWidth; 
  5.  imgimg.height = img.naturalHeight; 

該代碼初始化了一個(gè) new promise,圖像加載成功后該 promise 結(jié)束。該示例沒(méi)有明確處理誤差狀態(tài)。

crossOrigin 是一個(gè)允許跨域加載圖像并可以在與 DOM 交互時(shí)解決 CORS(跨源資源共享,cross-origin resource sharing)問(wèn)題的圖像屬性。naturalWidth 和 naturalHeight 指加載圖像的原始維度,在計(jì)算時(shí)可以強(qiáng)制校正圖像尺寸。

  1. const datasetBytesBuffer = 
  2.  new ArrayBuffer(NUMDATASETELEMENTS * IMAGESIZE * 4); 
  3. 57 
  4. 58 const chunkSize = 5000
  5. 59 canvas.width = img.width; 
  6. 60 canvas.height = chunkSize

該代碼初始化了一個(gè)新的 buffer,包含每一張圖的每一個(gè)像素。它將圖像總數(shù)和每張圖像的尺寸和通道數(shù)量相乘。

我認(rèn)為 chunkSize 的用處在于防止 UI 一次將太多數(shù)據(jù)加載到內(nèi)存中,但并不能 100% 確定。

  1. 62 for (let i = 0; i < NUMDATASETELEMENTS / chunkSize; i++) { 
  2. 63 const datasetBytesView = new Float32Array( 
  3. 64 datasetBytesBuffer, i * IMAGESIZE * chunkSize * 4, 
  4.  IMAGESIZE * chunkSize); 
  5. 66 ctx.drawImage( 
  6. 67 img, 0, i * chunkSize, img.width, chunkSize, 0, 0, img.width, 
  7. 68 chunkSize); 
  8. 69 
  9. 70 const imageData = ctx.getImageData(0, 0, canvas.width, canvas.height); 

該代碼遍歷了每一張 sprite 圖像,并為該迭代初始化了一個(gè)新的 TypedArray。接下來(lái),上下文圖像獲取了一個(gè)繪制出來(lái)的圖像塊。最終,使用上下文的 getImageData 函數(shù)將繪制出來(lái)的圖像轉(zhuǎn)換為圖像數(shù)據(jù),返回的是一個(gè)表示底層像素?cái)?shù)據(jù)的對(duì)象。

  1. 72 for (let j = 0; j < imageData.data.length / 4; j++) { 
  2. 73 // All channels hold an equal value since the image is grayscale, so 
  3. 74 // just read the red channel. 
  4. 75 datasetBytesView[j] = imageData.data[j * 4] / 255; 
  5. 76 } 
  6. 77 } 

我們遍歷了這些像素并除以 255(像素的可能***值),以將值限制在 0 到 1 之間。只有紅色的通道是必要的,因?yàn)樗腔叶葓D像。

  1. 78 this.datasetImages = new Float32Array(datasetBytesBuffer); 
  2. 79 
  3. 80 resolve(); 
  4. 81 }; 
  5. 82 img.src = MNISTIMAGESSPRITEPATH
  6. ); 

這一行創(chuàng)建了 buffer,將其映射到保存了我們像素?cái)?shù)據(jù)的新 TypedArray 中,然后結(jié)束了該 promise。事實(shí)上***一行(設(shè)置 src 屬性)才真正啟動(dòng)函數(shù)并加載圖像。

起初困擾我的一件事是 TypedArray 的行為與其底層數(shù)據(jù) buffer 相關(guān)。你可能注意到了,在循環(huán)中設(shè)置了 datasetBytesView,但它永遠(yuǎn)都不會(huì)返回。

datasetBytesView 引用了緩沖區(qū)的 datasetBytesBuffer(初始化使用)。當(dāng)代碼更新像素?cái)?shù)據(jù)時(shí),它會(huì)間接編輯緩沖區(qū)的值,然后將其轉(zhuǎn)換為 78 行的 new Float32Array。

獲取 DOM 外的圖像數(shù)據(jù)

如果你在 DOM 中,使用 DOM 即可,瀏覽器(通過(guò) canvas)負(fù)責(zé)確定圖像的格式以及將緩沖區(qū)數(shù)據(jù)轉(zhuǎn)換為像素。但是如果你在 DOM 外工作的話(huà)(也就是說(shuō)用的是 Node.js 或 Web Worker),那就需要一種替代方法。

fetch 提供了一種稱(chēng)為 response.arrayBuffer 的機(jī)制,這種機(jī)制使你可以訪(fǎng)問(wèn)文件的底層緩沖。我們可以用這種方法在完全避免 DOM 的情況下手動(dòng)讀取字節(jié)。這里有一種編寫(xiě)上述代碼的替代方法(這種方法需要 fetch,可以用 isomorphic-fetch 等方法在 Node 中進(jìn)行多邊填充):

  1. const imgRequest = fetch(MNISTIMAGESSPRITE_PATH).then(resp => resp.arrayBuffer()).then(buffer => { 
  2.  return new Promise(resolve => { 
  3.  const reader = new PNGReader(buffer); 
  4.  return reader.parse((err, png) => { 
  5.  const pixels = Float32Array.from(png.pixels).map(pixel => { 
  6.  return pixel / 255; 
  7.  }); 
  8.  this.datasetImages = pixels
  9.  resolve(); 
  10.  }); 
  11.  }); 
  12. }); 

這為特定圖像返回了一個(gè)緩沖數(shù)組。在寫(xiě)這篇文章時(shí),我***次試著解析傳入的緩沖,但我不建議這樣做。如果需要的話(huà),我推薦使用 pngjs 進(jìn)行 png 的解析。當(dāng)處理其他格式的圖像時(shí),則需要自己寫(xiě)解析函數(shù)。

有待深入

理解數(shù)據(jù)操作是用 JavaScript 進(jìn)行機(jī)器學(xué)習(xí)的重要部分。通過(guò)理解本文所述用例與需求,我們可以根據(jù)需求在僅使用幾個(gè)關(guān)鍵函數(shù)的情況下對(duì)數(shù)據(jù)進(jìn)行格式化。

TensorFlow.js 團(tuán)隊(duì)一直在改進(jìn) TensorFlow.js 的底層數(shù)據(jù) API,這有助于更多地滿(mǎn)足需求。這也意味著,隨著 TensorFlow.js 的不斷改進(jìn)和發(fā)展,API 也會(huì)繼續(xù)前進(jìn),跟上發(fā)展的步伐。

原文鏈接:

https://medium.freecodecamp.org/how-to-deal-with-mnist-image-data-in-tensorflow-js-169a2d6941dd

【本文是51CTO專(zhuān)欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)文章,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來(lái)源: 51CTO專(zhuān)欄
相關(guān)推薦

2018-09-10 14:38:16

編程語(yǔ)言TensorFlow.機(jī)器學(xué)習(xí)

2020-10-27 09:37:43

PyTorchTensorFlow機(jī)器學(xué)習(xí)

2020-07-17 07:21:36

TensorFlow機(jī)器學(xué)習(xí)計(jì)算機(jī)視覺(jué)

2011-03-21 12:41:41

JavaScript

2025-01-21 15:20:14

2022-12-27 10:35:20

TensorFlow

2020-06-24 07:53:03

機(jī)器學(xué)習(xí)技術(shù)人工智能

2021-09-03 09:06:42

代碼時(shí)間開(kāi)發(fā)

2019-07-23 10:22:11

TensorFlow.Python機(jī)器學(xué)習(xí)

2025-02-05 10:02:03

Locust測(cè)試異常處理

2021-02-26 15:10:00

前端React組件交互

2020-09-09 07:00:00

TensorFlow神經(jīng)網(wǎng)絡(luò)人工智能

2020-11-24 10:10:48

人工智能

2023-06-27 09:00:00

2020-05-11 13:56:43

2D插畫(huà)人工智能

2022-04-27 08:55:01

Spring外部化配置

2021-05-18 09:01:39

Node.jsJSON文件

2021-07-15 10:15:52

Node.jsJSON前端

2022-04-28 18:37:50

PythonExcel

2011-04-06 13:40:48

Delphi
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品久久久av | 日韩免费一级 | 综合精品 | 久久精品播放 | 欧美一区二区三区国产精品 | 国产精品久久久久影院色老大 | 欧美性吧 | 久久久久久亚洲精品 | 日韩综合 | 久久高清国产 | 欧美一区二区 | 欧美精品一区二区三区在线 | 一级做a | 国产一级片网站 | 久久一久久 | 国产精品视频久久久久 | 国产精品久久 | 国产xxxx在线 | 亚洲激情一区二区三区 | 亚洲免费三级 | 五月婷婷视频 | 欧美国产日韩精品 | 日韩精品一区二区三区视频播放 | 久久高潮 | 99国产精品99久久久久久 | 黄片毛片免费观看 | 欧美精品乱码久久久久久按摩 | 青青草亚洲 | 欧美激情视频一区二区三区在线播放 | 欧美日韩综合一区 | 亚洲男人的天堂网站 | 狠狠操婷婷| av在线成人 | 福利成人 | 亚洲男人网 | 免费午夜电影 | 亚洲综合视频 | 中文字幕不卡在线观看 | 欧洲高清转码区一二区 | 欧美黄色一级毛片 | 国产欧美精品在线观看 |