成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何在 Node.js 中流式處理大 JSON 文件

開發 前端
解決一個問題不只要搜尋最終的答案,尋找答案的過程同樣也是重要的,善于思考與總結總歸是好的。

[[411438]]

 解決一個問題不只要搜尋最終的答案,尋找答案的過程同樣也是重要的,善于思考與總結總歸是好的。

本文介紹一個概念 SAX 的設計模式,這個概念雖然不是來源于 Node.js,但它解決問題的一些思想當我們在使用 Node.js 或一些其它的編程語言中遇到類似問題時也會受到一些啟發,本文后面會介紹如何流式處理一個大 JSON 文件,下面先給出了兩個問題,可以先思考下如果是你會怎么做?

場景描述

問題一:假設現在有一個場景,有一個大的 JSON 文件,需要讀取每一條數據經過處理之后輸出到一個文件或生成報表數據,怎么能夠流式的每次讀取一條記錄? 

  1.  
  2.   {"id": 1},  
  3.   {"id": 2},  
  4.   ...  

問題二:同樣一個大的 JSON 文件,我只讀取其中的某一塊數據,想只取 list 這個對象數組怎么辦? 

  1.  
  2.  "list": [],  
  3.   "otherList": []  

在 Node.js 中我們可以基于以下幾種方式讀取數據,也是通常首先能夠想到的:

  •  fs.readFile():這個是一次性讀取數據到內存,數據量大了都占用到內存也不是好辦法,很容易造成內存溢出。
  •  fs.createReadStream():創建一個可讀流,能解決避免大量數據占用內存的問題,這是一個系統提供的基礎 API 讀取到的是一個個的數據塊,因為我們的 JSON 對象是結構化的,也不能直接解決上面提的兩個問題。
  •  還有一個 require() 也可以加載 JSON 文件,但是稍微熟悉點 Node.js CommonJS 規范的應該知道 require 加載之后是會緩存的,會一直占用在服務的內存里。

了解下什么是 SAX

SAX 是 Simple API for XML 的簡稱,目前沒有一個標準的 SAX 參考標準,最早是在 Java 編程語言里被實現和流行開的,以 Java 對 SAX 的實現后來也被認為是一種規范。其它語言的實現也是遵循著該規則,盡管每門語言實現都有區別,但是這里有一個重要的概念 “事件驅動” 是相同的。

實現了 SAX 的解析器擁有事件驅動那樣的 API,像 Stream 的方式來工作,邊讀取邊解析,用戶可以定義回調函數獲取數據,無論 XML 內容多大,內存占用始終都會很小。

這對我們本節有什么幫助?我們讀取解析一個大 JSON 文件的時候,也不能把所有數據都加載到內存里,我們也需要一個類似 SAX 這樣的工具幫助我們實現。

基于 SAX 的流式 JSON 解析器

這是一個流式 JSON 解析器 https://github1s.com/creationix/jsonparse 周下載量在 600 多萬,但是這個源碼看起來很難梳理。如果是學習,推薦一個基于 SAX 的更簡單版本 https://gist.github.com/creationix/1821394 感興趣的可以看看。

JSON 是有自己的標準的,有規定的數據類型、格式。這個 JSON 解析器也是在解析到特定的格式或類型后觸發相應的事件,我們在使用時也要注冊相應的回調函數。

下面示例,創建一個可讀流對象,在流的 data 事件里注冊 SaxParser 實例對象的 parse 方法,也就是將讀取到的原始數據(默認是 Buffer 類型)傳遞到 parse() 函數做解析,當解析到數據之后觸發相應事件。

對應的 Node.js 代碼如下: 

  1. const SaxParser = require('./jsonparse').SaxParser;  
  2. const p = new SaxParser({  
  3.   onNull: function () { console.log("onNull") },  
  4.   onBoolean: function (value) { console.log("onBoolean", value) }, 
  5.   onNumber: function (value) { console.log("onNumber", value) },  
  6.   onString: function (value) { console.log("onString", value) },  
  7.   onStartObject: function () { console.log("onStartObject") },  
  8.   onColon: function () { console.log("onColon") },  
  9.   onComma: function () { console.log("onComma") },  
  10.   onEndObject: function () { console.log("onEndObject") },  
  11.   onStartArray: function () { console.log("onEndObject") },  
  12.   onEndArray: function () { console.log("onEndArray") }  
  13. });  
  14. const stream = require('fs').createReadStream("./example.json");  
  15. const pparse = p.parse.bind(p);  
  16. stream.on('data', parse); 

怎么去解析一個 JSON 文件的數據已經解決了,但是如果直接這樣使用還是需要在做一些處理工作的。

JSONStream 處理大文件

這里推薦一個 NPM 模塊 JSONStream,在它的實現中就是依賴的 jsonparse 這個模塊來解析原始的數據,在這基礎之上做了一些處理,根據一些匹配模式返回用戶想要的數據,簡單易用。

下面我們用 JSONStream 解決上面提到的兩個問題。

問題一:

假設現在有一個場景,有一個大的 JSON 文件,需要讀取每一條數據經過處理之后輸出到一個文件或生成報表數據,怎么能夠流式的每次讀取一條記錄?

因為測試,所以我將 highWaterMark 這個值調整了下,現在我們的數據是下面這樣的。 

  1.  
  2.   { "id": 1 },  
  3.   { "id": 2 }  

重點是 JSONStream 的 parse 方法,我們傳入了一個 '.',這個 data 事件也是該模塊自己處理過的,每次會為我們返回一個對象:

  •  第一次返回 { id: 1 }
  •  第二次返回 { id: 2 } 
  1. const fs = require('fs');  
  2. const JSONStream = require('JSONStream');  
  3. (async () => {  
  4.   const readable = fs.createReadStream('./list.json', {  
  5.     encoding: 'utf8',  
  6.     highWaterMark: 10  
  7.   })  
  8.   const parser = JSONStream.parse('.');  
  9.   readable.pipe(parser);  
  10.   parser.on('data', console.log);  
  11. })() 

問題二:

同樣一個大的 JSON 文件,我只讀取其中的某一塊數據,想只取 list 這個數組對象怎么辦?

解決第二個問題,現在我們的 JSON 文件是下面這樣的。 

  1.  
  2.   "list": [  
  3.     { "name": "1" },  
  4.     { "name": "2" }  
  5.   ],  
  6.   "other": [  
  7.     { "key": "val" }  
  8.   ]  

與第一個解決方案不同的是改變了 parse('list.*') 方法,現在只會返回 list 數組,other 是不會返回的,其實在 list 讀取完成之后這個工作就結束了。

  •  第一次返回 { name: '1' }
  •  第二次返回 { name: '2' } 
  1. (async () => {  
  2.   const readable = fs.createReadStream('./list.json', {  
  3.     encoding: 'utf8',  
  4.     highWaterMark: 10  
  5.   })  
  6.   const parser = JSONStream.parse('list.*');  
  7.   readable.pipe(parser);  
  8.   parser.on('data', console.log);  
  9. })(); 

總結

當我們遇到類似的大文件需要處理時,盡可能避免將所有的數據存放于內存操作,應用服務的內存都是有限制的,這也不是最好的處理方式。

文中主要介紹如何流式處理類似的大文件,更重要的是掌握編程中的一些思想,例如 SAX 一個核心點就是實現了 “事件驅動” 的設計模式,同時結合 Stream 做到邊讀取邊解析。

處理問題的方式是多樣的,還可以在生成 JSON 文件時做拆分,將一個大文件拆分為不同的小文件。

學會尋找答案,NPM 生態發展的還是不錯的,基本上你能遇到的問題大多已有一些解決方案了,例如本次問題,不知道如何使用 Stream 來讀取一個 JSON 文件時,可以在 NPM 上搜索關鍵詞嘗試著找下。

 

 

責任編輯:龐桂玉 來源: 前端大全
相關推薦

2021-05-18 09:01:39

Node.jsJSON文件

2021-07-30 11:20:53

JavaScriptNode.jsWeb Develop

2020-08-05 08:31:51

SSL TLSNode.js

2021-07-03 17:43:03

Node.jsNode變量

2022-11-17 09:52:12

RHEL 9Node.js

2020-10-26 08:34:13

Node.jsCORS前端

2011-09-09 14:23:13

Node.js

2023-10-04 07:35:03

2020-08-24 08:07:32

Node.js文件函數

2021-12-25 22:29:57

Node.js 微任務處理事件循環

2020-05-29 15:33:28

Node.js框架JavaScript

2021-10-25 09:00:37

Node.jsJS前端

2022-08-12 07:01:00

Node.jsXSS腳本

2021-09-07 07:53:43

工具

2021-08-20 16:05:28

JavaScript node.js 應用安全

2013-11-01 09:34:56

Node.js技術

2015-03-10 10:59:18

Node.js開發指南基礎介紹

2020-04-20 16:00:05

Node.js框架JavaScript

2011-09-08 13:46:14

node.js

2011-11-01 10:30:36

Node.js
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩一区二区不卡 | 欧美日韩精品在线免费观看 | 国产精品久久久久久久久免费樱桃 | 午夜影院在线免费观看视频 | 一区二区国产精品 | 久久久久久天堂 | 日本中文在线视频 | 黄色三级免费网站 | 男人电影天堂 | 亚洲精品自在在线观看 | 国产精品一区二区无线 | 国产成人一区在线 | 久久久精品视频一区二区三区 | 免费久久网站 | 亚洲视频一区 | 国产在线h | 久久三区 | 日日夜夜精品视频 | 日本在线综合 | 羞羞视频免费在线观看 | 农村真人裸体丰满少妇毛片 | 蜜桃av一区二区三区 | 日韩免费中文字幕 | 中文字幕在线观看一区 | 懂色中文一区二区在线播放 | 久久精品日产第一区二区三区 | 亚洲一区视频 | 在线第一页| 午夜男人视频 | 久久国产视频网 | 亚洲第一天堂 | 精品国产1区2区3区 在线国产视频 | 欧美一区二区综合 | 国精日本亚洲欧州国产中文久久 | 成人亚洲精品 | 午夜精品视频在线观看 | 日韩中文视频 | 欧美一级免费 | 欧美精品在线一区 | 一二三四在线视频观看社区 | 欧美日韩成人在线观看 |