成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

10萬條數據批量插入,到底怎么做才快?

開發 前端
雖然是一條一條的插入,但是我們要開啟批處理模式(BATCH),這樣前前后后就只用這一個 SqlSession,如果不采用批處理模式,反反復復的獲取 Connection 以及釋放 Connection 會耗費大量時間,效率奇低,這種效率奇低的方式松哥就不給大家測試了。

[[432840]]

上周松哥轉載了一個數據批量插入的文章,里邊和大家聊了一下數據批量插入的問題,批量插入到底怎么做才快。

有個小伙伴看了文章后提出了不同的意見:

松哥認真和 BUG 同學聊了下,基本上明白了這個小伙伴的意思,于是我自己也寫了個測試案例,重新整理了今天這篇文章,希望和小伙伴們一起探討這個問題,也歡迎小伙伴們提出更好的方案。

1. 思路分析

批量插入這個問題,我們用 JDBC 操作,其實就是兩種思路吧:

  • 用一個 for 循環,把數據一條一條的插入(這種需要開啟批處理)。
  • 生成一條插入 sql,類似這種 insert into user(username,address) values('aa','bb'),('cc','dd')...。

到底哪種快呢?

我們從兩方面來考慮這個問題:

  • 插入 SQL 本身執行的效率。
  • 網絡 I/O。

先說第一種方案,就是用 for 循環循環插入:

  • 這種方案的優勢在于,JDBC 中的 PreparedStatement 有預編譯功能,預編譯之后會緩存起來,后面的 SQL 執行會比較快并且 JDBC 可以開啟批處理,這個批處理執行非常給力。
  • 劣勢在于,很多時候我們的 SQL 服務器和應用服務器可能并不是同一臺,所以必須要考慮網絡 IO,如果網絡 IO 比較費時間的話,那么可能會拖慢 SQL 執行的速度。

再來說第二種方案,就是生成一條 SQL 插入:

  • 這種方案的優勢在于只有一次網絡 IO,即使分片處理也只是數次網絡 IO,所以這種方案不會在網絡 IO 上花費太多時間。
  • 當然這種方案有好幾個劣勢,一是 SQL 太長了,甚至可能需要分片后批量處理;二是無法充分發揮 PreparedStatement 預編譯的優勢,SQL 要重新解析且無法復用;三是最終生成的 SQL 太長了,數據庫管理器解析這么長的 SQL 也需要時間。

所以我們最終要考慮的就是我們在網絡 IO 上花費的時間,是否超過了 SQL 插入的時間?這是我們要考慮的核心問題。

2. 數據測試

接下來我們來做一個簡單的測試,批量插入 5 萬條數據看下。

首先準備一個簡單的測試表:

  1. CREATE TABLE `user` ( 
  2.   `id` int(11) unsigned NOT NULL AUTO_INCREMENT, 
  3.   `username` varchar(255) DEFAULT NULL
  4.   `address` varchar(255) DEFAULT NULL
  5.   `passwordvarchar(255) DEFAULT NULL
  6.   PRIMARY KEY (`id`) 
  7. ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4; 

接下來創建一個 Spring Boot 工程,引入 MyBatis 依賴和 MySQL 驅動,然后 application.properties 中配置一下數據庫連接信息:

  1. spring.datasource.username=root 
  2. spring.datasource.password=123 
  3. spring.datasource.url=jdbc:mysql:///batch_insert?serverTimezone=Asia/Shanghai&rewriteBatchedStatements=true 

大家需要注意,這個數據庫連接 URL 地址中多了一個參數 rewriteBatchedStatements,這是核心。

MySQL JDBC 驅動在默認情況下會無視 executeBatch() 語句,把我們期望批量執行的一組 sql 語句拆散,一條一條地發給 MySQL 數據庫,批量插入實際上是單條插入,直接造成較低的性能。將 rewriteBatchedStatements 參數置為 true, 數據庫驅動才會幫我們批量執行 SQL。

OK,這樣準備工作就做好了。

2.1 方案一測試

首先我們來看方案一的測試,即一條一條的插入(實際上是批處理)。

首先創建相應的 mapper,如下:

  1. @Mapper 
  2. public interface UserMapper { 
  3.     Integer addUserOneByOne(User user); 

對應的 XML 文件如下:

  1. <insert id="addUserOneByOne"
  2.     insert into user (username,address,passwordvalues (#{username},#{address},#{password}) 
  3. </insert

service 如下:

  1. @Service 
  2. public class UserService extends ServiceImpl<UserMapper, User> implements IUserService { 
  3.     private static final Logger logger = LoggerFactory.getLogger(UserService.class); 
  4.     @Autowired 
  5.     UserMapper userMapper; 
  6.     @Autowired 
  7.     SqlSessionFactory sqlSessionFactory; 
  8.  
  9.     @Transactional(rollbackFor = Exception.class) 
  10.     public void addUserOneByOne(List<User> users) { 
  11.         SqlSession session = sqlSessionFactory.openSession(ExecutorType.BATCH); 
  12.         UserMapper um = session.getMapper(UserMapper.class); 
  13.         long startTime = System.currentTimeMillis(); 
  14.         for (User user : users) { 
  15.             um.addUserOneByOne(user); 
  16.         } 
  17.         session.commit(); 
  18.         long endTime = System.currentTimeMillis(); 
  19.         logger.info("一條條插入 SQL 耗費時間 {}", (endTime - startTime)); 
  20.     } 

這里我要說一下:

雖然是一條一條的插入,但是我們要開啟批處理模式(BATCH),這樣前前后后就只用這一個 SqlSession,如果不采用批處理模式,反反復復的獲取 Connection 以及釋放 Connection 會耗費大量時間,效率奇低,這種效率奇低的方式松哥就不給大家測試了。

接下來寫一個簡單的測試接口看下:

  1. @RestController 
  2. public class HelloController { 
  3.     private static final Logger logger = getLogger(HelloController.class); 
  4.     @Autowired 
  5.     UserService userService; 
  6.     /** 
  7.      * 一條一條插入 
  8.      */ 
  9.     @GetMapping("/user2"
  10.     public void user2() { 
  11.         List<User> users = new ArrayList<>(); 
  12.         for (int i = 0; i < 50000; i++) { 
  13.             User u = new User(); 
  14.             u.setAddress("廣州:" + i); 
  15.             u.setUsername("張三:" + i); 
  16.             u.setPassword("123:" + i); 
  17.             users.add(u); 
  18.         } 
  19.         userService.addUserOneByOne(users); 
  20.     } 

寫個簡單的單元測試:

  1. /** 
  2.  *  
  3.  * 單元測試加事務的目的是為了插入之后自動回滾,避免影響下一次測試結果 
  4.  * 一條一條插入 
  5.  */ 
  6. @Test 
  7. @Transactional 
  8. void addUserOneByOne() { 
  9.     List<User> users = new ArrayList<>(); 
  10.     for (int i = 0; i < 50000; i++) { 
  11.         User u = new User(); 
  12.         u.setAddress("廣州:" + i); 
  13.         u.setUsername("張三:" + i); 
  14.         u.setPassword("123:" + i); 
  15.         users.add(u); 
  16.     } 
  17.     userService.addUserOneByOne(users); 

可以看到,耗時 901 毫秒,5w 條數據插入不到 1 秒。

2.2 方案二測試

方案二是生成一條 SQL,然后插入。

mapper 如下:

  1. @Mapper 
  2. public interface UserMapper { 
  3.     void addByOneSQL(@Param("users") List<User> users); 

對應的 SQL 如下:

  1. <insert id="addByOneSQL"
  2.     insert into user (username,address,passwordvalues 
  3.     <foreach collection="users" item="user" separator=","
  4.         (#{user.username},#{user.address},#{user.password}) 
  5.     </foreach> 
  6. </insert

service 如下:

  1. @Service 
  2. public class UserService extends ServiceImpl<UserMapper, User> implements IUserService { 
  3.     private static final Logger logger = LoggerFactory.getLogger(UserService.class); 
  4.     @Autowired 
  5.     UserMapper userMapper; 
  6.     @Autowired 
  7.     SqlSessionFactory sqlSessionFactory; 
  8.     @Transactional(rollbackFor = Exception.class) 
  9.     public void addByOneSQL(List<User> users) { 
  10.         long startTime = System.currentTimeMillis(); 
  11.         userMapper.addByOneSQL(users); 
  12.         long endTime = System.currentTimeMillis(); 
  13.         logger.info("合并成一條 SQL 插入耗費時間 {}", (endTime - startTime)); 
  14.     } 

然后在單元測試中調一下這個方法:

  1. /** 
  2.  * 合并成一條 SQL 插入 
  3.  */ 
  4. @Test 
  5. @Transactional 
  6. void addByOneSQL() { 
  7.     List<User> users = new ArrayList<>(); 
  8.     for (int i = 0; i < 50000; i++) { 
  9.         User u = new User(); 
  10.         u.setAddress("廣州:" + i); 
  11.         u.setUsername("張三:" + i); 
  12.         u.setPassword("123:" + i); 
  13.         users.add(u); 
  14.     } 
  15.     userService.addByOneSQL(users); 

可以看到插入 5 萬條數據耗時 1805 毫秒。

可以看到,生成一條 SQL 的執行效率還是要差一點。

另外還需要注意,第二種方案還有一個問題,就是當數據量大的時候,生成的 SQL 將特別的長,MySQL 可能一次性處理不了這么大的 SQL,這個時候就需要修改 MySQL 的配置或者對待插入的數據進行分片處理了,這些操作又會導致插入時間更長。

2.3 對比分析

很明顯,方案一更具優勢。當批量插入十萬、二十萬數據的時候,方案一的優勢會更加明顯(方案二則需要修改 MySQL 配置或者對待插入數據進行分片)。

3. MP 怎么做的?

小伙伴們知道,其實 MyBatis Plus 里邊也有一個批量插入的方法 saveBatch,我們來看看它的實現源碼:

  1. @Transactional(rollbackFor = Exception.class) 
  2. @Override 
  3. public boolean saveBatch(Collection<T> entityList, int batchSize) { 
  4.     String sqlStatement = getSqlStatement(SqlMethod.INSERT_ONE); 
  5.     return executeBatch(entityList, batchSize, (sqlSession, entity) -> sqlSession.insert(sqlStatement, entity)); 

可以看到,這里拿到的 sqlStatement 就是一個 INSERT_ONE,即一條一條插入。

再來看 executeBatch 方法,如下:

  1. public static <E> boolean executeBatch(Class<?> entityClass, Log log, Collection<E> list, int batchSize, BiConsumer<SqlSession, E> consumer) { 
  2.     Assert.isFalse(batchSize < 1, "batchSize must not be less than one"); 
  3.     return !CollectionUtils.isEmpty(list) && executeBatch(entityClass, log, sqlSession -> { 
  4.         int size = list.size(); 
  5.         int i = 1; 
  6.         for (E element : list) { 
  7.             consumer.accept(sqlSession, element); 
  8.             if ((i % batchSize == 0) || i == size) { 
  9.                 sqlSession.flushStatements(); 
  10.             } 
  11.             i++; 
  12.         } 
  13.     }); 

這里注意 return 中的第三個參數,是一個 lambda 表達式,這也是 MP 中批量插入的核心邏輯,可以看到,MP 先對數據進行分片(默認分片大小是 1000),分片完成之后,也是一條一條的插入。繼續查看 executeBatch 方法,就會發現這里的 sqlSession 其實也是一個批處理的 sqlSession,并非普通的 sqlSession。

綜上,MP 中的批量插入方案跟我們 2.1 小節的批量插入思路其實是一樣的。

4. 小結

好啦,經過上面的分析,現在小伙伴們知道了批量插入該怎么做了吧?

本文轉載自微信公眾號「江南一點雨」,可以通過以下二維碼關注。轉載本文請聯系江南一點雨公眾號。

 

責任編輯:武曉燕 來源: 江南一點雨
相關推薦

2022-10-27 21:32:28

數據互聯網數據中心

2024-03-07 08:08:51

SQL優化數據

2019-07-16 08:51:03

熱搜新浪微博數據

2022-09-23 09:44:17

MyBatisforeach

2022-06-17 10:15:35

面試API前端

2024-04-15 08:30:53

MySQLORM框架

2021-10-12 10:22:33

數據庫架構技術

2023-10-19 15:13:25

2011-03-31 11:24:14

數據搜索本文字段

2019-11-28 18:54:50

數據庫黑客軟件

2019-07-02 10:22:15

TCP流量數據

2018-08-27 07:01:33

數據分析數據可視化租房

2017-06-05 14:53:05

2022-06-20 08:01:56

Kafka服務器數據量

2023-09-27 22:44:18

數據遷移數據庫

2022-04-28 20:12:44

二分法搜索算法

2024-05-31 11:37:20

2022-07-06 11:30:57

數據分析預測模型

2017-07-22 22:11:36

數據丟失操作

2024-07-10 10:08:36

項目多表關聯哈希
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品高潮呻吟久久av野狼 | 欧美日韩在线一区二区 | 成人久久网 | 国产 日韩 欧美 制服 另类 | 91毛片在线看 | 亚洲一一在线 | 99热热 | 午夜资源 | 欧美日韩国产一区二区 | 黄色片在线免费看 | 日韩成年人视频在线 | 亚洲欧美日韩精品久久亚洲区 | 亚洲一区中文 | 国产美女在线精品免费 | 亚洲精品成人网 | 久久曰视频 | 久久人爽爽人爽爽 | 日韩一区二区三区av | 在线一区视频 | 国产一级片免费视频 | 成人免费久久 | 99精品亚洲国产精品久久不卡 | 国产99热在线 | 免费h视频 | 国内精品在线视频 | 一区二区日本 | 激情欧美一区二区三区 | 日本精品一区二区三区视频 | 午夜影院操 | 国产精品毛片无码 | 视频一区二区三区四区五区 | 本道综合精品 | 91久久精品一区二区二区 | 成人欧美一区二区三区在线观看 | 久久久男人的天堂 | 中文字幕一区二区在线观看 | 欧美黄色免费网站 | 国产在线不卡 | 久久亚洲一区二区三区四区 | 色婷婷国产精品 | 电影午夜精品一区二区三区 |