基于 Flink x TiDB，智慧芽打造實時分析新方案

作者：曲明星@智慧芽 2022-08-16 08:05:21

本文整理自智慧芽數據倉庫架構師曲明星在 Flink Forward Asia 2021 實時數倉專場的分享。

?摘要：本文整理自智慧芽數據倉庫架構師曲明星在 Flink Forward Asia 2021 實時數倉專場的分享。本篇內容主要分為三個部分：

上圖是智慧芽APP 的產品架構圖，包括后臺管理系統、AI、內容引擎、幫助中心，為客戶提供知識產權信息化服務和科技創新情報系統。

上圖是原來的實時分析方案。流程大致是客戶檢索一個條件，通過分析 API 把客戶檢索的相關條件發送到不同的搜索引擎。這種方案會產生 4 個問題：

在建立實時數倉前，收集了業務要求實時數倉特點：

上圖是數據平臺概覽。從下往上看：

新的技術選型主要基于 TiDB，主要包括數據存儲、數倉服務兩個部分。數倉服務分為安全檢查、驅動表管理、緩存管理、集群負載檢查以及執行器等部分。

選擇 TiDB 是因為它是云原生并且社區活躍、滿足 TP 及 AP 業務場景、豐富的生態工具及多平臺以及其使用簡單，兼容 MySQL 以及大數據能力。

選擇 Flink 也是因為它是一個開源的大數據計算引擎，并且有活躍的云原生社區，能夠滿足對數據的及時性要求，一致性方面有 exactly-once 語義，同時具備低延遲高吞吐量。

在線業務數據寫入流程：把源頭的數據變更放到消息隊列中去，通過索引程序將數據分發到不同的搜索引擎，同時搜索引擎也會給索引程序發送消息。

離線分析技術體系：整個離線分析技術體系比較依賴于 oss。將每日的增量數據離線放到 oss 里，對全量的數據進行一些比較復雜的分析。

離線業務數據寫入流程：數據變更會觸發持久流化至 oss，oss 同時會和歷史流進行合并在 oss 放一份全量數據。

原用戶行為分析方案是非常復雜的方案，這個方案在前端有 JS 和 Java 的 API，JS 會將用戶的埋點數據放置到 Segment 中去，同時有 Gainsight 和 AMPLITUDE 兩個合成化引擎。

新的用戶行為分析方案相對比較簡潔。首先收集用戶的行為數據，通過 Kinesis 以流的方式接到到 Flink，再進行一些實時指標的計算，并將計算結果存放于不同的表中，給我們提供了可視化的開發。

在 Flink + Iceberge 的探索中，將幾百 G 左右的表以流的方式放到 Kafka 中，再推送到 oss 中。目前，市面上缺乏成熟的解決方案，所以沒有把這個方式應用到生產環境上。

責任編輯：未麗燕來源： Apache Flink

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看