散文網(wǎng) » 科技 »學習 » 袋鼠云產(chǎn)品功能更新報告06期｜數(shù)棧產(chǎn)品功能升級，做產(chǎn)品我們是認真的！

袋鼠云產(chǎn)品功能更新報告06期｜數(shù)棧產(chǎn)品功能升級，做產(chǎn)品我們是認真的！

2023-07-14 12:22 作者:袋鼠云 0人讀過 | 我要投稿

2023年已過半，袋鼠云開發(fā)團隊和產(chǎn)品團隊對數(shù)棧產(chǎn)品本身以及客戶反饋的問題和痛點進行了持續(xù)性的更新和優(yōu)化，包括對 EasyMR 監(jiān)控告警功能的更新，以及對離線開發(fā)平臺表生命周期邏輯的優(yōu)化等，力求滿足不同行業(yè)用戶的更多需求，為用戶帶來極致的產(chǎn)品使用體驗。

以下為袋鼠云產(chǎn)品功能更新報告06期內(nèi)容，更多探索，請繼續(xù)閱讀。

EasyMR

新增功能更新

1.CGroup 進程管控

背景：因為環(huán)境或者代碼 bug 導致單個進程影響整個平臺使用，目前是手動重啟服務解決問題，時效性低、成本相對較高。

新增功能說明：EasyMR 新增 CGroup 進程管控功能，對 linux 的一組進程包括 CPU、內(nèi)存、磁盤 IO、網(wǎng)絡等在內(nèi)的資源使用進行限制、管理和隔離。

2.Hadoop Admin 用戶啟動

背景：Hadoop3 版本使用 admin（普通）用戶（sudo 權限）主機接入，無法使用普通用戶啟動服務。

新增功能說明：Hadoop3 版本支持利用 admin（普通）用戶（sudo 權限）主機接入，支持使用普通用戶啟動服務。

3.業(yè)務數(shù)據(jù)庫適配 TDSQL

背景：某客戶要求全數(shù)棧產(chǎn)品對接客戶 TDSQL。

新增功能說明：EasyMR 安裝腳本支持配置外部數(shù)據(jù)源。

4.儀表盤升級更新

背景：EasyMR 更新時，儀表盤會跟隨 EasyMR 產(chǎn)品包一起部署?？蛻衾习姹镜膬x表盤可能存在變更情況，需要對客戶老版本的儀表盤進行保留，同時更新上傳新增儀表盤。

新增功能說明：EasyMR 升級時，儀表盤會跟隨 EasyMR 產(chǎn)品包一起部署：

? EasyMR 升級時覆蓋老版本儀表盤，保留客戶自建儀表盤

? 備份歷史儀表盤到本地環(huán)境

5.【監(jiān)控告警】告警頻率

背景：當前告警信息一天只發(fā)送一次，很容易被忽略掉，對于比較嚴重的告警已經(jīng)影響到客戶的業(yè)務使用，需要多次提醒盡快處理。

新增功能說明：三級告警間隔設置，告警首次觸發(fā)之后根據(jù)告警等級觸發(fā)告警間隔，告警間隔為：

? 嚴重告警：5分鐘

? 一般告警：6小時

?提示告警：24小時

6.自定義 logo

背景：EasyMR 分商業(yè)版、開源版，不同版本的 logo 不同，同時存在客戶自定義 logo 的需求，因此需要支持 logo 自定義配置。

新增功能說明：通過配置文件支持自定義 logo 及文案，logo 文案配置步驟如下：

? 上傳新 logo 到“/data/easymanager/dtstack-runtime/images/”目錄下；

? 修改 docker-compose.yml 配置文件中 PRODUCTNAME、volumes 參數(shù)，示例：

7.健康檢查異常服務重啟

背景：服務多次健康檢查異常時，服務基本處于不可用狀態(tài)，需要支持多次異常服務重啟服務保證服務的可用性。

新增功能說明：支持通過產(chǎn)品包 Schema 配置健康檢查的頻次、是否重啟。

8.EasyMR 服務高可用

背景：EasyMR 存在單點故障、低性能和容量瓶頸等問題，為了保障服務的可靠性和穩(wěn)定性，降低平臺服務中斷風險，需要平臺進行高可用改造。

新增功能說明：對EasyMR 自身服務進行高可用改造，監(jiān)控組件暫不支持高可用。

9.NTP 服務自動重啟

背景：NTP 作為一種用于同步計算機系統(tǒng)時間的網(wǎng)絡協(xié)議，服務可能會出現(xiàn)故障或異常，導致系統(tǒng)時間不準確，進而影響到數(shù)據(jù)的一致性和分析結果的準確性。

新增功能說明：對 NTP 服務添加服務監(jiān)控，服務down機后自動重啟 NTP 服務，以提升服務的可用性和穩(wěn)定性，保障系統(tǒng)時間的準確性，降低人工干預成本。

10.MySQL數(shù)據(jù)自動備份

背景：在 EasyMR 中 MySQL 數(shù)據(jù)庫扮演著關鍵的角色，用于存儲和管理平臺服務數(shù)據(jù)及監(jiān)控告警信息。傳統(tǒng)情況下，MySQL 數(shù)據(jù)的備份通常需要人工介入進行操作，人工備份容易出現(xiàn)疏忽導致備份遺漏或不完整，備份過程中對系統(tǒng)產(chǎn)生較大的負載，并且人工備份需要耗費大量時間和資源。

新增功能說明：通過腳本設置定時任務來實現(xiàn) MySQL 數(shù)據(jù)的自動備份到指定服務器，實現(xiàn)數(shù)據(jù)異地備份。

11.Dashboard 支持分集群監(jiān)控

背景：Dashboard 儀表盤僅支持按主機節(jié)點篩選查看，無法按集群分類監(jiān)控，影響運維人員對集群級別的監(jiān)控運維。

新增功能說明：增加集群下拉選擇框，支持按集群級別進行監(jiān)控。

12.HDFS 數(shù)據(jù)均衡

背景：隨著數(shù)據(jù)量的增長和頻繁的數(shù)據(jù)寫入、刪除操作，HDFS 上的數(shù)據(jù)可能會出現(xiàn)分布不均的情況，即某些節(jié)點上的數(shù)據(jù)負載較大，而其他節(jié)點上的數(shù)據(jù)負載較輕，當 HDFS 上的數(shù)據(jù)分布不均時，會導致部分節(jié)點資源過度利用，造成性能瓶頸，降低數(shù)據(jù)讀寫速度和查詢效率。同時，還會導致資源浪費，一些節(jié)點的存儲容量得不到充分利用，影響整個大數(shù)據(jù)管理平臺的性能和可用性。

新增功能說明：HDFS-Datanode 服務，操作中新增「數(shù)據(jù)均衡」功能：

? Bandwidth：數(shù)據(jù)均衡帶寬，默認值 5（MB/s）

? Balancer Threshold：數(shù)據(jù)均衡平衡度閾值，通過設置合適的 HDFS Balancer Threshold，可以避免過于頻繁觸發(fā)數(shù)據(jù)均衡操作，從而降低對集群性能和網(wǎng)絡帶寬的影響，同時，還能夠確保集群中的數(shù)據(jù)分布保持在一個相對平衡的狀態(tài)，提高整體性能和資源利用率

功能優(yōu)化

1.Ldap 配置頁提示

背景：Ldap 配置參數(shù)規(guī)則復雜，非專業(yè)人士很難理解 Ldap 配置參數(shù)含義及配置規(guī)則。

體驗優(yōu)化說明：新增 Ldap 配置頁參數(shù)提示：

? 新增配置頁參數(shù)「管理員賬號」、「baseDN」、「用戶過濾」、「用戶組過濾」默認規(guī)則

? 新增參數(shù)「baseDN」、「用戶過濾」、「用戶組過濾」hover注釋

2.服務配置注釋

背景：由于服務配置參數(shù)較多，僅通過參數(shù)名稱很難確定參數(shù)含義，因此需要對參數(shù)進行中文注釋同時對參數(shù)使用進行說明。

體驗優(yōu)化說明：

? 支持參數(shù)名+參數(shù)注釋模糊搜索 ? 配置參數(shù)在 Schema 中維護參數(shù)的中文名稱 ? 新增「操作」按鈕，原「重置」、「添加參數(shù)」、「配置下發(fā)」、「滾動重啟」功能統(tǒng)一放到「操作」按鈕下，原功能邏輯不變 ? Schema 中維護參數(shù)的使用說明注釋

3.分級告警

背景：EasyMR 支持分級告警，Grafana 現(xiàn)版本5.1.3 存在諸多漏洞問題，需要進行版本升級。

體驗優(yōu)化說明：Grafana 現(xiàn)版本5.1.3 升級到新版本 Grafana 8.5.15，支持三級告警「嚴重告警、次要告警、提示告警」：

? 嚴重告警：告警規(guī)則對應資源發(fā)生緊急故障，影響業(yè)務視為緊急告警 ? 次要告警：告警規(guī)則對應資源存在相對不太嚴重點問題，此問題不會阻礙資源的正常使用 ? 提示告警：告警規(guī)則對應資源存在潛在的錯誤可能影響到業(yè)務

4.配置參數(shù)加密

背景：配置參數(shù)中例如 password、user 信息需要進行加密展示，但經(jīng)常出現(xiàn)參數(shù)為 xxx_pass 也需要進行加密，目前由后端進行參數(shù)關鍵詞匹配再對值進行加密，特殊需求適配性不好。

體驗優(yōu)化說明：產(chǎn)品打包時，在 Schema 中標記參數(shù)是否為敏感參數(shù)，由后端進行參數(shù)值加密顯示。

離線開發(fā)平臺

新增功能更新

1.數(shù)據(jù)源

背景：目前在數(shù)據(jù)源頁面中查看 meta 數(shù)據(jù)源的 schema，只能在 jdbc url 中查看，對于用戶來說不方便。

新增功能說明：數(shù)據(jù)源頁面展示當前項目的schema名稱，以及能做meta schema的快捷查找，新增 meta schema 的篩選項，并將 meta schema 作為單獨的字段進行展示。

2.【數(shù)據(jù)開發(fā)】Hive SQL

? Hive SQL 支持語法提示、表聯(lián)想：

在 SQL 編寫時，離線 IDE 支持表名、字段名、關鍵字、函數(shù)名等內(nèi)容的語法提示

? Hive SQL 運行日志支持實時打印、展示任務運行進度、支持任務停止：

Hive SQL 執(zhí)行臨時運行時，展示執(zhí)行進度并實時打印日志，日志包含執(zhí)行的 map、reduce 的情況，任務運行過程中，支持停止運行

3.資源支持版本管理

資源版本支持記錄資源最近的十個版本，支持對版本資源進行「回滾至此版本」「下載」「刪除」操作。

4.【數(shù)據(jù)同步任務】字段變化

當數(shù)據(jù)同步任務的字段發(fā)生變化時，可通知字段的變化及影響的任務信息。

數(shù)據(jù)同步中新增元數(shù)據(jù)校驗高級參數(shù)“metadataCheck”，當值為“true”時，對于數(shù)據(jù)同步任務的臨時運行/周期實例運行/補數(shù)據(jù)實例運行/手動實例運行前檢查源表或目標表的表結構是否發(fā)生變更（字段增加、字段減少、字段類型變更），如果有變更則實例狀態(tài)變?yōu)樘峤皇。谌罩局写蛴∽兏鼉?nèi)容。

如果任務配置了告警規(guī)則，且觸發(fā)條件是“失敗”時，則會在告警中打印失敗原因和字段變動情況。

5.支持給任務打標簽

背景：客戶期望可以給任務打標簽，比如給部分任務打上“合同”的標簽，給部分任務打上“客商”的標簽，可以按標簽去執(zhí)行運維操作，例如：補數(shù)據(jù)、告警。

新增功能說明：在數(shù)據(jù)開發(fā)頁面，支持創(chuàng)建標簽和給任務指定標簽，并在運維中心進行補數(shù)據(jù)和告警配置操作時，支持以標簽為維度進行任務配置。

6.離線支持代碼檢查規(guī)則

? 在「數(shù)據(jù)資產(chǎn)->數(shù)據(jù)治理」中可以開啟或新增代碼檢查規(guī)則

? 在「離線開發(fā)->項目管理->操作設置」中支持開啟代碼規(guī)則和選擇生效范圍，目前僅支持創(chuàng)建 Hive SQL、Spark SQL、Impala SQL、Inceptor SQL 四種任務的代碼檢查規(guī)則

? 開啟規(guī)則后，在 IDE 界面中可以手動進行 SQL 規(guī)范性檢查，在日志中打印檢查結果，任務運行和提交時也會進行 SQL 規(guī)范性檢查

7.任務保存支持版本管理

? 增加保存版本的版本記錄，記錄未提交僅保存的內(nèi)容

? 在發(fā)生異常/系統(tǒng)自動登出時會自動保存，并在用戶重新登錄時進行提示

8.任務目錄支持自定義排序

在「項目管理->操作設置」中支持開啟自定義目錄排序，可以自由拖動任務、臨時查詢、資源、函數(shù)、組件、標簽和文件夾改變目標結構；關閉自定義目錄排序后，任務和文件夾按默認方式排序（名稱首字母排序），禁止自由拖動。

9.在 guardian 進行權限校驗

Inceptor SQL 運行時支持用數(shù)棧賬號綁定的 Idap 賬號進行任務提交的用戶認證，并在 guardian 進行權限校驗。

用戶使用數(shù)棧賬號登錄，UIC 綁定 Idap 賬號，由 tdh 自己的 guardian（類似 ranger）實現(xiàn)權限策略的配置，數(shù)棧關閉 web 層權限管控，所有的權限判斷經(jīng)過 guardian 策略，使用 Idap 賬號登錄 guardian 提交任務。在如圖所示位置配置 guadian 的代理地址。

10.數(shù)據(jù)同步

? TiDB、GaussDB、GreenPlum 作為數(shù)據(jù)源的數(shù)據(jù)同步任務配置時支持選擇 Schema

? MySQL 同步 Sharding-Proxy 插件支持向?qū)Ｊ阶x取

? 數(shù)據(jù)同步支持 OceanBase 讀取和寫入

11.HashData 數(shù)據(jù)同步讀寫

HashData 支持作為數(shù)據(jù)同步的源端和目標端，支持源端時支持自定義 SQL、數(shù)據(jù)過濾、切分鍵填寫（并發(fā)讀寫）、斷點續(xù)傳、增量同步；作為目標端時支持導入前準備語句、導入后準備語句、一鍵生成目標表、主鍵沖突時支持 insert 和 update。

支持作為整庫同步的目標端和源端。

12.StarRocks 數(shù)據(jù)同步讀寫

StarRocks 支持作為數(shù)據(jù)同步的源端和目標端。作為源端時支持自定義 SQL、不支持數(shù)據(jù)過濾、不支持切分鍵填寫（StarRocks flinkx 是用 streamload 同步的，不需要指定切分鍵，只要指定并發(fā)數(shù)，SQL 的執(zhí)行計劃里就會按對應的并發(fā)自己拆分出來多通道同步）、不支持斷點續(xù)傳、不支持增量同步。

作為目標端時不支持導入前準備語句、不支持導入后準備語句、支持一鍵生成目標表、主鍵沖突時僅支持update。支持作為整庫同步的目標端和源端。

13.TDengine 數(shù)據(jù)同步讀取

TDengine 支持作為數(shù)據(jù)同步的源端，支持源端時支持自定義 SQL、數(shù)據(jù)過濾、切分鍵填寫（并發(fā)讀?。?、斷點續(xù)傳、增量同步。支持作為整庫同步的源端。

14.運維中心異常樹構建

背景：當實例在提交和運行過程中出現(xiàn)異常情況，無法直觀地進行原因分析，比如：

? 當前實例一直處于等待提交狀態(tài)沒有按計劃時間開始運行，是哪個或哪些上游出現(xiàn)異常導致的？

? 當前實例運行失敗或超時，會影響哪些下游實例？

新增功能說明：

異常樹構建能夠很好地解決以上的問題：

? 在實例調(diào)度流程中，上游依賴檢查中，如果“上游依賴中存在異常”，將會打印出所有阻塞實例信息（所屬租戶、所屬項目、所屬產(chǎn)品、責任人、狀態(tài)）

? 實例調(diào)度流程展示流程完成日期和時間

? 實例依賴視圖展示當前實例的定位

15.運維中心

背景：目前對 Hive SQL 任務的運行支持比較薄弱，例如沒有打印出 yarn 上的日志，一旦任務開始執(zhí)行便無法中止，比較影響數(shù)據(jù)開發(fā)用戶的調(diào)試?？蛻羝谕麑π实?、占用資源高的任務進行識別和及時管控。

新增功能說明：支持對 Hive SQL 實例進行運行過程的資源使用情況展示，并對于實例進行資源監(jiān)控并配置告警。

? Hive SQL 實例的「實例詳情->運行記錄」中展示任務資源使用走勢圖

? 創(chuàng)建告警規(guī)則時，支持對 Hive SQL 資源占用情況進行監(jiān)控

功能優(yōu)化

1.運行任務優(yōu)化

背景：在「數(shù)據(jù)開發(fā)」菜單中臨時運行任務后，切換到其他菜單，運行的任務將會停止。

體驗優(yōu)化說明：運行任務時切換菜單，不會停止正在執(zhí)行的任務。

2.表生命周期邏輯優(yōu)化

背景：如果客戶有大量短生命周期的表，生命周期到期后表元數(shù)據(jù)信息不刪除，導致元數(shù)據(jù)中心有大量的臨時表，不僅元數(shù)據(jù)查詢性能受影響，數(shù)據(jù)同步的表等需要查詢表信息的地方會有大量不必要的內(nèi)容存在。

體驗優(yōu)化說明：

? 分區(qū)表：當前日期 - 當前分區(qū)的數(shù)據(jù)最后更新時間 > 生命周期，則刪除該分區(qū)，表的所有分區(qū)刪除后表的元數(shù)據(jù)信息刪除

? 非分區(qū)表：當前日期 - 表的數(shù)據(jù)最后更新時間 > 生命周期，則清空表中數(shù)據(jù)，表的元數(shù)據(jù)信息刪除

3.工作流優(yōu)化

? 工作流樣式優(yōu)化

? 工作流子節(jié)點新增運行方式：運行當前節(jié)點、從當前節(jié)點開始運行和運行至當前節(jié)點

? 工作流支持圈選，圈選后新增運行方式：運行至選中節(jié)點、從選中節(jié)點開始運行

4.GP表查詢優(yōu)化

? 可查看的表的范圍為資產(chǎn)中已經(jīng)元數(shù)據(jù)同步過的所有 Schema 的所有表

? 元數(shù)據(jù)實時刷新

5.ddl 操作管控支持的 SQL 類型完善

完善后支持所有任務類型 SQL 語句的 ddl 操作管控。

6.發(fā)布功能優(yōu)化

背景：當前發(fā)布流程有很多校驗內(nèi)容，包括任務上游、函數(shù)、資源、資源組映射、數(shù)據(jù)源映射等，發(fā)布的時候可能會有內(nèi)容缺漏，非常容易造成發(fā)布失敗，平臺需要把缺漏的內(nèi)容流程化一次性提示給用戶，且需要能夠支持一些內(nèi)容的修改替換，以優(yōu)化發(fā)布體驗。

體驗優(yōu)化說明：發(fā)布時，會在發(fā)布包中校驗引擎、數(shù)據(jù)源、資源組、任務、上游依賴、資源、函數(shù)、組件、表及責任人，并展示校驗結果。針對發(fā)布失敗的校驗項，會給出優(yōu)化提示。

7.報錯提示優(yōu)化

項目新建失敗是由數(shù)據(jù)源導致時，會明確提示信息：數(shù)據(jù)源名稱、數(shù)據(jù)源類型、錯誤原因。

8.適配高可用配置 Hive 集群地址

若控制臺配置 Hiveserver 和 Inceptor 采用的是 zk 連接模式，離線端支持獲取數(shù)據(jù)源信息。

9.新建工作流任務類型帶上“工作流”選項

此前新建工作流任務類型時，默認展示還是“數(shù)據(jù)同步”任務，現(xiàn)優(yōu)化默認選中“工作流”選擇。

10.所有代碼任務支持版本回滾

Impala SQL、Oracle SQL、Greenplum SQL、AnalyticDB PostgreSQL、MySQL、SQL Server、TiDB SQL、GaussDB SQL、Trino SQL、HANA SQL、HashData SQL、StarRocks SQL 任務支持版本對比和版本回滾（目前所有代碼任務均支持了版本對比和版本回滾）。

11.任務默認運行方式調(diào)整

默認分段運行：GaussDB SQL、Oracle SQL、TiDB SQL、Trino SQL、MySQL、SQL Server、Hana SQL、ADB SQL、HashData SQL、StarRocks SQL、Inceptor SQL、Impala SQL

默認整段運行：Hive SQL、Spark SQL、Greenplum SQL

12.數(shù)據(jù)同步任務中僅可選擇項目對接的 Schema

數(shù)據(jù)同步時選擇當前項目的 meta 數(shù)據(jù)源，只能選擇當前項目的 meta schema。

數(shù)據(jù)同步時選擇引入其他項目的 meta 數(shù)據(jù)源，只能選擇引入數(shù)據(jù)源的 meta schema。

13.ES 作為目標數(shù)據(jù)源時，支持指定主鍵字段構成

背景：在 ES 作為數(shù)據(jù)同步目標端的任務中，默認將所有字段都作為主鍵字段，會導致主鍵值過長，使任務失敗，因此需要離線側進行優(yōu)化，不要默認將所有字段都作為主鍵字段。

體驗優(yōu)化說明：在字段映射時，支持指定主鍵包含的字段。

14.運維中心優(yōu)化

? 告警配置中勾選任務責任人，只有自己作為責任人的任務報錯時，才會給任務責任人發(fā)送告警信息

? 任務補數(shù)據(jù)支持配置告警規(guī)則

實時開發(fā)平臺

新增功能更新

1.新增【運維總覽】模塊

背景：之前實時平臺的運維都是針對單任務的，缺乏全局性的運維統(tǒng)計和分析能力，并且缺乏對運行中任務的監(jiān)控分析。因為實時任務一旦運行失敗，就會立即對線上數(shù)據(jù)服務產(chǎn)生影響，我們希望能在任務失敗之前，就能發(fā)現(xiàn)各種潛在風險。

新增功能說明：新增【運維總覽】菜單，支持統(tǒng)計項目任務總數(shù)、狀態(tài)分布、類型分布，通過健康分模型，對每個運行中的任務進行健康評分。

2.新增【全局告警】功能

背景：之前的實時任務告警規(guī)則，需要在每個任務的運維頁面單獨配置，相當于以任務維度進行管理。但是在實際開發(fā)中，比如任務失敗這種場景，一般需要對每個任務都進行配置，但是這樣在每個任務上單獨操作又非常繁瑣。

新增功能說明：新增【全局告警】功能，以規(guī)則維度進行管理，每個規(guī)則可同時應用到多個任務上。

3.新增【日志關鍵詞】監(jiān)控告警規(guī)則

背景：實時任務在運行過程中，往往會出現(xiàn)任務狀態(tài)運行正常，但是實際日志已經(jīng)開始出現(xiàn)各種報錯信息的情況，比如 Exception、Error、Fail 等，這類關鍵詞的出現(xiàn)意味著任務的不穩(wěn)定。我們需要在任務真正失敗之前及時感知到運行日志中出現(xiàn)了這類關鍵詞，然后提前去解決。

新增功能說明：全局告警新增【日志關鍵詞】規(guī)則，平臺自動創(chuàng)建相應的實時監(jiān)控任務，前提是需要在任務開發(fā)時，開啟該任務的日志打印功能。

4.告警規(guī)則新增【告警級別】、【告警恢復】配置項

背景：之前的告警規(guī)則沒有區(qū)分等級，用戶同時收到較多告警時，不確定需要先處理哪個問題，并且告警問題修復后，也沒有通知消息，運維成本相對較高。

新增功能說明：新增告警級別（緊急/重要/次要/提示）；告警規(guī)則新增是否開啟恢復通知配置項。

5.新增【數(shù)據(jù)源】適配

? FlinkSQL 源表、結果表新增支持 Ckafka、CMQ 數(shù)據(jù)源類型

? Flink1.10 支持的 HBase2.x 和 Phoenix5.x 插件，適配 Flink1.12

? FlinkSQL 維表、結果表新增 Hyperbase 數(shù)據(jù)源

? Flink1.10 支持的實時采集 PGWal 插件，適配 Flink1.12

? Kafka 讀取類型新增 Raw Format

功能優(yōu)化

1.優(yōu)化【字段級血緣解析】能力

背景：之前實時平臺的字段級血緣解析只支持根據(jù)當前任務的 FlinkSQL 去解析，沒有進行上下游串聯(lián)，用戶無法回溯或者下鉆上下游關聯(lián)字段。

體驗優(yōu)化說明：字段級血緣支持上下鉆查詢。（建議配合表級血緣一起分析，因為字段級血緣是純 SQL 解析，不攜帶任務信息）

2.數(shù)據(jù)還原 SINK 端表名生成邏輯優(yōu)化

背景：原先數(shù)據(jù)還原任務的 SINK 端表名生成，會自動拼接 Stream 等前綴。容易出現(xiàn)不符合內(nèi)部數(shù)開的表名命名規(guī)則，拼接后導致表名太長無法正常創(chuàng)建等問題。

體驗優(yōu)化說明：SINK 端自動創(chuàng)建的表名，支持兩種模式：默認和源表相同、支持在源表名的基礎上拼接自定義內(nèi)容。

3.向?qū)ч_發(fā)模式，Kafka 支持自動映射

背景：之前實時平臺的 FlinkSQL 任務開發(fā)，對于 Kafka Topic 的映射操作非常麻煩，需要用戶查詢 JSON 中的每個 KEY，配置成 Flink 表的字段，如果需要做上百個字段的映射，也需要人肉操作。開發(fā)往往選擇在應用外想辦法完成批量映射，再粘貼到平臺內(nèi)，交互比較差。

體驗優(yōu)化說明：Kafka Format 新增 OGG-JSON/ CHUNJUN-JSON，支持對這類 JSON 數(shù)據(jù)實現(xiàn)一鍵映射：

? 一鍵采集線上樣例數(shù)據(jù)，自動完成映射

? 手動輸入樣例數(shù)據(jù)，一鍵完成映射

4.Checkpoint 語義優(yōu)化

背景：之前實時任務的 Checkpoint 恢復語義是放在環(huán)境參數(shù)中配置的（和開源 Flink 相同），但實際并不生效。因為 Flink 的實現(xiàn)是基于開源改造過的，狀態(tài)恢復語義需要在任務的結果表中進行 semantic 參數(shù)配置。

體驗優(yōu)化說明：調(diào)整環(huán)境參數(shù)中的狀態(tài)恢復語義提示文案，引導開發(fā)至結果表參數(shù)中配置。FlinkSQL 任務默認為 at-least-once（保障實時性）、數(shù)據(jù)還原任務默認為 exactly-once（保障準確性）。

數(shù)據(jù)資產(chǎn)平臺

新增功能更新

1.監(jiān)控數(shù)據(jù)變更

背景：客戶希望某些場景發(fā)生數(shù)據(jù)變更的時候，支持對比前后不同時間的數(shù)據(jù)，比如需要對比昨天和今天不同分區(qū)的數(shù)據(jù)，此場景可以通過對接控制臺自定義參數(shù)來滿足。

新增功能說明：數(shù)據(jù)質(zhì)量支持對接控制臺自定義參數(shù)，涉及到質(zhì)量的單表、多表的自定義 SQL、過濾條件的地方都需要修改，支持點擊直接復制參數(shù)。

2.數(shù)據(jù)標準/詞根導出

? 數(shù)據(jù)標準導出：支持數(shù)據(jù)標準按照目錄批量導出，滿足無平臺權限部門線下對齊數(shù)據(jù)標準下發(fā)規(guī)范的需求

? 詞根導出：支持詞根按照目錄批量導出，滿足無平臺權限部門線下對齊詞根的規(guī)范需求

3.Trino 跨源校驗支持 TDSQL、Inceptor

背景：項目上需要實現(xiàn) TDSQL 表和 Inceptor 表的跨源校驗

新增功能說明：數(shù)據(jù)源中心 connector 配置新增 TDSQL、Inceptor，Trino 支持 TDSQL、Inceptor 的單表、多表、規(guī)則集校驗

? Trino 的 Inceptor：已支持 Inceptor 的質(zhì)量校驗，通過 Trino 引擎連接 Inceptor 時，單表、多表、規(guī)則集校驗功能與 Inceptor 本身保持一致

? Trino 的 TDSQL：TDSQL與 MySQL 類似，通過 Trino 引擎連接 TDSQL 時，單表、多表、規(guī)則集校驗功能與 MySQL 類似

4.自定義角色

背景：滿足客戶側自由設定不同角色的權限點，不同客戶可能會有不同的需求，目前的角色固定權限點的方式不夠靈活，自由新增角色且配置權限點，可以滿足不同客戶的角色及對應權限點的個性化需求。

新增功能說明：

? 資產(chǎn)平臺可查看相關角色及權限點配置：

? 設置-角色管理可進行角色配置和權限點指定：

5.代碼規(guī)則檢查

背景：數(shù)據(jù)開發(fā)人員代碼水平不一，導致代碼書寫混亂，SQL 代碼運行問題較多，利用 SQL 檢查規(guī)則規(guī)范化 SQL 代碼，對代碼書寫問題進行攔截，便于統(tǒng)一管理，用于預防引入需要治理的問題。

新增功能說明：

? 規(guī)則管理：支持內(nèi)置規(guī)則，同時也支持注冊規(guī)則，滿足不同客戶的個性化代碼檢查規(guī)范

? 內(nèi)置規(guī)則：

? 注冊規(guī)則：

? 注冊規(guī)則文件：

? 生效環(huán)節(jié)：檢查規(guī)則支持對文件提交、運行的前置事件進行檢查

? 生效結果：檢查開啟后，設定為阻塞的檢查規(guī)則，檢查不通過將阻塞對應事件的流程；設定為提示的檢查規(guī)則，檢查不通過時離線側可忽略提示，仍然正常提交。檢查規(guī)則觸發(fā)后發(fā)現(xiàn)的事件稱之為檢查規(guī)則事件。

功能優(yōu)化

1.實時字段血緣優(yōu)化

? 字段血緣新增上下鉆，相當于根據(jù)表級血緣的關系，將多個任務的字段級血緣串聯(lián)起來

? 默認只展示當前任務結果表的選中字段的一級上下游（之前只有上游，因為只解析當前任務，沒有串聯(lián)）

? 如果上下游字段還有自身的上下游血緣，icon 顯示，點擊繼續(xù)上下鉆一級

2.部分前端頁面UI升級

? 資產(chǎn)盤點

? 數(shù)據(jù)地圖

? 元數(shù)據(jù)同步

? 元數(shù)據(jù)質(zhì)量-完整度分析

3.質(zhì)量規(guī)則優(yōu)化

? 創(chuàng)建任務回滾機制：

當質(zhì)量任務綁定離線任務時，綁定失敗，質(zhì)量任務仍然會創(chuàng)建成功，需要做到兩個之中任意一個失敗了，質(zhì)量規(guī)則創(chuàng)建失敗

? 臟數(shù)據(jù)存儲變更，質(zhì)量任務重新提交：

切換完獨立數(shù)據(jù)校驗要重新保存一下任務，不然去獲取臟數(shù)據(jù)時查的是獨立庫，但是 SQL 跑的是之前的庫，在切換臟數(shù)據(jù)獨立存儲后，把相關任務重新提交，包括新增/編輯

數(shù)據(jù)服務平臺

新增功能更新

1.SQL 生成 API 操作符支持修改

背景：生成 API SQL 中參數(shù)的操作符由平臺自動解析，不支持修改，存在解析錯誤的情況。

新增功能說明：操作符仍由平臺自動解析，如解析有問題可手動修改（注意此處僅做顯示的修改，不影響代碼中的實際邏輯）。

2.API 輸入?yún)?shù)

? API 輸入?yún)?shù)支持設置常量和時間變量默認值：配置了默認值的輸入?yún)?shù)若調(diào)用時沒有傳值則以默認值進行查詢

? API 輸入?yún)?shù)支持按正則表達式和計算表達式做校驗：輸入?yún)?shù)列表中可對單個參數(shù)配置正則表達式的校驗規(guī)則，用來進行例如手機號、身份證號等有標準格式的入?yún)?nèi)容的校驗，另外高級配置中可以選擇進行計算表達式的校驗，用于多個入?yún)㈥P系的校驗

3.角色權限點變更

角色權限點新增 API 市場可查看的 API 范圍。API 查看范圍權限點枚舉值：無查看權限、可查看租戶下所有項目的 API、可查看租戶下當前用戶所在項目的 API。

4.數(shù)據(jù)權限

數(shù)棧平臺內(nèi)對接的 Trino 數(shù)據(jù)源的權限判斷對接數(shù)據(jù)安全。開啟數(shù)據(jù)安全時，平臺內(nèi)直接創(chuàng)建或?qū)拥?Schema 會以當前用戶賬號判斷 Ranger 上的數(shù)據(jù)權限。

5.API 告警規(guī)則圈選 API 時支持全選

全選后，API 后續(xù)在新增和刪除時平臺會動態(tài)調(diào)整圈范圍。

客戶數(shù)據(jù)洞察平臺

新增功能更新

1.衍生標簽、組合標簽加工過程支持 SQL 預覽

背景：標簽加工過程中，通過規(guī)則配置的結果開發(fā)不確定是否是其想要的內(nèi)容，此時，開發(fā)人員會希望可以看到 SQL 內(nèi)容，以確定結果的準確性。

新增功能說明：衍生標簽、組合標簽加工過程中支持通過「試計算」功能預覽 SQL 詳情。

2.數(shù)據(jù)同步至 HBase 數(shù)據(jù)庫

背景：創(chuàng)建實體或發(fā)布動態(tài)群組后，僅運行 Hive 大寬表任務，但不會運行 Hive-HBase 的數(shù)據(jù)同步任務，導致當日建的實體或群組，當日無法調(diào)用 API，需要等周期實例運行后才能用API。

新增功能說明：新建/編輯實體或動態(tài)群組后，支持立即將數(shù)據(jù)同步至 HBase 數(shù)據(jù)庫。

? 創(chuàng)建/編輯實體：調(diào)用臨時運行接口，跑 Hive 大寬表任務，Hive 到 HBase 的大寬表同步任務

? 發(fā)布（編輯已發(fā)布的）動態(tài)群組：調(diào)用臨時運行接口，跑 Hive 群組任務，Hive 到 HBase 的群組同步任務

3.重跑歷史數(shù)據(jù)

背景：數(shù)據(jù)同步任務重跑歷史實例時，只刪除數(shù)據(jù)，不刪除表，當標簽數(shù)量變更后，字段出現(xiàn)了不一致的情況，此時會出現(xiàn)任務運行失敗。

新增功能說明：發(fā)布的標簽變更后，根據(jù)最新發(fā)布標簽情況重跑歷史數(shù)據(jù)，數(shù)據(jù)同步任務重跑歷史實例時，調(diào)整為刪除表后重新創(chuàng)建表同步數(shù)據(jù)。

4.支持二次進行數(shù)據(jù)同步

背景：用戶可能由于 HBase 建表失敗導致同步任務失敗，此時即便任務重跑也不行，因為當前重跑并不支持建表，而用戶無法建表。

新增功能說明：HBase建表失敗后，支持二次進行數(shù)據(jù)同步，重跑時，根據(jù)源表結構創(chuàng)建建 HBase 表，如果表結構一致，可不用重新創(chuàng)建。

5.HBase 建表條件

背景：HBase 表創(chuàng)建是通過定時任務創(chuàng)建，而無論這個任務是否凍結都會創(chuàng)建，這樣會產(chǎn)生很多無用的空表，占用大量 HBase 的 Region 和 zk 內(nèi)存資源。

新增功能說明：HBase建表條件調(diào)整為針對未凍結且未刪除的任務定時建表。定時任務建表時只創(chuàng)建未凍結且未刪除任務的表，任務解凍之后，用戶重跑或補數(shù)據(jù)時先創(chuàng)建表再重跑同步任務。

6.導入標簽&上傳本地群組時，支持匹配日期類型字段

? 上傳本地群組：支持日期類型的匹配維度，但客戶上傳數(shù)據(jù)的日期格式需與大寬表的字段格式保持一致，否則報錯

? 導入標簽：支持匹配維度支持日期類型的匹配維度，但客戶上傳數(shù)據(jù)的日期格式需與大寬表的字段格式保持一致，否則報錯

功能優(yōu)化

1.數(shù)據(jù)模型權限控制優(yōu)化

背景：當前數(shù)據(jù)模型功能除 admin、租戶所有者/管理員外，其他角色不可查看、新增數(shù)據(jù)模型，但實際使用中，更多的是項目級別的管理員進行數(shù)據(jù)模型的創(chuàng)建、編輯操作，對于權限要求高的客戶來說，不便于將項目管理員調(diào)整為租戶管理員，導致流程卡住。

體驗優(yōu)化說明：admin、租戶所有者/管理員、項目所有者/管理員可以對數(shù)據(jù)模型進行操作，其他角色按照原來的規(guī)則，進到頁面不可查看、操作。

指標管理平臺

新增功能更新

1.指標 API 生成的 Hive 大寬表支持生命周期設置

背景：指標 API 生成過程中會在 Hive 中存儲一份數(shù)據(jù)，需要同步支持生命周期設置。

新增功能說明：指標 API 設置中，區(qū)分 Hive、HBase 數(shù)據(jù)源進行數(shù)據(jù)生命周期設置。

2.增加維度管理模塊，支持設置維度對象、維度屬性

背景：

目前指標產(chǎn)品只支持一層維度，用戶選擇起來麻煩。如“客戶”有“客戶ID、客戶名稱、客戶手機號”等維度，當用戶在派生和復合層選擇時，需要一個個點。

客戶方會有復合指標依賴的2個派生指標用到同一個維度的需求，兩個維度未在數(shù)據(jù)模型中做關聯(lián)，從而導致無法在當前項目內(nèi)創(chuàng)建復合指標。

新增功能說明：

? 「指標中心」-「數(shù)據(jù)管理」新增「維度管理」模塊

? 新增“維度對象”、“維度屬性”概念，一個維度對象包含多個維度屬性，支持一個維度對象下不同的維度屬性來源于不同的維度表，支持一個維度屬性關聯(lián)不同的維度表

? 增加主維表、次維表概念。每個維度對象有一張主維表，多張次維表，主維表主要起到批量創(chuàng)建維度屬性的作用，次維表主要起到關聯(lián)維度屬性的作用，后續(xù)用于識別維度一致性，新建維度對象時，同步選擇主維表，批量生成維度屬性，后續(xù)新增維度屬性可通過「新建維度屬性」實現(xiàn)，將其他次維表字段關聯(lián)到已有維度屬性通過「關聯(lián)維度屬性」實現(xiàn)

3.數(shù)據(jù)模型支持落表

背景：派生指標是基于模型所用的源表進行指標加工，實際使用中，使用同一模型的多個派生指標頻繁重復使用數(shù)據(jù)源時，當數(shù)據(jù)源的數(shù)據(jù)量較大時，加工效率會變慢，此時需要將模型落表以提高加工效率。

新增功能說明：「新建模型」中的【第五步：設置】中的模型存儲選項，選擇存儲為物理表，并配置表信息、調(diào)度信息，包括表名稱、任務名稱調(diào)度周期、出錯重試，也需要設置數(shù)據(jù)生命周期信息。指標發(fā)布后，系統(tǒng)將提交模型任務周期計算數(shù)據(jù)落表。

4.數(shù)據(jù)模型中選擇的拉鏈表支持自定義匹配日期字段

背景：數(shù)據(jù)模型中設置了一個增量分區(qū)表（左表），并匹配了一個拉鏈表（右表），左表包含兩個時間字段（一個是用于分區(qū)的時間字段，另一個是用于和拉鏈表的開始/結束時間做匹配的時間字段），目前平臺只支持匹配分區(qū)時間字段，不支持普通的時間字段，導致模型無法正常創(chuàng)建。

新增功能說明：【第二步：表關聯(lián)】模型關聯(lián)表中添加的關聯(lián)表為拉鏈表時，拉鏈表的開始、結束時間可選擇直接匹配左表的分區(qū)字段（業(yè)務日期），也可匹配左表的某一特定的時間字段（左表時間自定義）。

5.增加業(yè)務限定模塊

背景：派生指標加工過程中，針對同一模型、相過濾條件，針對不同聚合維度、不同計算公式需要生成不同的派生指標的場景，為提高指標加工效率，過濾條件可抽離出來在上層進行業(yè)務管理時提前生成業(yè)務限定，后續(xù)直接引用即可。

新增功能說明：增加業(yè)務限定模塊，支持批量設置指標計算過濾條件

? 「指標中心」-「數(shù)據(jù)管理」新增「業(yè)務限定」模塊

? 新增/編輯業(yè)務限定

? 派生指標加工時的過濾條件設置變更為業(yè)務限定選擇

6.統(tǒng)計周期增加上季末、上年末參數(shù)

背景：指標加工過程中，會有加工季度末、年度末的統(tǒng)計周期設置需要，當前無法通過可視化加工實現(xiàn)，只能通過自定義指標實現(xiàn)，本次功能迭代通過可視化配置方式實現(xiàn)該需求場景.

新增功能說明：

上季末參數(shù)：${bdp.system.preqrtrend}

上年末參數(shù)：${bdp.system.preyrend}

統(tǒng)計周期設置上季末的數(shù)據(jù)的設置方式如下：

7.統(tǒng)計周期支持自定義周期標識

背景：統(tǒng)計周期之前只支持設置周期名稱，當名稱變更后，未被通知到的用戶不易正確識別到所需周期，本次加入周期標識，方便定位周期唯一性。

新增功能說明：新增統(tǒng)計周期時，可配置周期標識，字段在周期列表中同步展示。

8.指標表名稱支持自定義

背景：客戶加工表的過程中，會根據(jù)自己的特定規(guī)則生成表名稱，目前指標生成的表名稱是根據(jù)系統(tǒng)內(nèi)置條件生成，不便于客戶定位表。

新增功能說明：新增指標的「設置調(diào)度信息」步驟中，設置指標表名稱（編輯時不可修改）。

9.試計算增加表結構預覽

背景：未生成指標表前，客戶僅能根據(jù) SQL 判斷表內(nèi)的字段信息，為方便查看表結構，在查看 SQL 信息的同時，可通過可視化方式查看對應的表結構信息。

新增功能說明：

10.復合指標支持自定義關聯(lián)鍵

背景：歷史功能是將選擇的維度作為關聯(lián)鍵，生成如下SQL：select A.性別,avg(A.消費金額 / B. 消費人數(shù)) from A left join B on A.性別 = B.性別。

但實際 SQL 編寫中，存在聚合維度與關聯(lián)鍵設置不一致的情況，期望生成下列 SQL：select A.性別,avg(A.消費金額 / B. 消費人數(shù)) from A left join B on A.user_id = B.user_id，實際加工結果與期望不符。

新增功能說明：「維度設置」模塊的「關聯(lián)鍵選擇」自定義設置多個關聯(lián)鍵，若兩個字段的字段類型不一致，需要選擇需要轉換的字段類型，以保證關聯(lián)鍵可以正常匹配。

功能優(yōu)化

1.復合指標運行過程中產(chǎn)生的臨時表刪除邏輯優(yōu)化

背景：復合指標運行周期任務實例、運行補數(shù)據(jù)實例時會針對公式中的各指標生成 Hive 臨時表，當任務運行失敗時，臨時表未進行及時清理，造成客戶存儲資源浪費。

體驗優(yōu)化說明：每天定時清除2天前生成的臨時表。

2.原子指標加工方式升級，可自定義公式

背景：原來的原子指標是將模型字段做直接映射，映射后的原子指標需先生成派生指標/復合指標，再與其他指標表做加工，此時需要有公共維度存在，否則無法進行指標加工，無法滿足維度不一致的字段的加工。

體驗優(yōu)化說明：原子指標層針對模型可自定義公式，以解決上述指標加工場景，后續(xù)派生指標將直接引用原子指標定義的公式進行數(shù)據(jù)計算。

3.派生指標的技術信息設置方式變更

? 維度選擇：由取原子指標的維度改為取原子指標所引用模型的維度（顯示對應的維度對象、維度屬性信息），并可針對一批維度批量選中對應的維度對象

? 過濾條件設置：由原來的根據(jù)模型依次配置條件調(diào)整為直接引用業(yè)務限定中配置的業(yè)務限定規(guī)則，可一次添加多個業(yè)務限定規(guī)則

4.復合指標規(guī)則設置模塊功能劃分優(yōu)化

背景：之前的規(guī)則設置模塊功能劃分中，過程指標的條件設置與指標結果的設置均放到了維度設置中，點擊單個指標的操作范圍不便于理解，基于操作習慣、理解難度對功能模塊重新做了劃分。

體驗優(yōu)化說明：整體包含三個模塊：維度設置、結果設置、過程指標詳情：

? 維度設置：包含復合指標結果表所需的維度、各過程指標結果表關聯(lián)方式及關聯(lián)鍵選擇

? 結果設置：保存精度、取整方式、為空默認值、計量單位

? 過程指標詳情：針對單個過程指標設置維度過濾、結果過濾條件

5.SQL 指標 Catalog 解析優(yōu)化

背景：SQL 指標中沒有解析 SQL 語句中用到的 Catalog，導致 SQL 指標后續(xù)進行復合指標、API 查詢時報錯。

體驗優(yōu)化說明：

? 解析 SQL 指標語句，解析 Catalog、表級血緣關系、字段級血緣關系

? 修復復合指標、API 查詢 SQL 指標時的報錯

《數(shù)據(jù)治理行業(yè)實踐白皮書》下載地址：https://fs80.cn/l134d5?

《數(shù)棧V6.0產(chǎn)品白皮書》下載地址：https://fs80.cn/cw0iw1

想了解或咨詢更多有關袋鼠云大數(shù)據(jù)產(chǎn)品、行業(yè)解決方案、客戶案例的朋友，瀏覽袋鼠云官網(wǎng)：https://www.dtstack.com/?src=szbzhan

同時，歡迎對大數(shù)據(jù)開源項目有興趣的同學加入「袋鼠云開源框架釘釘技術 qun」，交流最新開源技術信息，qun 號碼：30537511，項目地址：https://github.com/DTStack

標簽：產(chǎn)品大數(shù)據(jù)