五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

袋鼠云產(chǎn)品功能更新報告06期|數(shù)棧產(chǎn)品功能升級,做產(chǎn)品我們是認真的!

2023-07-14 12:22 作者:袋鼠云  | 我要投稿

2023年已過半,袋鼠云開發(fā)團隊和產(chǎn)品團隊對數(shù)棧產(chǎn)品本身以及客戶反饋的問題和痛點進行了持續(xù)性的更新和優(yōu)化,包括對 EasyMR 監(jiān)控告警功能的更新,以及對離線開發(fā)平臺表生命周期邏輯的優(yōu)化等,力求滿足不同行業(yè)用戶的更多需求,為用戶帶來極致的產(chǎn)品使用體驗。

以下為袋鼠云產(chǎn)品功能更新報告06期內(nèi)容,更多探索,請繼續(xù)閱讀。

EasyMR

新增功能更新

1.CGroup 進程管控

背景:因為環(huán)境或者代碼 bug 導致單個進程影響整個平臺使用,目前是手動重啟服務解決問題,時效性低、成本相對較高。

新增功能說明:EasyMR 新增 CGroup 進程管控功能,對 linux 的一組進程包括 CPU、內(nèi)存、磁盤 IO、網(wǎng)絡等在內(nèi)的資源使用進行限制、管理和隔離。

2.Hadoop Admin 用戶啟動

背景:Hadoop3 版本使用 admin(普通)用戶(sudo 權限)主機接入,無法使用普通用戶啟動服務。

新增功能說明:Hadoop3 版本支持利用 admin(普通)用戶(sudo 權限)主機接入,支持使用普通用戶啟動服務。

3.業(yè)務數(shù)據(jù)庫適配 TDSQL

背景:某客戶要求全數(shù)棧產(chǎn)品對接客戶 TDSQL。

新增功能說明:EasyMR 安裝腳本支持配置外部數(shù)據(jù)源。

4.儀表盤升級更新

背景:EasyMR 更新時,儀表盤會跟隨 EasyMR 產(chǎn)品包一起部署??蛻衾习姹镜膬x表盤可能存在變更情況,需要對客戶老版本的儀表盤進行保留,同時更新上傳新增儀表盤。

新增功能說明:EasyMR 升級時,儀表盤會跟隨 EasyMR 產(chǎn)品包一起部署:

? EasyMR 升級時覆蓋老版本儀表盤,保留客戶自建儀表盤

? 備份歷史儀表盤到本地環(huán)境

5.【監(jiān)控告警】告警頻率

背景:當前告警信息一天只發(fā)送一次,很容易被忽略掉,對于比較嚴重的告警已經(jīng)影響到客戶的業(yè)務使用,需要多次提醒盡快處理。

新增功能說明:三級告警間隔設置,告警首次觸發(fā)之后根據(jù)告警等級觸發(fā)告警間隔,告警間隔為:

? 嚴重告警:5分鐘

? 一般告警:6小時

?提示告警:24小時

6.自定義 logo

背景:EasyMR 分商業(yè)版、開源版,不同版本的 logo 不同,同時存在客戶自定義 logo 的需求,因此需要支持 logo 自定義配置。

新增功能說明:通過配置文件支持自定義 logo 及文案,logo 文案配置步驟如下:

? 上傳新 logo 到“/data/easymanager/dtstack-runtime/images/”目錄下;

? 修改 docker-compose.yml 配置文件中 PRODUCTNAME、volumes 參數(shù),示例:

7.健康檢查異常服務重啟

背景:服務多次健康檢查異常時,服務基本處于不可用狀態(tài),需要支持多次異常服務重啟服務保證服務的可用性。

新增功能說明:支持通過產(chǎn)品包 Schema 配置健康檢查的頻次、是否重啟。

8.EasyMR 服務高可用

背景:EasyMR 存在單點故障、低性能和容量瓶頸等問題,為了保障服務的可靠性和穩(wěn)定性,降低平臺服務中斷風險,需要平臺進行高可用改造。

新增功能說明:對EasyMR 自身服務進行高可用改造,監(jiān)控組件暫不支持高可用。

9.NTP 服務自動重啟

背景:NTP 作為一種用于同步計算機系統(tǒng)時間的網(wǎng)絡協(xié)議,服務可能會出現(xiàn)故障或異常,導致系統(tǒng)時間不準確,進而影響到數(shù)據(jù)的一致性和分析結果的準確性。

新增功能說明:對 NTP 服務添加服務監(jiān)控,服務down機后自動重啟 NTP 服務,以提升服務的可用性和穩(wěn)定性,保障系統(tǒng)時間的準確性,降低人工干預成本。

10.MySQL數(shù)據(jù)自動備份

背景:在 EasyMR 中 MySQL 數(shù)據(jù)庫扮演著關鍵的角色,用于存儲和管理平臺服務數(shù)據(jù)及監(jiān)控告警信息。傳統(tǒng)情況下,MySQL 數(shù)據(jù)的備份通常需要人工介入進行操作,人工備份容易出現(xiàn)疏忽導致備份遺漏或不完整,備份過程中對系統(tǒng)產(chǎn)生較大的負載,并且人工備份需要耗費大量時間和資源。

新增功能說明:通過腳本設置定時任務來實現(xiàn) MySQL 數(shù)據(jù)的自動備份到指定服務器,實現(xiàn)數(shù)據(jù)異地備份。

11.Dashboard 支持分集群監(jiān)控

背景:Dashboard 儀表盤僅支持按主機節(jié)點篩選查看,無法按集群分類監(jiān)控,影響運維人員對集群級別的監(jiān)控運維。

新增功能說明:增加集群下拉選擇框,支持按集群級別進行監(jiān)控。

12.HDFS 數(shù)據(jù)均衡

背景:隨著數(shù)據(jù)量的增長和頻繁的數(shù)據(jù)寫入、刪除操作,HDFS 上的數(shù)據(jù)可能會出現(xiàn)分布不均的情況,即某些節(jié)點上的數(shù)據(jù)負載較大,而其他節(jié)點上的數(shù)據(jù)負載較輕,當 HDFS 上的數(shù)據(jù)分布不均時,會導致部分節(jié)點資源過度利用,造成性能瓶頸,降低數(shù)據(jù)讀寫速度和查詢效率。同時,還會導致資源浪費,一些節(jié)點的存儲容量得不到充分利用,影響整個大數(shù)據(jù)管理平臺的性能和可用性。

新增功能說明:HDFS-Datanode 服務,操作中新增「數(shù)據(jù)均衡」功能:

? Bandwidth:數(shù)據(jù)均衡帶寬,默認值 5(MB/s)

? Balancer Threshold:數(shù)據(jù)均衡平衡度閾值,通過設置合適的 HDFS Balancer Threshold,可以避免過于頻繁觸發(fā)數(shù)據(jù)均衡操作,從而降低對集群性能和網(wǎng)絡帶寬的影響,同時,還能夠確保集群中的數(shù)據(jù)分布保持在一個相對平衡的狀態(tài),提高整體性能和資源利用率

功能優(yōu)化

1.Ldap 配置頁提示

背景:Ldap 配置參數(shù)規(guī)則復雜,非專業(yè)人士很難理解 Ldap 配置參數(shù)含義及配置規(guī)則。

體驗優(yōu)化說明:新增 Ldap 配置頁參數(shù)提示:

? 新增配置頁參數(shù)「管理員賬號」、「baseDN」、「用戶過濾」、「用戶組過濾」默認規(guī)則

? 新增參數(shù)「baseDN」、「用戶過濾」、「用戶組過濾」hover注釋

2.服務配置注釋

背景:由于服務配置參數(shù)較多,僅通過參數(shù)名稱很難確定參數(shù)含義,因此需要對參數(shù)進行中文注釋同時對參數(shù)使用進行說明。

體驗優(yōu)化說明:

? 支持參數(shù)名+參數(shù)注釋模糊搜索 ? 配置參數(shù)在 Schema 中維護參數(shù)的中文名稱 ? 新增「操作」按鈕,原「重置」、「添加參數(shù)」、「配置下發(fā)」、「滾動重啟」功能統(tǒng)一放到「操作」按鈕下,原功能邏輯不變 ? Schema 中維護參數(shù)的使用說明注釋

3.分級告警

背景:EasyMR 支持分級告警,Grafana 現(xiàn)版本5.1.3 存在諸多漏洞問題,需要進行版本升級。

體驗優(yōu)化說明:Grafana 現(xiàn)版本5.1.3 升級到新版本 Grafana 8.5.15,支持三級告警「嚴重告警、次要告警、提示告警」:

? 嚴重告警:告警規(guī)則對應資源發(fā)生緊急故障,影響業(yè)務視為緊急告警 ? 次要告警:告警規(guī)則對應資源存在相對不太嚴重點問題,此問題不會阻礙資源的正常使用 ? 提示告警:告警規(guī)則對應資源存在潛在的錯誤可能影響到業(yè)務

4.配置參數(shù)加密

背景:配置參數(shù)中例如 password、user 信息需要進行加密展示,但經(jīng)常出現(xiàn)參數(shù)為 xxx_pass 也需要進行加密,目前由后端進行參數(shù)關鍵詞匹配再對值進行加密,特殊需求適配性不好。

體驗優(yōu)化說明:產(chǎn)品打包時,在 Schema 中標記參數(shù)是否為敏感參數(shù),由后端進行參數(shù)值加密顯示。

離線開發(fā)平臺

新增功能更新

1.數(shù)據(jù)源

背景:目前在數(shù)據(jù)源頁面中查看 meta 數(shù)據(jù)源的 schema,只能在 jdbc url 中查看,對于用戶來說不方便。

新增功能說明:數(shù)據(jù)源頁面展示當前項目的schema名稱,以及能做meta schema的快捷查找,新增 meta schema 的篩選項,并將 meta schema 作為單獨的字段進行展示。

2.【數(shù)據(jù)開發(fā)】Hive SQL

? Hive SQL 支持語法提示、表聯(lián)想:

在 SQL 編寫時,離線 IDE 支持表名、字段名、關鍵字、函數(shù)名等內(nèi)容的語法提示

? Hive SQL 運行日志支持實時打印、展示任務運行進度、支持任務停止:

Hive SQL 執(zhí)行臨時運行時,展示執(zhí)行進度并實時打印日志,日志包含執(zhí)行的 map、reduce 的情況,任務運行過程中,支持停止運行

3.資源支持版本管理

資源版本支持記錄資源最近的十個版本,支持對版本資源進行「回滾至此版本」「下載」「刪除」操作。

4.【數(shù)據(jù)同步任務】字段變化

當數(shù)據(jù)同步任務的字段發(fā)生變化時,可通知字段的變化及影響的任務信息。

數(shù)據(jù)同步中新增元數(shù)據(jù)校驗高級參數(shù)“metadataCheck”,當值為“true”時,對于數(shù)據(jù)同步任務的臨時運行/周期實例運行/補數(shù)據(jù)實例運行/手動實例運行前檢查源表或目標表的表結構是否發(fā)生變更(字段增加、字段減少、字段類型變更),如果有變更則實例狀態(tài)變?yōu)樘峤皇。谌罩局写蛴∽兏鼉?nèi)容。

如果任務配置了告警規(guī)則,且觸發(fā)條件是“失敗”時,則會在告警中打印失敗原因和字段變動情況。

5.支持給任務打標簽

背景:客戶期望可以給任務打標簽,比如給部分任務打上“合同”的標簽,給部分任務打上“客商”的標簽,可以按標簽去執(zhí)行運維操作,例如:補數(shù)據(jù)、告警。

新增功能說明:在數(shù)據(jù)開發(fā)頁面,支持創(chuàng)建標簽和給任務指定標簽,并在運維中心進行補數(shù)據(jù)和告警配置操作時,支持以標簽為維度進行任務配置。

6.離線支持代碼檢查規(guī)則

? 在「數(shù)據(jù)資產(chǎn)->數(shù)據(jù)治理」中可以開啟或新增代碼檢查規(guī)則

? 在「離線開發(fā)->項目管理->操作設置」中支持開啟代碼規(guī)則和選擇生效范圍,目前僅支持創(chuàng)建 Hive SQL、Spark SQL、Impala SQL、Inceptor SQL 四種任務的代碼檢查規(guī)則

? 開啟規(guī)則后,在 IDE 界面中可以手動進行 SQL 規(guī)范性檢查,在日志中打印檢查結果,任務運行和提交時也會進行 SQL 規(guī)范性檢查

7.任務保存支持版本管理

? 增加保存版本的版本記錄,記錄未提交僅保存的內(nèi)容

? 在發(fā)生異常/系統(tǒng)自動登出時會自動保存,并在用戶重新登錄時進行提示

8.任務目錄支持自定義排序

在「項目管理->操作設置」中支持開啟自定義目錄排序,可以自由拖動任務、臨時查詢、資源、函數(shù)、組件、標簽和文件夾改變目標結構;關閉自定義目錄排序后,任務和文件夾按默認方式排序(名稱首字母排序),禁止自由拖動。

9.在 guardian 進行權限校驗

Inceptor SQL 運行時支持用數(shù)棧賬號綁定的 Idap 賬號進行任務提交的用戶認證,并在 guardian 進行權限校驗。

用戶使用數(shù)棧賬號登錄,UIC 綁定 Idap 賬號,由 tdh 自己的 guardian(類似 ranger)實現(xiàn)權限策略的配置,數(shù)棧關閉 web 層權限管控,所有的權限判斷經(jīng)過 guardian 策略,使用 Idap 賬號登錄 guardian 提交任務。在如圖所示位置配置 guadian 的代理地址。

10.數(shù)據(jù)同步

? TiDB、GaussDB、GreenPlum 作為數(shù)據(jù)源的數(shù)據(jù)同步任務配置時支持選擇 Schema

? MySQL 同步 Sharding-Proxy 插件支持向?qū)J阶x取

? 數(shù)據(jù)同步支持 OceanBase 讀取和寫入

11.HashData 數(shù)據(jù)同步讀寫

HashData 支持作為數(shù)據(jù)同步的源端和目標端,支持源端時支持自定義 SQL、數(shù)據(jù)過濾、切分鍵填寫(并發(fā)讀寫)、斷點續(xù)傳、增量同步;作為目標端時支持導入前準備語句、導入后準備語句、一鍵生成目標表、主鍵沖突時支持 insert 和 update。

支持作為整庫同步的目標端和源端。

12.StarRocks 數(shù)據(jù)同步讀寫

StarRocks 支持作為數(shù)據(jù)同步的源端和目標端。作為源端時支持自定義 SQL、不支持數(shù)據(jù)過濾、不支持切分鍵填寫(StarRocks flinkx 是用 streamload 同步的,不需要指定切分鍵,只要指定并發(fā)數(shù),SQL 的執(zhí)行計劃里就會按對應的并發(fā)自己拆分出來多通道同步)、不支持斷點續(xù)傳、不支持增量同步。

作為目標端時不支持導入前準備語句、不支持導入后準備語句、支持一鍵生成目標表、主鍵沖突時僅支持update。支持作為整庫同步的目標端和源端。

13.TDengine 數(shù)據(jù)同步讀取

TDengine 支持作為數(shù)據(jù)同步的源端,支持源端時支持自定義 SQL、數(shù)據(jù)過濾、切分鍵填寫(并發(fā)讀?。?、斷點續(xù)傳、增量同步。支持作為整庫同步的源端。

14.運維中心異常樹構建

背景:當實例在提交和運行過程中出現(xiàn)異常情況,無法直觀地進行原因分析,比如:

? 當前實例一直處于等待提交狀態(tài)沒有按計劃時間開始運行,是哪個或哪些上游出現(xiàn)異常導致的?

? 當前實例運行失敗或超時,會影響哪些下游實例?

新增功能說明:

異常樹構建能夠很好地解決以上的問題:

? 在實例調(diào)度流程中,上游依賴檢查中,如果“上游依賴中存在異常”,將會打印出所有阻塞實例信息(所屬租戶、所屬項目、所屬產(chǎn)品、責任人、狀態(tài))

? 實例調(diào)度流程展示流程完成日期和時間

? 實例依賴視圖展示當前實例的定位

15.運維中心

背景:目前對 Hive SQL 任務的運行支持比較薄弱,例如沒有打印出 yarn 上的日志,一旦任務開始執(zhí)行便無法中止,比較影響數(shù)據(jù)開發(fā)用戶的調(diào)試??蛻羝谕麑π实?、占用資源高的任務進行識別和及時管控。

新增功能說明:支持對 Hive SQL 實例進行運行過程的資源使用情況展示,并對于實例進行資源監(jiān)控并配置告警。

? Hive SQL 實例的「實例詳情->運行記錄」中展示任務資源使用走勢圖

? 創(chuàng)建告警規(guī)則時,支持對 Hive SQL 資源占用情況進行監(jiān)控

功能優(yōu)化

1.運行任務優(yōu)化

背景:在「數(shù)據(jù)開發(fā)」菜單中臨時運行任務后,切換到其他菜單,運行的任務將會停止。

體驗優(yōu)化說明:運行任務時切換菜單,不會停止正在執(zhí)行的任務。

2.表生命周期邏輯優(yōu)化

背景:如果客戶有大量短生命周期的表,生命周期到期后表元數(shù)據(jù)信息不刪除,導致元數(shù)據(jù)中心有大量的臨時表,不僅元數(shù)據(jù)查詢性能受影響,數(shù)據(jù)同步的表等需要查詢表信息的地方會有大量不必要的內(nèi)容存在。

體驗優(yōu)化說明:

? 分區(qū)表:當前日期 - 當前分區(qū)的數(shù)據(jù)最后更新時間 > 生命周期,則刪除該分區(qū),表的所有分區(qū)刪除后表的元數(shù)據(jù)信息刪除

? 非分區(qū)表:當前日期 - 表的數(shù)據(jù)最后更新時間 > 生命周期,則清空表中數(shù)據(jù),表的元數(shù)據(jù)信息刪除

3.工作流優(yōu)化

? 工作流樣式優(yōu)化

? 工作流子節(jié)點新增運行方式:運行當前節(jié)點、從當前節(jié)點開始運行和運行至當前節(jié)點

? 工作流支持圈選,圈選后新增運行方式:運行至選中節(jié)點、從選中節(jié)點開始運行


4.GP表查詢優(yōu)化

? 可查看的表的范圍為資產(chǎn)中已經(jīng)元數(shù)據(jù)同步過的所有 Schema 的所有表

? 元數(shù)據(jù)實時刷新

5.ddl 操作管控支持的 SQL 類型完善

完善后支持所有任務類型 SQL 語句的 ddl 操作管控。

6.發(fā)布功能優(yōu)化

背景:當前發(fā)布流程有很多校驗內(nèi)容,包括任務上游、函數(shù)、資源、資源組映射、數(shù)據(jù)源映射等,發(fā)布的時候可能會有內(nèi)容缺漏,非常容易造成發(fā)布失敗,平臺需要把缺漏的內(nèi)容流程化一次性提示給用戶,且需要能夠支持一些內(nèi)容的修改替換,以優(yōu)化發(fā)布體驗。

體驗優(yōu)化說明:發(fā)布時,會在發(fā)布包中校驗引擎、數(shù)據(jù)源、資源組、任務、上游依賴、資源、函數(shù)、組件、表及責任人,并展示校驗結果。針對發(fā)布失敗的校驗項,會給出優(yōu)化提示。

7.報錯提示優(yōu)化

項目新建失敗是由數(shù)據(jù)源導致時,會明確提示信息:數(shù)據(jù)源名稱、數(shù)據(jù)源類型、錯誤原因。

8.適配高可用配置 Hive 集群地址

若控制臺配置 Hiveserver 和 Inceptor 采用的是 zk 連接模式,離線端支持獲取數(shù)據(jù)源信息。

9.新建工作流任務類型帶上“工作流”選項

此前新建工作流任務類型時,默認展示還是“數(shù)據(jù)同步”任務,現(xiàn)優(yōu)化默認選中“工作流”選擇。


10.所有代碼任務支持版本回滾

Impala SQL、Oracle SQL、Greenplum SQL、AnalyticDB PostgreSQL、MySQL、SQL Server、TiDB SQL、GaussDB SQL、Trino SQL、HANA SQL、HashData SQL、StarRocks SQL 任務支持版本對比和版本回滾(目前所有代碼任務均支持了版本對比和版本回滾)。

11.任務默認運行方式調(diào)整

默認分段運行:GaussDB SQL、Oracle SQL、TiDB SQL、Trino SQL、MySQL、SQL Server、Hana SQL、ADB SQL、HashData SQL、StarRocks SQL、Inceptor SQL、Impala SQL

默認整段運行:Hive SQL、Spark SQL、Greenplum SQL

12.數(shù)據(jù)同步任務中僅可選擇項目對接的 Schema

數(shù)據(jù)同步時選擇當前項目的 meta 數(shù)據(jù)源,只能選擇當前項目的 meta schema。

數(shù)據(jù)同步時選擇引入其他項目的 meta 數(shù)據(jù)源,只能選擇引入數(shù)據(jù)源的 meta schema。

13.ES 作為目標數(shù)據(jù)源時,支持指定主鍵字段構成

背景:在 ES 作為數(shù)據(jù)同步目標端的任務中,默認將所有字段都作為主鍵字段,會導致主鍵值過長,使任務失敗,因此需要離線側進行優(yōu)化,不要默認將所有字段都作為主鍵字段。

體驗優(yōu)化說明:在字段映射時,支持指定主鍵包含的字段。

14.運維中心優(yōu)化

? 告警配置中勾選任務責任人,只有自己作為責任人的任務報錯時,才會給任務責任人發(fā)送告警信息

? 任務補數(shù)據(jù)支持配置告警規(guī)則

實時開發(fā)平臺

新增功能更新

1.新增【運維總覽】模塊

背景:之前實時平臺的運維都是針對單任務的,缺乏全局性的運維統(tǒng)計和分析能力,并且缺乏對運行中任務的監(jiān)控分析。因為實時任務一旦運行失敗,就會立即對線上數(shù)據(jù)服務產(chǎn)生影響,我們希望能在任務失敗之前,就能發(fā)現(xiàn)各種潛在風險。

新增功能說明:新增【運維總覽】菜單,支持統(tǒng)計項目任務總數(shù)、狀態(tài)分布、類型分布,通過健康分模型,對每個運行中的任務進行健康評分。

2.新增【全局告警】功能

背景:之前的實時任務告警規(guī)則,需要在每個任務的運維頁面單獨配置,相當于以任務維度進行管理。但是在實際開發(fā)中,比如任務失敗這種場景,一般需要對每個任務都進行配置,但是這樣在每個任務上單獨操作又非常繁瑣。

新增功能說明:新增【全局告警】功能,以規(guī)則維度進行管理,每個規(guī)則可同時應用到多個任務上。

3.新增【日志關鍵詞】監(jiān)控告警規(guī)則

背景:實時任務在運行過程中,往往會出現(xiàn)任務狀態(tài)運行正常,但是實際日志已經(jīng)開始出現(xiàn)各種報錯信息的情況,比如 Exception、Error、Fail 等,這類關鍵詞的出現(xiàn)意味著任務的不穩(wěn)定。我們需要在任務真正失敗之前及時感知到運行日志中出現(xiàn)了這類關鍵詞,然后提前去解決。

新增功能說明:全局告警新增【日志關鍵詞】規(guī)則,平臺自動創(chuàng)建相應的實時監(jiān)控任務,前提是需要在任務開發(fā)時,開啟該任務的日志打印功能。

4.告警規(guī)則新增【告警級別】、【告警恢復】配置項

背景:之前的告警規(guī)則沒有區(qū)分等級,用戶同時收到較多告警時,不確定需要先處理哪個問題,并且告警問題修復后,也沒有通知消息,運維成本相對較高。

新增功能說明:新增告警級別(緊急/重要/次要/提示);告警規(guī)則新增是否開啟恢復通知配置項。

5.新增【數(shù)據(jù)源】適配

? FlinkSQL 源表、結果表新增支持 Ckafka、CMQ 數(shù)據(jù)源類型

? Flink1.10 支持的 HBase2.x 和 Phoenix5.x 插件,適配 Flink1.12

? FlinkSQL 維表、結果表新增 Hyperbase 數(shù)據(jù)源

? Flink1.10 支持的實時采集 PGWal 插件,適配 Flink1.12

? Kafka 讀取類型新增 Raw Format

功能優(yōu)化

1.優(yōu)化【字段級血緣解析】能力

背景:之前實時平臺的字段級血緣解析只支持根據(jù)當前任務的 FlinkSQL 去解析,沒有進行上下游串聯(lián),用戶無法回溯或者下鉆上下游關聯(lián)字段。

體驗優(yōu)化說明:字段級血緣支持上下鉆查詢。(建議配合表級血緣一起分析,因為字段級血緣是純 SQL 解析,不攜帶任務信息)

2.數(shù)據(jù)還原 SINK 端表名生成邏輯優(yōu)化

背景:原先數(shù)據(jù)還原任務的 SINK 端表名生成,會自動拼接 Stream 等前綴。容易出現(xiàn)不符合內(nèi)部數(shù)開的表名命名規(guī)則,拼接后導致表名太長無法正常創(chuàng)建等問題。

體驗優(yōu)化說明:SINK 端自動創(chuàng)建的表名,支持兩種模式:默認和源表相同、支持在源表名的基礎上拼接自定義內(nèi)容。

3.向?qū)ч_發(fā)模式,Kafka 支持自動映射

背景:之前實時平臺的 FlinkSQL 任務開發(fā),對于 Kafka Topic 的映射操作非常麻煩,需要用戶查詢 JSON 中的每個 KEY,配置成 Flink 表的字段,如果需要做上百個字段的映射,也需要人肉操作。開發(fā)往往選擇在應用外想辦法完成批量映射,再粘貼到平臺內(nèi),交互比較差。

體驗優(yōu)化說明:Kafka Format 新增 OGG-JSON/ CHUNJUN-JSON,支持對這類 JSON 數(shù)據(jù)實現(xiàn)一鍵映射:

? 一鍵采集線上樣例數(shù)據(jù),自動完成映射

? 手動輸入樣例數(shù)據(jù),一鍵完成映射

4.Checkpoint 語義優(yōu)化

背景:之前實時任務的 Checkpoint 恢復語義是放在環(huán)境參數(shù)中配置的(和開源 Flink 相同),但實際并不生效。因為 Flink 的實現(xiàn)是基于開源改造過的,狀態(tài)恢復語義需要在任務的結果表中進行 semantic 參數(shù)配置。

體驗優(yōu)化說明:調(diào)整環(huán)境參數(shù)中的狀態(tài)恢復語義提示文案,引導開發(fā)至結果表參數(shù)中配置。FlinkSQL 任務默認為 at-least-once(保障實時性)、數(shù)據(jù)還原任務默認為 exactly-once(保障準確性)。

數(shù)據(jù)資產(chǎn)平臺

新增功能更新

1.監(jiān)控數(shù)據(jù)變更

背景:客戶希望某些場景發(fā)生數(shù)據(jù)變更的時候,支持對比前后不同時間的數(shù)據(jù),比如需要對比昨天和今天不同分區(qū)的數(shù)據(jù),此場景可以通過對接控制臺自定義參數(shù)來滿足。

新增功能說明:數(shù)據(jù)質(zhì)量支持對接控制臺自定義參數(shù),涉及到質(zhì)量的單表、多表的自定義 SQL、過濾條件的地方都需要修改,支持點擊直接復制參數(shù)。

2.數(shù)據(jù)標準/詞根導出

? 數(shù)據(jù)標準導出:支持數(shù)據(jù)標準按照目錄批量導出,滿足無平臺權限部門線下對齊數(shù)據(jù)標準下發(fā)規(guī)范的需求

? 詞根導出:支持詞根按照目錄批量導出,滿足無平臺權限部門線下對齊詞根的規(guī)范需求

3.Trino 跨源校驗支持 TDSQL、Inceptor

背景:項目上需要實現(xiàn) TDSQL 表和 Inceptor 表的跨源校驗

新增功能說明:數(shù)據(jù)源中心 connector 配置新增 TDSQL、Inceptor,Trino 支持 TDSQL、Inceptor 的單表、多表、規(guī)則集校驗

? Trino 的 Inceptor:已支持 Inceptor 的質(zhì)量校驗,通過 Trino 引擎連接 Inceptor 時,單表、多表、規(guī)則集校驗功能與 Inceptor 本身保持一致

? Trino 的 TDSQL:TDSQL與 MySQL 類似,通過 Trino 引擎連接 TDSQL 時,單表、多表、規(guī)則集校驗功能與 MySQL 類似

4.自定義角色

背景:滿足客戶側自由設定不同角色的權限點,不同客戶可能會有不同的需求,目前的角色固定權限點的方式不夠靈活,自由新增角色且配置權限點,可以滿足不同客戶的角色及對應權限點的個性化需求。

新增功能說明:

? 資產(chǎn)平臺可查看相關角色及權限點配置:

? 設置-角色管理可進行角色配置和權限點指定:

5.代碼規(guī)則檢查

背景:數(shù)據(jù)開發(fā)人員代碼水平不一,導致代碼書寫混亂,SQL 代碼運行問題較多,利用 SQL 檢查規(guī)則規(guī)范化 SQL 代碼,對代碼書寫問題進行攔截,便于統(tǒng)一管理,用于預防引入需要治理的問題。

新增功能說明:

? 規(guī)則管理:支持內(nèi)置規(guī)則,同時也支持注冊規(guī)則,滿足不同客戶的個性化代碼檢查規(guī)范

? 內(nèi)置規(guī)則:

? 注冊規(guī)則:

? 注冊規(guī)則文件:

? 生效環(huán)節(jié):檢查規(guī)則支持對文件提交、運行的前置事件進行檢查

? 生效結果:檢查開啟后,設定為阻塞的檢查規(guī)則,檢查不通過將阻塞對應事件的流程;設定為提示的檢查規(guī)則,檢查不通過時離線側可忽略提示,仍然正常提交。檢查規(guī)則觸發(fā)后發(fā)現(xiàn)的事件稱之為檢查規(guī)則事件。

功能優(yōu)化

1.實時字段血緣優(yōu)化

? 字段血緣新增上下鉆,相當于根據(jù)表級血緣的關系,將多個任務的字段級血緣串聯(lián)起來

? 默認只展示當前任務結果表的選中字段的一級上下游(之前只有上游,因為只解析當前任務,沒有串聯(lián))

? 如果上下游字段還有自身的上下游血緣,icon 顯示,點擊繼續(xù)上下鉆一級

2.部分前端頁面UI升級

? 資產(chǎn)盤點

? 數(shù)據(jù)地圖

? 元數(shù)據(jù)同步

? 元數(shù)據(jù)質(zhì)量-完整度分析

3.質(zhì)量規(guī)則優(yōu)化

? 創(chuàng)建任務回滾機制:

當質(zhì)量任務綁定離線任務時,綁定失敗,質(zhì)量任務仍然會創(chuàng)建成功,需要做到兩個之中任意一個失敗了,質(zhì)量規(guī)則創(chuàng)建失敗

? 臟數(shù)據(jù)存儲變更,質(zhì)量任務重新提交:

切換完獨立數(shù)據(jù)校驗要重新保存一下任務,不然去獲取臟數(shù)據(jù)時查的是獨立庫,但是 SQL 跑的是之前的庫,在切換臟數(shù)據(jù)獨立存儲后,把相關任務重新提交,包括新增/編輯

數(shù)據(jù)服務平臺

新增功能更新

1.SQL 生成 API 操作符支持修改

背景:生成 API SQL 中參數(shù)的操作符由平臺自動解析,不支持修改,存在解析錯誤的情況。

新增功能說明:操作符仍由平臺自動解析,如解析有問題可手動修改(注意此處僅做顯示的修改,不影響代碼中的實際邏輯)。

2.API 輸入?yún)?shù)

? API 輸入?yún)?shù)支持設置常量和時間變量默認值:配置了默認值的輸入?yún)?shù)若調(diào)用時沒有傳值則以默認值進行查詢

? API 輸入?yún)?shù)支持按正則表達式和計算表達式做校驗:輸入?yún)?shù)列表中可對單個參數(shù)配置正則表達式的校驗規(guī)則,用來進行例如手機號、身份證號等有標準格式的入?yún)?nèi)容的校驗,另外高級配置中可以選擇進行計算表達式的校驗,用于多個入?yún)㈥P系的校驗

3.角色權限點變更

角色權限點新增 API 市場可查看的 API 范圍。API 查看范圍權限點枚舉值:無查看權限、可查看租戶下所有項目的 API、可查看租戶下當前用戶所在項目的 API。

4.數(shù)據(jù)權限

數(shù)棧平臺內(nèi)對接的 Trino 數(shù)據(jù)源的權限判斷對接數(shù)據(jù)安全。開啟數(shù)據(jù)安全時,平臺內(nèi)直接創(chuàng)建或?qū)拥?Schema 會以當前用戶賬號判斷 Ranger 上的數(shù)據(jù)權限。

5.API 告警規(guī)則圈選 API 時支持全選

全選后,API 后續(xù)在新增和刪除時平臺會動態(tài)調(diào)整圈范圍。

客戶數(shù)據(jù)洞察平臺

新增功能更新

1.衍生標簽、組合標簽加工過程支持 SQL 預覽

背景:標簽加工過程中,通過規(guī)則配置的結果開發(fā)不確定是否是其想要的內(nèi)容,此時,開發(fā)人員會希望可以看到 SQL 內(nèi)容,以確定結果的準確性。

新增功能說明:衍生標簽、組合標簽加工過程中支持通過「試計算」功能預覽 SQL 詳情。

2.數(shù)據(jù)同步至 HBase 數(shù)據(jù)庫

背景:創(chuàng)建實體或發(fā)布動態(tài)群組后,僅運行 Hive 大寬表任務,但不會運行 Hive-HBase 的數(shù)據(jù)同步任務,導致當日建的實體或群組,當日無法調(diào)用 API,需要等周期實例運行后才能用API。

新增功能說明:新建/編輯實體或動態(tài)群組后,支持立即將數(shù)據(jù)同步至 HBase 數(shù)據(jù)庫。

? 創(chuàng)建/編輯實體:調(diào)用臨時運行接口,跑 Hive 大寬表任務,Hive 到 HBase 的大寬表同步任務

? 發(fā)布(編輯已發(fā)布的)動態(tài)群組:調(diào)用臨時運行接口,跑 Hive 群組任務,Hive 到 HBase 的群組同步任務

3.重跑歷史數(shù)據(jù)

背景:數(shù)據(jù)同步任務重跑歷史實例時,只刪除數(shù)據(jù),不刪除表,當標簽數(shù)量變更后,字段出現(xiàn)了不一致的情況,此時會出現(xiàn)任務運行失敗。

新增功能說明:發(fā)布的標簽變更后,根據(jù)最新發(fā)布標簽情況重跑歷史數(shù)據(jù),數(shù)據(jù)同步任務重跑歷史實例時,調(diào)整為刪除表后重新創(chuàng)建表同步數(shù)據(jù)。

4.支持二次進行數(shù)據(jù)同步

背景:用戶可能由于 HBase 建表失敗導致同步任務失敗,此時即便任務重跑也不行,因為當前重跑并不支持建表,而用戶無法建表。

新增功能說明:HBase建表失敗后,支持二次進行數(shù)據(jù)同步,重跑時,根據(jù)源表結構創(chuàng)建建 HBase 表,如果表結構一致,可不用重新創(chuàng)建。

5.HBase 建表條件

背景:HBase 表創(chuàng)建是通過定時任務創(chuàng)建,而無論這個任務是否凍結都會創(chuàng)建,這樣會產(chǎn)生很多無用的空表,占用大量 HBase 的 Region 和 zk 內(nèi)存資源。

新增功能說明:HBase建表條件調(diào)整為針對未凍結且未刪除的任務定時建表。定時任務建表時只創(chuàng)建未凍結且未刪除任務的表,任務解凍之后,用戶重跑或補數(shù)據(jù)時先創(chuàng)建表再重跑同步任務。

6.導入標簽&上傳本地群組時,支持匹配日期類型字段

? 上傳本地群組:支持日期類型的匹配維度,但客戶上傳數(shù)據(jù)的日期格式需與大寬表的字段格式保持一致,否則報錯

? 導入標簽:支持匹配維度支持日期類型的匹配維度,但客戶上傳數(shù)據(jù)的日期格式需與大寬表的字段格式保持一致,否則報錯

功能優(yōu)化

1.數(shù)據(jù)模型權限控制優(yōu)化

背景:當前數(shù)據(jù)模型功能除 admin、租戶所有者/管理員外,其他角色不可查看、新增數(shù)據(jù)模型,但實際使用中,更多的是項目級別的管理員進行數(shù)據(jù)模型的創(chuàng)建、編輯操作,對于權限要求高的客戶來說,不便于將項目管理員調(diào)整為租戶管理員,導致流程卡住。

體驗優(yōu)化說明:admin、租戶所有者/管理員、項目所有者/管理員可以對數(shù)據(jù)模型進行操作,其他角色按照原來的規(guī)則,進到頁面不可查看、操作。

指標管理平臺

新增功能更新

1.指標 API 生成的 Hive 大寬表支持生命周期設置

背景:指標 API 生成過程中會在 Hive 中存儲一份數(shù)據(jù),需要同步支持生命周期設置。

新增功能說明:指標 API 設置中,區(qū)分 Hive、HBase 數(shù)據(jù)源進行數(shù)據(jù)生命周期設置。

2.增加維度管理模塊,支持設置維度對象、維度屬性

背景:

目前指標產(chǎn)品只支持一層維度,用戶選擇起來麻煩。如“客戶”有“客戶ID、客戶名稱、客戶手機號”等維度,當用戶在派生和復合層選擇時,需要一個個點。

客戶方會有復合指標依賴的2個派生指標用到同一個維度的需求,兩個維度未在數(shù)據(jù)模型中做關聯(lián),從而導致無法在當前項目內(nèi)創(chuàng)建復合指標。

新增功能說明:

? 「指標中心」-「數(shù)據(jù)管理」新增「維度管理」模塊

? 新增“維度對象”、“維度屬性”概念,一個維度對象包含多個維度屬性,支持一個維度對象下不同的維度屬性來源于不同的維度表,支持一個維度屬性關聯(lián)不同的維度表

? 增加主維表、次維表概念。每個維度對象有一張主維表,多張次維表,主維表主要起到批量創(chuàng)建維度屬性的作用,次維表主要起到關聯(lián)維度屬性的作用,后續(xù)用于識別維度一致性,新建維度對象時,同步選擇主維表,批量生成維度屬性,后續(xù)新增維度屬性可通過「新建維度屬性」實現(xiàn),將其他次維表字段關聯(lián)到已有維度屬性通過「關聯(lián)維度屬性」實現(xiàn)

3.數(shù)據(jù)模型支持落表

背景:派生指標是基于模型所用的源表進行指標加工,實際使用中,使用同一模型的多個派生指標頻繁重復使用數(shù)據(jù)源時,當數(shù)據(jù)源的數(shù)據(jù)量較大時,加工效率會變慢,此時需要將模型落表以提高加工效率。

新增功能說明:「新建模型」中的【第五步:設置】中的模型存儲選項,選擇存儲為物理表,并配置表信息、調(diào)度信息,包括表名稱、任務名稱調(diào)度周期、出錯重試,也需要設置數(shù)據(jù)生命周期信息。指標發(fā)布后,系統(tǒng)將提交模型任務周期計算數(shù)據(jù)落表。

4.數(shù)據(jù)模型中選擇的拉鏈表支持自定義匹配日期字段

背景:數(shù)據(jù)模型中設置了一個增量分區(qū)表(左表),并匹配了一個拉鏈表(右表),左表包含兩個時間字段(一個是用于分區(qū)的時間字段,另一個是用于和拉鏈表的開始/結束時間做匹配的時間字段),目前平臺只支持匹配分區(qū)時間字段,不支持普通的時間字段,導致模型無法正常創(chuàng)建。

新增功能說明:【第二步:表關聯(lián)】模型關聯(lián)表中添加的關聯(lián)表為拉鏈表時,拉鏈表的開始、結束時間可選擇直接匹配左表的分區(qū)字段(業(yè)務日期),也可匹配左表的某一特定的時間字段(左表時間自定義)。

5.增加業(yè)務限定模塊

背景:派生指標加工過程中,針對同一模型、相過濾條件,針對不同聚合維度、不同計算公式需要生成不同的派生指標的場景,為提高指標加工效率,過濾條件可抽離出來在上層進行業(yè)務管理時提前生成業(yè)務限定,后續(xù)直接引用即可。

新增功能說明:增加業(yè)務限定模塊,支持批量設置指標計算過濾條件

? 「指標中心」-「數(shù)據(jù)管理」新增「業(yè)務限定」模塊

? 新增/編輯業(yè)務限定

? 派生指標加工時的過濾條件設置變更為業(yè)務限定選擇

6.統(tǒng)計周期增加上季末、上年末參數(shù)

背景:指標加工過程中,會有加工季度末、年度末的統(tǒng)計周期設置需要,當前無法通過可視化加工實現(xiàn),只能通過自定義指標實現(xiàn),本次功能迭代通過可視化配置方式實現(xiàn)該需求場景.

新增功能說明:

上季末參數(shù):${bdp.system.preqrtrend}

上年末參數(shù):${bdp.system.preyrend}

統(tǒng)計周期設置上季末的數(shù)據(jù)的設置方式如下:

7.統(tǒng)計周期支持自定義周期標識

背景:統(tǒng)計周期之前只支持設置周期名稱,當名稱變更后,未被通知到的用戶不易正確識別到所需周期,本次加入周期標識,方便定位周期唯一性。

新增功能說明:新增統(tǒng)計周期時,可配置周期標識,字段在周期列表中同步展示。

8.指標表名稱支持自定義

背景:客戶加工表的過程中,會根據(jù)自己的特定規(guī)則生成表名稱,目前指標生成的表名稱是根據(jù)系統(tǒng)內(nèi)置條件生成,不便于客戶定位表。

新增功能說明:新增指標的「設置調(diào)度信息」步驟中,設置指標表名稱(編輯時不可修改)。

9.試計算增加表結構預覽

背景:未生成指標表前,客戶僅能根據(jù) SQL 判斷表內(nèi)的字段信息,為方便查看表結構,在查看 SQL 信息的同時,可通過可視化方式查看對應的表結構信息。

新增功能說明:

10.復合指標支持自定義關聯(lián)鍵

背景:歷史功能是將選擇的維度作為關聯(lián)鍵,生成如下SQL:select A.性別,avg(A.消費金額 / B. 消費人數(shù)) from A left join B on A.性別 = B.性別。

但實際 SQL 編寫中,存在聚合維度與關聯(lián)鍵設置不一致的情況,期望生成下列 SQL:select A.性別,avg(A.消費金額 / B. 消費人數(shù)) from A left join B on A.user_id = B.user_id,實際加工結果與期望不符。

新增功能說明:「維度設置」模塊的「關聯(lián)鍵選擇」自定義設置多個關聯(lián)鍵,若兩個字段的字段類型不一致,需要選擇需要轉換的字段類型,以保證關聯(lián)鍵可以正常匹配。

功能優(yōu)化

1.復合指標運行過程中產(chǎn)生的臨時表刪除邏輯優(yōu)化

背景:復合指標運行周期任務實例、運行補數(shù)據(jù)實例時會針對公式中的各指標生成 Hive 臨時表,當任務運行失敗時,臨時表未進行及時清理,造成客戶存儲資源浪費。

體驗優(yōu)化說明:每天定時清除2天前生成的臨時表。

2.原子指標加工方式升級,可自定義公式

背景:原來的原子指標是將模型字段做直接映射,映射后的原子指標需先生成派生指標/復合指標,再與其他指標表做加工,此時需要有公共維度存在,否則無法進行指標加工,無法滿足維度不一致的字段的加工。

體驗優(yōu)化說明:原子指標層針對模型可自定義公式,以解決上述指標加工場景,后續(xù)派生指標將直接引用原子指標定義的公式進行數(shù)據(jù)計算。

3.派生指標的技術信息設置方式變更

? 維度選擇:由取原子指標的維度改為取原子指標所引用模型的維度(顯示對應的維度對象、維度屬性信息),并可針對一批維度批量選中對應的維度對象

? 過濾條件設置:由原來的根據(jù)模型依次配置條件調(diào)整為直接引用業(yè)務限定中配置的業(yè)務限定規(guī)則,可一次添加多個業(yè)務限定規(guī)則

4.復合指標規(guī)則設置模塊功能劃分優(yōu)化

背景:之前的規(guī)則設置模塊功能劃分中,過程指標的條件設置與指標結果的設置均放到了維度設置中,點擊單個指標的操作范圍不便于理解,基于操作習慣、理解難度對功能模塊重新做了劃分。

體驗優(yōu)化說明:整體包含三個模塊:維度設置、結果設置、過程指標詳情:

? 維度設置:包含復合指標結果表所需的維度、各過程指標結果表關聯(lián)方式及關聯(lián)鍵選擇

? 結果設置:保存精度、取整方式、為空默認值、計量單位

? 過程指標詳情:針對單個過程指標設置維度過濾、結果過濾條件

5.SQL 指標 Catalog 解析優(yōu)化

背景:SQL 指標中沒有解析 SQL 語句中用到的 Catalog,導致 SQL 指標后續(xù)進行復合指標、API 查詢時報錯。

體驗優(yōu)化說明:

? 解析 SQL 指標語句,解析 Catalog、表級血緣關系、字段級血緣關系

? 修復復合指標、API 查詢 SQL 指標時的報錯

《數(shù)據(jù)治理行業(yè)實踐白皮書》下載地址:https://fs80.cn/l134d5?

《數(shù)棧V6.0產(chǎn)品白皮書》下載地址:https://fs80.cn/cw0iw1

想了解或咨詢更多有關袋鼠云大數(shù)據(jù)產(chǎn)品、行業(yè)解決方案、客戶案例的朋友,瀏覽袋鼠云官網(wǎng):https://www.dtstack.com/?src=szbzhan

同時,歡迎對大數(shù)據(jù)開源項目有興趣的同學加入「袋鼠云開源框架釘釘技術 qun」,交流最新開源技術信息,qun 號碼:30537511,項目地址:https://github.com/DTStack


袋鼠云產(chǎn)品功能更新報告06期|數(shù)棧產(chǎn)品功能升級,做產(chǎn)品我們是認真的!的評論 (共 條)

分享到微博請遵守國家法律
嘉峪关市| 绥德县| 句容市| 株洲市| 农安县| 武定县| 德阳市| 福泉市| 易门县| 榕江县| 阳春市| 华安县| 海丰县| 方城县| 呼玛县| 东阿县| 庄河市| 轮台县| 松溪县| 蒙阴县| 平泉县| 师宗县| 孝昌县| 呼和浩特市| 武宣县| 临江市| 铜川市| 团风县| 山东| 离岛区| 青河县| 积石山| 木里| 深州市| 曲阳县| 蕉岭县| 赤峰市| 玛纳斯县| 共和县| 攀枝花市| 专栏|