面試官:如何管控數據?
大家好,我是一哥,昨天分享一篇數倉面試的知識點《掌握這些數倉知識,再也不怕面試官!》,但是面試還缺少了一部分數據管控的知識,今天補上~
01數據管控背景
數據管控是在做大數據平臺包括傳統BI都需要做的工作,數據從各個數據源過來,我們都要進行數據質量的管理,也就是我們常說的數據治理。那么在數據倉庫建設的時候如何進行數據管控呢?
我經歷過的項目主要采用以下管控手段:數據質量、數據生命周期、數據標準、元數據四方面的管控。
02管控手段
一、數據質量
不管是做數據倉庫建設還是做數據分析,一致和準確的數據是數據模型與決策分析的基礎。在實際生產環境中,我們從不同的系統抽取數據到大數據平臺,那么我們就要提供一套數據監控機制,對數據質量進行監控。良好的、高質量的數據可以有效降低系統建設成本。
二、數據標準
保證標準命名、編碼、業務解釋等內容的唯一性。只有建立相應的標準,同時加強業務的標準化工作,規范重點業務內容,強化業務管理。并在實時過程中加強現有數據的交互性,支撐統一的業務管理,只用建立的數據標準,才能推動主數據系統的建設,完成重點數據的統一管理,為后期數據模型完全共享打下堅實的基礎。
同時在數據質量監控的同時,我們會不斷完善數據標準,以適應企業內部多變的系統環境,從而形成良性循環。
關于管控流程,概括三個字:查&管。
查,分為測試驗證和上線審核。
測試驗證:
a). 總量核對,核對上下兩步的數據總條數,沒有過濾條件的話應該是一致的
b). 多維度統計,復雜的多維度指標拆分成單維度SQL統計,對每個指標分別進行核查。
c). 多表關聯統計,拆分成中間表進行核對每一步驟的指標。
d). 明細到指標統計,比如隨機找一臺車的明細和最后統計的指標進行核對。
e). 新老統計對比,比如有些指標是遷移或者之前業務手工制作,可以開發后的新指標同老指標進行對比。
上線審核:
a). 對查詢表的where后面的條件、join關聯字段、group by分組字段等重點檢查邏輯,和需求理解結合審核。
b). 根據上面的數倉規范檢查數據集命名、數據集字段命名、任務名稱進行審核,是否按照數據倉庫建設規范中的業務域、維度、原子指標、修飾類型、修飾詞、時間周期、派生指標等標準進行命名。
c). 代碼注釋審核,每一步處理需要有注釋該步驟的作用,每個指標也要有注釋,where條件等也要添加注釋。
d). 重要任務是否開啟短信告警,任務啟動時間等審核。
e). 任務上線的位置是否符合上線標準,比如上線的數據層級與業務層級等。
管,開發過程中,大家需要遵循一些流程規則,以確保指標的定義,開發的準確性。
a). 需求上線時候需要在知識庫中完成所開發需求邏輯說明
b). 復雜需求(比如項目指標),需要團隊至少兩人以上評審需求后開發。
c). 提交上線申請的同事需要備注上需求邏輯說明。
審核上線人員為“輪值”,審核上線人員需要review開發人員的代碼,需要和開發人員共同承擔代碼質量
三、數據生命周期
隨著企業業務的增長,越來越多的數據匯入大數據平臺,同時在建設數據倉庫的時候,我們還進行了數據分層管理,數據會存在多份共存情況,那么此時我們就要做數據生命周期管理,對不必須保存的數據,進行冷數據管理??刂茢祿纳芷冢环矫婵梢詼p低成本、簡化管理,同時也為我們集群騰出了資源,提高了系統性能,盡可能滿足現有業務的高效運行。另外,在做數據生命周期管理的同事要注意一些風險,比如法規,對于很多互聯網、銀行、電信、車聯網等企業,相關部門會提出原始數據必須保持多長時間的要求。在制定數據生命周期管理時,一定要注意!
可以參考前天分析的網易的技術經驗《數倉治理之數據任務重構實踐》
四、元數據
元數據就是對一些業務術語、標準等的統一定義、管理。對各種數據流接口的統一管理。同時在構建數據模型的時候,通過元數據我們可以進行血緣分析等。
03總結
通過上面我們介紹的管控手段的幾個要點,那么在實施過程中是否能夠成功呢?大概率不會,因為團隊總會有那么幾個人嫌規范太繁瑣,不按套路出牌,所以建立一些標準的基礎上,在實施過程中我們還有建立一些規章制度,來幫助我們的規劃落地,比如和員工績效掛鉤、或者制定一些流程管控、增加上線審核機制等,只有規范和流程相結合了,才能更好的進行實施管控數據,也只有管控好數據,才能更好的保證數據分析的成功。