Mô hình dữ liệu ngành (tiêu chuẩn)

Mô hình dữ liệu ngành (tiêu chuẩn)

Dịch từ bài Industry (Standard) Data Models của Matthew Bradley (đang là Senior Data Architect của KPMG UK) vào tháng 10.2021.

Khái niệm về mô hình dữ liệu ngành (IDM – Industry Data Model) dường như lại một lần nữa được quan tâm, với sự kiện đáng chú ý Microsoft mua lại ADRM Software, nhà phát triển hàng đầu về lĩnh vực mô hình dữ liệu ngành.

Mô hình dữ liệu ngành IDM là gì?

Vậy IDM là gì? Chúng là các mô hình dữ liệu logic được áp dụng rộng rãi trong một ngành (ví dụ: tài chính, du lịch, ô tô). Thông thường, đây là các mô hình quan hệ, được chuyển tải trong một sơ đồ mối quan hệ thực thể (ERD – Entity Relationship Diagram).

IDM dựa trên giả định rằng các công ty trong cùng một ngành sử dụng cùng một loại dữ liệu và loại thông tin cơ bản.

Để các bạn hình dung sơ bộ về kích thước và độ phức tạp của IDM, ADRM Software tuyên bố rằng một IDM điển hình có thể bao gồm khoảng 300 thực thể (entities) và 2.500 thuộc tính (attributes).

Khi tôi lần đầu tiên nhìn vào một IDM, ấn tượng của tôi là nó giống như một kho dữ liệu chuẩn hóa (normalized DWH). Tôi ngay lập tức nhớ đến Bill Inmon, người đã phát triển phương pháp mô hình hóa kho dữ liệu bằng cách sử dụng lược đồ chuẩn hóa vào những năm 90. Ngày nay, kiến ​​trúc “Corporate Information Factory” của Inmon phần lớn đã bị loại bỏ để chuyển sang các dimensional models (theo chủ trương của Ralph Kimball). Trong 20 năm làm việc trong lĩnh vực data warehouse, tôi chưa bao giờ gặp bất kỳ ai triển khai DWH tuân theo các nguyên tắc của Inmon… cho đến gần đây. Một trong những nhược điểm chính của định dạng chuẩn hóa cao độ (heavily normalized format) của Inmon là nó khóa dữ liệu (lock the data) trong cấu trúc chuẩn hóa khó truy vấn, thường yêu cầu ETL phức tạp để xử lý, câu lệnh SQL truy vấn phức tạp, khiến người dùng vất vả học cách sử dụng.

Hóa ra ấn tượng ban đầu của tôi về IDM là đúng đắn và được xác nhận trong sách trắng “Best practice Vertical Industry Enterprise Data Model” trên trang web ADRM. Tài liệu này được viết vào năm 2004 và đề cập đến công việc của Bill Inmon về các mô hình dữ liệu ngành diễn ra vào những năm 1990.

Bản chất hướng về chuyên môn chiều dọc của IDM cũng khiến tôi nhớ đến cuốn sách của Kimball (The Data Warehouse Toolkit), lấy một loạt các patterns của ngành (dịch vụ tài chính, giáo dục, viễn thông, v.v.) để diễn tả khái niệm về dimensional modelling. Đó là là điểm chung duy nhất; IDM thường là các mô hình 3NF hoặc mô hình OLTP vốn được coi là phù hợp hơn khi thiết kế một ứng dụng nào đó, chú không phải là cho một kho dữ liệu có dimensions.

Vì vậy, tại sao Microsoft mua lại hãng ADRM Software?

Microsoft đã thực hiện một số động thái hướng tới các mô hình dữ liệu tiêu chuẩn với Common Data Model (CDM). CDM không phải là một mô hình tiêu chuẩn ngành theo nghĩa là nó được căn chỉnh theo một ngành dọc cụ thể (mặc dù có một vài mô hình ngành dọc có sẵn tại thời điểm viết bài, ví dụ như chăm sóc sức khỏe), nhưng nó cố gắng cung cấp một lược đồ tiêu chuẩn, cho phép dữ liệu được gắn vào với nhau trong một mô hình kinh điển. Tôi đoán là Microsoft sẽ sử dụng các mô hình dữ liệu ngành dọc của ADRM Software để phát triển các ứng dụng Dynamics 365 theo ngành dọc, mỗi ứng dụng có một mô hình dữ liệu tiêu chuẩn ngành được xác định trong CDM (xem Industry Solution Accelerators).

Mô hình dữ liệu ngành tiêu chuẩn có thể mang lại những lợi ích gì? Bất kỳ ai có kinh nghiệm trong mô hình dữ liệu dạng dimension sẽ thừa nhận có các mẫu kho dữ liệu tương tự trong mỗi ngành dọc, nhưng đây là các mô hình chiều không chuẩn hóa Kimball (denormalized dimensional models), không phải mô hình ngành trong 3NF.

Vậy mô hình dữ liệu ngành tiêu chuẩn mang lại những lợi ích gì?

  1. Việc sử dụng các định nghĩa, thực thể và định dạng dữ liệu tiêu chuẩn có thể giúp quản lý việc tuân thủ của các ngành.
  2. Trong một số lĩnh vực nhất định, nơi các đối thủ cạnh tranh trao đổi dữ liệu với nhau, điều này sẽ trở nên đơn giản nếu tất cả đối tác đều tuân theo một mô hình chuẩn.
  3. Các giải pháp ETL và dimensional model có nguồn gốc từ IDM có thể được chia sẻ giữa các tổ chức trong cùng lĩnh vực
  4. Các mô hình có thể được sử dụng làm nền tảng, và nhanh chóng được sửa đổi cho một tổ chức cụ thể, thay vì bắt đầu từ đầu
  5. Mô hình dọc vốn tuân theo thông lệ tốt nhất của ngành có thể cho phép các tổ chức tiết kiệm chi phí và trở nên hiệu quả hơn
  6. Dữ liệu được xác định phổ biến với các ngành khác (ví dụ: khách hàng, địa lý, tài khoản) sẽ được xác định nhất quán, hỗ trợ doanh nghiệp thâm nhập vào một ngành mới mà không ảnh hưởng đến mô hình dữ liệu hiện có.
  7. Sử dụng các mô hình để sáp nhập hoặc mua lại hai doanh nghiệp trong cùng một ngành

Có thể có một số lợi ích nhưng mô hình dữ liệu ngành dùng để làm gì?

Sách trắng của ADRM Software mô tả mục đích của mô hình doanh nghiệp là “cung cấp nền tảng kiến ​​trúc để xây dựng các ứng dụng”. Các tổ chức hiếm khi xây dựng các ứng dụng LOB từ đầu (trong đó các mô hình dữ liệu ngành có thể mang lại lợi ích), họ thích mua các ứng dụng của nhà cung cấp bên thứ 3 và cấu hình chúng theo nhu cầu của họ. ETL sẽ phải thiết kế phức tạp hơn nếu cần chuyển đổi dữ liệu của tổ chức thành mô hình dữ liệu chuẩn hóa, mô hình này có thể không cung cấp cơ chế để nắm bắt dữ liệu thay đổi theo thời gian, chẳng hạn như khái niệm về slowly changing dimensions trong dimensonal model.

Thật thú vị khi xem các mô hình dữ liệu logic như một artifact được duy trì bởi kiến ​​trúc doanh nghiệp (xem Svyatoslav Kotusev tóm tắt kiến trúc doanh nghiệp trên 1 trang giấy). IDM sẽ cung cấp thông lệ tốt nhất và chắc chắn cho mô hình dữ liệu logic của EA và quản trị dữ liệu doanh nghiệp liên quan. Một mô hình tham chiếu như vậy sẽ giúp các nhóm ứng dụng có thiết kế và / hoặc cấu hình của chúng, đặc biệt khi được kết hợp với danh mục dữ liệu cung cấp các định nghĩa chi tiết về từng thực thể và thuộc tính.

Tôi tò mò muốn biết IDM và việc mua lại ADRM Software của Microsoft sẽ dẫn đến đâu. Tôi là một người theo chủ nghĩa hoài nghi, tự hỏi liệu IDM có phải là một chủ nghĩa lỗi thời, từ cuối thế kỷ 20 nơi các máy tính lớn hoạt động như một kho lưu trữ dữ liệu trung tâm của tổ chức hay không. Vào thời điểm (này) khi mà các kho dữ liệu không lược đồ (non-schema data stores) đang gây chú ý với các nhóm phát triển giải pháp, các giải pháp dữ liệu đang đi ra xa khỏi việc tuân thủ (cũng như yêu cầu người dùng tuân thủ) lược đồ và tính toàn vẹn của dự liệu (các hồ dữ liệu và ‘schema on read’) thì có lẽ sự hồi sinh của các mô hình dữ liệu tiêu chuẩn ngành là một phản ứng được mong đợi .

Comments are closed.