Data warehouse (kho dữ liệu) là gì? Cấu trúc và vai trò của data warehouse

19/05/2023

Data warehouse (kho dữ liệu) là gì? Cấu trúc và vai trò của data warehouse

Nội dung

Data Warehouse thường được sử dụng để tiến hành lưu trữ dữ liệu lịch sử và dữ liệu hiện tại của các công ty, doanh nghiệp và cho phép người dùng truy vấn, tìm kiếm và thống kê dữ liệu theo nhiều cách khác nhau. Kho dữ liệu có thể được sử dụng để phân tích doanh số, tính toán hiệu quả kinh doanh, và nhiều yếu tố khác để giúp doanh nghiệp có quyết định điều hành tốt hơn. Trong phần tiếp theo, hãy cùng Vega Fintech tìm hiểu kỹ hơn về Data Warehouse.

1. Data Warehouse là gì?

Data warehouse (viết tắt: DW) hay kho dữ liệu là một hệ thống lưu trữ dữ liệu từ nhiều nguồn, nhiều nền tảng khác nhau như: phần mềm bán hàng, kế toán, nhân sự hay là hệ thống lõi ngân hàng,… nhằm giúp tăng cường hiệu suất của các truy vấn cho báo cáo cũng như khả năng phân tích.

Data Warehouse được hoạt động như một kho lưu trữ trung tâm. Dữ liệu đi vào kho dữ liệu từ các giao dịch hay các cơ sở dữ liệu liên quan khác. Sau đó, dữ liệu này sẽ được xử lý, chuyển đổi để người dùng có thể truy cập những dữ liệu này thông qua công cụ phổ biến như Business Intelligence, SQL client hay là từ bảng tính.

Data Warehouse là gì?

Thông tin cơ bản về Data warehouse trong quá trình xử lý thông tin

Một Data Warehouse thông thường bao gồm các yếu tố như:

- Một cơ sở dữ liệu quan hệ để lưu trữ cùng với quản lý dữ liệu.

- Giải pháp trích xuất, tải và biến đổi ELT để chuẩn bị dữ liệu cho việc phân tích.

- Khả năng phân tích, tính toán thống kê, báo cáo và khai thác dữ liệu.

- Các công cụ phân tích khách hàng để trực quan hóa tiện lợi và trình bày dữ liệu cho người dùng doanh nghiệp.

Các ứng dụng phân tích khác, phức tạp hơn khi tạo ra thông tin có thể hành động bằng cách áp dụng khoa học dữ liệu hiện đại và thuật toán trí tuệ nhân tạo AI hoặc các tính năng đồ thị và không gian cho phép nhiều loại phân tích dữ liệu hơn trên một quy mô lớn.

2. Đặc điểm của data warehouse

Hướng chủ đề (Subject-Oriented)

Data warehouse cung cấp thông tin, dữ liệu phục vụ cho một chủ thể cụ thể thay vì các hoạt động liên tục của toàn tổ chức, doanh nghiệp. Các chủ đề đa dạng có thể là bán hàng, khuyến mãi, hay là các đơn hàng tồn kho,…

Ví dụ, nếu bạn muốn phân tích dữ liệu bán hàng bất kỳ của công ty, bạn cần xây dựng một kho dữ liệu tập trung vào việc bán hàng của công ty đó. Một nhà kho như vậy sẽ cung cấp những thông tin có giá trị để phân tính đánh giá như “ai là khách hàng tốt nhất của bạn năm ngoái?” hoặc là “ai có khả năng trở thành khách hàng tốt nhất của bạn trong năm tiếp theo?”

Được tích hợp (Integrated)

Data warehouse còn được phát triển bằng cách tích hợp dữ liệu từ nhiều nguồn khác nhau thành một định dạng nhất quán, tiện lợi. Dữ liệu phải được lưu trữ trong kho một cách thống nhất và được mọi người chấp nhận về cách đặt tên, cũng như định dạng và mã hóa. Điều này giúp tạo điều kiện cho việc phân tích dữ liệu hiệu quả cho người phân tích.

Đặc điểm của data warehouse

Data warehouse được tích hợp một cách thông minh thông qua nhiều nguồn dữ liệu

Bất biến (Non-volatile)

Dữ liệu một khi được nhập vào kho dữ liệu phải đảm bảo không thay đổi. Tất cả dữ liệu cần để ở chế độ chỉ đọc (read-only). Dữ liệu trước đó không bị xóa đi khi nhập dữ liệu hiện tại. Điều này giúp bạn phân tích những gì đã xảy ra theo một quá trình. Data warehouse tách biệt với cơ sở dữ liệu hoạt động, có nghĩa là bất kỳ thay đổi thường xuyên nào trong cơ sở dữ liệu hoạt động thì sẽ không được nhìn thấy trong kho dữ liệu.

Có gán nhãn thời gian (Time-Variant)

Dữ liệu được lưu trữ trong Data warehouse còn có thể cung cấp thông tin từ một thời điểm lịch sử cụ thể; do đó, dữ liệu được phân loại với một khung thời gian chính xác. Ví dụ về Time-Variant trong Data warehouse được hiển thị trong Primary Key với yếu tố thời gian cụ thể như ngày, tuần hoặc tháng.

3. Cấu tạo của data warehouse

Kho dữ liệu có cấu trúc bao gồm ba tầng cụ thể như sau:

Tầng đáy (Data Sources): chính là nơi thu thập, tích hợp dữ liệu từ nhiều nguồn khác nhau sau đó chuẩn hóa về cùng một định dạng, làm sạch xử lý dữ liệu đó để tìm lỗi và sửa rồi tiến hành lưu trữ dữ liệu đã tổng hợp

Tầng giữa (Warehouse): cung cấp dịch vụ xử lý phân tích trực tuyến (OLAP – Online Analytical Processing) để thao tác với kho dữ liệu đã được tích hợp ở bước trên. Tầng giữa có thể được cài đặt bằng Relational OLAP hoặc Multidimensional OLAP hay kết hợp cả hai mô hình trên Hybrid OLAP.

Tầng trên cùng (Users): chính nơi thực hiện các thao tác truy vấn, báo cáo, phân tích, tổng hợp dữ liệu để tìm ra xu hướng, trung bình, đánh giá có ích cho việc nghiên cứu dữ liệu…

Cấu của data warehouse

Data warehouse có cấu trúc 3 tầng rõ rệt

4. Phân loại data warehouse hiện nay

Có 3 loại data warehouse - kho dữ liệu chính là:

Kho dữ liệu doanh nghiệp (EDW - Enterprise Data Warehouse)

Kho dữ liệu doanh nghiệp đóng vai trò là cơ sở dữ liệu chính hoặc trung tâm dữ liệu tạo điều kiện thuận lợi cho việc ra quyết định trong toàn doanh nghiệp, công ty. Các lợi ích chính của việc có EDW bao gồm quyền truy cập vào thông tin liên tổ chức, có khả năng chạy các truy vấn phức tạp cũng như hỗ trợ các thông tin chi tiết phong phú, có tầm nhìn xa để có thể đưa ra các quyết định dựa trên dữ liệu và từ đó đánh giá rủi ro sớm.

Kho dữ liệu hoạt động (ODS - Operational Data Store)

Trong ODS, Data warehouse có thể làm mới theo thời gian thực. Do đó, các tổ chức thường sử dụng nó cho các hoạt động doanh nghiệp có tính thông thường, chẳng hạn như lưu trữ hồ sơ của các nhân viên. Các quy trình nghiệp vụ trong doanh nghiệp cũng sử dụng ODS làm nguồn cung cấp dữ liệu cho EDW.

Data mart

Data mart là một tập hợp con của Data warehouse cũng được xây dựng để duy trì một bộ phận, khu vực hoặc là các đơn vị kinh doanh cụ thể với quy mô nhỏ gọn hơn. Mỗi bộ phận của doanh nghiệp đều có một kho lưu trữ trung tâm hoặc trung tâm dữ liệu để lưu trữ dữ liệu của mình. Dữ liệu từ data mart được lưu trữ định kỳ trong ODS. Sau đó, ODS sẽ gửi dữ liệu đến EDW, chính là nơi nó được lưu trữ và sử dụng.

Phân loại data warehouse hiện nay

Các loại kho dữ liệu được phân chia phổ biến hiện nay

5. Lợi ích mà data warehouse mang lại

Trong thời đại số hóa, rất nhiều doanh nghiệp, công ty đã quan tâm tới việc dữ liệu lưu trữ và đầu tư kho dữ liệu cho riêng mình. Với nhiều lợi ích, việc áp dụng data warehouse vào doanh nghiệp mang lại nhiều sự tiện lợi và đáp ứng được nhu cầu của xu thế hiện đại như:

- Cải thiện quyền truy cập của người dùng cuối vào nhiều loại dữ liệu của doanh nghiệp

- Tăng tính nhất quán, đồng bộ của dữ liệu

- Tài liệu bổ sung về dữ liệu dễ dàng, thông minh

- Có khả năng giảm chi phí điện toán để lưu trữ và tăng năng suất cho các doanh nghiệp

- Cung cấp một để kết hợp dữ liệu liên quan từ các nguồn tài nguyên riêng biệt

- Tạo cơ sở hạ tầng điện toán để có thể hỗ trợ những thay đổi trong hệ thống máy tính cũng như cấu trúc kinh doanh

- Trao quyền cho người dùng cuối thực hiện các truy vấn, thao tác tìm kiếm hoặc báo cáo đặc biệt mà không ảnh hưởng đến hiệu suất của hệ thống hoạt động nói chung.

Các công ty có team Data warehouse chuyên dụng thường nổi lên trước những công ty khác trong các lĩnh vực chính là phát triển sản phẩm, hay trong việc định giá, tiếp thị, thời gian sản xuất, phân tích, theo dõi lịch sử, để dự báo và sự hài lòng của khách hàng. Mặc dù Data warehouse có thể tốn nhiều chi phí hơn so với lưu trữ truyền thống nhưng về lâu dài giá trị mang lại là xứng đáng vì sự tiện lợi và những lợi ích theo xu thế không thể bỏ qua.

Lợi ích mà data warehouse mang lại

Những lợi ích to lớn của kho dữ liệu mang lại

6. Những đối tượng sử dụng data warehouse

Hiện kho dữ liệu - data warehouse đã được ứng dụng rộng rãi trong các doanh nghiệp thuộc nhiều lĩnh vực đa dạng khác nhau, cụ thể ta có thể kể đến như:

Ngành Hàng không: Xây dựng hệ thống quản lý các công việc hàng không như quản lý tuyến bay, chuyến bay, lịch bay, phân công phi hành đoàn, cũng như quản lý các chương trình ưu đãi dành cho khách hàng…

Ngành Ngân hàng: quản lý dòng tiền, cũng như quản lý các quỹ đầu tư, cho vay, và thời hạn thanh toán…

Ngành Y – Dược: quản lý thông tin bệnh nhân, thể hiện được tình trạng bệnh án, phác đồ điều trị, đơn thuốc được kê cho họ, rõ ràng thời gian điều trị bệnh…

Ngành Bảo hiểm: phân tích xu hướng của khách hàng trong tươi lai và để theo dõi sự thay đổi của thị trường một cách nhanh chóng

Ngành Bán lẻ: quản lý mặt hàng nhập vào – bán ra, quản lý được chuỗi phân phối, xác định mô hình mua hàng của khách hàng, cũng như chương trình khuyến mãi cũng như các chính sách giá

Ngành Giáo dục: quản lý thông tin học sinh – giáo viên – công nhân viên của trường học, quản lý quá trình học tập, giáo án, lưu trữ bài giảng, kết quả học tập của học sinh… Là nền tảng để xây dựng cùng các phần mềm dạy học hiện nay.

Hỗ trợ quản lý quan hệ khách hàng: tổng hợp, xử lý, phân tích và giúp dự đoán insight của các khách hàng và xu hướng thị trường trong tương lai hiệu quả.

Ngành Thương mại điện tử: là lĩnh vực có sự ứng dụng rõ rệt nhất của kho dữ liệu data warehouse thông qua việc quản lý thông tin hàng hóa, người bán, và người mua, tình trạng các đơn hàng, các chương trình khuyến mãi…

Những đối tượng sử dụng data warehouse

Những đối tượng liên quan trong hệ thống Data warehouse

7. Các ứng dụng thực tế của Data warehouse

Dữ liệu lớn đã trở thành một phần quan trọng trong việc thực hiện công việc lưu trữ dữ liệu và kinh doanh thông minh ngày nay. Hãy xem qua một số ví dụ về ứng dụng lưu trữ dữ liệu trong các lĩnh vực nổi bật để hiểu rõ hơn về lợi ích khi sử dụng Data warehouse:

- Với lĩnh vực đầu tư và bảo hiểm

Data warehouse chủ yếu được sử dụng để phân tích các xu hướng của khách hàng và thị trường cũng như các mẫu dữ liệu khác nhau trong lĩnh vực đầu tư và bảo hiểm. Thị trường ngoại hối và thị trường chứng khoán đầu tư, bảo hiểm chính là những phân ngành chính trong đó kho dữ liệu đóng một vai trò quan trọng bởi vì một điểm khác biệt cũng có thể dẫn đến tổn thất lớn trên diện rộng. Kho dữ liệu thường được chia sẻ tiện lợi và tập trung vào truyền dữ liệu thời gian thực.

- Với hệ thống bán lẻ

Data warehouse chủ yếu được sử dụng để phân phối, nghiên cứu và tiếp thị trong lĩnh vực bán lẻ để theo dõi các mặt hàng, kiểm tra chính sách giá cả, theo dõi cụ thể các giao dịch khuyến mại và phân tích xu hướng mua hàng của khách hàng trong tương lai. Các chuỗi bán lẻ thường kết hợp hệ thống EDW cho nhu cầu dự báo, đánh giá tương lai và BI.

- Với chăm sóc sức khỏe

Data warehouse cũng được sử dụng để dự báo kết quả, tạo báo cáo và chia sẻ dữ liệu với các nhà cung cấp bảo hiểm, các phòng nghiên cứu và các đơn vị y tế khác trong lĩnh vực chăm sóc sức khỏe. EDW được đánh giá là trụ cột của hệ thống chăm sóc sức khỏe vì thông tin điều trị cập nhật, mới là rất quan trọng trong cứu chữa và đưa ra các điều trị phù hợp kịp thời với khách hàng.

Các ứng dụng thực tế của Data warehouse

Những ứng dụng thực tế của kho dữ liệu

8. Phân biệt data warehouse với database

Hiện nay, rất dễ nhầm lẫn giữa Database và Data Warehouse, vì cả hai khái niệm này đều có một số điểm tương đồng. Tuy nhiên, sự khác biệt chính của chúng là khi một doanh nghiệp cần thực hiện phân tích trên một bộ sưu tập dữ liệu lớn. Kho dữ liệu thì được tạo ra để xử lý loại tác vụ này, trong khi Database thì không đáp ứng.

Phân biệt data warehouse với database

Cách phân biệt Database và Data Warehouse nhanh chóng

Dưới đây là sự khác biệt giữa data warehouse với database: Database được thiết kế để thu thập dữ liệu còn Data Warehouse được thiết kế để phân tích dữ liệu.

Database là một thiết kế nhằm hướng đến giao dịch và Data Warehouse là một thiết kế hướng chủ thể.

Database thường được lưu trữ dữ liệu kinh doanh và Data Warehouse thường lưu trữ dữ liệu lịch sử rõ ràng.

Thiết kế Database thường được thiết kế cho một ứng dụng kinh doanh cụ thể, nhất định. Ví dụ như, một bảng User đơn giản có thể ghi dữ liệu đơn giản như tên người dùng và mật khẩu kèm theo. Nó đáp ứng các ứng dụng kinh doanh nhưng sẽ không đáp ứng phân tích.

Trong khi đó Data Warehouse thì ngược lại. Các kích thước phân tích và các chỉ tiêu phân tích được thiết kế để có thể đáp ứng yêu cầu phân tích dữ liệu.

Như vậy, với nhu cầu tiếp nhận, phân tích và xử lý dữ liệu dưới góc nhìn đa chiều và tổng hợp của các doanh nghiệp như hiện nay, việc thống kê dòng dữ liệu Data warehouse là vô cùng cần thiết. Kho dữ liệu ra đời nhằm đảm lưu trữ đầy đủ dữ liệu cho bước phân tích tiếp theo từ đó giúp nâng cao tốc độ của các kết quả trả về của hệ thống.