Ebook How to build end-to-end Data Stack Aptis full test 4 - Tài liệu tham khảo | Đại học Hoa Sen

Ebook How to build end-to-end Data Stack Aptis full test 4 - Tài liệu tham khảo | Đại học Hoa Sen và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng, ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả

Môn:

Marketing (MK191P1) 310 tài liệu

Trường:

Đại học Hoa Sen 4.8 K tài liệu

Thông tin:
18 trang 1 tháng trước

Bình luận

Vui lòng đăng nhập hoặc đăng ký để gửi bình luận.

Ebook How to build end-to-end Data Stack Aptis full test 4 - Tài liệu tham khảo | Đại học Hoa Sen

Ebook How to build end-to-end Data Stack Aptis full test 4 - Tài liệu tham khảo | Đại học Hoa Sen và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng, ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả

40 20 lượt tải Tải xuống
Những năm gần đây, chúng ta liên tục nghe đến cụm từ ‘data-driven’ -
mọi hướng đi hành động đều được quyết định dựa trên dữ liệu. Ai
cũng hiểu tầm quan trọng của dữ liệu, nhưng không phải ai cũng thể
tận dụng thật tốt ‘mỏ vàng’ này. Một do chính cho việc sử dụng dữ
liệu kém hiệu quả, hoặc không đạt hiệu quả như mong muốn nằm
thiếu sót trong việc tiếp cận, truy .cập
Lúc này, một hệ thống dữ liệu hoàn chỉnh (an end- -to end data
stack) từ thu thập, xử lý, lưu trữ, đồng nhất dữ liệu về một nơi
thể chia sẻ tới các phòng ban liên quan sẽ giải pháp tốt nhất cho
doanh nghiệp.
Trong ebook này, Tomorrow Marketers giới thiệu danh sách các công
cụ cấu thành hệ thống dữ liệu, cũng như đưa ra một vài chỉ dẫn để
LỜI MỞ ĐẦU
Hệ thống dữ liệu (data stack) cấu trúc như
thế nào?
Hệ thống dữ liệu hoàn chỉnh (an end- -end data stack) bốn thành phần chính:to
§ Data sources (Nguồn dữ )liệu
§ ETL (extract, transform and load – xuất, chuyển đổi )trích tải
§ Data Warehouse (Kho chứa dữ )liệu
§ Data Analytics Tool (Công cụ phân tích dữ )liệu
Trong bài viết này, Tomorrow Marketers giới thiệu danh sách công cụ để doanh nghiệp
thể cân nhắc lựa chọn xây dựng hệ thống dữ nội bộ của riêng mình.liệu Lưu ý rằng
đây chỉ đưa ra các lựa chọn, tùy thuộc vào mỗi tổ chức thể bỏ qua những công cụ
ETL sẵn, thay vào đó sử dụng một công cụ quản luồng chảy riêng của mình (custom
workflow management), nếu đó lựa chọn phù hợp nhất.
Ngoài ra, những công cụ được giới thiệu giới hạn trong phạm vi điện toán đám mây
(cloud-based).
Đọc thêm: Doanh nghiệp SME xây dựng hệ thống dữ liệu nội bộ như thế nào? | Phỏng
vấn anh Quốc Thắng, Data Service Manager @Base.vn
Tìm hiểu danh sách công cụ cấu thành
HỆ THỐNG DỮ LIỆU
HOÀN CHỈNH
Hiểu một cách đơn giản, data source nơi sản sinh dữ liệu, chẳng hạn như Google
Analytics (Nơi lấy dữ liệu về lượt truy cập website cung cấp bởi Google), một tệp CSV,
dữ liệu bán hàng,… Dữ liệu thể đến từ nhiều nguồn thường nằm trong các ứng dụng
kinh doanh như phần mềm phân tích Quản trị khách hàng (CRM) hay các ứng dụng
Marketing Automation.
01
Nguồn dữ liệu/ cơ sở dữ liệu
(data source Gọi chung là “dữ liệu”)
Các nguồn dữ liệu phổ biến có thể bao gồm:
Cơ sở dữ liệu VoltDB, MySQL hoặc PostgreSQL cho các ứng dụng
Salesforce cho việc quản trị khách hàng
Hubspot hoặc Marketo để tự động hóa tiếp thị
Zendesk cho dữ liệu hỗ trợ khách hàng
Mỗi nguồn này sẽ thu thập lưu trữ dữ liệu của riêng chúng, thường dựa trên các trường
điền thông số các công ty thiết lập trong quá trình sử dụng. Ngày càng xuất hiện
nhiều công nghệ trong mỗi lĩnh vực, mọi thứ dần được số hoá thế, hàng loạt nguồn
dữ liệu được sản sinh. Theo Forbes, “Khối lượng dữ liệu đang bùng nổ, số dữ liệu được
tạo ra trong hai năm qua thì nhiều hơn so với lịch sử trước đây của loài người."
02 ETL - “Công cụ kết nối”
ETL, viết tắt của Extract (Trích xuất), Transform (Chuyển
đổi) Load (Tải), một đường dẫn dữ liệu trích xuất từ một
nguồn (như Salesforce), chuyển đổi thành dạng chuẩn (để
dễ dàng truy vấn) tải vào một kho dữ liệu (thông tin
thêm phần sau).
Về bản, một công cụ ETL thể kết nối nhanh với một
nguồn dữ liệu truyền đến một nguồn khác, do đó thể
gọi “công cụ kết nối”. Mục tiêu cuối cùng của ETL làm
cho dữ liệu thô dễ tiếp cận hơn bao giờ hết.
ETL (EXPORT
TRANSFORM LOAD)
Các yếu tố cần xem xét khi lựa chọn
công cụ ETL
Mặc các ứng dụng dựa trên điện toán đám nhưmây
Salesforce đều có sẵn API, nhưng các API này khônglại
được xây mạnh về tính năng phân tích dữ liệu. vậy, kết
nối trực tiếp các API của ứng dụng này với các giải pháp
Phân tích doanh nghiệp (Business Analytics solution)
không phải tưởng.
API
Kỹ thuật
Một khía cạnh quan trọng cần xem xét khi đánh giá công cụ
ETL nguồn lực về kỹ thuật. Nếu bạn cần hợp nhất dữ liệu từ
nhiều sở dữ liệu, như Intercom, quá trình này thể được
thực hiện bằng một công cụ ETL sẵn, thay phải xây
dựng riêng một ETL cho doanh nghiệp.
Vấn đề tiếp theo ngân sách. Theo đó, hai điều quan trọng cần cân nhắc khi tính
toán ngân :sách
§ Các công cụ ETL thường tính toán giá dựa trên các hàng dữ liệu. Do đó, hãy đánh
giá xem dữ liệu bạn muốn bao nhiêu cho nó. bạn sẵn sàng chi trả Lưu ý:
một cách dễ dàng để xác định lượng dữ liệu bạn muốn kết nối dùng bản phí miễn
thử kết nối tất cả dữ liệu bạn có. Hai đến ba ngày sau, bạn thể thấy mỗi
ngày doanh nghiệp đồng bộ hóa bao nhiêu hàng, đó suy cho một tháng.từ ra số liệu
§ Quyết định nơi dữ liệu sẽ được lưu trữ. Bạn cần tính đến cả nơi lưu trữ dữ liệu
trong bước này hầu hết các công cụ ETL không cung giải pháp kho dữ liệu,cấp
không quyết định xem dữ liệu của bạn đi đến đâu sau khi được kết nối.
Ngân sách
Một số yếu tố quyết định khác
§ Tốc độ / tính dễ dàng công cụ ETL đó thể truyền dữ liệu từ nguồn này sang
nguồn khác
§ Mức chi phí hợp với ngân sách công ty
§ Một công cụ tự phục vụ (self-service tool) không cần yêu cầu thiết lập hoặc bảo
trì nhiều từ tinbộ phận Kỹ thuật hoặc Công nghệ thông
§ Chọn một công cụ ETL thể kết nối với phần lớn các nguồn dữ liệu bạn sử
dụng để điều hành doanh nghiệp của mình (Salesforce, Marketo, Intercom,
MySQL)
§ Đảm bảo chất lượng dữ liệu, tính sẵn khả năng sử dụng sau tất cả, bạn đang
sử dụng dữ liệu này để điều hành doanh nghiệp của mình
Nền tảng của Astronomer kết nối định tuyến dữ liệu, cho phép bạn dễ dàng xây
dựng đường ống dữ liệu từ bất kỳ điểm nguồn dữ liệu nào, dẫn chúng tới nơi bạn
muốn. Astronomer thể xây dựng các kết nối tùy chỉnh. vậy, nếu bạn một
nguồn dữ liệu không mấy phổ biến, Astronomer vẫn thể tạo ra kết nối cho bạn. Tìm
hiểu thêm về các tính năng tích hợp của Astronomer tại đây.
Astronomer.io
Blendo cho phép thu thập dữ liệu từ bất kỳ cloud service (dịch vụ đám mây) nào tải
vào kho dữ liệu chỉ trong vài phút, thay vài tuần. Điều giúp Blendo trở nên nổi
bật do với các sản phẩm khác tính dễ sử dụng dịch vụ chăm sóc khách hàng chu
đáo. Tìm hiểu thêm về Blendo tại đây.
Blendo
Một số công cụ ELT cho doanh nghiệp
Fivetran một công cụ ETL hoàn toàn ứng dụngtự động đồng bộ hoá dữ liệu từ
đám mây (cloud applications), sở dữ liệu (database),... vào data warehouse hoặc
công cụ data analytics. Fivetran thể truy cập vào dữ liệu chỉ trong vài phút, cũng
như tùy chỉnh lựa chọn data warehouse. vậy, bạn không phải lo lắng về việc quản
tối ưu xem nên lưu trữ dữ liệu đâu. m hiểu thông tin chi tiết về Fivetran tại đây.
Fivetran
Stitch một dịch vụ ETL dành cho các developers. Stitch kết nối tới các công nhưcụ
Salesforce Facebook Ads, đồng nhất các dữ liệu từ đó về một trung tâm lưu trữ,
dữ liệu đó hoàn toàn sẵn sàng cho việc phân tích. Bên cạnh đó, Stitch cũng một dự
án open source ETL, tên Singer, cho phép bạn đưa vào những tích hợp bổ sung
hiện tại chưa được hỗ trợ bở Stitch. Tìm hiểu thông tin chi tiết về Stitch tại đây.
Stitch
Xplenty một nền tảng cho phép bạn đồng nhất, xửtích hợp dữ liệu chuẩn bị dữ
liệu để phân tích, không yêu cầu code hay phải biến những component được tham
chiếu từ phần mềm thành trạng thái thể sử dụng tiếp cận được. Xplenty mang đến
kết quả dần như lập tức tới toàn bộ tổ chức. Xem thông tin chi tiết của Xplenty tại đây.
Xplenty
Một số công cụ ELT cho doanh nghiệp
Panoply.io nền tảng cung cấp gói giải pháp quản dữ liệu hoàn chỉnh, kết nối
tới nguồn dữ liệu cấu trúc (structured data source) nguồn dữ liệu bán cấu
trúc (semi-structured data source). Panoply được thiết kế với kiến trúc tự phục vụ
(self optimizing architecture), sử dụng máy học xử ngôn ngữ tự nhiên
(natural language processing) để tự động hoá tối ưu hoạt động quản dữ .liệu
Điều này cũng nghĩa là, c data engineers hay developer không cần nh quá
nhiều thời gian để viết code gỡ lỗi khi xảy ra các vấn đề trong vận hành công
cụ. Doanh nghiệp thể bắt đầu phân tích dữ liệu sớm, không cần chờ quá đểlâu
xử mọi khía cạnh kỹ thuật trên. Tìm hiểu thông tin chi tiết về Panoply tại đây.
Panoply.io
Segment Sources một nền tảng dụng, truy khách hàng củarất dễ sử cập dữ liệu
doanh nghiệp gửi những dữ liệu đó tới công phâncụ tích. Chỉ với một vài lượt nhấp
chuột, bạn thể dẫn tất cả dữ liệu khách hàng thẳng tới SQL database không cần
viết bất kỳ một dòng code nào. Bạn cũng thể kết nối tới đa dạng sở dữ liệu khác
nhau. Tìm hiểu thông tin chi tiết về Segment tại đây
Segment
Treasure Data một nền tảng đám cho phép bạnmây lưu trữ truy cập mọi dữ liệu
bạn có. Treasure Data đơn giản hóa quá trình xử dữ liệu, cũng như giúp quá trình
này nêntrở an toàn thể mở rộng dễ dàng hơn. Nền tảng dữ liệu khách hàng của
họ liên tục kết nối với cả trăm integrations, cho phép bạn kết nối lưu trữ tất cả
nguồn dữ liệu theo thời gian thực. Tìm hiểu thông tin chi tiết về Treasure Data tại đây.
Treasure Data
03
Data Warehouse
Nhà kho dữ liệu
Data Warehouse “hũ chứa” toàn bộ dữ liệu của doanh
nghiệp, được tối ưu để lưu trữ, lọc, tổng hợp phân tích một
lượng lớn dữ .liệu
Data Warehouse đồng nhất dữ liệu về một nguồn duy nhất với
mục tiêu thực hiện truy vấn trên những dữ liệu được, đótừ
tìm ra insight cho doanh nghiệp. Với đó, Data Warehouse
thường chỉ cho phép đọc dữ liệu hoặc chỉ được phép thêm dữ
liệu vào (tìm hiểu thêm về lợi ích của chế độ này phần sau).
D A T A
W A R E H O U S E
Nhà kho dữ liệu vốn trống rỗng, chưa cả, việc của
doanh nghiệp thực hiện quy trình để lấp đầy với dữ liệu
kinh doanh: dữ liệu được trích xuất từ data source, đưa vào
data warehouse theo từng thông qua công cụ ETL. Ngày
càng nhiều dữ liệu được đưa vào, kết hợp cùng những dữ liệu
đã trong nhà kho từ trước đó, chờ đợi để được phân tích,
giúp nhà kho trở nên “đầy đặn” hơn.
Doanh nghiệp vừa mới đầu tư vào database (cơ sở dữ liệu) rồi, liệu có cần thêm
cả một data warehouse?
Câu trả lời . Khi bạn đã đạt tới lượng dữ liệu rất lớn, số lượng truy vấn tăng
lên theo cấp số nhân, một database thông thường sẽ không đủ khả năng tiếp tục phục
vụ nhu của bạn, không thể xửcầu lưu trữ khối lượng công việc quá lớn như vậy.
Dưới đây một số lợi ích chính của data warehouse:
- Data warehouse được thiết kế đặc biệt để tạo điều kiện thuận lợi cho việc báo cáo
phân tích. thể xử các truy vấn lớn trước đây sẽ làm chậm operational
database.
- Không cần phải chuẩn hóa kho dữ thường chế độ chỉ đọcliệu
- Khả năng sao chép dữ liệu chạy nhiều truy vấn nếu cần để nhận báo cáo phân
tích nhanh hơn
- Bạn cácthể chia ra nhiều nhóm tập dữ liệu trong data warehouse để phục vụ cho
mục đích báo cáo khác nhau
- Developers thể thay đổi operational database không cần bổ sung thêm data
warehouse
- Cloud-based data warehouse giúp doanh nghiệp giảm chi phí tăng tỷ suất hoàn vốn
(ROI)
Đóng vai t nơi lưu trữ cho toàn bộ dữ liệu doanh nghiệp, một số điều cần cân
nhắc khi lựa chọn loại data warehouse phù hợp. Hãy cùng đi qua một số câu hỏi:
§ Bạn bao nhiêu dữ liệu trong tay?
Nếu bạn một lượng lớn dữ liệu, thường nhiều hơn 100 triệu dòng, bạn sẽ cần chuyển
dữ liệu tới một data warehouse.
Dữ liệu của bạn đang trạng thái nào?
Chúng lộn xộn hay không? Nếu dữ liệu của bạn cần được tổng hợp làm sạch để
thể được xử bởi nền tảng phân tích dữ liệu, bạn sẽ cần tới một data warehouse. Trong
data warehouse, bạn thể xử trước lưu trữ dữ liệu theo định kỳ.
Bạn cần dữ liệu theo thời gian thực đến từng giây, từng phút không?
Nhiều khi, bạn chỉ đơn giản một bảng tómcần tắt, thay cần dữ xửliệu lý theo thời gian
thực. Bảng tóm tắt đủ để hiển thị các xu hướng. Một bảng tóm tắt (summary table) sẽ
không yêu cầu quá nhiều truy vấn trên operational database không làm chậm sản phẩm
mỗi khi bạn làm mới một dashboard.
Bạn có cần hợp nhất cơ sở dữ liệu không?
Nếu bạn cần hợp nhất nhiều databases hoặc nhiều nguồn dữ liệu khác nhau (giả sử như dữ
liệu khách hàng trên website hệ thống vận hành nội bộ của doanh nghiệp), bạn thể
dùng một công cụ ETL một data warehouse để lưu trữ các sở dữ liệu hợp nhất
(consolidated database).
Amazon Redshift một cloud-based data warehouse ra mắt vào năm 2013 kể từ đó
trở thành một trong những dịch vụ Amazon Web Services (AWS) phát triển nhanh nhất.
Dưới đây một số ghi chú nhanh về nhà kho dữ liệu này:
Hệ thống thể mở rộng theo quy petabyte (fully-managed petabyte-scalable
systems)
Tận dụng quá trình xử song song
Tận dụng lưu trữ dạng cột (Leverage columnar storage)
Hướng tới báo cáo tương tác trên các tập dữ liệu lớn (Geared towards interactive
reporting on large data sets)
Hỗ trợ tích hợp kết nối với các ứng dụng khác nhau
Được viết bằng SQL tiêu chuẩn dựa trên PostgreSQL 8.0.2
Amazon Redshift cung cấp giải pháp kho dữ liệu tiêu chuẩn, nhanh hoàn thiện, với
hiệu suất hoạt động cao. Đọc thêm về nhận xét sản phẩm tại đây.
Amazon Redshift
Một số Data Warehouse cho doanh nghiệp
một phần của hệ sinh thái Google Cloud Platform, Google BigQuery được ra mắt với
vai trò giải pháp cloud-based data warehouse Google cung .cấp
Dưới đây một số ghi chú nhanh về nhà kho dữ liệu này:
Hệ thống thể mở rộng theo quy petabyte (fully-managed petabyte-scalable
systems)
Tận dụng quá trình xử song song
Tận dụng lưu trữ dạng cột (Leverage columnar storage)
Hướng tới báo cáo tương tác trên các tập dữ liệu lớn (Geared towards interactive
reporting on large data sets)
Hỗ trợ tích hợp kết nối với các ứng dụng khác nhau
Không cần dành thời gian quản sở hạ tầng, do đó, doanh nghiệp không cần thuê
thêm người kiểm soát database. (No infrastructure to manage, thus eliminating the
need for a database administrator)
Google BigQuery trở nên ngày càng phổ biến với các công ty đang mở rộng quy mô,
đối thủ đáng gờm trên thị trường đối với các doanh nghiệp cùng cung cấp loại dịch vụ
này. Đọc thêm nhận xét chi tiết về sản phẩm này tại đây.
Google BigQuery
Một số Data Warehouse cho doanh nghiệp
Snowflake một cloud-base, SQL data warehouse với sứ mệnh lưu trữ phân tích
dữ liệu doanh nghiệp một cách an toàn hiệu quả. Từ đó, bất kỳ ai cũng thể dễ
dàng, nhanh chóng tìm ra insight từ dữ liệu. Hiệu suất của Snowflake khá tốt, bên
cạnh đó, tính đơn giản, sự đồng thời mức giá hợp cũng điểm cộng của nhà
kho dữ liệu này.
Dưới đây một số ghi chú nhanh về Snowflake:
sở dữ liệu SQL hoàn thiện: Hỗ trợ SQL tiêu chuẩn. Từ đó, người dùng thể
tận dụng ngôn ngữ này khai thác tối đa tiềm năng của dữ liệu.
Không cần quản lý: Không sở hạ tầng cần quản lý, Snowflake tự động hoá
xử tất cả những việc liên quan đến sở hạ tầng, tối ưu hoá, sự sẵn sàng của
dữ liệu bảo vệ dữ .liệu
Dữ liệu liệuđa dạng: Snowflake khả năng tải cả dữ cấu trúc dữ liệu bán
cấu trúc như JSON, Avro hay .XML
Hiệu suất: Snowflake xử các báo cáo phân tích với tốc độ cực nhanh. cỗ
máy sở dữ liệu dạng cột (columnar database) của Snowflake sử dụng các tính
năng tối ưu hóa nâng cao để thu thập dữ hiệu quả.liệu một cách
Snowflake
03
Các giải pháp phân tích dữ liệu - Nơi trực
quan hoá những dữ liệu của bạn
Mảnh ghép cuối cùng của hệ thống dữ liệu chính các giải pháp
phân tích dữ liệu (data analytics). Data Analytics giúp doanh
nghiệp khám phá dữ liệu truyền tải chúng thành những insight
ý nghĩa với kế hoạch hành động.
D ATA A N A LY T I C S
Để cạnh tranh trong môi trường hiện tại, doanh nghiệp nào cũng cần
phân tích, tận dụng tốt mọi dữ liệu trong tay. Nếu không được
những insight từ dữ liệu, rất khó để doanh nghiệp thấy những vấn đề tồn
đọng, cũng như hội tăng trưởng trong tương .lai
Giống như công cụ ETL, thật khó để so sánh giữa những giải pháp data
analytics (hay còn gọi Business Intelligence) dường như khá giống
nhau. Thay vào đó, cùng làm nổi bật một số khía cạnh cần xem xét như
sau:
Dễ sử dụng: Đánh giá mức độ dễ sử dụng của công cụ trên nhiều
cấp độ chuyên môn kỹ thuật (Từ marketers đến data analysts). Ở
đây, về cơ bản, bạn cần cân nhắc khả năng truy vấn hoặc đặt câu hỏi
đối với dữ liệu của mình.
Phân quyền quản trị: Có 4 phương pháp tiếp cận dữ liệu (KPI
Pulls, Data Hero, Centralized và Decentralized), công cụ data
analytics nên cho phép bạn linh hoạt phân quyền và quản trị dựa trên
cách tiếp cận dữ liệu mà công ty đã đặt ra từ đầu.
Chiều sâu của báo cáo: Mục tiêu cuối cùng của phân tích dữ liệu là
thu thập insight, và mỗi công cụ có độ sâu của báo cáo và các cấp độ
tùy chỉnh riêng (màu sắc, loại biểu đồ,...). Hãy đảm bảo rằng công cụ
data analytics đáp ứng được mục tiêu của doanh nghiệp.
Đáp ứng các yêu cầu kỹ thuật: Đánh giá xem công cụ có đáp ứng
những nhu cầu của bạn về data modeling, khả năng xử lý hậu kỳ
(post-processing capabilities), từ đó bạn có thể ra được báo cáo
nhanh hơn.
Đọc thêm: Làm thế nào để dân chủ hoá dữ liệu?
Bộ câu hỏi đánh giá tình hình
SỬ DỤNG
DỮ LIỆU
trong doanh nghiệp
Bạn mong muốn sử dụng dữ liệu để làm gì? Chọn tất cả các đáp án .phù hợp
q Giảm chi phí
q Tìm nguồn doanh thu mới/ Tăng doanh thu lợi nhuận
q Cải thiện trải nghiệm khách hàng/ giảm tỷ lệ khách hàng rời bỏ/ tăng sự thỏa mãn
khách hàng
q Theo dõi, giám sát tình hình hoạt động của công ty
q Giảm rủi ro (các quy định, bảo …)mật
Doanh nghiệp của bạn đang sở hữu lợi thế nào để trở thành một doanh nghiệp
data-driven?
q Sự ủng hộ từ cấp lãnh đạo cao nhất
q Văn hóa doanh nghiệp lấy dữ liệu làm trung tâm
q Công nghệ
q Kỹ năng sử dụng dữ liệu
q Ngân sách
q Chất lượng dữ liệu
q Communicating value
Ai là người đang dẫn đầu trong việc sử dụng dữ liệu trong doanh nghiệp của bạn?
q CMO
q Head of Sales
q Head of Products
q COO
q CFO
q CIO
Ai là người đang dẫn đầu trong việc sử dụng dữ liệu trong doanh nghiệp của bạn?
q CMO
q Head of Sales
q Head of Products
q COO
q CFO
q CIO
Doanh nghiệp của bạn Data-driven tới mức nào?
B phn nào trong doanh nghip đã/đang t động hóa các ?quy trình s dng d liu
q Sales & Marketing
q Products & Operations
q Customer Service
q Finance, HR, Legal
q IT
q Tôi không bi tế
Các nguồn dữ liệu nào đang được sử dụng trong doanh nghiệp của bạn?
q Dữ liệu về khách hàng hoặc khách hàng tiềm năng (marketing, CRM, etc.)
q Dữ liệu về chuỗi cung ứng
q Dữ liệu về thị trường
q Dữ liệu có sẵn từ các nhà cung cấp bên ngoài
q Connected product data (IoT)
q Dữ liệu về hành vi khách hàng (social, call logs, etc.)
q Dữ liệu giọng nói, hình ảnh, video, text
Dữ liệu đang được sử dụng như thế nào trong doanh
nghiệp của bạn?
Doanh nghiệp bạn bộ phận Data Engineering/ Data Science không?
q
q Không
q Sẽ/ đang tổ chức
How is technology used at your company?
Doanh nghiệp của bạn đang sử dụng phương pháp phân tích và công cụ nào?
q SQL
q Search
q Stream processing
q Machine learning algorithms
q Data Science collaboration tools
q Tôi không biết
Doanh nghiệp bạn lưu trữ dữ liệu và thực hiện phân tích như thế nào?
q Mostly on-premises
q Some on-premises, some in Cloud
q Mostly in Cloud
q I don't know
Bạn mong muốn doanh nghiệp của mình sẽ lưu trữ dữ liệu và thực hiện phân tích
như thế nào trong 12 tháng tới?
q Mostly on-premises
q Some on-premises, some in Cloud
q Mostly in Cloud
q I don't know
TM KT
Điều quan trọng khi bắt vào xây dựng hệ thống dữtay liệu hiểu mục tiêu doanh
nghiệp, biết doanh nghiệp cần cách tậnđo lường những gì, biết dụng nguồn lực
đang nắm trong tay để lựa chọn công chuyên dụng phù hợp nhất định hướngcụ
được toàn bộ quá trình thiết lập về sau. nền móng vững chắc, toàn bộ quá trình triển
khai sẽ diễn ra trơn tru hơn.
Đó cũng là duy khoá học Data System của Tomorrow Marketers muốn truyền tải,
để giúp các doanh nghiệp xây dựng văn hoá dữ liệu khai phá những tiềm năng tăng
trưởng ngay từ dữ liệu nội bộ. Khóa học Data System sẽ giúp bạn hiểu :
Tầm quan trọng của hệ thống dữ tăng trưởng dài hạn củaliệu nội bộ đối với sự
doanh nghiệp.
Cấu trúc của hệ thống dữ liệu nội bộ: Hiểu các thành phần của một hệ thống dữ
liệu hoàn chỉnh.
duy xây dựng quy trình số hoá quy trình kinh doanh nhằm thu thập được dữ
liệu qua thời gian
duy xây dựng đường ống dữ liệu nhà kho dữ liệu, giúp doanh nghiệp chuẩn
hoá dữ .liệu từ sớm
duy khai thác dữ liệu để xây dựng các dashboard & báo cáo quản trị, cung cấp
bức tranh toàn cảnh của kinh doanh giám sát hoạt động.
Tìm hiểu thêm về khóa học tại đây.
| 1/18

Preview text:

LỜI MỞ ĐẦU
Những năm gần đây, chúng ta liên tục nghe đến cụm từ ‘data-driven’ -
mọi hướng đi và hành động đều được quyết định dựa trên dữ liệu. Ai
cũng hiểu tầm quan trọng của dữ liệu, nhưng không phải ai cũng có thể
tận dụng thật tốt ‘mỏ vàng’ này. Một lý do chính cho việc sử dụng dữ
liệu kém hiệu quả, hoặc không đạt hiệu quả như mong muốn nằm ở
thiếu sót trong việc tiếp cận, truy cậ . p
Lúc này, một hệ thống dữ liệu hoàn chỉnh (an end-to-end data
stack) từ thu thập, xử lý, lưu trữ, đồng nhất dữ liệu về một nơi và có
thể chia sẻ tới các phòng ban liên quan sẽ là giải pháp tốt nhất cho doanh nghiệp.
Trong ebook này, Tomorrow Marketers giới thiệu danh sách các công
cụ cấu thành hệ thống dữ liệu, cũng như đưa ra một vài chỉ dẫn để
Hệ thống dữ liệu (data stack) có cấu trúc như thế nào?
Hệ thống dữ liệu hoàn chỉnh (an end-to-end data stack) có bốn thành phần chính: §
Data sources (Nguồn dữ liệu) §
ETL (extract, transform and load – trích xuất, chuyển đổi và tải) §
Data Warehouse (Kho chứa dữ liệu) §
Data Analytics Tool (Công cụ phân tích dữ liệu)
Trong bài viết này, Tomorrow Marketers giới thiệu danh sách công cụ để doanh nghiệp có
thể cân nhắc lựa chọn và xây dựng hệ thống dữ liệu nội bộ của riêng mình. Lưu ý rằng ở
đây chỉ đưa ra các lựa chọn, tùy thuộc vào mỗi tổ chức mà có thể bỏ qua những công cụ
ETL có sẵn, thay vào đó sử dụng một công cụ quản lý luồng chảy riêng của mình (custom
workflow management), nếu đó là lựa chọn phù hợp nhất.
Ngoài ra, những công cụ được giới thiệu giới hạn trong phạm vi điện toán đám mây (cloud-based).
Đọc thêm: Doanh nghiệp SME xây dựng hệ thống dữ liệu nội bộ như thế nào? | Phỏng
vấn anh Quốc Thắng, Data Service Manager @Base.vn
Tìm hiểu danh sách công cụ cấu thành
HỆ THỐNG DỮ LIỆU HOÀN CHỈNH
01 Nguồn dữ liệu/ cơ sở dữ liệu
(data source) – Gọi chung là “dữ liệu”
Hiểu một cách đơn giản, data source là nơi sản sinh dữ liệu, chẳng hạn như Google
Analytics (Nơi lấy dữ liệu về lượt truy cập website cung cấp bởi Google), một tệp CSV,
dữ liệu bán hàng,… Dữ liệu có thể đến từ nhiều nguồn và thường nằm trong các ứng dụng
kinh doanh như phần mềm phân tích Quản trị khách hàng (CRM) hay các ứng dụng Marketing Automation.
Các nguồn dữ liệu phổ biến có thể bao gồm: •
Cơ sở dữ liệu VoltDB, MySQL hoặc PostgreSQL cho các ứng dụng •
Salesforce cho việc quản trị khách hàng •
Hubspot hoặc Marketo để tự động hóa tiếp thị •
Zendesk cho dữ liệu hỗ trợ khách hàng
Mỗi nguồn này sẽ thu thập và lưu trữ dữ liệu của riêng chúng, thường dựa trên các trường
điền và thông số mà các công ty thiết lập trong quá trình sử dụng. Ngày càng xuất hiện
nhiều công nghệ trong mỗi lĩnh vực, mọi thứ dần được số hoá và vì thế, hàng loạt nguồn
dữ liệu được sản sinh. Theo Forbes, “Khối lượng dữ liệu đang bùng nổ, số dữ liệu được
tạo ra trong hai năm qua thì nhiều hơn so với lịch sử trước đây của loài người."
02 ETL -“Công cụ kết nối”
ETL, viết tắt của Extract (Trích xuất), Transform (Chuyển
đổi) và Load (Tải), là một đường dẫn dữ liệu trích xuất từ một
nguồn (như Salesforce), chuyển đổi nó thành dạng chuẩn (để
dễ dàng truy vấn) và tải nó vào một kho dữ liệu (thông tin thêm ở phần sau).
Về cơ bản, một công cụ ETL có thể kết nối nhanh với một )
nguồn dữ liệu và truyền nó đến một nguồn khác, do đó có thể
gọi là “công cụ kết nối”. Mục tiêu cuối cùng của ETL là làm D
cho dữ liệu thô dễ tiếp cận hơn bao giờ hết. T – R A O
Các yếu tố cần xem xét khi lựa chọn P LO công cụ ETL API M
Mặc dù các ứng dụng dựa trên điện toán đám mây như R
Salesforce đều có sẵn API, nhưng các API này lại không
được xây mạnh về tính năng phân tích dữ liệu. Vì vậy, kết ETL (EX
nối trực tiếp các API của ứng dụng này với các giải pháp FO
Phân tích doanh nghiệp (Business Analytics solution) S
không phải là lý tưởng. N Kỹ thuật A
Một khía cạnh quan trọng cần xem xét khi đánh giá công cụ
ETL là nguồn lực về kỹ thuật. Nếu bạn cần hợp nhất dữ liệu từ TR
nhiều cơ sở dữ liệu, như Intercom, quá trình này có thể được
thực hiện bằng một công cụ ETL có sẵn, thay vì phải xây
dựng riêng một ETL cho doanh nghiệp. Ngân sách
Vấn đề tiếp theo là ngân sách. Theo đó, có hai điều quan trọng cần cân nhắc khi tính toán ngân sác : h §
Các công cụ ETL thường tính toán giá dựa trên các hàng dữ liệu. Do đó, hãy đánh
giá xem dữ liệu bạn muốn là gì và bạn sẵn sàng chi trả bao nhiêu cho nó. Lưu ý:
một cách dễ dàng để xác định lượng dữ liệu bạn muốn kết nối là dùng bản miễn phí
và thử kết nối tất cả dữ liệu mà bạn có. Hai đến ba ngày sau, bạn có thể thấy mỗi
ngày doanh nghiệp đồng bộ hóa bao nhiêu hàng, từ đó suy ra số liệu cho một tháng. §
Quyết định nơi dữ liệu sẽ được lưu trữ. Bạn cần tính đến cả nơi lưu trữ dữ liệu
trong bước này vì hầu hết các công cụ ETL không cung cấp giải pháp kho dữ liệu,
không quyết định xem dữ liệu của bạn đi đến đâu sau khi được kết nối.
Một số yếu tố quyết định khác §
Tốc độ / tính dễ dàng mà công cụ ETL đó có thể truyền dữ liệu từ nguồn này sang nguồn khác §
Mức chi phí hợp lý với ngân sách công ty §
Một công cụ tự phục vụ (self-service tool) mà không cần yêu cầu thiết lập hoặc bảo
trì nhiều từ bộ phận Kỹ thuật hoặc Công nghệ thông tin §
Chọn một công cụ ETL có thể kết nối với phần lớn các nguồn dữ liệu mà bạn sử
dụng để điều hành doanh nghiệp của mình (Salesforce, Marketo, Intercom, MySQL) §
Đảm bảo chất lượng dữ liệu, tính sẵn có và khả năng sử dụng vì sau tất cả, bạn đang
sử dụng dữ liệu này để điều hành doanh nghiệp của mình
Một số công cụ ELT cho doanh nghiệp Astronomer.io
Nền tảng của Astronomer kết nối và định tuyến dữ liệu, cho phép bạn dễ dàng xây
dựng đường ống dữ liệu từ bất kỳ điểm nguồn dữ liệu nào, và dẫn chúng tới nơi bạn
muốn. Astronomer có thể xây dựng các kết nối tùy chỉnh. Vì vậy, nếu bạn có một
nguồn dữ liệu không mấy phổ biến, Astronomer vẫn có thể tạo ra kết nối cho bạn. Tìm
hiểu thêm về các tính năng tích hợp của Astronomer tại đây. Blendo
Blendo cho phép thu thập dữ liệu từ bất kỳ cloud service (dịch vụ đám mây) nào và tải
nó vào kho dữ liệu chỉ trong vài phút, thay vì vài tuần. Điều giúp Blendo trở nên nổi
bật do với các sản phẩm khác là tính dễ sử dụng và dịch vụ chăm sóc khách hàng chu
đáo. Tìm hiểu thêm về Blendo tại đây. Fivetran
Fivetran là một công cụ ETL hoàn toàn tự động và đồng bộ hoá dữ liệu từ ứng dụng
đám mây (cloud applications), cơ sở dữ liệu (database),... vào data warehouse hoặc
công cụ data analytics. Fivetran có thể truy cập vào dữ liệu chỉ trong vài phút, cũng
như tùy chỉnh lựa chọn data warehouse. Vì vậy, bạn không phải lo lắng về việc quản lý
và tối ưu xem nên lưu trữ dữ liệu ở đâu. Tìm hiểu thông tin chi tiết về Fivetran tại đây. Stitch
Stitch là một dịch vụ ETL dành cho các developers. Stitch kết nối tới các công cụ như
Salesforce và Facebook Ads, và đồng nhất các dữ liệu từ đó về một trung tâm lưu trữ,
dữ liệu ở đó hoàn toàn sẵn sàng cho việc phân tích. Bên cạnh đó, Stitch cũng có một dự
án open source ETL, có tên là Singer, cho phép bạn đưa vào những tích hợp bổ sung
mà hiện tại chưa được hỗ trợ bở Stitch. Tìm hiểu thông tin chi tiết về Stitch tại đây. Xplenty
Xplenty là một nền tảng tích hợp dữ liệu cho phép bạn đồng nhất, xử lý và chuẩn bị dữ
liệu để phân tích, mà không yêu cầu code hay phải biến những component được tham
chiếu từ phần mềm thành trạng thái có thể sử dụng và tiếp cận được. Xplenty mang đến
kết quả dần như lập tức tới toàn bộ tổ chức. Xem thông tin chi tiết của Xplenty tại đây.
Một số công cụ ELT cho doanh nghiệp Panoply.io
Panoply.io là nền tảng cung cấp gói giải pháp quản lý dữ liệu hoàn chỉnh, kết nối
tới nguồn dữ liệu có cấu trúc (structured data source) và nguồn dữ liệu bán cấu
trúc (semi-structured data source). Panoply được thiết kế với kiến trúc tự phục vụ
(self optimizing architecture), sử dụng máy học và xử lý ngôn ngữ tự nhiên
(natural language processing) để tự động hoá và tối ưu hoạt động quản lý dữ liệ . u
Điều này cũng có nghĩa là, các data engineers hay developer không cần dành quá
nhiều thời gian để viết code và gỡ lỗi khi xảy ra các vấn đề trong vận hành công
cụ. Doanh nghiệp có thể bắt đầu phân tích dữ liệu sớm, không cần chờ quá lâu để
xử lý mọi khía cạnh kỹ thuật trên. Tìm hiểu thông tin chi tiết về Panoply tại đây. Segment
Segment Sources là một nền tảng rất dễ sử dụng, truy cập dữ liệu khách hàng của
doanh nghiệp và gửi những dữ liệu đó tới công cụ phân tích. Chỉ với một vài lượt nhấp
chuột, bạn có thể dẫn tất cả dữ liệu khách hàng thẳng tới SQL database mà không cần
viết bất kỳ một dòng code nào. Bạn cũng có thể kết nối tới đa dạng cơ sở dữ liệu khác
nhau. Tìm hiểu thông tin chi tiết về Segment tại đây Treasure Data
Treasure Data là một nền tảng đám mây cho phép bạn lưu trữ và truy cập mọi dữ liệu
mà bạn có. Treasure Data đơn giản hóa quá trình xử lý dữ liệu, cũng như giúp quá trình
này trở nên an toàn và có thể mở rộng dễ dàng hơn. Nền tảng dữ liệu khách hàng của
họ liên tục kết nối với cả trăm integrations, cho phép bạn kết nối và lưu trữ tất cả
nguồn dữ liệu theo thời gian thực. Tìm hiểu thông tin chi tiết về Treasure Data tại đây. 03 Data Warehouse Nhà kho dữ liệu
Data Warehouse là “hũ chứa” toàn bộ dữ liệu của doanh A E
nghiệp, được tối ưu để lưu trữ, lọc, tổng hợp và phân tích một S lượng lớn dữ liệu. T A U
Nhà kho dữ liệu vốn trống rỗng, chưa có gì cả, và việc của
doanh nghiệp là thực hiện quy trình để lấp đầy nó với dữ liệu D O
kinh doanh: dữ liệu được trích xuất từ data source, đưa vào
data warehouse theo từng lô thông qua công cụ ETL. Ngày H
càng nhiều dữ liệu được đưa vào, kết hợp cùng những dữ liệu E
đã ở trong nhà kho từ trước đó, chờ đợi để được phân tích,
giúp nhà kho trở nên “đầy đặn” hơn. R A
Data Warehouse đồng nhất dữ liệu về một nguồn duy nhất với
mục tiêu thực hiện truy vấn trên những dữ liệu có được, từ đó W
tìm ra insight cho doanh nghiệp. Với đó, Data Warehouse
thường chỉ cho phép đọc dữ liệu hoặc chỉ được phép thêm dữ
liệu vào (tìm hiểu thêm về lợi ích của chế độ này ở phần sau).
Doanh nghiệp vừa mới đầu tư vào database (cơ sở dữ liệu) rồi, liệu có cần thêm cả một data warehouse?
Câu trả lời là có. Khi bạn đã đạt tới lượng dữ liệu rất lớn, và số lượng truy vấn tăng
lên theo cấp số nhân, một database thông thường sẽ không đủ khả năng tiếp tục phục
vụ nhu cầu lưu trữ của bạn, nó không thể xử lý khối lượng công việc quá lớn như vậy.
Dưới đây là một số lợi ích chính của data warehouse: -
Data warehouse được thiết kế đặc biệt để tạo điều kiện thuận lợi cho việc báo cáo và
phân tích. Nó có thể xử lý các truy vấn lớn mà trước đây sẽ làm chậm operational database. -
Không cần phải chuẩn hóa kho dữ liệu vì nó thường ở chế độ chỉ đọc -
Khả năng sao chép dữ liệu và chạy nhiều truy vấn nếu cần để nhận báo cáo và phân tích nhanh hơn -
Bạn có thể chia ra nhiều nhóm tập dữ liệu trong data warehouse để phục vụ cho các
mục đích báo cáo khác nhau -
Developers có thể thay đổi operational database mà không cần bổ sung thêm data warehouse -
Cloud-based data warehouse giúp doanh nghiệp giảm chi phí và tăng tỷ suất hoàn vốn (ROI)
Đóng vai trò là nơi lưu trữ cho toàn bộ dữ liệu doanh nghiệp, có một số điều cần cân
nhắc khi lựa chọn loại data warehouse phù hợp. Hãy cùng đi qua một số câu hỏi:
§
Bạn có bao nhiêu dữ liệu trong tay?
Nếu bạn có một lượng lớn dữ liệu, thường là nhiều hơn 100 triệu dòng, bạn sẽ cần chuyển
dữ liệu tới một data warehouse. •
Dữ liệu của bạn đang ở trạng thái nào?
Chúng có lộn xộn hay không? Nếu dữ liệu của bạn cần được tổng hợp và làm sạch để có
thể được xử lý bởi nền tảng phân tích dữ liệu, bạn sẽ cần tới một data warehouse. Trong
data warehouse, bạn có thể xử lý trước và lưu trữ dữ liệu theo định kỳ. •
Bạn cần dữ liệu theo thời gian thực đến từng giây, từng phút không?
Nhiều khi, bạn chỉ đơn giản cần một bảng tóm tắt, thay vì cần dữ liệu xử lý theo thời gian
thực. Bảng tóm tắt đủ để hiển thị các xu hướng. Một bảng tóm tắt (summary table) sẽ
không yêu cầu quá nhiều truy vấn trên operational database và không làm chậm sản phẩm
mỗi khi bạn làm mới một dashboard. •
Bạn có cần hợp nhất cơ sở dữ liệu không?
Nếu bạn cần hợp nhất nhiều databases hoặc nhiều nguồn dữ liệu khác nhau (giả sử như dữ
liệu khách hàng trên website và hệ thống vận hành nội bộ của doanh nghiệp), bạn có thể
dùng một công cụ ETL và một data warehouse để lưu trữ các cơ sở dữ liệu hợp nhất (consolidated database).
Một số Data Warehouse cho doanh nghiệp Amazon Redshift
Amazon Redshift là một cloud-based data warehouse ra mắt vào năm 2013 và kể từ đó
trở thành một trong những dịch vụ Amazon Web Services (AWS) phát triển nhanh nhất.
Dưới đây là một số ghi chú nhanh về nhà kho dữ liệu này: •
Hệ thống có thể mở rộng theo quy mô petabyte (fully-managed petabyte-scalable systems) •
Tận dụng quá trình xử lý song song •
Tận dụng lưu trữ dạng cột (Leverage columnar storage) •
Hướng tới báo cáo tương tác trên các tập dữ liệu lớn (Geared towards interactive reporting on large data sets) •
Hỗ trợ tích hợp và kết nối với các ứng dụng khác nhau •
Được viết bằng SQL tiêu chuẩn dựa trên PostgreSQL 8.0.2
Amazon Redshift cung cấp giải pháp kho dữ liệu tiêu chuẩn, nhanh và hoàn thiện, với
hiệu suất hoạt động cao. Đọc thêm về nhận xét sản phẩm tại đây. Google BigQuery
Là một phần của hệ sinh thái Google Cloud Platform, Google BigQuery được ra mắt với
vai trò là giải pháp cloud-based data warehouse mà Google cung cấ . p
Dưới đây là một số ghi chú nhanh về nhà kho dữ liệu này: •
Hệ thống có thể mở rộng theo quy mô petabyte (fully-managed petabyte-scalable systems) •
Tận dụng quá trình xử lý song song •
Tận dụng lưu trữ dạng cột (Leverage columnar storage) •
Hướng tới báo cáo tương tác trên các tập dữ liệu lớn (Geared towards interactive reporting on large data sets) •
Hỗ trợ tích hợp và kết nối với các ứng dụng khác nhau •
Không cần dành thời gian quản lý cơ sở hạ tầng, do đó, doanh nghiệp không cần thuê
thêm người kiểm soát database. (No infrastructure to manage, thus eliminating the
need for a database administrator)
Google BigQuery trở nên ngày càng phổ biến với các công ty đang mở rộng quy mô, và
là đối thủ đáng gờm trên thị trường đối với các doanh nghiệp cùng cung cấp loại dịch vụ
này. Đọc thêm nhận xét chi tiết về sản phẩm này tại đây.
Một số Data Warehouse cho doanh nghiệp Snowflake
Snowflake là một cloud-base, SQL data warehouse với sứ mệnh lưu trữ và phân tích
dữ liệu doanh nghiệp một cách an toàn và hiệu quả. Từ đó, bất kỳ ai cũng có thể dễ
dàng, nhanh chóng tìm ra insight từ dữ liệu. Hiệu suất của Snowflake khá tốt, bên
cạnh đó, tính đơn giản, sự đồng thời và mức giá hợp lý cũng là điểm cộng của nhà kho dữ liệu này.
Dưới đây là một số ghi chú nhanh về Snowflake: •
Cơ sở dữ liệu SQL hoàn thiện: Hỗ trợ SQL tiêu chuẩn. Từ đó, người dùng có thể
tận dụng ngôn ngữ này và khai thác tối đa tiềm năng của dữ liệu. •
Không cần quản lý: Không có cơ sở hạ tầng cần quản lý, Snowflake tự động hoá
xử lý tất cả những việc liên quan đến cơ sở hạ tầng, tối ưu hoá, sự sẵn sàng của
dữ liệu và bảo vệ dữ liệu. •
Dữ liệu đa dạng: Snowflake có khả năng tải cả dữ liệu có cấu trúc và dữ liệu bán
cấu trúc như JSON, Avro hay XM . L •
Hiệu suất: Snowflake xử lý các báo cáo và phân tích với tốc độ cực nhanh. Vì cỗ
máy cơ sở dữ liệu dạng cột (columnar database) của Snowflake sử dụng các tính
năng tối ưu hóa nâng cao để thu thập dữ liệu một cách hiệu quả.
03 Các giải pháp phân tích dữ liệu -Nơi trực
quan hoá những dữ liệu của bạn
Mảnh ghép cuối cùng của hệ thống dữ liệu chính là các giải pháp
phân tích dữ liệu (data analytics). Data Analytics giúp doanh
nghiệp khám phá dữ liệu và truyền tải chúng thành những insight
có ý nghĩa với kế hoạch hành động.
Để cạnh tranh trong môi trường hiện tại, doanh nghiệp nào S cũng cần
phân tích, tận dụng tốt mọi dữ liệu có trong tay. Nếu không có được
những insight từ dữ liệu, rất khó để doanh nghiệp thấy những vấn đề tồn
IC đọng,cũngnhưcơhộităngtrưởngtrongtươnglai.
T GiốngnhưcôngcụETL,thậtkhóđểsosánhgiữanhữnggiảiphápdata
analytics (hay còn gọi là Business Intelligence) dường như khá là giống
nhau. Thay vào đó, cùng làm nổi bật một số khía cạnh cần xem xét như
LY sau:•Dễsửdụng: Đánh giá mức độ dễ sử dụng của công cụ trên nhiều A
cấp độ chuyên môn kỹ thuật (Từ marketers đến data analysts). Ở
đây, về cơ bản, bạn cần cân nhắc khả năng truy vấn hoặc đặt câu hỏi N
đối với dữ liệu của mình. •
Phân quyền và quản trị: Có 4 phương pháp tiếp cận dữ liệu (KPI
Pulls, Data Hero, Centralized và Decentralized), công cụ data
analytics nên cho phép bạn linh hoạt phân quyền và quản trị dựa trên A
cách tiếp cận dữ liệu mà công ty đã đặt ra từ đầu. •
Chiều sâu của báo cáo: Mục tiêu cuối cùng của phân tích dữ liệu là
thu thập insight, và mỗi công cụ có độ sâu của báo cáo và các cấp độ
tùy chỉnh riêng (màu sắc, loại biểu đồ,...). Hãy đảm bảo rằng công cụ TA
data analytics đáp ứng được mục tiêu của doanh nghiệp. •
Đáp ứng các yêu cầu kỹ thuật: Đánh giá xem công cụ có đáp ứng A
những nhu cầu của bạn về data modeling, khả năng xử lý hậu kỳ
(post-processing capabilities), từ đó bạn có thể ra được báo cáo D nhanh hơn.
Đọc thêm: Làm thế nào để dân chủ hoá dữ liệu?
Bộ câu hỏi đánh giá tình hình SỬ DỤNG DỮ LIỆU trong doanh nghiệp
Doanh nghiệp của bạn Data-driven tới mức nào?
Bạn mong muốn sử dụng dữ liệu để làm gì? Chọn tất cả các đáp án phù hợp. q Giảm chi phí
q Tìm nguồn doanh thu mới/ Tăng doanh thu và lợi nhuận
q Cải thiện trải nghiệm khách hàng/ giảm tỷ lệ khách hàng rời bỏ/ tăng sự thỏa mãn khách hàng
q Theo dõi, giám sát tình hình hoạt động của công ty
q Giảm rủi ro (các quy định, bảo mật…)
Doanh nghiệp của bạn đang sở hữu lợi thế nào để trở thành một doanh nghiệp data-driven?
q Sự ủng hộ từ cấp lãnh đạo cao nhất
q Văn hóa doanh nghiệp lấy dữ liệu làm trung tâm q Công nghệ
q Kỹ năng sử dụng dữ liệu q Ngân sách q Chất lượng dữ liệu q Communicating value
Ai là người đang dẫn đầu trong việc sử dụng dữ liệu trong doanh nghiệp của bạn? q CMO q Head of Sales q Head of Products q COO q CFO q CIO
Ai là người đang dẫn đầu trong việc sử dụng dữ liệu trong doanh nghiệp của bạn? q CMO q Head of Sales q Head of Products q COO q CFO q CIO
Bộ phận nào trong doanh nghiệp đã/đang tự động hóa các quy trình sử dụng dữ liệu? q Sales & Marketing q Products & Operations q Customer Service q Finance, HR, Legal q IT q Tôi không biết
Dữ liệu đang được sử dụng như thế nào trong doanh nghiệp của bạn?
Các nguồn dữ liệu nào đang được sử dụng trong doanh nghiệp của bạn?
q Dữ liệu về khách hàng hoặc khách hàng tiềm năng (marketing, CRM, etc.)
q Dữ liệu về chuỗi cung ứng
q Dữ liệu về thị trường
q Dữ liệu có sẵn từ các nhà cung cấp bên ngoài q Connected product data (IoT)
q Dữ liệu về hành vi khách hàng (social, call logs, etc.)
q Dữ liệu giọng nói, hình ảnh, video, text
Doanh nghiệp bạn có bộ phận Data Engineering/ Data Science không? q Có q Không có q Sẽ/ đang tổ chức
How is technology used at your company?
Doanh nghiệp của bạn đang sử dụng phương pháp phân tích và công cụ nào? q SQL q Search q Stream processing q Machine learning algorithms
q Data Science collaboration tools q Tôi không biết
Doanh nghiệp bạn lưu trữ dữ liệu và thực hiện phân tích như thế nào? q Mostly on-premises
q Some on-premises, some in Cloud q Mostly in Cloud q I don't know
Bạn mong muốn doanh nghiệp của mình sẽ lưu trữ dữ liệu và thực hiện phân tích
như thế nào trong 12 tháng tới?
q Mostly on-premises
q Some on-premises, some in Cloud q Mostly in Cloud q I don't know TẠM KẾT
Điều quan trọng khi bắt tay vào xây dựng hệ thống dữ liệu là hiểu mục tiêu doanh
nghiệp, biết doanh nghiệp cần đo lường những gì, biết cách tận dụng nguồn lực
đang nắm trong tay
để lựa chọn công cụ chuyên dụng phù hợp nhất và định hướng
được toàn bộ quá trình thiết lập về sau. Có nền móng vững chắc, toàn bộ quá trình triển
khai sẽ diễn ra trơn tru hơn.
Đó cũng là tư duy mà khoá học Data System của Tomorrow Marketers muốn truyền tải,
để giúp các doanh nghiệp xây dựng văn hoá dữ liệu và khai phá những tiềm năng tăng
trưởng ngay từ dữ liệu nội bộ. Khóa học Data System sẽ giúp bạn hiểu rõ: •
Tầm quan trọng của hệ thống dữ liệu nội bộ đối với sự tăng trưởng dài hạn của doanh nghiệp. •
Cấu trúc của hệ thống dữ liệu nội bộ: Hiểu rõ các thành phần của một hệ thống dữ liệu hoàn chỉnh. •
Tư duy xây dựng quy trình và số hoá quy trình kinh doanh nhằm thu thập được dữ liệu qua thời gian •
Tư duy xây dựng đường ống dữ liệu và nhà kho dữ liệu, giúp doanh nghiệp chuẩn hoá dữ liệu từ sớ . m •
Tư duy khai thác dữ liệu để xây dựng các dashboard & báo cáo quản trị, cung cấp
bức tranh toàn cảnh của kinh doanh và giám sát hoạt động.
Tìm hiểu thêm về khóa học tại đây.