Phân tích dữ liệu là gì? 5 Bước Phân Tích Dữ Liệu Quan Trọng – Khóa học data analysis
I. Phân tích dữ liệu là gì?
Phân tích dữ liệu là quá trình phức tạp nhưng vô cùng quan trọng trong việc khám phá và khai thác dữ liệu để đưa ra những quyết định chính xác. Trong bài viết này, chúng ta sẽ đi qua 5 bước cơ bản của quy trình phân tích dữ liệu trong một khóa học data analysis cơ bản. Từ đó có cái nhìn tổng quan hơn về mỗi giai đoạn quan trọng này.
Bước 1: Xác Định Câu Hỏi (Defining the Question)
Xác định vấn đề
Bước đầu tiên trong bất kỳ quy trình phân tích dữ liệu nào là phải xác định mục tiêu – chính là “Problem Statement.” Xác định mục tiêu là đưa ra giải thuyết, và tìm cách để kiểm tra xem nó có đúng không. Bạn có thể bắt đầu bằng cách đặt câu hỏi: “What business problem am I trying to solve?”. Hay “Vấn đề kinh doanh mà tôi muốn giải quyết là gì?”
Để xác định vấn đề hiệu quả, bạn cần hiểu sâu về hai điều quan trọng:
- Doanh nghiệp – Thấu hiểu các yếu tố kinh doanh.
- Mục tiêu doanh nghiệp – Các mục tiêu dài hạn mà công ty đang hướng tới.
Các công cụ và kỹ năng hữu ích trong phần xác định câu hỏi
Một ví dụ thực tế từ công ty Belisoft: Giả sử Belisoft đang thu hút được nhiều khách hàng mới nhưng lại gặp khó khăn khi giữ chân khách hàng cũ. Câu hỏi cần đặt ra không đơn giản là “Tại sao chúng ta đang mất khách hàng?”. Mà nên đi sâu hơn: “Yếu tố nào đang ảnh hưởng tiêu cực đến trải nghiệm của khách hàng?”. Hoặc “Làm cách nào để cải thiện việc giữ chân khách hàng trong khi giảm thiểu chi phí?”
Để kiểm chứng nhận định của mình “Production Team có vẻ như lại hoạt động kém hiệu quả” bạn sẽ có thể đặt 1 số giả thuyết rằng: Quy trình bán hàng (Sale Process) thực sự thu hút được nhiều khách hàng mới nhưng trải nghiệm của khách hàng thì chưa ổn và còn nhiều sai sót. Đây có phải là lý do khiến khách hàng không quay lại?
Và nguồn dữ liệu đầu vào nào sẽ giúp bạn trả lời được câu hỏi này?
Là 1 Data Analyst, xem xét tất cả điều này là tiền đề giúp bạn xác định câu hỏi. Giúp bạn giải quyết vấn đề hiện tại.
Những công cụ và kỹ năng hữu ích giúp bạn trong giai đoạn này bao gồm:
- Kỹ năng mềm – Soft skills.
- Kiến thức kinh doanh – Business knowledge.
- Tư duy sâu rộng – Lateral thinking.
- Các chỉ số hiệu suất chính – Business metrics.
- KPI – Key Performance Indicators.
Monthly reports – Báo cáo hàng tháng và các công cụ quản lý như Dashboard sẽ giúp bạn nắm bắt các điểm yếu của doanh nghiệp và xác định câu hỏi phân tích phù hợp.
Bước 2: Thu Thập Dữ Liệu (Collecting the Data)
Sau khi xác định được mục tiêu, bước tiếp theo trong quy trình phân tích dữ liệu là thiết kế chiến lược thu thập và tổng hợp dữ liệu. Phần quan trọng nhất của bước này là xác định xem loại dữ liệu nào bạn cần, có thể là:
- Dữ liệu định lượng (Quantitative / Numeric Data): ví dụ như số liệu bán hàng (Sales Figures) hoặc các báo cáo hàng tháng (monthly reports)
- Dữ liệu định tính (Qualitative / Descriptive data): ví dụ như đánh giá của khách hàng (Customer reviews)
Có ba danh mục dữ liệu chính:
First-party data
Là dữ liệu mà bạn hoặc doanh nghiệp của bạn đã trực tiếp thu thập từ Khách hàng. Dữ liệu đó có thể ở dạng biểu mẫu thông tin theo dõi giao dịch hoặc data từ hệ thống quản lý khách hàng CRM của doanh nghiệp. Có thể là khảo sát mức độ hài lòng của khách hàng (customer satisfaction survey), focus groups, phỏng vấn (interviews) hoặc quan sát trực tiếp (direct observation)
Dù là đến từ nguồn nào, thì first party data thường được thu thập theo cách có cấu trúc rõ ràng.
Second-party data
Second-party data đơn giản là first-party data của các tổ chức khác. Có thể có sẵn trực tiếp từ công ty hoặc từ việc mua lại data ở nơi khác. Lợi ích chính của Second-party data là nó thường có cấu trúc rõ ràng. Mặc dù ít liên quan hơn first-party data, nhưng nó có thể đáng tin cậy khi đem đi phân tích.
Một số ví dụ của second party data có thể kể đến là: Website activity, App actitivity, Social media activity, oNlineOnline purchase history, shipping data
Third-party data
Là dữ liệu đã được thu thập và tổng hợp từ nhiều nguồn từ bên thứ 3. Và thường thỉrd-party data chưa nhiều dữ liệu phi cấu trúc (unstructured data) hoặc dữ liệu lớn (big data). Có rất nhiều tổ chức thu thập các dữ liệu lớn này để tạo ra các báo cáo ngành hoặc thực hiện nghiên cứu thị trường. Công ty nghiên cứu và tư vấn Gartner là 1 ví dụ điển hình ta thường hay nghe đến. Gartner thường thu thập dữ liệu lớn và sau đó ban dữ liệu này cho các công ty khác.
Các kho dữ liệu mở (open data repositories) và cổng thông tin chính phủ (Government portals) cũng là những nguồn dữ liệu của Third party data.
Sau khi bạn đã thiết kế xong chiến lược dữ liệu, xác định được dữ liệu nào bạn cần và cách tốt nhất để thu thập dữ liệu đó. Có nhiều công cụ bạn có thể sử dụng để trợ giúp bạn.
Bất kể ngành hay lĩnh vực chuyên môn, thì bạn sẽ thường làm việc với các nền tảng quản lý dữ liệu Data Management Platform (DMP). DMP là một phần mềm cho phép bạn xác định và tổng hợp dữ liệu từ nhiều nguồn trước khi người dùng manipulate và segment phân nhóm dữ liệu.
Có rất nhiều DMP dành cho doanh nghiệp rất nổi tiếng, ví dụ như Salesforce, SAS, và Xplenty.
Bước 3: Làm Sạch Dữ Liệu (Cleaning the Data)
Sau khi thu thập dữ liệu, bước tiếp theo là làm sạch dữ liệu để đảm bảo độ chính xác. Bao gồm các bước:
- Loại bỏ các lỗi lớn, dữ liệu trùng lập (duplicates), ngoại lai (outliers). Đây đều sẽ trở thành vấn đề khi bạn tổng hợp dữ liệu từ nhiều nguồn khác nhau .
- Loại bỏ các điểm data không liên quan: để không làm ảnh hưởng đến các phân tích mà bạn dự kiến sẽ làm.
- Cấu trúc lại dữ liệu: ví dụ như sửa các lỗi typos hoặc căn lề sẽ giúp chúng ta thao tác hoặc phân tích dễ dàng hơn.
- Filling in major gap: Giúp điền vào các lỗ hổng lớn, bị thiếu trong dữ liệu.
Các Data analyst thường dành khoảng 80% thời gian làm việc để làm sạch dữ liệu. Điều này nghe tưởng như quá mức nhưng thực tế nó rất quan trọng. Vì nếu chúng ta cứ tập trung phân tích những data bị sai thì điều này sẽ ảnh huỏng nghiêm trọng đến kết quả phân tích. Thậm chí bạn sẽ còn phải quay lại làm từ đầu khi phát hiện ra lỗi.
Do đó dù thế nào đi nữa, đừng làm bước này quá vội – Do not rush this step.
Bước 4: Phân Tích Dữ Liệu (Analyzing the Data)
Khi dữ liệu đã sẵn sàng, bạn có thể bắt đầu quy trình phân tích dựa trên mục tiêu của mình. Các kỹ thuật phân tích phổ biến bao gồm:
Univariate / Bivariate analysis – Phân tích đơn biến và đa biến
Phân tích đơn biến tập trung vào việc nghiên cứu và phân tích một biến số duy nhất. Bạn sẽ sử dụng các biểu đồ như histogram hoặc boxplot để hiểu rõ hơn về phân phối, trung bình, và các giá trị ngoại lệ của biến đó.
Ngược lại, phân tích đa biến thì nghiên cứu mối quan hệ giữa hai biến. Một ví dụ phổ biến là sử dụng biểu đồ phân tán (scatter plot) để xem liệu có mối liên hệ nào giữa các biến hay không. Ví dụ, bạn có thể muốn biết liệu có sự tương quan giữa doanh thu và số lượng khách hàng hay không.
Timeseries Analysis – Phân tích chuỗi thời gian
Khi bạn có dữ liệu thu thập theo thời gian, chẳng hạn như doanh thu hàng tháng, số lượng truy cập website hàng ngày, bạn sẽ sử dụng phân tích chuỗi thời gian. Kỹ thuật này giúp bạn xác định xu hướng, tính mùa vụ, các yếu tố lặp lại trong dữ liệu. Nó rất hữu ích để dự đoán các giá trị trong tương lai dựa trên lịch sử.
Regression Analysis – Phân tích hồi quy
Phân tích hồi quy là một kỹ thuật thường được dùng để hiểu mối quan hệ giữa một biến phụ thuộc (thường là kết quả mà bạn quan tâm) và một hoặc nhiều biến độc lập (là những yếu tố có thể ảnh hưởng đến kết quả). Linear regression (Hồi quy tuyến tính) là dạng phổ biến nhất. Giúp bạn ước tính xem các yếu tố khác nhau ảnh hưởng thế nào đến biến kết quả. Chẳng hạn, bạn có thể sử dụng hồi quy để xem mức độ ảnh hưởng của chi phí marketing đến doanh thu.
Đọc thêm về phân tích hồi quy, hồi quy tuyến tính Regression Analysis tại đây
Đây chỉ là một số ít trong số các kỹ thuật phân tích trên thế giới. Quan trọng hơn việc có nhiều loại khác nhau, là việc bạn ứng dụng những kỹ thuật này thế nào. Nó tuỳ thuộc vào loại dữ liệu và insights gì mà bạn đang mong muốn tìm ra. Tất cả các loại phân tích dữ liệu hiện nay có thể được xếp vào 1 trong 4 danh mục sau:
Descriptive Analysis – Phân tích mô tả:
Là xác định những gì đã xảy ra “What happened”. Đây thường là bước đầu tiên mà các doanh nghiệp thực hiện. Trước khi tiến hành các bước phân tích sâu hơn
Tìm hiểu thêm về phân tích mô tả tại đây
Diagnostic Analysis – Phân tích chẩn đoán:
Khám phá sâu hơn vào dữ liệu, với trọng tâm là tìm hiểu lý do tại sao điều đó đã xảy ra “Why did it happened?”. Theo đúng nghĩa đen, đó là chẩn đoán 1 vấn đề. Giống như cách bác sĩ sử dụng các triệu chứng để chẩn đoán. Từ đó dự đoán được bệnh của bênh nhân.
Predictive Analysis – Phân tích dự báo:
Phân tích để xác định các xu hướng trong tương lai thông qua việc phân tích dữ liệu đã có trước đây. Mục tiêu để trả lời câu hỏi “What will happen?”. Predictive analysis thường được các doanh nghiệp sử dụng để dự báo mức tăng trưởng của doanh nghiệp. Hay của ngành trong tương lai.
Prescriptive Analysis – Phân tích đề xuất :
Phân tích này cho phép chúng ta đưa ra đề xuất cho tương lai. Trả lời cho câu hỏi :“How can we make it happen?”
Prescriptive Analysis là bước cuối cùng trong phần phân tích. Và nó cũng là phần phân tích phức tạp nhất. Vì nó kết hợp tất cả các khía cạnh của những loại phân tích trước đó. Nên đương nhiên giá trị của nó đem về cho doanh nghiệp cũng rất lớn.
Bước 5: Trình Bày Kết Quả (Sharing the Results)
Chia Sẻ Kết Quả Phân Tích
Sau khi hoàn tất phân tích, bạn đã thu thập đầy đủ thông tin chi tiết và những Insights quan trọng. Bước cuối cùng của quy trình này là chia sẻ những hiểu biết đó với các bên liên quan trong doanh nghiệp hoặc tổ chức của bạn. Đây không chỉ đơn thuần là việc trình bày kết quả. Mà còn là diễn giải những phát hiện (interpreting the outcomes) một cách dễ hiểu cho mọi người, từ đồng nghiệp đến cấp trên và các lãnh đạo C-level. Do đó, thông tin cần được truyền tải một cách rõ ràng và không mơ hồ.
Để hỗ trợ quá trình trình bày, các Data Analyst thường sử dụng các công cụ như Reports, Dashboards, và Interactive Visualization để giúp mọi người dễ dàng hiểu và sử dụng thông tin này. Cách bạn truyền tải và diễn giải kết quả sẽ ảnh hưởng trực tiếp đến các quyết định quan trọng trong doanh nghiệp như tái cấu trúc, tung sản phẩm mới,.. Hoặc thậm chí đóng cửa một chi nhánh.
Đó là lý do vì sao việc trình bày được những bằng chứng mà bạn đã thu thập được phải được qua một công đoạn trình bày chi tiết, kỹ lưỡng, rõ ràng. Để đảm bảo rằng bạn đã bao quát mọi thứ. Không phải chỉ cố tình chọn lọc 1 số dữ kiện để phân tích. Dẫn đến đưa ra những quyết định sai lầm.
Tầm Quan Trọng của Trình Bày Trung Thực và Kỹ Lưỡng
Trình bày dữ liệu đòi hỏi sự chi tiết và kỹ lưỡng. Để tránh việc lựa chọn và phân tích sai lệch. Điều có thể dẫn đến quyết định không chính xác. Bạn cũng cần làm rõ bất kỳ lỗ hổng nào trong dữ liệu để đảm bảo tính khách quan. Các công cụ thường dùng như PowerBI, Tableau, và Python (Plotly, Seaborn, Matplotlib)…. Sẽ giúp bạn trực quan hóa dữ liệu một cách hiệu quả. Tuy nhiên, không dừng lại ở việc trực quan hóa, kỹ năng giao tiếp thuyết phục cũng rất quan trọng. Vì bạn cần đảm bảo rằng phần trình bày có thể thúc đẩy người nghe hành động.
Visualization is great, but Communication is key.
Kết Luận
Quy trình phân tích dữ liệu bao gồm nhiều bước. Từ xác định câu hỏi cho đến chia sẻ kết quả. Mỗi bước đều yêu cầu sự chính xác và kỹ năng chuyên môn. Thực hiện đúng các bước sẽ giúp doanh nghiệp khai thác giá trị từ dữ liệu. Từ đó đạt được các mục tiêu kinh doanh.
Phân tích dữ liệu là một quá trình phức tạp nhưng cực kỳ quan trọng để đưa ra các quyết định chiến lược. Bằng cách tuân thủ quy trình 5 bước này, bạn có thể nâng cao hiệu quả phân tích và mang lại giá trị thực sự cho tổ chức. Ngoài ra, bạn cũng có thể tìm hiểu thêm về các kỹ năng cần thiết cho Data Analyst qua bài viết: Data Analyst cần học gì?
Các khóa học data analysis từ ACE Academy như “Data Analytics for Business Professionals”. “Data Analytics in Excel”. Và “Data Storytelling Mastery” sẽ cung cấp cho bạn các kỹ năng cần thiết để thực hiện phân tích dữ liệu hiệu quả.
Bắt đầu hành trình của bạn ngay hôm nay với các khóa học data analysis của ACE Academy để trở thành một chuyên gia phân tích dữ liệu thành công!