I. Biểu đồ phân tán là gì? Scatter là gì? Scatter Plot là gì?
Thuật ngữ “Scatter” trong tiếng Anh có nghĩa là phân tán, rải rác. Trong lĩnh vực thống kê và phân tích dữ liệu, thuật ngữ này thường được dùng để mô tả sự phân bố của các điểm dữ liệu trên một mặt phẳng tọa độ.
Scatter Plot (biểu đồ phân tán) là một loại đồ thị giúp biểu diễn mối quan hệ giữa hai tập dữ liệu trên hệ trục tọa độ XY.
Mỗi điểm trên biểu đồ Scatter Plot đại diện cho một giá trị trong tập dữ liệu, giúp dễ dàng quan sát xu hướng, sự tương quan hoặc các mẫu dữ liệu bất thường.
Ví dụ, nếu bạn có dữ liệu về cân nặng (X) và chiều cao (Y), Scatter Plot có thể giúp bạn nhận biết liệu Cân nặng và chiều cao có mối liên hệ gì với nhau hay không
Nhìn vào biểu đồ sau ta có thể kết luận:
II. Khi nào nên sử dụng biểu đồ phân tán?
Biểu đồ phân tán thường được sử dụng trong các trường hợp sau:
- Phân tích tương quan: Khi bạn muốn kiểm tra mối quan hệ giữa hai biến, như mối quan hệ giữa thời gian học và điểm số.
- Phát hiện xu hướng: Dễ dàng nhận thấy xu hướng tăng, giảm hoặc không có mối quan hệ giữa các biến.
- Phát hiện giá trị ngoại lệ: Giúp xác định các điểm dữ liệu nằm ngoài phạm vi thông thường.
- Dữ liệu số lượng lớn: Khi bạn có một tập dữ liệu lớn và muốn hiểu nhanh sự phân bố của các giá trị.
- Phân nhóm dữ liệu: Có thể dùng để nhận diện các cụm dữ liệu tự nhiên hoặc nhóm điểm tương đồng.
III. Case Study hướng dẫn chi tiết cách vẽ biểu đồ phân tán
Dưới đây là một tệp dữ liệu mẫu của Boise Paper – một công ty lớn trong ngành giấy ở Mỹ. Nhiệm vụ của bạn là phân tích hiệu suất bán hàng và tối ưu hóa các chiến lược bán hàng dựa trên dữ liệu bán hàng có sẵn.
Từ tệp dữ liệu hãy thử vẽ biểu đồ phân tán để đánh giá thống kê và phân tích dữ liệu.
Bước 1: Làm sạch và chuẩn bị bảng dữ liệu
- Thu thập hai tập biến (x, y) mà bạn muốn phân tích.
- Đảm bảo dữ liệu được làm sạch, không có giá trị thiếu hoặc sai lệch.
- Copy 3 cột được tô xám ra một bảng riêng (nhấn giữ nút Ctrl/Cmd và tô từng cột → Ctrl/Cmd + V và Ctrl/Cmnd + C ở một khu vực bất kỳ)
- Chọn “,” để làm tròn số Leadtime trung bình
Bước 2: Tạo biểu đồ phân tán trong Excel
- Ctrl A bảng mới dán → chọn Recommended Charts → Scatter
- Xóa gridlines hàng ngang và hàng dọc bằng cách bấm vào lần lượt từng hàng và xóa
3. Chart đã được dễ đọc hơn khi loại bỏ gridline ngang và dọc:
- Double click vào trục dọc → chọn Axis Options → chọn minimum là 12, và maximum là 20
- Double click vào trục ngang → chọn Axis Options → chọn minimum là 0.6 và maximum là 1.6
- Bấm vào dấu “+”, chọn “Data Labels” → bấm “>” và chọn Right để Data Labels nằm bên phải
- Double click vào Data Labels → chọn “Label Options” → tắt chọn “Y value” và chọn “Value from Cells”
7. Kéo chọn tên của Salesperson → chọn “OK”
Bước 3: Tùy chỉnh biểu đồ
- Chọn Insert → illustrations → shapes → lines
2. Kéo và thả Line ở vị trí 100%, nhấn giữ phím Shift để có một Line thẳng
3. Lặp lại cho Line ngang ở vị trí 16, nhấn giữ phím Shift để có một Line thẳng
4. Đổi độ đậm nhạt của Line bằng cách chọn Line muốn thay đổi → vào Format Shape → thay đổi ở “Width”
5. Nhấn giữ nút Shift, chọn chart, line ngang, line dọc → click chuột phải ở trên Line → chọn Group → Group
6. Double-click vào points muốn đổi màu → chọn fill color → chọn màu mình muốn
7. Bấm vào khung chart → chọn “fill & line” → solid line → ở chỗ Color, chọn màu xám
8. Bấm vào “+” → chọn Axis Titles
9. Sau đó double click vào từng title để đổi tên theo ý muốn. Có 3 chỗ cần đổi tên:
- Heading
- Tên trục dọc
- Tên trục ngang
10. Đổi màu bằng cách double-click vào tên sau đó chọn như bên dưới
- Và đây là thành quả đạt được:
IV. Kết luận
Biểu đồ phân tán là một công cụ mạnh mẽ để trực quan hóa dữ liệu, giúp bạn khám phá mối quan hệ giữa các biến, phát hiện xu hướng, và đưa ra quyết định dựa trên thông tin. Việc hiểu và sử dụng hiệu quả biểu đồ phân tán sẽ giúp bạn phân tích dữ liệu một cách chuyên sâu hơn và hiệu quả hơn.
Biểu đồ là một phần vô cùng quan trọng trong ngành phân tích dữ liệu. Hỗ trợ bạn kể được câu chuyện data từ các con số khô khan. Từ đó giúp bạn tự tin hơn khi bước chân vào ngành phân tích dữ liệu. Bên canh đó, có một kế hoạch học tập sẽ giúp bạn tạo ra sự khác biệt lớn. Bạn cần phải hiểu và xây dựng cho mình một lộ trình học phân tích dữ liệu hiệu quả nếu bạn muốn thành thạo về dữ liệu và bộ công cụ.
Để học thêm và thành thạo nhiều kĩ năng về chart nói riêng và Excel nói chung, hãy tham khảo khoá học Data Analytics for Business Professional và khóa học Data Storytelling Mastery tại ACE Academy. Khóa học này sẽ giúp bạn thông thạo mọi kĩ năng xử lí dữ liệu trong Excel, Power BI. Giải quyết mọi bàn toán kinh doanh với cơ hội nghề nghiệp rộng mở. Bắt đầu hành trình của bạn ngay hôm nay với các khóa học của ACE Academy để trở thành một chuyên gia phân tích dữ liệu thành công!