🇻🇳
Falcon SDK
Vietnamese
Vietnamese
  • Falcon Core
    • 1. Cấu hình và cài đặt
      • Về FalconMain và Init SDK
    • 2. RemoteConfig và AB Testing
      • a. Ví dụ Remote Config
      • b. Ví dụ về abTesting và remote config
      • c. Xem biểu đồ phân tích
    • 3. Tính năng Force Update
      • Sửa giao diện popup Force Update
    • 4. Lịch sử thay đổi
  • Falcon Analytics
    • 1. Các hàm Log cơ bản
    • 2. Các hàm log tự động
    • 3. Log tự định nghĩa
    • 4. FPlayerInfoRepo
    • 5. QnA
    • 6. Cài đặt Appsflyer or Adjust
    • 7. Lịch sử thay đổi
  • Falcon Mediation
    • 1. Cấu hình và cài đặt
    • 2. Network settings
    • 3. Hướng dẫn sử dụng
    • 4. Lịch sử thay đổi
  • Consent Management Platform (CMP)
    • 1. Trường hợp không sử dụng FalconMediation
    • 2. Trường hợp có sử dụng FalconMediation
    • 3. Lịch sử thay đổi
  • Hướng dẫn chung
    • Hướng dẫn log revenue lên Firebase, Appsflyer, Adjust
    • Hướng dẫn lấy Falcon Key (FKey)
    • Hướng dẫn thêm game
  • Giải thích biểu đồ
    • 📓Tổng quan
    • 🔢Level
    • 💰InApp
    • 💰InApp Cohort
    • ▶️Advertisement
    • 🔄Resources Overview
    • ⬆️Source
    • ⬇️Sink
    • ⏱️Session
    • 📶Retention
    • 📉Funnel
    • 💹Dynamic Chart
    • 🛃Custom Dashboard
    • 🔁Flow Chart
    • ✅Evaluate AB Campaign
  • SDK 2.1.x (bản cũ)
    • I. Cấu hình và cài đặt
    • II. Falcon Analytics
      • DwhLogCache
      • Falcon AB Testing
      • Các hàm log tự động
      • QnA
Powered by GitBook
On this page
  • 1. Ý nghĩa
  • 2. Các chỉ số được đánh giá trong dashboard
  • 3. Công thức
  • 3.1 P-Value là gì?
  • 3.2 P-Value trong AB Testing
  • 3.2 Cách tính P-Value
  • 4. Ví dụ
  1. Giải thích biểu đồ

Evaluate AB Campaign

Bảng dữ liệu cung cấp cái nhìn sơ lược về sự thay đổi các chỉ số của người chơi giữa các biến trong 1 campaign AB test

PreviousFlow ChartNextI. Cấu hình và cài đặt

Last updated 3 months ago

1. Ý nghĩa

  • Cho đến hiện tại, phương pháp so sánh giữa các variance trong 1 campaign thường là xem biểu đồ break by A/B Testing, dữ liệu như vậy sẽ cho ta được con số tổng, dễ hiểu và thông thường, nếu đủ rõ ràng, sẽ cho ta biết được phương pháp nào tối ưu hơn.

  • Tuy nhiên, phương pháp trên bộc lộ 1 số hạn chế như sau:

    • Khi mối tương quan trở nên phức tạp, chồng chéo hơn, ta sẽ khó thực hiện phán đoán xem biến nào mới thực sự là tối ưu trong trường hợp này.

    • Tất cả những kết luận dựa trên việc "nhìn" biểu đồ ra đánh giá, hoàn toàn dựa trên cảm tính và kinh nghiệm của nhà phát triển ứng dụng mà không có 1 tiêu chuẩn nào.

    • Con số được thể hiện trên các biểu đồ thông thường sẽ là tổng/đếm/ trung bình, các loại giá trị này không đảm bảo được sự chính xác khi tồn tại các điểm ngoại lai (các giá trị lớn/bé bất thường). Trong trường hợp có điểm dữ liệu ngoại lai(do cheat hack/lỗi logic/...), các loại giá trị kia sẽ bị kéo lệch khỏi giá trị thực, tuy không nhiều nhưng đủ để ảnh hưởng tới phán đoán (do những khác biệt giữa các abTest thường không cao).

    • Đôi khi việc đánh giá kết quả của 1 campaign AB-Test, do chủ quan mà ta chỉ dựa trên 1 vài khía cạnh mà ta mong đợi (như khi test 1 tính năng liên quan tới gói nạp, ta chỉ quan tâm tới IAP của người dùng có tăng không mà thiếu quan tâm tới IAA, và xa hơn là cả Retention và Level), thiếu đi cái nhìn tổng thể.

  • Bảng dữ liệu này được tạo ra nhằm mục đích khắc phục một phần các vấn đề trên.

    • So sánh từng biến với giá trị baseline; giá trị baseline thường sẽ được coi là mốc đánh giá, là giá trị ban đầu chưa thay đồi của ứng dụng, dựa trên đó, ta so sánh xem đặc tính của người chơi của từng variance so với mốc đó có thay đổi đáng kể không và sự thay đổi này là tích cực hay tiêu cực.

2. Các chỉ số được đánh giá trong dashboard

Bảng thống kê 4 tính trạng sau của các người chơi trong mỗi Variable trong 1 campaign

  • IAP: giá trị ltv_inapp - tổng nạp inapp suốt vòng đời chơi game của 1 player

  • IAA: giá trị ltv_ads - tổng doanh thu quảng cáo mà player đem lại trong suốt vòng đời chơi game

  • LEVEL: Level lớn nhất mà người chơi đã đạt được

  • RETENTION: khoảng cách giữa ngày cài game và ngày đăng nhập cuối cùng của người chơi, tính theo ngày.

3. Công thức

Để hiểu cách mà kiểm định Mann-Whitney U hoạt động, chúng ta cần đi qua khái niệm về p-value

3.1 P-Value là gì?

  • Thường có hai loại giải thuyết chính:

    • Giả thuyết không (ký hiệu là H0) cho rằng không có sự khác biệt giữa 2 tập hợp

    • Giả thuyết thay thế (ký hiệu H1) thường cho rằng có sự khác biệt giữa 2 tập hợp

  • P-Value là giá trị có ý nghĩa biên của một kiểm định giả thuyết thống kê, đánh giá độ đáng tin cậy của kết quả thống kê và quyết định liệu có đủ bằng chứng thống kê để bác bỏ H0 hay không.

3.2 P-Value trong AB Testing

  • Trong AbTesting, ta phân tập người dùng thành n tập con khác nhau, thông thường sẽ gồm 1 tập đối chứng (base line) và n-1 tập thay đổi

  • Khi kiểm định, ta sẽ thực hiện so sánh mỗi tập trong n-1 tập thay đổi kia với tập đối chứng để xem xét. Với mỗi lần so sánh đó, p-value sẽ mang ý nghĩa là với những gì thu được từ tập đối chứng, có bao nhiêu % khả năng xảy ra với những gì thu được ở tập thay đổi

  • Thống thường, ta cần chọn 1 giá trị α cụ thể làm giới hạn (thường sẽ là 0.05)

    • Nếu p-value < α: Khả năng xảy ra những gì ở tập thay đổi với tập đối chứng là đủ nhỏ để bác bỏ H0 vè kết luận rằng có sự khác biệt đáng kể giữa 2 tập hợp

    • Nếu p-value ≥ α: Khả năng xảy ra những gì ở ở tập thay đổi so với tập đối chúng vẫn là đủ lớn, do vậy không đủ bằng chứng thống kê để cho phép bác bỏ H0.

3.2 Cách tính P-Value

Dữ liệu của game có 1 đặc điểm là không tuân theo phân phối chuẩn do số lượng của player dừng game ở level thấp là vô cùng lớn, vì vậy nên rất khó để áp dụng các phường pháp kiểm định thông thường ở đây. Do vậy, ở đây chúng tôi sử dụng phương pháp kiểm định Mann-Whitney U-Tests, khi phương pháp này không yêu cầu dữ liệu phải tuân theo phân phối chuẩn.

Kiểm định Mann-Whitney U-Tests xuất phát từ ý tưởng rằng:

  • Nếu hai tập dữ liệu đối chứng​ và thay đổi​ đến từ cùng một phân phối, không khác biệt gì (theo giả thuyết H0​), thì các thứ hạng của chúng khi sắp xếp chung sẽ phân bố ngẫu nhiên giữa hai tập.

  • Ngược lại, nếu có sự khác biệt đáng kể giữa hai tập dữ liệu thì dữ liệu từ một tập sẽ có xu hướng tập trung ở các thứ hạng thấp hơn hoặc cao hơn.

Do đó, kiểm định Mann-Whitney U đánh giá xem sự khác biệt về thứ hạng này có đủ lớn để bác bỏ giả thuyết H0 ​ hay không.

Các bước cơ bản của kiểm định Mann-Whitney U-Tests:

  • Sắp xếp thứ tự giá trị: Gộp cả hai tập dữ liệu đối chứng​ và thay đổi​ ​lại, sau đó sắp xếp tất cả các giá trị theo thứ tự tăng dần, mỗi giá trị được gán thứ hạng(rank)

  • Tính tổng thứ hạng: Tính tổng dữ liệu cho từng tập đối chứng​ và thay đổi​, theo thứ tự là R1 và R2

  • Tính thống kê U: Khi so sánh 2 tập dữ liệu đối chứng​ và thay đổi​, U được tính theo công thức

  • Tính thống kê chuẩn hóa Z

  • Tính p-value từ thống kê Z

    • P-value là xác suất để thống kê Z quan sát được (hoặc lớn hơn) xảy ra dưới giả thuyết H0

    • P-value được tính dựa trên phân phối chuẩn: p-value=2 * P(Z>|Z obs​|).

4. Ví dụ

Hình 4.1 là bảng biểu thị dữ liệu đánh giá mức độ hiệu quả các Variance so với Baseline của một A/B Testing - Campaign.

  • Giữa Variant B và Baseline: Không có sự khác biệt giữa 2 variances của campaign với các thông số IAA và Level, và Variant B đang có xu hướng hiệu quả hơn so với Baseline ở chỉ số Retention ( do p-value = 0,04 < α = 0,05).

  • Giữa Variant A và Baseline: Không có sự khác biệt nào giữa 2 variances của campaign ở các chỉ số IAA, Level, Retention

Kết luận được đánh giá dựa trên kiểm định Mann-Whitney U (chi tiết xem tại phần), dựa trên phân phối giá trị thứ hạng của các người chơi trong các tập abTest. Cũng vì xét dựa trên thứ hạng nên kết quả đánh giá ở đây, nếu có sự thay đổi đáng kể, mang ý nghĩa "Phần lớn các người chơi của biến này biểu hiện tính trạng này tốt hơn biến kia" chứ không phải "Tổng tính trạng của các người chơi biến này tốt hơn biến kia".

✅
Công thức
Xem biểu đồ break by A/B Testing
Các tương quan phức tạp trong dữ liệu
Hình 4.1