Evaluate AB Campaign
Bảng dữ liệu cung cấp cái nhìn sơ lược về sự thay đổi các chỉ số của người chơi giữa các biến trong 1 campaign AB test
Last updated
Bảng dữ liệu cung cấp cái nhìn sơ lược về sự thay đổi các chỉ số của người chơi giữa các biến trong 1 campaign AB test
Last updated
Cho đến hiện tại, phương pháp so sánh giữa các variance trong 1 campaign thường là xem biểu đồ break by A/B Testing, dữ liệu như vậy sẽ cho ta được con số tổng, dễ hiểu và thông thường, nếu đủ rõ ràng, sẽ cho ta biết được phương pháp nào tối ưu hơn.
Tuy nhiên, phương pháp trên bộc lộ 1 số hạn chế như sau:
Khi mối tương quan trở nên phức tạp, chồng chéo hơn, ta sẽ khó thực hiện phán đoán xem biến nào mới thực sự là tối ưu trong trường hợp này.
Tất cả những kết luận dựa trên việc "nhìn" biểu đồ ra đánh giá, hoàn toàn dựa trên cảm tính và kinh nghiệm của nhà phát triển ứng dụng mà không có 1 tiêu chuẩn nào.
Con số được thể hiện trên các biểu đồ thông thường sẽ là tổng/đếm/ trung bình, các loại giá trị này không đảm bảo được sự chính xác khi tồn tại các điểm ngoại lai (các giá trị lớn/bé bất thường). Trong trường hợp có điểm dữ liệu ngoại lai(do cheat hack/lỗi logic/...), các loại giá trị kia sẽ bị kéo lệch khỏi giá trị thực, tuy không nhiều nhưng đủ để ảnh hưởng tới phán đoán (do những khác biệt giữa các abTest thường không cao).
Đôi khi việc đánh giá kết quả của 1 campaign AB-Test, do chủ quan mà ta chỉ dựa trên 1 vài khía cạnh mà ta mong đợi (như khi test 1 tính năng liên quan tới gói nạp, ta chỉ quan tâm tới IAP của người dùng có tăng không mà thiếu quan tâm tới IAA, và xa hơn là cả Retention và Level), thiếu đi cái nhìn tổng thể.
Bảng dữ liệu này được tạo ra nhằm mục đích khắc phục một phần các vấn đề trên.
So sánh từng biến với giá trị baseline; giá trị baseline thường sẽ được coi là mốc đánh giá, là giá trị ban đầu chưa thay đồi của ứng dụng, dựa trên đó, ta so sánh xem đặc tính của người chơi của từng variance so với mốc đó có thay đổi đáng kể không và sự thay đổi này là tích cực hay tiêu cực.
Kết luận được đánh giá dựa trên kiểm định Mann-Whitney U (chi tiết xem tại phần Công thức), dựa trên phân phối giá trị thứ hạng của các người chơi trong các tập abTest. Cũng vì xét dựa trên thứ hạng nên kết quả đánh giá ở đây, nếu có sự thay đổi đáng kể, mang ý nghĩa "Phần lớn các người chơi của biến này biểu hiện tính trạng này tốt hơn biến kia" chứ không phải "Tổng tính trạng của các người chơi biến này tốt hơn biến kia".
Bảng thống kê 4 tính trạng sau của các người chơi trong mỗi Variable trong 1 campaign
IAP: giá trị ltv_inapp - tổng nạp inapp suốt vòng đời chơi game của 1 player
IAA: giá trị ltv_ads - tổng doanh thu quảng cáo mà player đem lại trong suốt vòng đời chơi game
LEVEL: Level lớn nhất mà người chơi đã đạt được
RETENTION: khoảng cách giữa ngày cài game và ngày đăng nhập cuối cùng của người chơi, tính theo ngày.
Để hiểu cách mà kiểm định Mann-Whitney U hoạt động, chúng ta cần đi qua khái niệm về p-value
Thường có hai loại giải thuyết chính:
Giả thuyết không (ký hiệu là H0) cho rằng không có sự khác biệt giữa 2 tập hợp
Giả thuyết thay thế (ký hiệu H1) thường cho rằng có sự khác biệt giữa 2 tập hợp
P-Value là giá trị có ý nghĩa biên của một kiểm định giả thuyết thống kê, đánh giá độ đáng tin cậy của kết quả thống kê và quyết định liệu có đủ bằng chứng thống kê để bác bỏ H0 hay không.
Trong AbTesting, ta phân tập người dùng thành n tập con khác nhau, thông thường sẽ gồm 1 tập đối chứng (base line) và n-1 tập thay đổi
Khi kiểm định, ta sẽ thực hiện so sánh mỗi tập trong n-1 tập thay đổi kia với tập đối chứng để xem xét. Với mỗi lần so sánh đó, p-value sẽ mang ý nghĩa là với những gì thu được từ tập đối chứng, có bao nhiêu % khả năng xảy ra với những gì thu được ở tập thay đổi
Thống thường, ta cần chọn 1 giá trị α cụ thể làm giới hạn (thường sẽ là 0.05)
Nếu p-value < α: Khả năng xảy ra những gì ở tập thay đổi với tập đối chứng là đủ nhỏ để bác bỏ H0 vè kết luận rằng có sự khác biệt đáng kể giữa 2 tập hợp
Nếu p-value ≥ α: Khả năng xảy ra những gì ở ở tập thay đổi so với tập đối chúng vẫn là đủ lớn, do vậy không đủ bằng chứng thống kê để cho phép bác bỏ H0.
Dữ liệu của game có 1 đặc điểm là không tuân theo phân phối chuẩn do số lượng của player dừng game ở level thấp là vô cùng lớn, vì vậy nên rất khó để áp dụng các phường pháp kiểm định thông thường ở đây. Do vậy, ở đây chúng tôi sử dụng phương pháp kiểm định Mann-Whitney U-Tests, khi phương pháp này không yêu cầu dữ liệu phải tuân theo phân phối chuẩn.
Kiểm định Mann-Whitney U-Tests xuất phát từ ý tưởng rằng:
Nếu hai tập dữ liệu đối chứng và thay đổi đến từ cùng một phân phối, không khác biệt gì (theo giả thuyết H0), thì các thứ hạng của chúng khi sắp xếp chung sẽ phân bố ngẫu nhiên giữa hai tập.
Ngược lại, nếu có sự khác biệt đáng kể giữa hai tập dữ liệu thì dữ liệu từ một tập sẽ có xu hướng tập trung ở các thứ hạng thấp hơn hoặc cao hơn.
Do đó, kiểm định Mann-Whitney U đánh giá xem sự khác biệt về thứ hạng này có đủ lớn để bác bỏ giả thuyết H0 hay không.
Các bước cơ bản của kiểm định Mann-Whitney U-Tests:
Sắp xếp thứ tự giá trị: Gộp cả hai tập dữ liệu đối chứng và thay đổi lại, sau đó sắp xếp tất cả các giá trị theo thứ tự tăng dần, mỗi giá trị được gán thứ hạng(rank)
Tính tổng thứ hạng: Tính tổng dữ liệu cho từng tập đối chứng và thay đổi, theo thứ tự là R1 và R2
Tính thống kê U: Khi so sánh 2 tập dữ liệu đối chứng và thay đổi, U được tính theo công thức
Tính thống kê chuẩn hóa Z
Tính p-value từ thống kê Z
P-value là xác suất để thống kê Z quan sát được (hoặc lớn hơn) xảy ra dưới giả thuyết H0
P-value được tính dựa trên phân phối chuẩn: p-value=2 * P(Z>|Z obs|).
Hình 4.1 là bảng biểu thị dữ liệu đánh giá mức độ hiệu quả các Variance so với Baseline của một A/B Testing - Campaign.
Giữa Variant B và Baseline: Không có sự khác biệt giữa 2 variances của campaign với các thông số IAA và Level, và Variant B đang có xu hướng hiệu quả hơn so với Baseline ở chỉ số Retention ( do p-value = 0,04 < α = 0,05).
Giữa Variant A và Baseline: Không có sự khác biệt nào giữa 2 variances của campaign ở các chỉ số IAA, Level, Retention