На счёт самой статистики, всегда было интересно увидеть, какая там погрешность. Ну допустим, они могли взять 3 ляма аккаунтов из десяти, потому что у остальных нет перса 100 уровня (хотя сомневаюсь, что это так).
Когда речь о значениях типа 50% игроков, это ещё достоверно, даже плюс-минус 5% погоды не делают.
Но 0.9%... серьёзно? Это число по факту может легко оказаться в несколько раз меньше/больше, если просто чуть по другому написать запрос и поменять фильтры, исключив заведомо мусорные данные.
Формально, если предположить, что выборка репрезентативна (с трудом можно представить, что выборка из персонажей с практически трети активных аккаунтов нерепрезентативна общей популяции), то погрешность пренебрежимая - для такого размера доверительный интервал крайне узок, в пределах 0.01% от абсолютного значения (если так посчитать, на вскидку, с n = 6.1 млн, то 95% CI будет находиться между 0.898 и 0.902). Можно предположить, что в полной популяции дело так и обстоит, поскольку здесь мы уже имеем дело с законом больших чисел и взаимопогашением влияния случайных факторов.
Другое дело, насколько я понял, вопрос в том, что если начать делать субсамплинг по определенным критериям, то значение будет изменяться, и это естественно. Единственный важный момент здесь - если количество "успехов" в этих подгруппах будет значительно отличаться от вычисленного для общей популяции, это будет означать, что взятая субсамплингом выборочная совокупность нерепрезентативна, т.е. конкретно в ней проявляется один или несколько из тех факторов, что гасится в пропорции для генеральной совокупности.
С репрезентативностью как раз таки всё нормально, но здесь же не социология, а работа с базой данных.
Всю базу из армори тащить не разумно, там терабайты данных, если не петабайты. Поэтому делается выборка по определённым критериям: наличие/отсутствие интересующей ачивки, активный аккаунт, максимальный левел, персонаж не удалён и так далее. Правильный набор всех этих критериев не очевиден, а с разными фильтрами можно получить разные результаты с различием в плюс-минус несколько процентов.
А ещё надо чекать полученную базу на наличие дубликатов, заведомо ложные значения и прочие радости. А если не чекнуть или чекнуть не всё, опять же будут разные погрешности и разный результат.
Всё это к тому, что статистика со значениями в единицы процентов и тем более в доли процента легко может быть полной туфтой при таких объёмах исходника. Может и не быть, если они всё очень аккуратно сделали, но это неизвестно.