数据分布不一致下如何得到置信的评价指标

背景

在工作和学习中,我们常常需要进行对数据进行某种维度的指标评价,比如下面的一个例子,我们想统计两个平台下单件商品的盈利(比如想告诉商家哪个平台的利润比较高),例子不是很严谨,但是为了方便说明做了简化。

商品 单件盈利 订单量 平台
A 10 10 某宝
B 5 30 某宝
C 30 20 某宝
D 100 1 某宝
B 10 1 某东
C 35 20 某东
D 100 40 某东
E 40 80 某东

如果分平台来看,我们很容易会遇到一些问题,比如A商品在某宝有卖,但是在某东没有卖,E商品在某东有卖,但是在某宝没有卖。也就是说在拿到一些数据时,我们无法将完美地控制变量(数据分布不一致)进行比较,所以我们需要采取一定的方式,尽量来避免数据分布不一致给评价指标带来的影响。

评价指标的几种计算方式

简单的评价方法

在拿到数据后,我们最直觉的做法就是直接通过 总盈利/总商品 得到单件的盈利,即可以告诉商家,某东还是某宝卖东西单件利润更高。根据这个思路,分别统计结果是

某宝

10×10+5×30+30×20+100×110+30+20+1=95061=15.57\frac{10 \times 10 + 5 \times 30 + 30 \times 20 + 100 \times 1}{10 + 30 + 20 + 1} = \frac{950}{61} = 15.57

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享