数据来源:marketing_campaign

使用pandas清洗,排查异常值,去掉重复值,将日期改为时间类型

使用K-Means聚类数据,分成三类。

可视化展示

首先展示营销的五个活动中各个活动的对比

可以看到,营销活动1,3,4的接受程度一致,但是营销活动2只有很少一部分人接收。

参与营销的人次供312人,占总比例的15.3%。

结婚的人群更愿意接收营销活动,而更为洒脱的“YOLO”人群完全不参与营销活动。

大学毕业生更愿意尝试营销活动,在所有教育水平种类中占最高比例。


葡萄酒是绝对主导品类,占消费大头,肉类为第二大支出品类。

实体店是大多数用户的购买渠道,线上网店次之

月网站平均访问次数5.33次,平均购买间隔48.84天。

上次营销活动有312人参与,投诉率较低。

可以看到,用户大多为大学毕业生以及结婚人群。


年龄分布:平均出生年份:1968.9年(约52-53岁),中位数年龄:1970年出生(约51岁)
                最年轻客户:1996年出生(约22岁),最年长客户:1940年出生(约81岁)
家庭结构:儿童数量:平均0.44个/家庭(标准差0.54)中位数0个
               青少年数量:平均0.51个/家庭(标准差0.55)分布与儿童相似
                约半数家庭有未成年子女(儿童或青少年)

主要用户:大学毕业生以及结婚人士

家庭年收入平均值:51.07,年收入中位值:51.277

青少年数量平均值:0.52,中位值:0

幼儿数量平均值0.46,中位值:0

出生年份平均值1969.93(约50-51岁),中位值1972(约49岁)

分析可以得出,家中幼儿数量为0的情况下,总消费会增加。

家庭年收入增加25596.90,总消费增加666.3。

而影响总消费降低的因素有很多。

夹中幼儿数量增加,总消费就会降低。

家庭年收入下降25596.90,总消费对应降低666.3。

出生年份为1970-1990时,总消费相较于其他情况平均较少175.4。

家庭年收入大于79930的情况下,平均花费为1.42千,比整体平均值高出845.9个单位。

而家庭年收入小于或等于31859的情况下,平均花费比整体平均值低于510.4个单位。

由此可得,家庭年收入是影响总消费的最大因素。

聚类数据可视化展示

使用K-Means对数据进行聚类,可以得到三个类别。

类别为0的数据进行可视化展示:

类别为1的数据进行可视化展示:

类别为2的数据进行可视化展示:

Cluster 0 - 年轻低消费潜力客户
消费金额: 较低
收入: 低(34670)
年龄: 相对整体最年轻(≈49 岁)
教育: 大部分为研究生、毕业生
生活状态: 大部分有伴侣
家庭结构: 大部分有子女,是父母
购买行为: 主要是实体店购买,占据55%,偏好线上网站,占据35%
投诉: 相对整体较多(≈0.01),但仍然处于较低水平
用户画像:年轻家庭、教育水平高、消费低、线上活跃但购买少

Cluster 1 - 中产家庭购买偏好全面型客户
消费金额: 中等
收入: 中等(59694)
年龄: 中老年(≈55 岁)
教育: 大部分为研究生、毕业生
生活状态: 大部分为 Partner
家庭结构: 有子女(family_child ≈ 1.22),是父母
购买行为: 全面型购买偏好。在实体店购买占据44%,在线上网站购买占据36%。
投诉: 相对整体中等偏低

Cluster 3 - 高价值独立中年客户
特征消费金额: 极高
收入: 极高(76994)
年龄: 中老年(53 岁)
教育: 大部分为研究生、毕业生
生活状态: 大部分为 Partner
家庭结构: 基本无子女(family_child ≈ 0),非父母
购买行为: 偏好实体店购买、按照目录价格购买,线上一般
投诉: 极低(≈0)
用户画像:高消费、高收入、独立中年、偏好线下、无家庭负担

Logo

更多推荐