搜狐主要的营收业务(聚类算法有哪几种)

:大胆的想象

与“传统”垄断行业相比,我们有什么优势?

有数字化的用户数据。基于计算机和网络的服务模式自然数字化并记录用户属性和行为,成为公司最大的资产,如收入。

什么样的服务是温暖感人的?

只有高端的个人裁缝。无论是葛爷爷和白百合电影里的“梦想工程”,还是大众辉腾使馆区的线下定制中心,都体现出一种强烈的顶级个性化的感觉,只针对伊拉克人民。这不就是终极互联网服务吗?个性化服务,千人一面。然而,梦想计划终究亮起,低调的辉腾退却。

为什么?粒度太细,难以形成规模经济,导致每单成本太高,整体利润太少。如果要推费真正达到千人,投资太高,收益暂时难以评估。所以在最初的尝试中,我们把“点”改成了“面”,粒度不是每个人,而是某一类人。

:数据发现挖掘点

算法数据=生长点

如何把“点”变成“脸”,识别人,在事先没有预期目标的情况下,掂量的工具是聚类算法。

1算法

简单来说,聚类算法就是将所有对象按照其特征的距离划分成若干个聚类。这些集群满足以下条件:

1)集群中对象之间的距离很近

2)不同聚类对象之间的距离较远

类似上图所示的效果,中心点是聚类的核心,靠近中心点的批次是同一个聚类。很容易区分不同类别和业务特征的组。分组操作更容易获得更好的效果。

例如,企业的特征包括以下几类。聚类算法应该如何具体应用?

2功能标准化

在收集了上述行为数据之后,就需要对数据进行“标准化”。标准化的方法有很多,这里举个简单的例子。

为什么要做标准化?这涉及到聚类算法K-的实现原理。K-是一种基于距离的迭代算法,将N个观测案例划分为K个聚类,使得每个观测案例与其聚类中心的距离小于其他聚类的距离。其中距离的计算方法可以是欧氏距离(2-范数)、曼哈顿距离(,1-范数)或其他。以我们初中的欧洲距离为例

其间

是两个对象对应的特征量,比如是播放时间,单位是秒。类似地

是一周中播放的天数。秒的维度远远大于一周的播放天数。一首2分钟的歌,播放时间120秒,一周内可以一直播放,只有7天播放时间。最终,播放天数对距离计算影响不大,聚类特征倾向于播放时间。其他常用的距离计算方法也有类似的问题,如:

曼哈顿距离:

闵可夫斯基距离:

求解在于无量纲,方法是标准化。

我们这次采用了Z-标准化,公式如下:

搜狐主要的营收业务(聚类算法有哪几种)

其中x为特定分数,为平均值,为标准差。

标准分可以回答这样一个问题:给定的分数与平均值有多少标准差?高于平均水平的分数将获得正标准分数,低于平均水平的分数将获得负标准分数。

3聚类结果的输出和解释

获得三个具有商业意义的聚类,在三维空间上的投影如下:(由于商业敏感性,具体描述忽略)

可以看出,每个类别在空间上的位置和集中程度是有差异的,我们根据这些差异总结出以上三种类型的不同特点。然后根据不同的特点,制定不同的催费方式。

第三步:产品沟通

与产品沟通,将计划推向地面。由于业务关系,这里就不描述了

说服产品体验技巧:

了解运营的痛点和瓶颈

成功案例的证明(第一个案例,依靠个人或团队的影响)

算法探索实例

第四步:在线测试

我们需要一种快速、低成本的验证方法。在整个流程和后台界面不变的约束下,有什么方法可以更快的替换图片和文档,风险和成本更低?通过反复迭代优化,最终效果如下:通过改变紫色框中的图片和红色框中的文案,不同的图片和文案被不同的用户群体所触动

步骤5:效果跟踪和评估

7天流量灰度测试结果如下:

1常规在线实际转化效果对比

衡量:向付款成功发送提醒消息的平均转化率

炫耀:x1%享受:x2%耍酷:x3%参考群:c1%

x2x1x3c1

证明两个因素的重要性

嗯,看到实验组平均值比参考组高,说明是有效的。扩大灰度,发邮件,收工?那么问题来了,你怎么知道上面的效果是个性化复制造成的,还是你身边的随机性造成的?

把这个问题转化成统计学问题,实验组和参考组的差异显著?

我们可以用方差分析来解决这个问题。方差分析(ANOVA),也称为“方差分析”,是由费希尔发明的,用于测试两个或多个样本之间的平均差异的显著性。

工具我们用最喜欢的R,套路如下:

由此我们可以大致认为,不同群体间均值的差异不太可能受到不可控随机因素的影响,差异来自可控因素和基于用户行为的个性化文本。

第六步:自动化操作

用户数据模型是常规的,所有接口都是在线联合调整和部署的

步骤7:效果监控

通过邮件、短信、QQ、微信等形式,长期监控效果,及时优化关注的变化。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。