多标签用户画像分析跑得快的关键在哪里?

这篇具有很好参考价值的文章主要介绍了多标签用户画像分析跑得快的关键在哪里?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

用户画像分析需要使用众多标签来描述用户属性,通常有两类标签。一类用户标签的值可能有多个,比如用户学历是中学、大学、研究生、博士等,年龄段是children、juvenile、youth、middle age、old age,这类标签称为枚举标签。另一类用户标签的值只有两个,比如用户是否注册、是否活跃、是否白领、是否某种促销的目标用户等等,这类标签称为二值标签。

在用户画像分析场景中,往往要对这两类标签的组合条件做过滤计算,例如:查询出中年、大学学历、注册、活跃用户,并且是去年黑五大促的目标用户。

总数据量很巨大时,运算性能的瓶颈常常集中在这个条件过滤上。这些条件非常随意,无法预先计算或指望索引,必须要有高效的硬遍历能力。这时候,对枚举标签和二值标签采用的存储和计算方法就非常关键了。

在关系数据库、数据仓库中,枚举标签也就是个普通字段,相应的过滤计算是在WHERE子句中用IN来完成,一般是d IN (d1,…,dn)的形式,即字段 d 取值包含于值集合 {di,…} 时为真。IN计算的性能较差,主要由于其中有太多的比较运算。要判断字段d是否包含在值集合中,如果采用顺序查找,需用d与值集合中的成员做1到n次的比较计算。即使在值集合有序的情况下用二分法查找,也要比较数次。数据量较大时比较次数会非常多,判断IN 的速度就会很慢,而且值集合越大速度越慢。

枚举标签过滤性能优化的关键是消除其中的比较运算。首先,确定 IN 字段(即写成IN条件前面的字段)可能取值的列表。可能值通常不会太多,这个列表也不会太长。然后转换原数据,把 IN 字段值替换为列表中对应记录的序号(位置),另存成一份新数据。

对替换后的新数据做 IN 判断时,先要生成一个与列表等长的布尔值集合,其第 i 个值由列表的第 i 个成员是否在 IN 字段的值集合中决定,在其中就是true,不在就是false。遍历时,用 IN 字段值(列表的序号)去取布尔值集合中的成员,是true就符合过滤条件,否则就不符合。

这种方法本质上是将“集合值比较”转换为“序号引用”,省去了比较计算,性能会大幅提升。而且计算时间和值集合大小无关,不会随着 IN条件中枚举值的增多而增加。

SQL中一般不支持通过序号(位置)直接取集合成员的方法,要用关联表过渡,会导致更复杂的JOIN运算,不能直接实现这种优化方法。

二值标签在数据库中一般用布尔型字段来存储。如果只有几个或几十个,那就简单地把过滤条件写在 WHERE 中就可以了。但标签总数有可能达到成百上千个。很多数据库表不支持这么多字段,还要分成多个表再做 JOIN。在数据量很大时,大表连接的性能非常差。

为了避免大表连接,还可以把几千个布尔字段转列为行,用一个“标签号”字段存储,计算时先分组再过滤、统计。但这个分组结果集很大,需要外存缓存,性能还是很差。

如果用整数的二进制位来存储二值标签(0,1 各代表一个取值),那么 16 位短整数就能存 16 个标签,100 个整型字段就能存 1600 个标签,可以有效减少字段数量,避免大表连接。

但是,很多数据库还不支持这种位相关的计算,也就不能实现这种性能优化方法。

开源数据计算引擎 SPL支持序号引用位式运算,可以很方便地实现上述优化方法。相应的SPL代码也很简单,例如原数据表T_ordinary中的字段包括:用户id、枚举标签字段dName(比如年龄段:children、juvenile、youth、middle age、old age)、16个布尔标签字段flag1到flag16,以及金额字段amt。其中,dName的取值范围在选项表dim中。下面的代码可以完成序号引用和位式存储的转换:

A
1 =file("T_ordinary.ctx").open().cursor(id,dName,flag1,flag2,…,flag16,amt)
2 =T("dim.btx")
3 =A1.new(id,dim.pos@b(dName):d,bits(flag1,flag2,…,flag16):b,amt)
4 =file("T.ctx").create(id,d,b,amt)
5 =A4.append(A3)

A3用pos函数将dName的值替换为dim中的序号,存成新字段d。dim预先按照 dName有序,这里用二分法查找速度更快。同时使用 bits 函数把 16 个标签字段转换成一个16位整数字段b。

转换好的表T就可以做高性能的标签过滤和统计了。例如,过滤条件是dName取值在前端传入的集合[“middle age”,“old age”]中,且标签 flag4、flag8 为 1。 完成过滤之后,按照d分组汇总金额和记录数,代码大致是这样的:

A
1 =bits(0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0)
2 =T("dim.btx").(["middle age","old age"].contain@b(~))
3 =file("T.ctx").open().cursor(amt;A2(d) && and(b,A1)==A1)
4 =A3.groups(d;sum(amt),count(~))

A1用bits函数生成16位小整数,第4、8位值是1,对应标签 flag4、flag8。A2生成布尔值集合。A3利用布尔值集合和小整数做过滤计算。

在使用SPL的虚表后,还可以把这些变换过的字段透明化,直接像普通字段一样使用。比如:基于表T定义虚表T_pseudo后,上述代码大致会变成这样:

A
1 =T_pseudo.select(flag4 && flag8 && ["middle age","old age"].contain@b(dName))
2 =A3.groups(dName;sum(amt),count(~))

flag4、flag8是虚表中定义的位维度字段,对应T表中b字段的第4、8位。dName则是虚表中的枚举维度字段,其值是T表中的d字段序号对应的名称。

有了虚表后,实际的存储和计算方法不变,SPL会自动完成上述算法。而且,过滤条件中可以使用普通的布尔值,结果集中分组值也会变成容易阅读的字符串,不必再做序号和名称的转换。虚表的具体使用方法参见SPL 虚表的数据类型优化。文章来源地址https://www.toymoban.com/news/detail-782058.html

SPL资料

  • SPL下载
  • SPL源代码

到了这里,关于多标签用户画像分析跑得快的关键在哪里?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 毕设项目 大数据用户画像分析系统(源码分享)

    毕设项目 大数据用户画像分析系统(源码分享)

    Hi,大家好,这里是丹成学长,今天做一个电商销售预测分析,这只是一个demo,尝试对电影数据进行分析,并可视化系统 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学

    2024年01月22日
    浏览(12)
  • 计算机竞赛 题目:基于大数据的用户画像分析系统 数据分析 开题

    计算机竞赛 题目:基于大数据的用户画像分析系统 数据分析 开题

    🔥 优质竞赛项目系列,今天要分享的是 基于大数据的用户画像分析系统 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🧿 更多资料, 项目分享: https://gitee.com/dancheng-senior/postgraduate 用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出

    2024年02月07日
    浏览(18)
  • 毕业设计:python医疗数据分析可视化系统 医疗大数据 Flask框架 用户画像(源码)✅

    毕业设计:python医疗数据分析可视化系统 医疗大数据 Flask框架 用户画像(源码)✅

    博主介绍:✌全网粉丝10W+,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业毕业设计项目实战6年之久,选择我们就是选择放心、选择安心毕业✌感兴趣的可以先收藏起来,点赞、关注不迷路✌ 毕业设计:2023-2024年计算机毕业设计1000套(建议收藏)

    2024年04月16日
    浏览(17)
  • 【详解算法流程+程序】DBSCAN基于密度的聚类算法+源码-用K-means和DBSCAN算法对银行数据进行聚类并完成用户画像数据分析课设源码资料包

    【详解算法流程+程序】DBSCAN基于密度的聚类算法+源码-用K-means和DBSCAN算法对银行数据进行聚类并完成用户画像数据分析课设源码资料包

    DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。 与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇, 并可在噪声的空间数据库中发现任意形状的聚类。         选

    2024年04月11日
    浏览(13)
  • 如何利用大数据构建用户画像?

    大数据时代,不仅普通用户可以享受到技术带来的便利,企业也可以从数据中提取有商业价值的信息,构建出用户画像,从而对用户行为进行分析和预测。虽然用户画像不是什么新鲜的概念,但是大数据技术的出现使得用户画像更加清晰客观。下面我们一起来看看如何利用大

    2024年02月10日
    浏览(10)
  • 基于大数据的用户画像轻松入门篇

    基于大数据的用户画像轻松入门篇

    在当今的数字时代,用户画像分析已成为企业决策和市场营销的重要工具。通过对用户的基本信息、行为习惯、兴趣爱好等方面进行深入挖掘和分析,企业可以更好地了解用户需求和行为习惯,从而优化产品设计、提升用户体验、增强用户黏性和提高盈利能力。 本文将介绍用

    2024年02月20日
    浏览(8)
  • 【用户画像】ClickHouse简介、特点、安装和部署

    【用户画像】ClickHouse简介、特点、安装和部署

    之前数仓和画像的处理都是批处理,一般在夜间进行,花费时间很长,按照脚本和调度去完成,后来的处理称为即时处理,即时处理要求计算的时间非常之短,存放在hive中,肯定是不行的,这种需求既要求从一定的数据量中提取(如果是小数量可以从MySQL提取),同时需要速

    2024年02月12日
    浏览(14)
  • 读书笔记1——用户画像平台构建与业务实践

    读书笔记1——用户画像平台构建与业务实践

    目录 1.画像的基本概念  2、OLAP的3种建模类型 3.OLAP相关技术发展历程  4.业界画像平台介绍 神策数据 2.火山引擎增长分析 3. GrowingLo 4.阿里云智能用户增长 5.涉及岗位   这是一本从功能模块、技术实现、平台构建、业务应用4个层次由浅入深地讲解用户画像的著作。作者在某头

    2024年02月04日
    浏览(7)
  • 产品经理如何提高用户画像效果?SIKT模型

    产品经理如何提高用户画像效果?SIKT模型

            产品经理做用户画像,最担心被业务方反馈:没效果。这往往是由用户画像与业务场景脱节造成的。那么我们该如何从业务场景出发,让用户画像更有效?一般来说,我们可以采用SIKT模型解决这个问题。 用户画像 ​         1、SIKT模型原理         SIKT模

    2024年02月12日
    浏览(10)
  • 用户画像系列——在线服务调优实践

    用户画像系列——在线服务调优实践

    前面文章讲到画像的应用的几个方面,其中画像的在线服务应用主要是在推荐场景、策略引擎场景,这两部分场景都是面向线上的c端服务。 推荐场景:根据不同的用户推荐不同的内容,做到个性化推荐,需要读取画像的一些偏好数据,推荐感兴趣的内容。 策略引擎:根据用

    2024年01月23日
    浏览(10)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包