用户画像涉及的产品与数据介绍

2025-05-24 10:30:51

案例设计为制定企业经营策略，需从用户网站行为数据中提取用户群体基本画像。例如，获取用户群体地理属性、社会属性等信息，实现定时定点调度，进而实现网站流量精细化运营操作，需要通过DataWorks完成以下操作。

涉及产品在网站用户画像分析任务流程中涉及到原始数据存储数据库、计算存储数据库以及对整个流程开发的平台，以下是本案例中涉及的产品介绍。

产品分类

产品名

产品介绍

数据库

云数据库RDS MySQL版

由本案例提供该数据库，在本案例中用于存储用户基本信息。

对象存储OSS

由本案例提供该对象存储，在本案例中用于存储日志信息。

计算引擎

云原生大数据计算服务MaxCompute

本案例中，基于DataWorks使用云原生大数据计算服务MaxCompute、开源全托管服务EMR Serverless StarRocks、开源大数据平台 E-MapReduce 或开源全托管服务EMR Serverless Spark中的任意一种作为计算资源进行开发，对原始数据进行加工并存储到目标数据仓库中。

开源全托管服务EMR Serverless StarRocks

开源大数据平台 E-MapReduce

开源全托管服务EMR Serverless Spark

数据中台

一站式大数据开发治理DataWorks

在本案例中，DataWorks作为数据中台，用于对原始数据进行同步、加工、质量监控、数据消费等操作，并支持任务调度。

重要在体验不同计算引擎下的网站用户画像分析时，数据库与DataWorks为不同网站用户画像分析时的公共资源。您只需为DataWorks工作空间将不同计算引擎绑定成计算资源即可。

当计算资源使用开源大数据平台 E-MapReduce或开源全托管服务EMR Serverless Spark时，接收案例用户基本信息和案例日志信息的OSS数据源，以及计算存储产品使用开源全托管服务EMR Serverless StarRocks时，用于存储StarRocks中注册函数.jar包的OSS数据源，均需要自备，并确保其具备足够的存储空间和访问权限。

场景设计您需要将数据库与计算引擎，分别在DataWorks中创建为数据源与计算资源后，即可对计算资源中的数据进行加工处理，获取需要的用户群体地理属性、社会属性等信息，以及对数据信息进行管理与消费。

工作流设计在本案例中，您可以根据不同引擎选择相应的网站用户画像分析流程。共提供了MaxCompute版、StarRocks版、EMR版以及Spark版四种版本引擎的网站用户画像分析文档。流程的步骤如下。

通过数据集成获取不同数据源中的用户基本信息数据和用户访问日志信息至引擎中。

在引擎中将获取到的日志数据通过加工拆解为可分析的字段。

在引擎中将用户基本信息和初步加工后的日志数据进行汇总加工。

进一步加工产出基本用户画像。

涉及模块本案例涉及的DataWorks模块如下。

步骤

操作内容

阶段性目标

同步数据

同步MySQL中的用户信息数据及存储在OSS中用户访问日志数据至不同计算资源。

MaxCompute和Spark：直接通过数据集成，将原始数据同步至对应的计算资源。

EMR和Spark：需使用自备的OSS对象存储来存储同步的原始数据，再通过EMR与Spark表来读取数据。

学习如下内容：

如何将不同数据源数据同步到MaxCompute、EMR、StarRocks或Spark。

如何新建对应数据源的表。

如何快速触发任务运行。

如何查看任务日志。

加工数据

使用数据开发模块，将日志数据通过函数、正则等方式拆解为可分析字段，并与用户信息表加工汇总产出基本的用户画像数据。

学习如下内容：

如何基于DataWorks新建并配置数据流程节点。

如何运行工作流。

管理数据

通过数据地图概述模块，对源端表数据进行元数据管理与查看。以及对源端数据变更过程中产生的脏数据进行监控，监控不通则阻断任务执行，避免影响扩大。

学习如何基于DataWorks获取数据源表的元数据，以及搜索查看表详情信息。

学习如何基于DataWorks为任务产出的表，配置数据质量的监控规则，以保证快速感知源端数据的变更过程中产生的脏数据，有效阻断脏数据向下游蔓延。

消费数据

通过数据分析模块对最终结果表进行SQL查询分析，进行网站用户画像分析。例如，访问用户中地域分布分析、城市注册人数排行榜分析。

通过数据服务API模块，将最终结果表创建为API服务。

学习如何基于DataWorks将数据进行可视化展示和API服务创建。