云原生大数据计算服务 MaxCompute原理信息分析的相关内容

阿里云文档 2025-03-31

用户画像分析案例加工数据-基于新版数据开发和StarRocks计算资源

本文为您介绍如何将同步至StarRocks的用户信息表ods_user_info_d_starrocks及访问日志数据ods_raw_log_d_starrocks，通过DataWorks的StarRocks节点加工得到目标用户画像数据，阅读本文后，您可以了解如何通过DataWorks+StarRocks产品组合来计算和分析已同步的数据，完成数仓简单数据加工场景。

阿里云文档 2025-03-31

用户画像分析案例加工数据-基于新版数据开发和Spark计算资源

本文为您介绍如何用Spark SQL创建外部用户信息表ods_user_info_d_spark以及日志信息表ods_raw_log_d_spark访问存储在私有OSS中的用户与日志数据，通过DataWorks的EMR Spark SQL节点进行加工得到目标用户画像数据，阅读本文后，您可以了解如何通过Spark SQL来计算和分析已同步的数据，完成数仓简单数据加工场景。

阿里云文档 2025-03-21

用户画像分析案例同步数据-基于新版数据开发和StarRocks计算资源

本教程以MySQL中的用户基本信息ods_user_info_d表和OSS中的网站访问日志数据user_log.txt文件为例，通过数据集成离线同步任务分别同步至StarRocks的ods_user_info_d_starrocks、ods_raw_log_d_starrocks表。旨在介绍如何通过DataWorks数据集成实现异构数据源间的数据同步，完成数仓数据同步操作。

阿里云文档 2025-03-21

用户画像分析案例同步数据-基于新版数据开发和Spark计算资源

本文将介绍如何创建HttpFile和MySQL数据源以访问用户信息和网站日志数据，配置数据同步链路将这些数据同步到在环境准备阶段创建的OSS存储中，并通过创建Spark外表解析OSS中存储的数据。通过查询验证数据同步结果，确认是否完成整个数据同步操作。

阿里云文档 2025-03-17

用户画像分析案例环境准备-基于新版数据开发和Spark计算资源

本教程以用户画像为例，在华东2（上海）地域演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程，您需要准备教程所需的EMR Serverless Spark空间、DataWorks工作空间，并进行相关的环境配置。

文章 2017-08-18 来自：开发者社区

《大数据原理：复杂信息的准备、共享和分析》一一2.8　去标识化

2.8　去标识化去标识化是去除数据中可能连接该数据对象的公共名称的信息的过程。在病人记录这个案例里，去标识化就是将那些会让人联系到病人名字的信息从记录中去除的过程，这样做的目的显而易见。事实上，还有其他信息也需要去除，如病人的联系地址、出生日期和社会安全号码。在美国，病人隐私条例里详细讨论了病人记录去标识化的问题，并建议把18条记录条目排除在去标识化之外。33在进一步讨论去标识化之前，必须认识到....

文章 2017-08-02 来自：开发者社区

《大数据原理：复杂信息的准备、共享和分析》一一导读

前　　言我们不能用导致问题的方法去解决问题。——Albert Einstein数以百万计的电脑每时每刻都有数据注入。在全球范围内，所有计算机上存储的数据总量约为3000EB（约3000亿GB），并正以每年28%的速度增加。尽管如此，与未被存储的数据量相比，存储下来的数据量仍是微不足道的。据统计，每年约有1.9ZB的数据传输量（约19 000亿GB；见术语表，Binary sizes）1。日益纷....

文章 2017-08-02 来自：开发者社区

《大数据原理：复杂信息的准备、共享和分析》一一2.11　经验教训

2.11　经验教训每件事以前都说过，但因为没有人听，所以我们只好回到起点，一遍又一遍地重新开始。―Andre Gide 习惯于使用较小的数据项目的大数据管理人员往往忽视了标识问题。本章中描述的最重要的想法很值得重复，其中许多想法对于那些生活在大数据混乱领域之外的人来说是反直觉的和奇怪的。1.所有的大数据资源都可以被想象为对于数据对象和数据相关事件的一个标识符系统（即时间事务）。大数据的数据资源可....

文章 2017-08-02 来自：开发者社区

《大数据原理：复杂信息的准备、共享和分析》一一2.9　数据清洗

2.9　数据清洗数据清洗有时候被看作去标识化的同义词，事实上，应该理解为一个起于去标识化过程结束时的过程。数据清洗会将那些数据记录里不希望保留的信息移除，包括个人信息和其他与数据记录含义不直接相关的信息。例如，在医院记录的案例里，数据清洗应当清洗掉病人的主治医生姓名、医院或医疗机构名称、地址、看病日期和其他不合适的、不合法的、不相关的或者存在潜在危险的信息。关于医疗数据记录，有个说法，“‘最小化....

文章 2017-08-02 来自：开发者社区

《大数据原理：复杂信息的准备、共享和分析》一一2.10　重标识

2.10　重标识对于科学家而言，去标识化有两个目的：1.保护数据的保密性和个人隐私。2.删除可能影响实验的信息。保密性和隐私问题一直是以人为主题的数据需要面对的问题，而且分析数据时的实验误差总会存在，故而去标识化不可逆转势在必行。科研诚信往往会与不可逆转的去标识化相冲突。有时多个实验样本数据会混在一起，有时会弄错样本数据源。而一旦样本数据出现差错，那么一些科学发现也许就不成立，需要被驳回37-4....