文章 2022-11-27 来自:开发者社区

数据导入与预处理-第6章-01数据集成

1 数据集成概述1.1 数据集成需要关注的问题数据集成期间的数据问题,包括:实体识别冗余属性识别元组重复等数据分析中需要的数据往往来自不同的途径,这些数据的格式、特点、质量千差万别,给数据分析或挖掘增加了难度。为提高数据分析的效率,多个数据源的数据需要合并到一个数据源,形成一致的数据存储,这一过程就是数据集成。1.实体识别实体识别指从不同数据源中识别出现实世界的实体,主要用于统一不同数据源的矛盾....

数据导入与预处理-第6章-01数据集成
文章 2021-10-29 来自:开发者社区

PolarDB-X 1.0-用户指南-数据导入导出-通过数据集成导入导出数据

本文介绍如何通过数据集成在PolarDB-X中进行数据导入和导出。数据集成是阿里巴巴集团提供的数据同步平台。该平台具备可跨异构数据存储系统、可靠、安全、低成本、可弹性扩展等特点,可为20多种数据源提供不同网络环境下的离线(全量或增量)数据进出通道。使用数据集成,您可以在PolarDB-X完成以下数据同步任务:将PolarDB-X的数据同步到到其他的数据源里,并将数据进行相应的处理;将处理好的其他....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

DataWorks

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者,DataWorks从2009年起不断沉淀阿里巴巴大数据建设方法论,同时与数万名政务/金融/零售/互联网/能源/制造等客户携手,助力产业数字化升级。

+关注
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问