各种类型的数据以集中方式统一存储在对象存储 OSS,解决数据孤岛,避免数据分散在多种不同的系统,极大降低运维管理难度。
支持结构化、半结构化、非结构化等多种类型数据,数据可以按照原始产生的形态直接存储到数据湖,提供便捷的数据接入和数据消费通道。
提供更灵活的系统架构设计,通过细粒度的权限控制、数据加密和日志记录与审计等机制保障数据安全。
对象存储 OSS 作为数据湖统一存储,可以存储来自于不同数据源的各类型数据。 通过多种存储类型实现数据冷热分层,可无缝对接 EMR、PAI 等大数据分析和训练引擎。
结合高性能文件存储 CPFS,实现 OSS 与 CPFS 数据双向流通,同时,热点训练数据以透明方式同步到 CPFS,通过 CPFS 的文件语义与机器学习平台 PAI 对接,满足高性能训练场景需求。
支撑 Hadoop 开源生态构建大数据分析方案,解决了传统 Hadoop 在扩展性、运维模式、成本优化方面的难题。
大数据场景中有大量数据累积,并且数据随着时间推移访问热度会大幅降低。解决了数据分散在各个集群,优化长期存储成本。
数据湖支持 AI 的关键流程,包括数据存储、预处理、特征提取、模型训练和部署,利用机器学习平台的技术优势,提高训练速度。
本方案是基于开放可控数据湖仓构建的大数据/搜索/ AI 一体化解决方案。通过元数据管理平台 DLF 管理结构化和半/非结构化数据,提供湖仓数据表和文件的安全访问及 IO 加速。支持多引擎对接和平权协同计算,通过 DataWorks 统一开发,并保障大规模任务调度。
企业级日志数据具有数据量巨大、写入和查询速度快、结构多样的特点,本方案基于阿里云云数据库 SelectDB 版构建高性能、低成本、分析能力强大的日志存储与分析解决方案,覆盖运维监控、安全审计、业务分析等场景,并通过智能索引与分级存储实现数据亚秒级检索。