阿里云文档 2025-02-17

Spark SQL交互式查询

如果您需要以交互式方式执行Spark SQL,可以指定Spark Interactive型资源组作为执行查询的资源组。资源组的资源量会在指定范围自动扩缩容,在满足您交互式查询需求的同时还可以降低使用成本。本文为您详细介绍如何通过控制台、Hive JDBC、PyHive、Beeline、DBeaver等客户端工具实现Spark SQL交互式查询。

阿里云文档 2025-02-07

ADB Spark SQL的使用

DataWorks的ADB Spark SQL节点可进行AnalyticDB Spark SQL任务的开发和周期性调度,以及与其他作业的集成操作。本文为您介绍使用ADB Spark SQL节点进行任务开发的主要流程。

阿里云文档 2024-10-17

通过Spark SQL读写Azure Blob Storage外表

本文主要介绍如何在云原生数据仓库 AnalyticDB MySQL 版中使用Spark SQL读写Azure Blob Storage中的数据。

阿里云文档 2024-10-14

Spark SQL诊断优化

云原生数据仓库 AnalyticDB MySQL 版推出Spark SQL诊断功能,若您提交的Spark SQL存在性能问题,您可以根据诊断信息快速定位、分析并解决性能瓶颈问题,优化Spark SQL。本文主要介绍如何进行Spark SQL性能诊断以及性能诊断的示例。

阿里云文档 2024-09-06

通过Spark SQL读DLF管理的数据

数据湖构建 DLF(Data Lake Formation)提供了统一的元数据管理、统一的权限与安全管理、便捷的数据入湖能力以及一键式数据探索能力,您可以在云原生数据仓库 AnalyticDB MySQL 版中通过Spark SQL访问DLF中的元数据。

文章 2023-12-25 来自:开发者社区

Note_Spark_Day08:Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)

Spark Day08:Spark SQL01-[了解]-昨日课程内容回顾上次课程主要讲解3个方面内容:SparkSQL模块概述、DataFrame数据集及综合案例分析。1、SparkSQL 模块概述 - 发展史【前世今生】 Shark -> SparkSQL(1.0) -> DataFrame(1.3) -> Dataset(1.6) -> Dataset/...

Note_Spark_Day08:Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)
文章 2023-12-20 来自:开发者社区

【大数据技术Hadoop+Spark】Spark SQL、DataFrame、Dataset的讲解及操作演示(图文解释)

一、Spark SQL简介park SQL是spark的一个模块,主要用于进行结构化数据的SQL查询引擎,开发人员能够通过使用SQL语句,实现对结构化数据的处理,开发人员可以不了解Scala语言和Spark常用API,通过spark SQL,可以使用Spark框架提供的强大的数据分析能力。spark SQL前身为Shark。Shark是Spark上的数据仓库,最初设计成与Hive兼容,但是该项目....

【大数据技术Hadoop+Spark】Spark SQL、DataFrame、Dataset的讲解及操作演示(图文解释)
文章 2023-12-06 来自:开发者社区

Spark【Spark SQL(三)DataSet】

DataSet         DataFrame 的出现,让 Spark 可以更好地处理结构化数据的计算,但存在一个问题:编译时的类型安全问题,为了解决它,Spark 引入了 DataSet API(DataFrame API 的扩展)。DataSet 是分布式的数据集合,它提供了强类型支持,也就是给 RDD 的每行数据都添加了类型约束。   ....

文章 2022-05-15 来自:开发者社区

Spark SQL中DataSet函数操作

一、DataSet中常见函数详解(1)重分区函数:coalesce / repartitioncoalesce:只能用于减少分区的数据,而且可以选择不发生shuffle。repartition:可以增加分区的数据,也可以减少分区的数据,必须会发生shuffle,相当于进行了一次重新分区操作。(2)去重函数:distinct / dropDuplicatesdistinct:是根据每一条数据进行完....

文章 2022-01-06 来自:开发者社区

大数据进阶之路——Spark SQL 之 DataFrame&&Dataset

DataFrame它不是Spark SQL提出的,而是早起在R、Pandas语言就已经有了的。A Dataset is a distributed collection of data:分布式的数据集A DataFrame is a Dataset organized into named columns.以列(列名、列的类型、列值)的形式构成的分布式数据集,按照列赋予不同的名称datafram....

大数据进阶之路——Spark SQL 之 DataFrame&&Dataset

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

数据库

分享数据库前沿,解构实战干货,推动数据库技术变革

+关注
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等