自定义apache spark 的相关内容

阿里云文档 2024-11-07

如何使用Spark自定义镜像

当AnalyticDB for MySQL Spark默认镜像无法满足您的需求时，您可以基于默认镜像，将Spark作业需要的软件包和依赖项打包到镜像中，生成自定义镜像并发布到容器镜像服务。在AnalyticDB for MySQL进行Spark作业开发时，指定自定义镜像作为Spark作业的执行环境。

问答 2017-07-18 来自：开发者社区

看MaxCompute（原ODPS）说明文档说输入数据只能是表结构 1.是否可以跑用户自定义的原生的基于hdfs的Mapreduce任务，输入为hdfs文件，输出为hdfs文件，mapper的逻辑以及reducer的逻辑用户自定义实现 2.是否支持其他的数据工具，如何跑基于spark的任务

看MaxCompute（原ODPS）说明文档说输入数据只能是表结构1.是否可以跑用户自定义的原生的基于hdfs的Mapreduce任务，输入为hdfs文件，输出为hdfs文件，mapper的逻辑以及reducer的逻辑用户自定义实现2.是否支持其他的数据工具，如何跑基于spark的任务

文章 2016-09-09 来自：开发者社区

自定义Spark Partitioner提升es-hadoop Bulk效率

前言之前写过一篇文章，如何提高ElasticSearch 索引速度。除了对ES本身的优化以外，我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强，cpu密集型的很适合。这篇文章涉及的调整也是对SparkES 多维分析引擎设计中提及的一个重要概念“shard to partition ,partition to shard ” 的实现。不过目前只涉及到构建索引那块。问....

共有3条

< 1 >

跳转至： GO

更新时间 2024-05-01 03:01:39

本页面内关键词为智能算法引擎基于机器学习所生成，如有任何问题，可在页面下方点击"联系我们"与我们沟通。

apache spark您可能感兴趣

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区，定期推送精彩案例，问答区数个 Spark 技术同学每日在线答疑，只为营造 Spark 技术交流氛围，欢迎加入！

+关注