apache spark数据帧的相关内容

问答 2018-12-21 来自：开发者社区

获取数组中项目的索引，该数组是Spark数据帧中的列

我可以通过执行以下操作，根据数组字段中是否存在特定值来过滤Spark数据帧（在PySpark中）：from pyspark.sql.functions import array_containsspark_df.filter(array_contains(spark_df.array_column_name, "value that I want")).show() 有没有办法获得数组中项目所在....

问答 2018-12-21 来自：开发者社区

Spark检查数据帧数组中的任何单词是否包含在另一个列表中？

我已经读了一个json文件并在spark中转换为dataframe。它具有包含值列表的列技能。现在我想过滤数据框，使列技能具有另一个列表的任何值。例如：skill= ["A", "B", "C", "D"] and list=["A", "Z"]skill= ["E", "B", "C", "D"] and list=["A", "Z"]然后，过滤器代码应显示第一行并忽略另一行。我在scala中....

问答 2018-12-19 来自：开发者社区

Spark 2.0+即使数据帧被缓存，如果其中一个源更改，它会重新计算？

这是我的用例。有多个源df1到df4，df3代表现有的hive表从df1到df4构建一个df5将df5插入/追加到现有的配置单元表中。将df5保存到其他地方。问题是第4步没有任何保存到现场。这是否意味着在第3步之后，df3会改变吗？我已经使用cache（）来实现df1到df5。但看起来如果源已被更改，df5会重新计算我检查了Spark Web UI存储。所有数据帧都是100％缓存的。

问答 2018-12-12 来自：开发者社区

如何防止kafka的spark sql在数据帧中向JSON字符串添加反斜杠

出于某种原因，我执行代码.wriestream.format（json）.option（Path）。我有json，由于某种原因，标签都有双“”。我想删除所有“”。val selectData = kafkaDF.select(($"value" cast "string"))val query = selectData .writeStream .format("json") .optio...

问答 2018-12-12 来自：开发者社区

如果Spark中的数据帧是不可变的，为什么我们能够使用withColumn（）等操作来修改它？

问答 2018-12-12 来自：开发者社区

检查spark数据帧中的空行？

运行几个csv文件，我试图运行并做一些检查，由于某种原因我得到一个文件NullPointerException，我怀疑有一些空行。所以我运行以下内容，由于某种原因，它给了我一个OK输出：check_empty = lambda row : not any([False if k is None else True for k in row])check_empty_udf = sf.udf(ch....

问答 2018-12-11 来自：开发者社区

如何根据条件为日期列的列中值的出现来过滤spark数据帧？

问答 2018-12-11 来自：开发者社区

将List [Map <String，String>]转换为spark数据帧

我想将List [Map]转换为spark数据帧，Map的键是sname，Map的键是DataFrame的列

问答 2018-12-10 来自：开发者社区

计算spark数据帧中真假条件的数量

MATLAB背景，我可以简单地做到这一点 age_sum_error = sum(age > prediction - 4 & age 这将计算为真的age值的数量prediction (+4/-4)，我想在spark数据框中做类似的事情。假设下面是我的spark数据框 age gender prediction 35 M 30 40 F 42 45 F 38 26 F ...

问答 2018-12-06 来自：开发者社区

根据列中的值复制Spark数据帧中的行

我想根据给定列的值复制行。例如，我得到了这个DataFrame： count 3 1 4 我想得到： count 3 3 3 1 4 4 4 4 withColum根据这个答案我尝试使用方法。 val replicateDf = originalDf .withColumn("replicating", explode(array((1 until $"count").map(l...

共有13条

< 1 2 >

跳转至： GO

更新时间 2023-05-16 15:39:18

本页面内关键词为智能算法引擎基于机器学习所生成，如有任何问题，可在页面下方点击"联系我们"与我们沟通。

apache spark您可能感兴趣

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区，定期推送精彩案例，问答区数个 Spark 技术同学每日在线答疑，只为营造 Spark 技术交流氛围，欢迎加入！

+关注