大数据开发岗大厂面试30天冲刺 - 日积月累,每日五题【Day02】——Hive2
面试题 01 窗口函数(开窗函数)OVER():用于指定分析函数工作时的数据窗口大小,这个数据窗口大小可能会随着行的变而变化;CURRENT ROW:当前行;n PRECEDING:往前n行数据;n FOLLOWING:往后n行数据;UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点UNBOUNDED FOLLOWING表示到后面的终点;LAG(col,n,def....
大数据开发岗面试30天冲刺 - 日积月累,每日五题【Day01】——Hive1
面试题01、 请说下Hive和数据库的区别Hive 和数据库除了拥有类似的查询语言,再无类似之处。1)数据存储位置Hive 存储在 HDFS 。数据库将数据保存在块设备或者本地文件系统中。2)数据更新Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的,3)执行延迟Hive 执行延迟较高。数据库的执行延迟较低。当然,这个是有条件的,即数据规模较小,当数据规模大到超过数据库的处理....

大数据面试题百日更新_Hive专题(Day12)
hive 有索引吗Hive 支持索引,但是 Hive 的索引与关系型数据库中的索引并不相同,比如,Hive 不支持主键或者外键。Hive 索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少 MapReduce 任务中需要读取的数据块的数量。在可以预见到分区数据非常庞大的情况下,索引常常是优于分区的。虽然 Hive 并不像事物数据库那样针对个别的行来执行查询、更新、删除等操作。它更多的用....
大数据面试题:Hive count(distinct)有几个reduce,海量数据会有什么问题
参考答案:count(distinct)只有1个reduce。为什么只有一个reducer呢,因为使用了distinct和count(full aggreates),这两个函数产生的mr作业只会产生一个reducer,而且哪怕显式指定set mapred.reduce.tasks=100000也是没用的。当使用count(distinct)处理海量数据(比如达到一亿以上)时,会使得运行速度变得很....

大数据知识面试题-Hive
1.1、Hive 数据模型Hive中所有的数据都存储在HDFS中,没有专门的数据存储格式在创建表时指定数据中的分隔符,Hive 就可以映射成功,解析数据。Hive中包含以下数据模型:**db:**在hdfs中表现为hive.metastore.warehouse.dir目录下一个文件夹**table:**在hdfs中表现所属db目录下一个文件夹**external table:**数据存放位置可....

大数据面试-hive
一、hive表关联查询,如何解决数据倾斜问题?1)倾斜原因:map 输出数据按 key Hash 的分配到 reduce 中,由于 key 分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的 reduce 上的数据量差异过大。(1)key 分布不均匀;(2)业务数据本身的特性;(3)建表时考虑不周;(4)某些 SQL 语句本身就有数据倾斜;如何避免:对于 key 为空产生的数据倾斜,可以....
【大数据面试题】(三)Hive 基础知识及优化总结2
4.cluster bycluster by除了具有distribute by的功能外还兼具sort by的功能。当distribute by和sort by 是同一个字段的时候可以使用cluster by替代。但是排序只能是倒叙排序,不能指定排序规则为ASC或者DESC。三种分组的区别1.row_number:不管col2字段的值是否相等,行号一直递增,比如:有两条记录的值相等,但一个是第一,....
【大数据面试题】(三)Hive 基础知识及优化总结1
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Metastore (hive元数据)Hive将元数据存储在数据库中,比如mysql 、derby。Hive中的元数据包括表的名称,表的列和分区及其属性,表的数据所在的目录。Hive数据存储在HDFS,大部分的查询、计算由map....
【大数据面试题】(二)Hive 相关面试题总结
文章目录1、Hive 表关联查询,如何解决数据倾斜的问题?2、请谈一下 Hive 的特点,Hive 和 RDBMS 有什么异同?3、请说明 hive 中 Sort By,Order By,Cluster By,Distrbute By各代表什么意思?4、Hive 有哪些方式保存元数据,各有哪些特点?5、Hive 内部表和外部表的区别?6、Hive 的 HSQL 转换为 MapReduce 的过程....

【最全的大数据面试系列】Hive面试题大全
作者 :“大数据小禅” 专栏简介 :本专栏主要分享收集的大数据相关的面试题,涉及到Hadoop,Spark,Flink,Zookeeper,Flume,Kafka,Hive,Hbase等大数据相关技术。大数据面试专栏地址。 个人主页 :大数据小禅 粉丝福利 :加入小禅的大数据社群 欢迎小伙伴们 点赞、收藏⭐、留言面试题目录1.Hive 表关联查询,如何解决数据倾斜的问题?2.Hive 的 HS.....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
Java面试那些事儿
手把手带您学习Java,开启编程之路。
+关注