1.rdd和dataFrame的联系。
dataFrame是一个分布式的数据集合,其中数据被组织为命名的列,他概念上等价于关系型数据库中的表。dataFrame可以直接从很多数据源进行构建,比如已经存在的rdd,结构化未见,外部数据库hive表等等。
与dataFrame差异的是RDD可以看成是分布式对象的集合。
从spark2.0开始,spark将dataFrame整合成为DataSet的子集。
2.sparkSql
要使用sparksql,首先,必须得创建一个sparkContext,然后再创建一个sqlContext,sparksql对象作为参数传入sqlContext中,对于sqlContext,目前只有一个sql语法解析器sql,而对于hivesql,只有两个hivesql和sql解析器。默认是hivesql,我们可以使用以下的方式进行设置。
sqlContext.setConf(
如果你对以下车友回答满意,请设置一个推荐答案!
|