查看: 回复:2

spark总结

\"收藏此主题\"

麒麟山

 
 
注册:
2008-03-19
  • 0粉丝
  • 0精华
  • 758帖子
1.rdd和dataFrame的联系。

    dataFrame是一个分布式的数据集合,其中数据被组织为命名的列,他概念上等价于关系型数据库中的表。dataFrame可以直接从很多数据源进行构建,比如已经存在的rdd,结构化未见,外部数据库hive表等等。

   与dataFrame差异的是RDD可以看成是分布式对象的集合。

   从spark2.0开始,spark将dataFrame整合成为DataSet的子集。

2.sparkSql

     要使用sparksql,首先,必须得创建一个sparkContext,然后再创建一个sqlContext,sparksql对象作为参数传入sqlContext中,对于sqlContext,目前只有一个sql语法解析器sql,而对于hivesql,只有两个hivesql和sql解析器。默认是hivesql,我们可以使用以下的方式进行设置。

     sqlContext.setConf(
 
回复本楼

太平洋汽车全新推出“太平洋车友会”;来太平洋车友会,结识志同道合的车友了解详情>>

东北梁子

 
 
注册:
2009-12-18
看了楼主的帖子,先顶顶再说
 
回复本楼

pirate

 
 
注册:
2015-11-23
车友会签到333天以上
来自太平洋汽车 Android客户端  
写的真不错,感谢辛苦付出
 
回复本楼
未登录用户

只可添加一张图片,多张图片请选高级模式

高级模式
温馨提示:回复超10字可获1金币,有独特见解超30字可获3金币,灌水用户将扣除金币并锁号处理。希望广大车友共同维护论坛的友好回复氛围。
常用表情
您可能感兴趣

支付宝扫码询价
领最高888元现金红包

关闭