注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

P对NP的世界

Polynomial时间和指数时间的比赛

 
 
 

日志

 
 

Difference between RDD and Dataframe of Apache Spark  

2015-10-23 09:44:29|  分类: Big data |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

The dataframe and RDD made me confused recently after I have studied the apache spark.  For example,  I want to split tweet text from the json file. It was failure when I learned it.  Today I make it clear than before.

 


val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val path = "/home/uqgzhu1/datasets/twitter_Stream_test.json"
// Create a DataFrame

val twitter = sqlContext.jsonFile(path)

// from JSON files in S3
//logs = context.load("s3n://path/to/data.json", "json")

// The inferred schema can be visualized using the printSchema() method.
twitter.printSchema()

// Register this DataFrame as a table.
twitter.registerTempTable("twitter")

twitter.take(10).foreach(println)

 

Above codes just got a dataframe.

 


#datafarm to RDD types
var twitterrdd=twitter.rdd


val documents: RDD[Seq[String,String]] = twitterrdd( "tweet_ID", "tweet_text")

 

  评论这张
 
阅读(2055)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017