spark | 您所在的位置:网站首页 › sparksql读取hdfs文件 › spark |
此种开发基本不用,因为以后都是通过sparkSession为入口来操作,用SparkSql相关的算子来实现,这里只是熟悉下RDD-CORE的基本用法 开发前提: 1 如果 服务器有配置hostname,则最好在本地电脑配置下host文件 2 可能spark版本的关系,如果不能访问,则需要在 resources目录下放置 core-site和hdfs-site的配置文件 (服务器上下载) 3 如果往hdfs上写文件时,没有权限操作失败,则看下当前hdfs文件目录的所属用户,然后在windows中新建一个一样的用户,注销并切换到该用户,在这个用户下执行就可以了 4 hdfs://kncloud02:8020 是配置文件中的fs.defaultFS属性 //读取 hdfs JavaRDD stringJavaRDD = javaSparkContext.textFile("hdfs://kncloud02:8020/test01.db/e_board");//写入 hdfs stringJavaRDD.saveAsTextFile("hdfs://kncloud02:8020/test01.db/e_board_bak_1357"); |
CopyRight 2018-2019 实验室设备网 版权所有 |