• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

虚列火花JDBC

apache-spark 来源:clear sky 9次浏览

我使用的查询,如下所示,以从MySQL获取数据:虚列火花JDBC

var df = spark.read.format("jdbc") 
     .option("url", "jdbc:mysql://10.0.0.192:3306/retail_db") 
     .option("driver" ,"com.mysql.jdbc.Driver") 
     .option("user", "retail_dba") 
     .option("password", "cloudera") 
     .option("dbtable", "orders") 
     .option("partitionColumn", "order_id") 
     .option("lowerBound", "1") 
     .option("upperBound", "68883") 
     .option("numPartitions", "4") 
     .load() 

问题是,我可以使用伪柱(像ROWNUM在Oracle或RRN(employeeno)在DB2)与option其中I指定partitionColumn

如果不是,我们可以指定一个不是主键的分区列吗?

===========解决方案如下:

根据spark的官方文档,partitionColumn可以是任何数字列(不一定是主键列)。

partitionColumn必须是相关表中的数字列。

参考:http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases


版权声明:本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系管理员进行删除。
喜欢 (0)