• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

标签:dataframe

apache-spark

在Java中的Spark Dataframe中将CSV值转换为Vector

在Java中的Spark Dataframe中将CSV值转换为Vector
我有一个包含两列的CSV文件 id, features id列是一个字符串,features列是一个用逗号分隔的机器学习算法的特征值列表。 “[1,4,5]”我基本上只需要在值上调用Vectors.parse()即可获得 vector ,但是我不想首先转换为RDD。 我想将其放入Spark Dataframe中,其中features列是 org.apac……继续阅读 »

apache-spark

spark / java中的TINYINT(1)

spark / java中的TINYINT(1)
This question already has answers here: Why does TINYINT(1) function as a boolean but INT(1) does not? (5个答案) 昨天关闭。 我的MySQL数据库上有一张表,其列类型为acc s TINYINT(1): +-------------+---……继续阅读 »

apache-spark

使用Spark / Java的isin()函数

使用Spark / Java的isin()函数
我有以下两个数据框。 dataframe1 ┌────────────┬─────────────┬──────────────┐ │idZones │Longitude │latitude | ├────────────┼─────────────┼──────────────┤ |[50,30,10] |-7.073781666……继续阅读 »

apache-spark

加入数据框Spark Java

加入数据框Spark Java
首先,感谢您拨冗阅读我的问题。 我的问题如下:在带有Java的Spark中,我在两个dataframe中加载两个csv文件的数据。 这些数据帧将具有以下信息。 数据框机场 Id | Name | City ----------------------- 1 | Barajas | Madrid 数据框airport_city_state Cit……继续阅读 »

apache-spark

在spark1.6 Java API中如何获取数据帧的所有分区值?

在spark1.6 Java API中如何获取数据帧的所有分区值?
我有一个划分为3列的数据框,我想知道是否有一种方法可以在不遍历整个dataFrame的情况下获取具有分区名称的那些分区的唯一值? 解决方案如下: 我在未找到可行方法的情况下仔细研究了spark(1.6和2.4)源代码。通常,要检索有关分区的数据,可以将数据帧转换为rdd。然后,您将获得一个MapPartitionsRDD,并且可以使用以下方法: ge……继续阅读 »