• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

标签:data-ingestion

apache-spark

如何加载大型csv文件,验证每一行并处理数据

如何加载大型csv文件,验证每一行并处理数据
我希望验证超过6亿行和最多30列的csv文件的每一行(解决方案必须处理该范围的多个大型csv文件)。 列可以是文本,日期或金额。 CSV必须使用40条规则进行验证,某些规则将检查amout的正确性,其中一些规则将检查日期(格式),等等。 必须保存每个验证规则的结果,然后将其显示。 数据验证之后,将应用验证规则的第二阶段,这次基于总和,平均值…还必须保存每个规……继续阅读 »

data-ingestion

在Hadoop提取期间Druid空间维度加载数据错误

在Hadoop提取期间Druid空间维度加载数据错误
我有数据的Hadoop吸收过程(就像https://druid.apache.org/docs/latest/ingestion/hadoop.html一样) 当前的Druid索引器版本为 0.14.2-正在孵化 数据是GCS上的TSV文件。 以前使用过旧版本的德鲁伊索引器,没有任何问题。升级到新版本后出现错误。 一些细节 这是我的规范中的解析部分……继续阅读 »