- 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧
我希望验证超过6亿行和最多30列的csv文件的每一行(解决方案必须处理该范围的多个大型csv文件)。
列可以是文本,日期或金额。 CSV必须使用40条规则进行验证,某些规则将检查amout的正确性,其中一些规则将检查日期(格式),等等。
必须保存每个验证规则的结果,然后将其显示。
数据验证之后,将应用验证规则的第二阶段,这次基于总和,平均值…还必须保存每个规……继续阅读 »
我有数据的Hadoop吸收过程(就像https://druid.apache.org/docs/latest/ingestion/hadoop.html一样)
当前的Druid索引器版本为 0.14.2-正在孵化
数据是GCS上的TSV文件。
以前使用过旧版本的德鲁伊索引器,没有任何问题。升级到新版本后出现错误。
一些细节
这是我的规范中的解析部分……继续阅读 »