• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

标签:data-mining

data-mining

对Java中良好的Datamining工具有任何引用吗?

对Java中良好的Datamining工具有任何引用吗?
我们正在为公司进行实习项目。该项目本身包含数据挖掘。假设我们必须工作的数据库结构非常庞大(以千兆字节为单位)。 伤心地说,数据库本身有不一致的值,最重要的没有主键和外键的结构非常糟糕。因此,在我们用于提取和显示不一致数据的简单Servlet模块中,查询要花很多时间才能在Servlet上执行和显示。 作为n00b程序员,我们不了解Join和DB中的此类内容。另……继续阅读 »

data-mining

Java + Redis与普通Java在数据密集型应用程序中的效率?

Java + Redis与普通Java在数据密集型应用程序中的效率?
在Java中使用Redis来开发Java中的数据密集型应用程序(例如数据挖掘)是否有帮助? 与针对大量数据的类似操作相比,纯Java是否能更快地工作或消耗更少的内存? 编辑:我的问题主要是关于在一台机器上运行。例如,用于处理大量列表/集合/ map 并对其进行查询和排序。 解决方案如下: Redis肯定不会比单台机器上的本机Java快。它可以让您分配……继续阅读 »

data-mining

需要帮助选择数据挖掘/神经网络API

需要帮助选择数据挖掘/神经网络API
我正计划为我用Java开发的电子商务平台构建功能,以显示与亚马逊类似的相关产品。我想探讨与产品相关的一些不同指标。 购买历史(同时购买)按家族/类型关联(相似的产品分类)故意相关(增强结果;“购买!”) 虽然我可能可以开发自己的数据挖掘库,但它不是非常可移植的,而且我敢说它也不是很好。 有几种软件包可以做这种事情,但是我感觉我无法评估哪种软件包或解决方案最适……继续阅读 »

data-mining

Hadoop M / R实现 “People You Might Know”友谊推荐

Hadoop M / R实现 “People You Might Know”友谊推荐
如何通过查看两个人有多少个共同的 friend 来建立一个友谊推荐系统,并使用mapreduce工作将他们推荐为 friend ?有点像facebook或linkedin所做的事情,显示推荐人员列表,并按共同 friend 的数量对其进行排名。 解决方案如下: 该解决方案来自我的博客,我在项目中使用了此代码。 完整版,请参见https://www.d……继续阅读 »

data-mining

如何通过Java作为Web服务从数据挖掘中可视化树

如何通过Java作为Web服务从数据挖掘中可视化树
大家好,我正在尝试制作一个Web服务以可视化数据挖掘的分类结果。我已经能够制作一个Web服务,当我输入训练数据集时,我会得到一个字母数字形式的树。我正在使用WEKA库进行数据挖掘。如果我获取一个样本数据,并使用J.48方法对其进行绘图,则会得到以下结果: N0 [label="outlook" ] N0->N1 [label="= sunny"] N1……继续阅读 »

data-mining

需要帮助来为恶意网址的数据集创建mapreduce

需要帮助来为恶意网址的数据集创建mapreduce
我正在完成我的最后一个项目,我们必须创建一个应用程序来检测恶意URL。我们必须在所有网址之间找到模式。我们有一个很大的数据集,需要很长时间才能将一个URL与其他URL进行匹配。 现在我们正在考虑将项目移至hadoop,但是我们没有获得如何为Java项目和数据集进行mapreduce并将其移至hadoop的方法。 请帮助我们为程序和数据集创建mapreduce……继续阅读 »

data-mining

Java + Redis与普通Java在数据密集型应用程序中的效率?

Java + Redis与普通Java在数据密集型应用程序中的效率?
在Java中使用Redis来开发Java中的数据密集型应用程序(例如数据挖掘)是否有帮助? 与针对大量数据的类似操作相比,纯Java是否能更快地工作或消耗更少的内存? 编辑:我的问题主要是关于在一台机器上运行。例如,用于处理大量列表/集合/ map 并对其进行查询和排序。 解决方案如下: Redis肯定不会比单台机器上的本机Java快。它可以让您分配……继续阅读 »

classification

如何将数据集分为训练集和测试集?

如何将数据集分为训练集和测试集?
我试图使用朴素贝叶斯分类算法和map-reduce框架对数据集进行分类。我的问题是如何将数据集划分为训练集和测试集,以从校正和错误编辑的分类实例中计算准确性? 解决方案如下: 您可以使用RemovePercentage过滤器训练集:1.加载完整的数据集2.在预处理面板中选择RemovePercentage过滤器3.为拆分设置正确的百分比4.应用过滤器……继续阅读 »

data-mining

在mahout频谱聚类中,亲和矩阵中的对角元素值应该是多少

在mahout频谱聚类中,亲和矩阵中的对角元素值应该是多少
标题说明了一切,这是光谱聚类Spectral clustering Documentation的链接 第一步是为我们的数据点提取相似度矩阵。当说相似度矩阵时,我假设相同实体(用户,文档等)之间的相似度应为1(与距离矩阵为0相对)。 但在他们的示例中,他们为相同实体指定了得分0: 0,0 0 1,1 0 在这里我有点困惑。曾经从事光谱聚类工作的任何人都可以帮助……继续阅读 »

data-mining

在Hadoop中实现采样和数据挖掘算法

在Hadoop中实现采样和数据挖掘算法
当前的实现包括对大型输入交易文件进行采样,然后最终将“FP增长算法”应用于此采样数据以进行数据挖掘。但是,它有其局限性,我想更大规模地实现它。根据以下采样方法(基于用户响应)对事务文件进行采样: 随机采样 系统采样 分层​​采样 群集采样 从采样交易(FAST)算法中查找关联。 目标是在Hadoop中实现它以进行并行处理并支持大输入数据文件。任何指针如何在……继续阅读 »