在Mahout实现的机器学习算法见下表
算法类
|
算法名
|
中文名
|
分类算法
|
Logistic Regression
|
逻辑回归
|
Bayesian
|
贝叶斯
|
SVM
|
支持向量机
|
Perceptron
|
感知器算法
|
Neural Network
|
神经网络
|
Random Forests
|
随机森林
|
Restricted Boltzmann Machines
|
有限波尔兹曼机
|
聚类算法
|
Canopy Clustering
|
Canopy聚类
|
K-means Clustering
|
K均值算法
|
Fuzzy K-means
|
模糊K均值
|
Expectation Maximization
|
EM聚类(期望最大化聚类)
|
Mean Shift Clustering
|
均值漂移聚类
|
Hierarchical Clustering
|
层次聚类
|
Dirichlet Process Clustering
|
狄里克雷过程聚类
|
Latent Dirichlet Allocation
|
LDA聚类
|
Spectral Clustering
|
谱聚类
|
关联规则挖掘
|
Parallel FP Growth Algorithm
|
并行FP Growth算法
|
回归
|
Locally Weighted Linear Regression
|
局部加权线性回归
|
降维/维约简
|
Singular Value Decomposition
|
奇异值分解
|
Principal Components Analysis
|
主成分分析
|
Independent Component Analysis
|
独立成分分析
|
Gaussian Discriminative Analysis
|
高斯判别分析
|
进化算法
|
并行化了Watchmaker框架
|
<wbr></wbr>
|
推荐/协同过滤
|
Non-distributed recommenders
|
Taste(UserCF, ItemCF, SlopeOne)
|
Distributed Recommenders
|
ItemCF
|
向量相似度计算
|
RowSimilarityJob
|
计算列间相似度
|
VectorDistanceJob
|
计算向量间距离
|
非Map-Reduce算法
|
Hidden Markov Models
|
隐马尔科夫模型
|
集合方法扩展
|
Collections
|
扩展了java的Collections类
|
Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。
分享到:
相关推荐
mahout有哪些算法,这个图片上列举了mahout上的算法的名字
https://github.com/chubbyjiang/MapReduce
我们将Movielens数据集用于我们的项目,并转换数据模型的数据形式。 2.使用几种不同的算法来计算用户或项目中的相似度。 3对于基于用户的方法,我们需要进行邻域计算。 4使用基于用户的CF和基于项目的CF进行推荐。 5...
两种东西,其一是IBM微软数据产品为代表的,其二是Hadoop+Hive+Apache Hive数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。 可以将结构投影到已经存储的数据上。 提供了命令行工具和...
基于大数据背景下海量数据人们无法理解,聚类效率低下等问题,采用MapReduce编程模型将Canopy聚类算法和K-means聚类算法在云环境...结果表明,基于MapReduce的聚类算法在大规模数据集上具有较好的聚类质量和运行速度。
缺少深度学习算法框架 Mahout ⽀持的语⾔:java,scala ⽀持的⽂件系统:HDFS ⽀持的数据库:Hive,HBase ⽀持的算法:分类,聚类,回归,降维,协同过滤 优点: 1. 基于hadoop实现 2. 利⽤MapReduce计算引擎,提升...
Mahout部分实现(RF-BigData)是一种为数据的不同部分构建多个树的算法。 该算法分为两个不同的阶段:第一阶段专门用于创建模型,第二阶段专门用于使用先前学习的模型估计与数据集关联的类。 在第一阶段,随机森林...
ROSEFW-RF:ECBDL'14 大数据竞赛的获胜算法:一个极度不平衡的大数据生物信息学问题。 基于知识的系统,印刷中。 doi:10.1016/j.knosys.2015.05.027 用ANT编译整个项目: $ ant 将数据集文件夹放入HDFS系统: ...
基于Hadoop来实现的经典算法,拿这个作为数据分析的核心算法集来参考还是很好的。 大数据分析平台全文共4页,当前为第2页。 大数据分析平台全文共4页,当前为第2页。 如此一个决策支持系统要怎么展现呢?其实这个和...
算法的引擎很容易创建,通用推荐引擎使用 Spark 创建模型。 Compute-Engine Neutral :支持任何与 JVM 兼容的计算引擎或预打包算法库。 例如 Spark、TensorFlow、Vowpal Wabbit、MLlib、Mahout 等。不需要 Spark 或 ...
bigdata-2大数据 二 跑在hadoop平台上的测试代码,和实际运行在平台上的代码有些不同核心功能部分代码...开发环境实际是通过修改查看mahout 源码测试训练集的代码 写成分布式程序 修改了文件输入的格式为支持多个小文件
TLP项⽬创建⼀个可扩展的机器学习算法。Mahout有许多免费的和付费的语料库语料。 v2由安然公司邮件信息和附件组成,存在两组可下载的压缩⽂件中:XML和PST。 ⽤来⽀持信息检索和相关⼈类语⾔技术研究的资料库。它...
9.3.4 其他Mahout clustering 算法 . 9.4 本章小结 第5 部分 驯服大象 10 深入解析 Hive 10.1 Hive 基础 10.1.1 安装 10.1.2 元存储 10.1.3 数据库、表、分区和存储 10.1.4 数据模型 ...
ve Bayesian 分类器9.2.2 可扩展的垃圾邮件侦测分类系统技术点62 使用Mahout 训练和测试垃圾邮件分类器9.2.3 其他分类算法9.3 K-means clustering 9.3.1 简单介绍9.3.2 并行执行K-means 技术点63 K-...
项目,包含所有相应的库和数据集。 章节 应用机器学习快速入门 用于机器学习的 Java 工具和库 基本算法:分类、回归和聚类 客户关系预测 亲和力分析 带有 Apache Mahout 的推荐引擎 欺诈和异常检测 使用 Deep...
3.3 读和写 3.3.1 InputFormat 3.3.2 OutputFormat 3.4 小结第二部分 实战 第4章 编写MapReduce基础程序 4.1 获得专利数据集 4.1.1 专利引用数据 4.1.2 专利描述数据 4.2 构建MapReduce 程序的基础模板 4.3...
实战第4 章 编写MapReduce基础程序4.1 获得专利数据集4.1.1 专利引用数据4.1.2 专利描述数据4.2 构建MapReduce 程序的基础模板4.3 计数4.4 适应Hadoop API 的改变4.5 Hadoop 的Streaming4.5.1 通过Unix命令使用...
2.1.1 简单的位置偏好数据集 17 2.1.2 存储汽车品牌和型号数据 22 2.2 使用多种语言 30 2.2.1 MongoDB驱动 30 2.2.2 初识Thrift 33 2.3 小结 34 第3章 NoSQL接口与交互 36 3.1 没了SQL还剩什么 36 3.1.1 ...
433.3 读和写 433.3.1 InputFormat 443.3.2 OutputFormat 493.4 小结 50第二部分 实战第4章 编写MapReduce基础程序 524.1 获得专利数据集 524.1.1 专利引用数据 534.1.2 专利描述数据 544.2 构建MapReduce程序的基础...
1296.3.3 使用压缩 1296.3.4 重用JVM 1326.3.5 根据猜测执行来运行 1326.3.6 代码重构与算法重写 1336.4 小结 134第7章 细则手册 1357.1 向任务传递作业定制的参数 1357.2 探查任务特定信息 1377.3...