Ignite实战(11) _生活百科

算法：逻辑回归、线性 SVM（支持向量机）、k-NN 分类、朴素贝叶斯、决策树、随机森林、多层感知器、梯度提升、ANN（近似最近邻）

3.2 回归对标量因变量 (y) 与一个或多个解释变量或自变量 (x) 之间的关系进行建模。

适用性：药物反应、股票价格、超市收入。
算法：线性回归、决策树回归、k-NN 回归。

3.3 聚类以这样一种方式对一组对象进行分组，即同一组（称为集群）中的对象彼此之间（在某种意义上）比其他组（集群）中的对象更相似。

适用性：客户细分、实验结果分组、购物项目分组。
算法： K-Means 聚类、高斯混合 (GMM) 。

3.4 推荐构建推荐系统，它是信息过滤系统的子类，旨在预测用户对项目的“评分”或“偏好” 。

适用性：视频和音乐服务的播放列表生成器，服务的产品推荐器
算法：矩阵分解。

3.5 预处理特征提取和归一化。

适用性：转换输入数据（例如文本）以用于机器学习算法，以提取我们需要适应的特征，对输入数据进行规范化。
算法： Apache Ignite ML 支持使用基于分区的数据集功能进行自定义预处理，并具有默认预处理器，例如规范化预处理器、one-hot-encoder、min-max 缩放器等。

3.总结Ignite和Hadoop解决的是不同业务场景的问题，即使在一定程度上可能应用了类似的底层基础技术。Ignite是一种多用途，和OLAP/ OLTP内存中数据结构相关的，而Hadoop仅仅是Ignite原生支持的诸多数据来源之一。
Spark是一个和Ignite类似的项目。但是Spark聚焦于OLAP，而Ignite凭借强大的事务处理能力在混合型的OLTP/ OLAP场景中表现能力更好。特别是针对Hadoop，Ignite将为现有的MapReduce框架，Hive作业提供即插即用模式的加速，避免了推倒重来的做法，而Spark需要先做数据ETL，更适合开发新的分析应用。
4.结束语这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！
另外，博主出书了《Kafka并不难学》和《Hadoop大数据挖掘从入门到进阶实战》，喜欢的朋友或同学，可以在公告栏那里点击购买链接购买博主的书进行学习，在此感谢大家的支持。关注下面公众号，根据提示，可免费获取书籍的教学视频。