Ignite实战(11)

  • 算法: 逻辑回归、线性 SVM(支持向量机)、k-NN 分类、朴素贝叶斯、决策树、随机森林、多层感知器、梯度提升、ANN(近似最近邻)
  • 3.2 回归对标量因变量 (y) 与一个或多个解释变量或自变量 (x) 之间的关系进行建模 。
    • 适用性:药物反应、股票价格、超市收入 。
    • 算法:线性回归、决策树回归、k-NN 回归 。
    3.3 聚类以这样一种方式对一组对象进行分组,即同一组(称为集群)中的对象彼此之间(在某种意义上)比其他组(集群)中的对象更相似 。
    • 适用性:客户细分、实验结果分组、购物项目分组 。
    • 算法: K-Means 聚类、高斯混合 (GMM) 。
    3.4 推荐构建推荐系统,它是信息过滤系统的子类,旨在预测用户对项目的“评分”或“偏好” 。
    • 适用性: 视频和音乐服务的播放列表生成器,服务的产品推荐器
    • 算法: 矩阵分解 。
    3.5 预处理特征提取和归一化 。
    • 适用性:转换输入数据(例如文本)以用于机器学习算法,以提取我们需要适应的特征,对输入数据进行规范化 。
    • 算法: Apache Ignite ML 支持使用基于分区的数据集功能进行自定义预处理,并具有默认预处理器,例如规范化预处理器、one-hot-encoder、min-max 缩放器等 。
    3.总结Ignite和Hadoop解决的是不同业务场景的问题,即使在一定程度上可能应用了类似的底层基础技术 。Ignite是一种多用途,和OLAP/ OLTP内存中数据结构相关的,而Hadoop仅仅是Ignite原生支持的诸多数据来源之一 。
    Spark是一个和Ignite类似的项目 。但是Spark聚焦于OLAP,而Ignite凭借强大的事务处理能力在混合型的OLTP/ OLAP场景中表现能力更好 。特别是针对Hadoop,Ignite将为现有的MapReduce框架,Hive作业提供即插即用模式的加速,避免了推倒重来的做法,而Spark需要先做数据ETL,更适合开发新的分析应用 。
    4.结束语这篇博客就和大家分享到这里,如果大家在研究学习的过程当中有什么问题,可以加群进行讨论或发送邮件给我,我会尽我所能为您解答,与君共勉!
    另外,博主出书了《Kafka并不难学》和《Hadoop大数据挖掘从入门到进阶实战》,喜欢的朋友或同学,可以在公告栏那里点击购买链接购买博主的书进行学习,在此感谢大家的支持 。关注下面公众号,根据提示,可免费获取书籍的教学视频 。

    经验总结扩展阅读