机器学习--线性回归/正规方程解法/梯度下降法
线性回归可以说是最基础的机器学习模型,本文将对此模型做一个分析,并介绍常见的线性回归模型的训练方法。以及由此衍生出的逻辑回归(LR),多分类。
机器学习--spark基于opencv做图片分类
spark擅长分布式处理海量数据,opencv又是进行图像处理的利器,在面对海量图片的时候,我们是否可以考虑结合二者的优势? 本文将展示如何在spark下使用opencv,并训练一个简单的二分类模型。
推荐系统-使用ALS求解LFM模型
在之前的文章中我曾写到, 用户和物品的交互关系可以是一个稀疏矩阵, 我们把这个矩阵称作评分矩阵\(R_{m,n}\), 比如下面的例子, ? 表示缺失
user/item | item_0 | item_1 | item_2 | item_3 | item_4 |
---|---|---|---|---|---|
user_0 | ? | 2 | 1 | 2 | ? |
user_1 | 2 | ? | ? | 1 | 2 |
user_2 | ? | 1 | 1 | 2 | ? |
user_3 | 1 | ? | ? | 1 | 3 |
大数据--spark-streaming开发总结
spark streaming 和 Apache Storm、Apache Flink同属于大数据实时处理框架 spark streaming的流式处理是一种基于micro-batch的想法, 这篇文章会讲解 Spark Streaming 两种计算模型,无状态和状态计算模型以及该两种模型的注意事项,最后将小结一下Spark Streaming 的优缺点。
概述
根据其官方文档介绍,Spark Streaming 有高扩展性、高吞吐量和容错能力强的特点。Spark Streaming 支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。原生支持常用的spark transform操作如:map、reduce、join、window 等进行运算。而结果有多种方式sink。并且可以和已有的spark MLlib完美衔接。其优秀的特点使用于多种业务场景,比如监控,网页点击、实时推荐等
大数据--spark应用性能优化常见错误处理
本篇文章会讲述spark应用的性能调优, 针对常见的数据倾斜问题提出了一些解决方案, 以及如何避免Task Not SerializableException错误
推荐系统--基于spark graphX的pageRank算法计算冷启动商品
推荐系统需要根据用户的历史行为和兴趣来预测用户将来的行为和兴趣,然而对于很多在开始阶段就希望有个性化推荐应用的网站来说,如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对网站内容从而愿意继续使用推荐系统就是冷启动问题。
hexo+next制作博客
本篇博客主要记录了如何使用github的pages以及Hexo搭建博客, 方便读者快速实现个人博客梦想
什么是Github Pages
首先得知道Github pages的规则: > 每个Github账号下面只能建立一个Pages,且命名必须符合这样的规则:"username.github.io" > 创建成功后,username.github.io就是你的域名(当然你可以通过别名解析绑定自己的域名)
推荐系统-协同过滤
协同过滤在整个推荐系统的发展历史上具有重要地位 本文介绍了在分布式环境下如何利用协同过滤的思想进行推荐, 协同思想在推荐系统中会反复使用, 工程上实现简单, 业务可解释性强。协同过滤大体上分为基于用户(user-based)的协同过滤算法和基于商品(item-based)的协同过滤算法。 两种算法在具体实现上没有过多区别。