0%

spark擅长分布式处理海量数据,opencv又是进行图像处理的利器,在面对海量图片的时候,我们是否可以考虑结合二者的优势? 本文将展示如何在spark下使用opencv,并训练一个简单的二分类模型。

阅读全文 »

在之前的文章中我曾写到, 用户和物品的交互关系可以是一个稀疏矩阵, 我们把这个矩阵称作评分矩阵\(R_{m,n}\), 比如下面的例子, ? 表示缺失

user/item item_0 item_1 item_2 item_3 item_4
user_0 ? 2 1 2 ?
user_1 2 ? ? 1 2
user_2 ? 1 1 2 ?
user_3 1 ? ? 1 3
阅读全文 »

spark streaming 和 Apache Storm、Apache Flink同属于大数据实时处理框架 spark streaming的流式处理是一种基于micro-batch的想法, 这篇文章会讲解 Spark Streaming 两种计算模型,无状态和状态计算模型以及该两种模型的注意事项,最后将小结一下Spark Streaming 的优缺点。

概述

根据其官方文档介绍,Spark Streaming 有高扩展性、高吞吐量和容错能力强的特点。Spark Streaming 支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。原生支持常用的spark transform操作如:map、reduce、join、window 等进行运算。而结果有多种方式sink。并且可以和已有的spark MLlib完美衔接。其优秀的特点使用于多种业务场景,比如监控,网页点击、实时推荐等

阅读全文 »

推荐系统需要根据用户的历史行为和兴趣来预测用户将来的行为和兴趣,然而对于很多在开始阶段就希望有个性化推荐应用的网站来说,如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对网站内容从而愿意继续使用推荐系统就是冷启动问题。

阅读全文 »

本篇博客主要记录了如何使用github的pages以及Hexo搭建博客, 方便读者快速实现个人博客梦想

什么是Github Pages

首先得知道Github pages的规则: > 每个Github账号下面只能建立一个Pages,且命名必须符合这样的规则:"username.github.io" > 创建成功后,username.github.io就是你的域名(当然你可以通过别名解析绑定自己的域名)

阅读全文 »

协同过滤在整个推荐系统的发展历史上具有重要地位 本文介绍了在分布式环境下如何利用协同过滤的思想进行推荐, 协同思想在推荐系统中会反复使用, 工程上实现简单, 业务可解释性强。协同过滤大体上分为基于用户(user-based)的协同过滤算法和基于商品(item-based)的协同过滤算法。 两种算法在具体实现上没有过多区别。

阅读全文 »