在做数据分析时,往往会碰到很多K-V结构,而处理K-V这种Pair型的数据结构是非常常见的事。下面首先会对combineByKey的各个参数进行简单的介绍,然后通过一个实例来加深对...
豆瓣电影短评数据情感分析Baseline
为了进一步发挥数据的价值,这次将介绍下如何基于豆瓣影评数据进行评论情感分析,分享一个比较简单的情感分析baseline,后续有机会再将进一步的优化结果分享出来。
机器学习算法比较
机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法并不容易,所以在实际应用中,如果只在寻找一个"足够好"的算法来解决问题,下面来分析下各个算法的优缺...
13万豆瓣电影数据爬取原理剖析
本文将重点分享下我是如何构建豆瓣电影数据爬取模型,如何处理爬虫过程中遇到的问题,最终得到13w+电影数据加上28w+的影评数据。
基于豆瓣电影数据构建知识图谱
本文将开启本博客新的知识领域——知识图谱。基于这13w豆瓣电影数据,提取出图谱数据,并以此建立图谱数据库,构建电影知识图谱。
25个Java机器学习工具&库(译)
本文总结了25个Java机器学习工具&库。原文地址:25 Java Machine Learning Tools & Libraries;CSDN译文链接:http://www.c...
14万电影800万影评数据集介绍
本文主要介绍 movies.csv、person.csv、users.csv、comments.csv、ratings.csv等影评数据集,以便更好地用于数据挖掘领域。
PCA主成分分析Python实现
PCA主成分分析,主要是用来降低数据集的维度,然后挑选出主要的特征。原理简单,实现也简单。关于原理公式的推导,本文不会涉及,你可以参考下面的参考文献,也可以去Wikipedia,这...
浅谈影评情感分析数据集的构建
针对豆瓣的电影评论数据做了一个比较简单的情感分析,效果不是很好,最近又进行了进一步尝试,发现了一点点关于情感分析数据集的小门道,这里简单的总结下,后续做文本分析,或许还可以使用上。
Linux环境下非root用户安装Python及相关库
root用户安装的Python版本太低,同时自己没有root权限去对全局Python升级等情况,要在非root用户下安装自己指定的Python。故整理了一份如何在Linux环境下使...
评论