14万电影800万影评数据集介绍

zh
zh
zh
26
文章
0
评论
2020-04-1710:05:00 评论 2,301 2339字
摘要

本文主要介绍 movies.csv、person.csv、users.csv、comments.csv、ratings.csv等影评数据集,以便更好地用于数据挖掘领域。

一.数据集概况

本数据集采集于豆瓣电影,电影与明星数据收集于2019年8月上旬,影评数据(用户、评分、评论)收集于2019年9月初,共945万数据,其中包含14万部电影,7万演员,63万用户,416万条电影评分,442万条影评,该数据集正好弥补下国内公开电影数据集的空缺。数据已经过初步清洗,可用于推荐系统、情感分析、QA问答、知识图谱等多个领域。

数据集共有5个文件: movies.csv、person.csv、users.csv、comments.csv、ratings.csv,关于各个文件的具体内容将在下文介绍。

二.使用许可

该数据集只为方便各位研究人员,如涉及侵犯个人或团体利益,请与我们联系,我们将主动撤销一切相关数据,谢谢

数据使用需遵循豆瓣使用协议 & 豆瓣隐私政策,

该数据集仅限用于研究目的,我们不能保证数据的正确性以及任何场景的适用性。对于使用这份数据的用户,必须严格遵循下列条件:

  1. 未经许可,用户不得将此数据集用于任何商业或收入交易用途。
  2. 未经单独许可,用户不得重新转发数据。
  3. 用户在使用数据集时,必须声明数据来源。

在任何情况下,我们均不对因使用这些数据而造成的任何损失承担责任(包括但不限于数据丢失或数据不准确)。

三.数据格式

1.Movie数据格式

电影数据共140502部,2019年之前的电影有139129,当前未上映的有1373部,包含21个字段,部分字段数据为空,字段说明如下:

  • MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
  • NAME: 电影名称
  • ALIAS: 别名
  • ACTORS: 主演
  • COVER: 封面图片地址
  • DIRECTORS: 导演
  • GENRES: 类型
  • OFFICIAL_SITE: 官方地址
  • REGIONS: 制片国家/地区
  • LANGUAGES: 语言
  • RELEASE_DATE: 上映日期
  • MINS: 片长
  • IMDB_ID: IMDbID
  • DOUBAN_SCORE: 豆瓣评分
  • DOUBAN_VOTES: 豆瓣投票数
  • TAGS: 标签
  • STORYLINE: 电影描述
  • SLUG: 加密的url,可忽略
  • YEAR: 年份
  • ACTOR_IDS: 演员与PERSON_ID的对应关系,多个演员采用"|"符号分割,格式"演员A:ID|演员B:ID";
  • DIRECTOR_IDS: 导演与PERSON_ID的对应关系,多个导演采用"|"符号分割,格式"导演A:ID|导演B:ID";

2.Person数据格式

Person文件只包括演员和导演,不包含豆瓣用户数据,共72959个名人数据,包含10个字段,每个PERSON_ID都会对应一个name,不存在PERSON_ID的数据已过滤,各个字段说明如下:

  • PERSON_ID: 名人ID
  • NAME: 演员名称
  • SEX: 性别
  • NAME_EN: 更多英文名
  • NAME_ZH: 更多中文名
  • BIRTH: 出生日期
  • BIRTHPLACE: 出生地
  • CONSTELLATORY: 星座
  • PROFESSION: 职业
  • BIOGRAPHY: 简介,存在简介数据的名人只有15135个。

3.User数据格式

users.csv数据为豆瓣用户的脱敏信息,主要是与评论和评分绑定在一起,共获取了639125用户数据,包含2个字段(已删除两个),具体的字段如下:

  • USER_MD5:USER_ID加密的MD5,去敏处理
  • USER_NICKNAME: 评论用户昵称
  • USER_AVATAR: 评论用户头像(已删除)
  • USER_URL: 评论用户url(已删除)

4.Rating数据格式

评分数据从评论数据中获得,由于豆瓣限制了未登录用户查看的数据量,所以每部电影最多320个评分,最终得到600384个用户的4169420条评分数据,涉及电影68471部,评分值为1-5分(1-很差,2-较差,3-还行,4-推荐,5-力荐),共包含5个字段,数据格式如下:

  • RATING_ID: 评分ID
  • USER_MD5:USER_ID加密的MD5
  • MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
  • RATING: 评分
  • RATING_TIME: 评分时间

5.Comment数据格式

评论数据共4428475 条,用户638963个,电影68887包含7个字段,各个字段说明如下:

  • COMMENT_ID: 评论ID
  • USER_MD5:USER_ID加密的MD5
  • MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
  • CONTENT: 评论内容
  • VOTES: 评论赞同数
  • RATINGS: 评论携带的分数
  • COMMENT_TIME: 评论时间

四.下载地址

样例数据每个文件1000条数据,下载地址:moviedata_small.tar.gz。完整的数据集有1G+,需要的用户可以点击后面的链接进行下载:moviedata-10m.tar.gz,密码获取方式如下(不定期更换):

  1. 微信搜索【斗码小院】公众号并点击关注;
  2. 后台回复【电影数据集】获取密码.

数据采集不易,为了初步了解多少人使用该数据,还请各位使用人员不要进行二次转发!"授人以鱼不如授人以渔",如果您对爬虫技术感兴趣,可前往Github参考笔者的AntSpider项目源码。如果数据对您有用,可关注下公众号斗码小院,里面有数据收集、数据处理、数据建模等多篇文章,您的关注就是对我们最好的支持,另外,还可以在下方的Github的Star中点击一下。

五.相关数据集推荐

之前也有用户公开过豆瓣电影数据,这里提供下链接给大家参考下,同时提供一下movielens电影数据集的下载地址:

  1. Douban Movie Short Comments Dataset
  2. 豆瓣电影评分数据集
  3. movielens-dataset

六.Contributor

  1. Diwei Liu
  2. Yong Gao
  3. Yina Xu

End.

作者:拾毅者

来源:『刘帝伟』维护的个人技术博客

本文均已和作者授权,如转载请与作者联系。

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: