Python自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库,可以搭配Python建网站,或者为python网络爬虫存储数据。
文本情感分析的学习笔记
自然语言处理NLP的一项重要处理就是情感分析Sentiment Analysis,它在社交内容的分析以及电商评论反馈分析中,都占有很高的分析价值,下面整理了情感分析的入门知识框架。
Python爬虫实战(3):安居客房产经纪人信息采集
Python开源网络爬虫项目启动之初,我们就把网络爬虫分成两类:即时爬虫和收割式网络爬虫。为了使用各种应用场景,该项目的整个网络爬虫产品线包含了四类产品。
城市要素库时空分析系统建设思路
前面的所有文章都是开发网络爬虫的编程要点,那么数据可以做什么呢?接下来我打算探讨一些数据分析应用场景。在过去的两年里,GooSeeker团队内部组建了一个小组,专门探索与城市相关的...
为政民互动大数据分析建立特征词库
本文的目的是让"文科生"也能做文本挖掘。这也是我在多个商业分析项目中采用的方法,看起来简单粗暴,但是非常有效。
第五章 Python爬虫:常用浏览器的useragent
在写python网络爬虫程序的时候,经常需要修改UserAgent,比如:不同Agent下看到的内容不一样,比如,京东网站上的手机版网页和pc版网页上的商品优惠不一样。
ROST-CM软件分词和词频统计用法体验
前面的文章我们讲过,GooSeeker分词工具在开发过程中,参考学习了多个优秀的分词软件。本文专门针对分词这一个功能专项,分别讲解ROST和集搜客两款分词软件的功能特征。
第九章 Python爬虫实战(2):爬取京东商品列表
在上一篇《Python爬虫实战:爬取Drupal论坛帖子列表》,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容。
抓取头号玩家电影的微博评论数据做口碑分析
《头号玩家》在上映17天后就斩获超过12亿人民币票房,从猫眼9.1评分、豆瓣8.9评分,可见这部电影的高口碑,这也就能解释为什么能得到这么好的票房了。
评论