四、文本挖掘
数据挖掘是从有结构的数据库中鉴别出有效的、新颖的、可能有用的并最终可理解的模式;而文本挖掘(在文本数据库也称为文本数据挖掘或者知识发现)是从大量非结构的数据中提炼出模式,也就是有用的信息或知识的半自动化过程。关于文本挖掘方面的相关知识,请参看《数据运营|数据分析中,文本分析远比数值型分析重要!(上)》、《在运营中,为什么文本分析远比数值型分析重要?一个实际案例,五点分析(下)》。
本文的文本挖掘部分主要涉及高频词统计/关键词提取/关键词云、文章标题聚类、文章内容聚类、文章内容LDA主题模型分析、词向量/关联词分析、ATM模型、词汇分散图和词聚类分析。
4.1 关键词提取
对于关键词提取,笔者没有采取词频统计的方法,因为词频统计的逻辑是:一个词在文章中出现的次数越多,则它就越重要。因而,笔者采用的是TF-IDF(termfrequency–inverse document frequency)的关键词提取方法:
它用以评估一字/词对于一个文件集或一个语料库中的其中一份文件的重要程度,字/词的重要性会随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
由此可见,在提取某段文本的关键信息时,关键词提取较词频统计更为可取,能提取出对某段文本具有重要意义的关键词。
下面是笔者利用jieba在经预处理后的、近400MB的语料中抽取出的TOP100关键词。
从宏观角度来看,从上面可以明显的识别出3类关键词:
- 公司品牌类:虎嗅网、苹果、腾讯、苹果、小米等;
- 行业领域类:行业、电商、游戏、投资、广告、人工智能、智能手机等;
- 创业、商业模式类:模式、创新、业务、运营、流量、员工等。
从微观角度来看,居于首要位置的是"用户",互联网从业者放在嘴边的是"用户为王"、"用户至上"和"以用户为中心",然后是"平台"和"企业"。
笔者选取TOP500关键词来绘制关键词云。因为虎嗅的名字来源于英国当代诗人Siegfried Sassoon的著名诗句"In me the tigersniffs the rose(心有猛虎,细嗅蔷薇),所以词云以"虎嗅蔷薇"为背景,找不到合适的虎嗅蔷薇的画面,于是用它的近亲猫作为替代,词云如下:
4.2 LDA主题模型分析
刚才针对关键词的分类较为粗略,且人为划分,难免有失偏颇,达不到全面的效果。因此,笔者采用LDA主题模型来发现该语料中的潜在主题。关于LDA主题模型的相关原理,请参看《【干货】用大数据文本挖掘,来洞察"共享单车"的行业现状及走势》的第4部分。
一般情况下,笔者将主题的数量设定为10个,经过数小时的运行,得到如下结果:
可以看出,经过文本预处理后的语料比较纯净,通过每个主题下的"主题词",可以很容易的从这10个簇群中辨析出若干主题,不过,其中3个主题存在杂糅的情况(每个topic下包含2个主题),但这不影响笔者的后续分析,主题分类如下表所示:
电商&O2O: 该主题包含2个部分,即各大电商平台(淘宝、京东等)上的零售;O2O(Online线上网店Offline线下消费),商家通过免费开网店将商家信息、商品信息等展现给消费者,消费者在线上进行筛选服务,并支付,线下进行消费验证和消费体验。
巨头战略:主要是国内BAT三家的营收、融资、并购,以及涉足互联网新领域方面的资讯。
用户&社交:主要涉及用户和社会化媒体(微博、QQ、微信、直播平台等)方面的资讯。
创业:涉及创业人、创新模式、创业公司等一切关于创业的话题,令笔者印象最为深刻的是创业维艰。
人工智能:进入移动互联网时代,各类线上数据的不断积累和硬件技术的突飞猛进,大数据时代已然来临,随之而来的还有人工智能,该领域是时下国内外IT巨头角逐的焦点。
智能手机:智能手机的普及是移动互联网时代兴起的催化剂之一,2012年以来,"东风(国内智能手机企业)"逐渐压倒"西风(国外智能手机企业)",国产智能手机品牌整体崛起,苹果、小米和锤子的每一次手机发布会总能在互联网界引起一片热议。
影视娱乐:影视文化产业作为政策力挺、利润巨大的行业,吸引着无数资本的目光。在金融资本与电影产业碰撞出"火花"的背后,是中国影视消费市场的快速崛起。国外好莱坞大片的不断引进和票房屡创新高,直接刺激着国内影视从业者提升自身的编剧和制片水平,由此诞生了一大批影视佳作,如近三年来的《夏洛特烦恼》、《湄公河行动》、《战狼2》。
互联网金融:互联网金融(ITFIN)是指传统金融机构与互联网企业利用互联网技术和信息通信技术实现资金融通、支付、投资和信息中介服务的新型金融业务模式。2011年以来至今,互联网金融所经历的是突飞猛进的实质性的金融业务发展阶段,在这个过程中,国内互联网金融呈现出多种多样的业务模式和运行机制。该主题下,第三个主题词"乐视"赫然在目,从2014年年底贾跃亭宣布乐视"SEE计划"到2017年10月中旬,乐视网巨亏16亿,贾跃亭财富缩水400亿也不到3年,"眼看他起朱楼,眼看他宴宾客…"
无人驾驶:无人驾驶是通过人工智能系统实现无人驾驶的智能汽车,它在本世纪尤其是近5年呈现出接近实用化的趋势,比如,谷歌自动驾驶汽车于2012年5月获得了美国首个自动驾驶车辆许可证,现在特斯拉的无人驾驶汽车已经在市场上在销售。随着技术上和硬件上的不断进步,它日趋成熟,成为国内互联网巨头的都想要摘得的桂冠。
游戏&IP:网络游戏被指是除了互联网金融之外捞金指数最强劲的互联网行业,从最近"王者荣耀"成都主创团队年终奖事件的引爆就能看出端倪,更不用说时下的流行语"吃鸡"了;同时,随着互联网IP产业的不断深化发展,体育、娱乐、文学等领域对版权和IP的重视程度越来越高,当下的互联网+时代,IP更是呈现了多元化的发展形势。
以下是上述各个话题在这4W多篇文章中的占比情况,可以明显的看出,虎嗅首页上的文章对互联网行业各大巨头的行业动向报道较多,其次是不断崛起的影视娱乐,除了无人驾驶方面的报道偏少以外,其他主题方面的文章的报道量差异不大,比较均衡。
再次是各主题的文章数量在时间上的变化情况:
上图中,我们可以明显的看出"巨头战略"这一话题的首页发文量始终维持在一个较高的水平,其次是"人工智能"的话题,它在虎嗅网主页2013年第一季度出现一个报道小高潮。值得注意的是,"互联网金融"在2014年第3个季度的报道量较大,从中可以获悉这个阶段的互联网金融正处于一个爆发的阶段,这个时段互金行业的重大事件有:小米投资积木盒子进军互联网金融(9.10)、京东发布消费金融战略(9.24)、蚂蚁金服集团成立(10.16),以及整个2014年是"众筹元年",P2P步入洗牌季、以及央行密集令直指监管互联网金融,这些事件或政策都足以引发互联网界人士的热议,造成这一时段声量的骤然升起。
4.3 情绪分析&LDA主题模型交叉分析
结合上述LDA主题模型分析的结果,笔者使用新浪微舆情的情绪语义分析模型(该模型有6类情绪,即喜悦、愤怒、悲伤、惊奇、恐惧和中性),对这些文章的标题进行情绪分析,得出各个文章的情绪标签,处理结果如下表所示:
将主题和情绪维度进行交叉分析,得出下图:
从上图中可以看出,各个主题下的标题的情绪以中性为主,凸显作者和官方的客观和中立态度,但是在现今标题党横行和全民重口味的时代,拟标题上的过分中立也意味着平淡无奇,难以触发读者的阅读行为,正所谓"有性格的品牌,有情绪的营销",能成功挑起读者情绪的作者绝对是高手,所以,在上图中除了中性情绪外,居于第二位的是愤怒,狂撕狂怼,点燃读者的情绪;再次是悲伤,在现实生活中,伤感总能引起同情与共鸣。
4.4 ATM模型
在这个部分,笔者想了解"虎嗅网上各个作家的写作主题,分析某些牛X作家喜欢写哪方面的文章(比如"行业洞察"、"爆品营销"、"新媒体运营"等),以及写作主题类似的作者有哪些。
为此,笔者采用了ATM模型进行分析,注意,这不是自动取款机的缩写,而是author-topicmodel:
ATM模型(author-topic model)也是"概率主题模型"家族的一员,是LDA主题模型(Latent Dirichlet Allocation )的拓展,它能对某个语料库中作者的写作主题进行分析,找出某个作家的写作主题倾向,以及找到具有同样写作倾向的作家,它是一种新颖的主题探索方式。
首先,笔者去除若干发布文章数为1的作者,再从文本中"析出"若干主题,因为文本数量有删减,所以跟之前的主题划分不太一致。根据各个主题下的主题词特征,笔者将这10个主题归纳为 :"行业新闻"、"智能手机"、"创业&投融资"、"互联网金融"、"新媒体&营销"、"影视娱乐"、"人工智能"、"社会化媒体"、"投融资&并购"和"电商零售"。
接下来,笔者将会对一些自己感兴趣的作者的写作主题及其相关作者进行一定的分析。
首先是锤子科技的创始人罗永浩,笔者一直认为他是一个奇人,之前看到他在虎嗅网上有署名文章,所以想看他在虎嗅网上写了啥:
从老罗的写作主题及其概率分布来看,他比较倾向于写创业、融资、智能手机和新媒体营销方面的文章,这个比较符合大众认知,因为善打情怀牌的老罗喜欢谈创业、谈自己对于手机的理解,而且由于自己鲜明的个性和犀利的语言,他常常在为自己的锤子品牌代言。
根据文档ID,笔者找到了他发布的这几篇文章:
单看标题,ATM模型还是蛮聪明的,能从老罗的文章中学习到了他的写作主题。
接下来是写作主题与老罗相近的虎嗅网作家,他们的发布文章数大于3篇:
接下来是虎嗅自己的媒体,主页上发文量破万,所涉及的写作主题集中在"行业新闻"、"智能手机"和"新媒体&营销":
与其写作主题类似的作者除了一些个人自媒体人,还包括一些媒体,如环球网、财富中文网、彭博商业周刊等。从前面的分析中可以推测出,他们在上述3个话题上的发文量也比较大。
在这10,189篇文章里,笔者按文档ID随机抽取出其中的若干篇文章的标题,粗略验证下。然后,把这些标题绘制成独角兽形状的词云。
由上面的标题及其关键词云,预测的主题还是比较合理的。
再看看另外两个笔者比较感兴趣的自媒体—混沌大学和21世纪经济报道。
从上面2个图可以看出,混沌大学关注的领域主要是"创业&投融资"、"新媒体&营销"方面的话题,偏向于为创业者提供创业相关的技能;而21世纪经济报道则更青睐"投融资&并购"、"行业新闻"和"智能手机"方面的话题,这比较符合该媒体的报道风格—分析国际形式、透视中国经济、观察行业动态和引导良性发展,有效地反映世界经济格局及变化,跟踪报道中国企业界的动态与发展。
4.5 词汇分散图
接下来,笔者想了解虎嗅网主页这4W+文章中的某些词汇在2012.05~2017.11之间的数量分布和他们的位置信息(the locationof a word in the text),这时可以利用Lexical dispersion plot(词汇分散图)进行分析,它可以揭示某个词汇在一段文本中的分布情况(Producea plot showing the distribution of the words through the text)。
笔者先将待分析的文本按时间顺序进行排列,分词后再进行Lexical DispersionPlot分析。因此,文本字数的累积增长方向与时间正向推移的方向一致。图中纵轴表示词汇,横轴是文本字数,是累加的;蓝色竖线表示该词汇在文本中被提及一次,对应横轴能看到它所处的位置信息,空白则表示无提及。蓝色竖线的密集程度及起位置代表了该词汇在某一阶段的提及频次和所在年月。
从上面的关键词和主题词中,笔者挑拣出14个词汇进行分析,结果如下:
从上图中可以看出,"智能手机"、"移动支付"、"O2O"和"云计算"这4个词在近6年的热度居高不下,提及频次很高,在条柱上几近饱和。相较之下,"互联网教育"、"3D打印"、"在线直播"这些在虎嗅网上的报道量不大,从始至终只是零零星星的有些提及。
值得注意的是,"共享单车"在后期提及次数显著增加,而且是爆发式的出现,这与共享单车出现比较吻合,关于共享单车方面的数据分析,请参看《【干货】用大数据文本挖掘,来洞察"共享单车"的行业现状及走势》。
4.6 词向量/关联词分析—当我们谈论XX时 我们在谈论什么
基于深度神经网络的词向量能从大量未标注的普通文本数据中无监督地学习出词向量,这些词向量包含了词汇与词汇之间的语义关系,正如现实世界中的"物以类聚,类以群分"一样,词汇可以由它们身边的词汇来定义(Words can be defined by the company they keep)。
从原理上讲,基于词嵌入的Word2vec是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。把每个单词变成一个向量,目的还是为了方便计算,比如"求单词A的同义词",就可以通过"求与单词A在cos距离下最相似的向量"来做到。
接下来,通过Word2vec,笔者查找出自己感兴趣的若干词汇的关联词,从而在虎嗅网的这个独特语境下去解读它们。
由此,笔者依次对"百度"、"人工智能"、"褚时健"和"罗振宇"这几个关键词进行关联词分析。
出来的都是与百度相关的词汇,不是百度的产品、公司,就是百度的CEO和管理者,"搜索"二字变相的出现了很多次,它是百度起家的一大法宝。
与"AI"相关的词汇也是很好的解释了人工智能的细分领域和目前比较火的几个应用场景。
与褚时健一样,相关词中前几位名人(牛根生、胡雪岩、鲁冠球、王永庆和宗庆后)也是名噪一时的商业精英,"老爷子"、"褚老"、"橙王"是外界对其的尊称。有意思的是,褚老也有一些政治人物(毛主席和蒋委员长)那样的英雄气概,其人其事大有"东隅已逝,桑榆非晚"、"待从头,收拾旧山河"的豁达精神和乐观主义!
再就是资深媒体人和传播专家罗振宇了,"知识变现"的践行者,他的许多见解都能颠覆群众原有的观念。与罗胖相类似的人还有申音(互联网真人秀《怪杰》的创始人和策划人,罗振宇的创业伙伴)、吴晓波(吴晓波频道和社群的创始人)、Papi酱(知名搞笑网红)、马东(现"奇葩说"主持人)、李翔(得到APP上《李翔商业内参》的推出者)、姬十三(果壳网创始人)、李笑来(财务自由知名布道者)、吴伯凡(词没切全,《21世纪商业评论》发行人,作品有《冬吴相对论》和《伯凡日知录》)…
4.7 对互联网百强公司旗下品牌的词聚类与词分类
2016年互联网百强企业的互联网业务收入总规模达到1.07万亿元,首次突破万亿大关,同比增长46.8%,带动信息消费增长8.73%。数据显示,互联网领域龙头企业效应越来越明显,对他们的研究分析能帮助我们更好的了解中国互联网行业的发展概况和未来方向。
笔者在这里选取2016年入选的互联网百强企业,名单如下:
对于上述百强互联网公司的旗下品牌名录,笔者利用上面训练出来的词向量模型,用来进行下面的词聚类和词分类。
4.7.1 词聚类
运用基于Word2Vec(词向量)的K-Means聚类,充分考虑了词汇之间的语义关系,将余弦夹角值较小的词汇聚集在一起,形成簇群。下图是高维词向量压缩到2维空间的可视化呈现:
笔者将词向量模型中所包含的所有词汇划定为300个类别,看看这种设定下的品牌聚类效果如何。分析结果和规整如下所示:
从上述结果来看,有些分类是比较好理解的,如途风(网)和驴妈妈旅游网,都是做旅游的,人人贷、陆金所和拍拍贷是搞互金的,这些词汇是在"行业的语境"里出现的次数较多,基于同义关系聚类在一起,同属一个行业。但其中大多数的聚类不是按行业来的,而是其他的语境中出现,且看下面这两段话:
第一波人口红利是从2011年开始的,这波人口是原来核心的三亿重度互联网网民,或者简单地说,是那个年代去买小米手机和iPhone的这波用户,当然也包括三星。他们是一二线城市里边比较偏年轻的这些人口。所以你看包括我们自己投资的美图、知乎、今日头条、小米都是跟着这波人口起来的。
第二波人口是从2013年、2014年开始发生的,这波人口是什么?这波人口实际上是移动互联网往三四线城市下沉造成的人口红利,是二三四线城市里面比较年轻的人口。大家简单想一下买OPPO、ViVO手机的人。这波红利带来了包括快手、映客等一系列的兴起,包括微博的二次崛起。
上面加粗加黑的品牌虽然不同属一个行业,但都出现在"移动互联网的人口红利"的语境中,所以单从这个语境来说,它们可以聚为一类。
所以,上述的聚类可能是由于各类词汇出现在不同的语境中,深挖的话,或许能发现到若干有趣的线索。篇幅所限,这个就留给有好奇心的读者来完成吧。
4.7.2 词分类
在这里,笔者还是利用之前训练得出的词向量,通过基于CNN( ConvolutionalNeural Networks,卷积神经网络)做文本分类,用来预测。CNN的具体原理太过复杂,笔者在这里不做赘述,感兴趣的小伙伴可以查阅后面的参考资料。
由于文本分类(Text Classification)跟上面的文本聚类(Text Cluster)在机器学习中分属不同的任务,前者是有监督的学习(所有训练数据都有标签),后者是无监督的学习(数据没有标签),因而,笔者在正式的文本分类任务开始前,先用有标注的语料训练模型,再来预测后续的未知的文本。
在这里,笔者根据互联网企业所属细分领域的不同,划分为17个类别,每个类别只有很少的标注语料参与训练,也就是几个词罢了。对,你没看错,借助外部语义信息(之前训练好的词向量模型,已经包含有大量的语义信息),你只需要少许的标注语料就可以完成分类模型的训练。
接着,笔者用之前未出现在训练语料中的词来检验效果,出来的结果是类别标签及其对应的概率,概率值大的类别是品牌最有可能从属的细分领域。结果如下图所示:
上述的结果都符合大家的基本认知,小规模测试下,准确率尚可,最后来一个难度大一点的,国外一家笔者从未知晓的互联网公司:
通过Google,笔者了解到Waze是以色列一家做众包导航地图的科技公司。前一段时间火了一把,被Google 10亿美元收购了。其产品虽然没有Google地图那样强大的卫星图片作支撑,但是可以向用户社区提供有关交通状况、交通事故以及测速区等实时信息(地图弹幕即视感)。"众包"和"实时信息"分别对应"共享经济"和"即时通讯",比较符合预测标签所表征的内涵,能在一定程度上预测出该企业的业务属性。
4.8 互联网百强公司的共现分析
上面所做的关于互联网百强公司的聚类分析和分类分析,看起来是"黑匣子",其内在的机理,我们不太容易理解。接下来,笔者将基于"图论"来做品牌共现分析,从网络的角度来分析百强企业品牌之间的关联关系。
提取出上述百强企业品牌的相互共现关系,形成如下的社交网络图:
上图中,每个节点代表一个人物,线条粗细代表品牌与品牌之间的强弱链接关系,相同颜色的节点表示它们(在某种条件下)同属于一类。节点及字体的大小表示品牌在网络中的影响力大小,也就是"Betweenness Centrality(中介核心性),"学术的说法是"两个非邻接的成员间的相互作用依赖于网络中的其他成员,特别是位于两成员之间路径上的那些成员,他们对这两个非邻接成员的相互作用具有某种控制和制约作用"。说人话就是,更大的影响力就意味着该品牌链接了更多的合作机会和资源,以及涉足更多的互联网领域。
先看里面影响力TOP10,依次是腾讯、微信、百度、QQ、阿里巴巴、淘宝、京东、小米、网易和新浪微博,"腾讯系"在10强里占据了3个席位,实力强大,可见一斑。
再看由颜色区分出的6个簇群:
- 淡蓝系:腾讯、微信、百度、QQ、网易、搜狐…
- 洋红系:阿里巴巴、淘宝、京东、新浪微博、天猫…
- 深绿系:小米、多看、MIUI、天翼阅读…
- 浅绿系:乐居、房天下
- 明黄系:人人贷、拍拍贷
- 黄橙系:汽车之家、易车网、易湃
上述的分类,大部分是好理解的, 浅绿系(乐居、房天下)是做房产的,明黄系(人人贷、拍拍贷)是搞互联网P2P金融的,而黄橙系(汽车之家、易车网、易湃)是互联网汽车领域的品牌。
值得注意的是,深绿系的小米、多看、MIUI、天翼阅读,以小米为中心MIUI是小米的产品,多看(阅读)已经被小米收购,天翼阅读一度是小米捆绑的阅读软件,然而,蜗牛游戏就跟前几个不同,有一篇文章的标题是这样的:"蜗牛发布移动战略,石海:不做小米第二",它是小米在移动游戏领域的对手…
此外,淡蓝系(腾讯、微信、百度、QQ、网易、搜狐等)和洋红系(阿里巴巴、淘宝、京东、新浪微博、天猫等)这两个簇群中,品牌与品牌之间的关系就比较复杂了,子母公司、兄弟品牌、跨界合作、竞对关系、跨界竞争、融资及兼并,上述情况,在这两类簇群中或可兼而有之。
End.
作者:海阁
本文为转载分享,如果涉及作品、版权和其他问题,请联系我们第一时间删除(微信号:lovedata0520)
更多文章前往首页浏览http://www.itongji.cn/
- 我的微信公众号
- 微信扫一扫
-
- 我的微信公众号
- 微信扫一扫
-
评论