快照
胡说八道太多,真情实感太少
-
继续用R代码做一些纯好玩的practice。
这次想要实现的是如何通过文字来了解一个人。
考虑到评论性文字一般太过严肃,微博则过于琐碎,所以还是决定选择博客文章作为分析载体。
通过对博客文字的分析,我希望获取以下信息:
1.作者的个人信息。
2.作者的写作风格。
2.作者的性格。
3.作者的心理或情绪变化。
常规工作的第一步是分词,但这里要注意的是单纯的分词实际上并不能提供足够多的信息。
我从GR中选择了三个我很喜欢的博客,用爬虫把所有的博文爬到本地,然后进行分词统计,去除一些无意义的词组,结果如下。
第一个:

这个作者比较关注天气变化,可能是一个气象工作者。
第二个:

这个作者喜欢吃土豆丝加酱蛋。
第三个:

这是最困难的一种,这个作者中意于内心世界的表达,我们除了知道他经常鼻塞,就不知道别的了。
因此如果我们要获取作者更多的信息,就必须让分词之间产生联系。







