• 继续用R代码做一些纯好玩的practice。

    这次想要实现的是如何通过文字来了解一个人。

    考虑到评论性文字一般太过严肃,微博则过于琐碎,所以还是决定选择博客文章作为分析载体。

    通过对博客文字的分析,我希望获取以下信息:

    1.作者的个人信息。

    2.作者的写作风格。

    2.作者的性格。

    3.作者的心理或情绪变化。

    常规工作的第一步是分词,但这里要注意的是单纯的分词实际上并不能提供足够多的信息。

    我从GR中选择了三个我很喜欢的博客,用爬虫把所有的博文爬到本地,然后进行分词统计,去除一些无意义的词组,结果如下。

    第一个:

    这个作者比较关注天气变化,可能是一个气象工作者。

    第二个:

    这个作者喜欢吃土豆丝加酱蛋。

    第三个:

    这是最困难的一种,这个作者中意于内心世界的表达,我们除了知道他经常鼻塞,就不知道别的了。

    因此如果我们要获取作者更多的信息,就必须让分词之间产生联系。