爬取张佳玮138w+乐乎关注者:数据可视化

 三周前,公司放3天假,于是带着妻子孩子去马来亚哈特福德的乐高核心乐园玩,深夜住在主旨旅社里,主卧一张大双人床,外面一个上下铺。大学时自我直接睡在上铺,毕业后就在也未曾睡过上下铺,于是深夜自己特别睡在上铺,让爱人和孩子在主卧睡。一夜晚睡的很好很香,真的做梦回到了大学,梦见留校的校友带我参考高校,带自己看高校新建的寝室楼,食堂,教室,我到处走着,看着,心理激动,心想,即使同学们都能回去,我们在联名吃喝一顿,打局反恐,下个副本该多好。可惜梦最后如故要醒的,早上清醒后,躺在床上,记忆梦境,心里怅然若失。

5、Top20 系列

接下去分别对所在同行业、职业经历、教育经历等举行分析,结果如下(注:用户有多条工作经历或教育经验的,仅爬取了流行的一条数据):

全校方面几乎全为985、211高等高校,当然拿得出手的会乐于写上,略微差些的或者不会填写,而且涌入用户多了后,这类数据也就只是作弄和讯人人都是985高等高校,年薪百万的点了。所在行业方面,互联网遥遥超过,总计机软件、金融、高等教育位居前四。

Top20
集团中BAT、知乎、Nokia、酷派科技、美团网以及谷歌、非死不可、微软等大厂都悉数在列。再看Top20
职业里除了各个名目的程序员、产品首席营业官、运营等互联网职业,创办者、老总等占据前排,不可谓不令人大惊从早到晚失色。

 魔兽世界公测的时候自己念大四,当时自我不在高校,只身在迪拜市出席培训班,很忙很累,听着同学在战场上冲锋陷阵,组队下副本的新闻,心里痒痒的,我本就是一个贪玩的人,高考前多少个月迷上了暗黑破坏神2,没日没夜的玩,直接影响了高考战绩,大学又喜好上了魔兽争霸,水平不怎么样,不过愿意和旁人单挑,虐人和被虐都是乐趣。很已经了解魔兽世界要颁发了,没悟出刚刚在我培育的时候,无法第一时间感受它的魅力,甚是遗憾。我寝室胖子给自己QQ留言:疾速回来吗,就差你了。二〇〇五年11月尾,考完认证后,立时回去高校,投入到火热的魔兽热潮中。

2、性别境况

随之对100+关注人群的性别组成举行剖析,发现男女比例基本保持在2:1,与138w+用户的男女比例差别不大。当然10w+关注由于人数较少,比例超越3:1,是否能得出男性在这下面更是理想就不得而知了。

 硕士活是人生最舒心的生存,有情侣玩,有时间玩,学院毕业代表人生的一个阶段截至了,不论你愿不愿意,你都进入了另一个轨道,感谢魔兽世界陪着自家和大家走过这最好时段的末梢2个月,它不不过款游戏,每回见到它,想到它,我就会记念放荡不羁,肆意风扬的常青。

4、居住地分布

毕竟到了我最初初始这么些体系时,最想拿到的的音信了。尽管由于爬取效能而筛选掉了100珍重之下的id共134w,数据量方面不如标题所示的那么多,略有遗憾,但骨子里确实得到4.1w+条较优质数据时,发现处理起来也并不易于。

例如这里的住地信息,有乱填水星、火星、这美克星,也有填国家、省份、县市、街道格式不一的,还有诸如老和山之类外行人不领悟的“哑谜”等等,数据之脏令人高烧,且纯文本的数码又不像数字类可以筛选、排序,还没悟出好的格局回应。再者Echarts官网即便有很多足以套用的模板,但有很多地点的经纬度需要再行取得,这样就在数额处理和地图上平昔有两处难题需要缓解。

鉴于第一次拍卖这类数据并可视化,第一次用Echarts就打算画这些酷炫的地图,由此末了先裁减数据量,如故以1w+大V的数目来可视化,近年来先形成国内分布情况,将来看情况再扩充数据量和制图全球分布情况。

个中出现次数排行前几的城池各类为:迪拜 360,新加坡 183,卡拉奇 55,青岛52,华盛顿(华盛顿(Washington)) 47,科威特城 26,圣彼得堡20……应有算是不出所料的。考虑到并不是各类人对那么些点所代表的都市都如数家珍,加上城市名,效果如下,重叠较为严重,显示效果不够好,仍需解决。

 映像最深远的一件事是,可能大家还记得,有一个副本里面有bug,法师一个人进入打那种沾沾黏黏的小怪,他们速度慢,可以长距离打,在它们爬过来在此以前就挂掉了,因为都是精英怪,又爆装备经验值又多,我在网上来看那个秘籍后,立时专研,于是我在一天一夜之后成了大家班级别最高的人,同时也是率先个买马的人。幸福来的太突然,我开端指导他们打副本了。

6、认证信息

原来只精通学士可以提供消息得到证实,果壳网也会予以其回复更好的呈现途径,使其更便于成长为大V,以此作为对高学历人群、优质用户的奖赏。

这一次抓取的100+关注4.1w+条数据中有208条表明音讯。除却各个标准的研究生、大学生后外,还有37家公司、机构,9条医生,11条教师/讲师/探究员,13条CFA、CPA持证人或工程师、建筑师,以及副总监、开创者、记者、律师、WCG2005-2006魔兽争霸项目世界冠军、职业自行车手、主持人、作家等等。看来仍然有成千上万可以延续去打听下优质用户的。

 在这前边网游只玩过传奇,对于魔兽这种3D界面,下副本的娱乐格局第一次接触,卓殊欣赏,心想:完爆传奇100倍啊。由于自身玩的晚,无法和班级的主力部队一起下副本,所以大部分时间自己都一个人练级,我也不着急练级,最欣赏的就是满世界转悠,尤其是这个边边角角的地点,总幻想发现个暗藏的地形图,里面配备遍地,小怪经验值爆高,可惜一向没找到过。五遍一个人闲逛时遇上个部落的强盗,我们五人就PK上了,你杀我,我杀你,我们也不蹲尸体,等复活准备好后在开打,就是拼技术。整整打了一早晨,也忘记杀了她多少次,被他杀了不怎么次,最终饭点到了,大家2个摆摆手,各自回城,很有一种英雄惜英雄的感觉,一股大侠范。

7、优良回答者

除去表明音信外,特出回答者这是甄别某用户是否为上品用户,是否值得关注的一个至关首要目标。包含张佳玮在内,共有468位能够回答者,涉及257个话题,共出现768人次佳绩回答者标签。

涉嫌的257话题词云

而有所出色回答者贡献的回答和新浪收录回答意况如下:

最右上角的便是张佳玮的进献状况,令人望尘莫及。也有那一个用户进献了上千个应答,能够视为非常高产。但大部分用户作答数<1000,收录数<50。由此对此区域推广,可见:

有无数多少收录回答为0,因为还不晓得网易优良回答者的评比标准,所以这边还需更加询问。此外这一个数据点,对应的丰盛有些大V名字或者来得起来能好,但平素在查找,还未知。

 一晃11年过去了,大学4年间很多工作已经渐渐淡忘,但是这2个月我直接记忆犹新于心。这是最终疯狂游戏的六个月,最终自由自在的六个月,最后朋友们在联合的五个月。从这未来,大家各奔东西,只可以遥遥祝福却很难在会见,有些朋友一辈子也在见不到了。这六个月里放纵的心情之后也在不会有,工作后各个各个的下压力,生活上的压力一重重压在身上,心情在也回不到万分时候。

1、关注人口

大V总是少数的,而小透明到底有稍许、分布境况怎样呢?将关爱人数划分成不同距离,绘制成如下金字塔图:

作为一只小透明,在此过程中发现自己处于前2w的岗位,即图中黑色区域,如故蛮吃惊的。上文已涉及100+关注就超越了134w的用户,而1k+、1w+、10w+就一发接近塔尖,越来越接近张公子的街头巷尾,看上图10w+以上的区域,如同高耸入云,渺然不可见,“乱山合沓,空翠爽肌,寂无人行,止有鸟道”,令小透明非凡憧憬。

上升之路尽管崎岖,但也一如既往阐明只要多增多少个关爱,就胜过了浩如烟海的用户,这对于有志于成为大V的人,或许能在难堪的迈入之路上,靠此数据显露的音信,拾得有些信心。

端详底部的距离,0关注有40.2w+,1-10关注有76.6w+,区分度已赫然形成,但小透明可能感受不出,这怕有几百的关切,何尝不会以为自己仍旧是个小透明吗?有什么人会信任斩获10人关注,就领先了100w+的用户,数据能告诉人经验之外的实况,在此可见一斑。当然网易大量用户涌入且大部分人并不暴发优质或诙谐的回复,也是个别缘故。

接轨看100+以上的多少,底部占比依旧分明,塔尖如故很小。

 致艾泽拉斯,致我的高等高校时光,致我的年青。

二、数据可视化

 大学毕业后就在没玩过魔兽世界。毕业后到都城找工作,住在一个细微的出租房,因为便宜,所以条件很差,没有空调,没有宽带,等工作半年稳定下来后,就被公司派出国,直到现在还没调回去,外国玩国内的服务器太卡,也就直接没在捡起来玩。而且趁机年龄越来越大,每日生活被突击,应酬,照顾孩子填的满满的,越来越没有再一次拾起来的心气,现在有时候打局魔兽争霸3,都用秘籍,不然逐步采钱,砍木头觉得太慢,太浪费时间。

一、前言

用作简书上先是篇随笔,先介绍下小背景,即为啥爬果壳网第一大V张公子的138w+关注者音信?

实际后边也写过不少小爬虫,遵照网上各类学科实例去练手,“不可防止”的爬过妹子图、爬过豆瓣Top250影片等等;也遵照自己的想法,在交大120周年校庆前,听闻北美帝国大厦第一次给大陆学校亮灯,于是爬取2016-前年官网上天天的亮灯图并用python的PIL库做了多少个小logo,算是一名吃瓜群众自发的祝贺行为;(更多照片见于:Deserts-X
我的相册-北美帝国大厦亮灯图:ZJU_120
logo

北美王国大厦亮灯图:ZJU120

也因为喜好鲁迅的著述,爬过在线鲁迅全集的满贯稿子标题和链接;此外听说太祖的某卷书是禁书,于是顺手也爬了遍毛选;还帮老同学在某票据网站下线前爬了绝大多数单位、人员音信,说是蛮值钱,然则也还在留着落灰……

乐乎签到多少点亮中国

再是通晓百度Echarts开源的可视化网站内部的图很酷炫,比如使自己着迷的:天涯论坛签到数码点亮中国,于是想着可以爬取果壳网大明星、小鲜肉的粉丝的居住地,然后搞搞怎么画出全国乃至全球分布情况。但发现几年前知乎就限制只可以查看200左右粉丝数(具体忘了),蛮扫兴的,于是将目光转向了新浪……

而既然要爬,那就爬关注人口最多的张公子吧,数据量也大,这上头是前边小品种所不及的,往日也看过不少爬网易数据与分析的稿子,因而也想练练手,看看大量造访与获取数据时会不会遇上什么封IP的反爬措施,以及数额可视化能搞成怎么样。

然而此文在爬虫部分不做过多举办,看处境继续再另写一文。思路如下:抓包拿走张佳玮主页关注者api%5D.topics&offset=20&limit=20),然后改成网址中offset参数为20的倍数,一贯翻页直到获取138w+关注者信息,其中再次回到的json数据首要有:关注者的昵称、主页id(即url_token)、性别、签名、被关注人口等,也就是说需要拜访具有主页id,才能获取更多消息(个人主页api:以黄继新为例%5D.topics)):居住地、所在行业、职业经历、教育经验、获赞数、感谢数、收藏数等等。鉴于还有点会多进程爬取,如果把具有id再爬两回会相当耗时间,于是筛选被关注数100+的id,发现只剩了4.1w+,之后较完整提取了这一部分的音讯,后续可视化也多基于此。

爬取信息一览

 坐了一晚的火车,下午7点到的起居室,放下行李就冲向网吧,魔兽我来了!怀着激动的心气登陆了娱乐,我们寝室胖子凑过来说:”我们给你留了地点,联盟,法师。我们今日没法师。”好吧,法师就法师吧,其实自己想练个部落的术士,我就喜爱能唤起姐夫的,在此在此以前玩传奇,练了38级的法师,天天带着狗四处晃荡,感觉很拉风。法师我也熟练,往日玩暗黑三练的法师,通关地狱后,每日刷几次墨菲斯托(Stowe),心想都是暴雪出的游玩,职业特点应该都差不多吧。于是打开了自我的魔兽法师之旅。

3、10w+大V

前文已反复涉嫌10w+大V,那么这190人里到底都有什么人啊?这里以关心人数为权重,生成词云如下:

世家上果壳网的话应该也有关注一些大V,许多名字应该并不生疏,比如马伯庸、动机在阿塞拜疆巴库、葛巾、朱炫、丁香先生等等,当然也会意识并不是具备大V都关心了张公子,哪怕他是和讯第一人,目前已交出了3026个应答,135个网易收录回答的傲人成绩(据说也是豆类和今日头条第一人)。

 一月中大学结业,此时离高校毕业还有近2个月时间,大家曾经故事集答辩停止了,就等着拿毕业证然后散伙各奔东西,这2个月好像特别留给我们联络情绪的,所以每日大家就做两件事,打魔兽下副本和聚餐大吃大喝。一个网吧坐几十个人,下午在网吧叫碗方便面解决战斗,中午星星点点的去各样酒馆,串店,火锅店,都不在食堂吃。前几天和您吃,昨日和她吃,这多少个五个月下的饭馆喝的酒比二〇一九年加起来都多。当时就餐时大家说的最多的就是从此您在哪些城市前行,我去找你玩啊。将来同学聚会,你一定要回去参预啊。我结婚你势必要来啊。大家就要踏上新的征程,我们心坎满怀期待。

三、小结

本项目是私有首次百万级数据的爬取,当然由于爬取效用方面需要鼎新,所以详细用户音讯采用性的只爬了100+关注人数共4.1w+的id。此外也是率先次数据可视化,从一点一滴不懂Echarts的各个参数,硬刚配置项,到勉强得到了上述还算能看的局部数据图,不少地点还需更加学习、改进,以求获得更契合要求的、理想的、自定义的可视化图。

其余,除却上述数据外,还多少赞数、感谢数、收藏数、关注数和被关注数、签名、个人简介等等数据尚未处理,但核心想要获取的图都得到了,算是大功告成了此项目,也学到了很多事物。

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

*
*
Website