该死的拖延症
月初,自己给公众号指定出新的目标。
在不影响技术文章的输出情况下,输出一些自己所思所想。
本文是第一篇自己思考的文章,可能写得不够好,请见谅,毕竟是新的尝试。
但这也算是自己的输出。在之前,我只是将重点以笔记的形式记录下来自己的思考。
第一篇文章,让我们来聊聊拖延症。
我在知乎看到过一个关于拖延的精彩回答,说得非常好,我就直接引用。
拖延,是心理上的一种逃避,当人们做的事情有困难,不经济,短期看不到反馈,那么人们就会想尽办法去拖延,知道 deadline 前的一段时间内,才匆匆忙忙地区完成整个任务,这件事情。
不可否认,人都有拖延行为,只不过程度的深浅。
比如: 寒风刺骨的冬天,本该到了起床时间,自己跟自己说再睡 10 分钟就起床。
再如: 周末,自己本来计划在家写篇工作报告,但被一部精彩的电视剧所吸引,自己一直跟自己说看完这集就去写报告,结果一拖再拖,周末就过去了,报告也没有写完。
拖延症其实慢性毒药。因为拖延症会慢慢腐蚀高效的状态。
举我自己亲身的例子。我每天到公司第一件事,就是把自己需要做的事情罗列出来,然后设定优先级,再开始工作。而我的工作模式是”单线程”模式,每次做完一 ...
170 行代码爬取《白蛇:缘起》短评数据
在我的童年记忆中,电视台播放的动画片大多都是从日本、美国引进的。
很多动画片算是银幕上的经典,例如:《变形金刚》系列、《猛兽侠》、《蜘蛛侠》、《七龙珠》、《名侦探柯南》、《灌篮高手》、《数码宝贝》等。
但是国产的精品动画篇确认寥寥无几,可能是当时我国动漫产业还处在起步阶段。
一晃几十年过去了,现在的国产动漫算是强势崛起,这也涌现出《斗破苍穹》、《秦时明月》、《天行九歌》等优秀的动画片。
2019年1月11日,一部国产动画电影《白蛇:缘起》在全国热映,一经上映便是好评如潮。
这部电影凭借惊艳的花屏,出色的配音取得猫眼 9.4 分、豆瓣 8.0 分的高分成绩。
既然是难得一见的精品,那么我去猫眼上爬爬网友的短评,看看网友们的观点。
1.分析页面估计很多人经常光顾猫眼电影网,猫眼的反爬机制越来越严格,手段也越来越多。
如果选择“刚正面”,爬取 PC 端的页面,可能总体收益不高。
况且,PC 端的页面只有精彩短评,没有全部的网页评论数据。
因此,我选择转移战场,从手机页面入手,看看是否有收获。
将浏览器选择以手机模式浏览器,结果发现手机网页有全部的短评数据。点击“查看全部讨论”,继续抓包分 ...
图表类型,你选对了吗?
2019 年已悄然过去一个星期,不知你是否有新的收获?
而自己在新年的头一周,一方面忙于工作,试着挑战一些更高难度的工作;另一方面在积极“充电”。
自然而然公众号就拖更了。不过值得庆幸的是,今天更新了。今天给大家分享的内容是如何准确选择图表类型。
虽然文字能很生动形象地描述出一件事或一个人,但是它在数据面前则显得有点吃力。
因为文字描述一些数据时,需要人们去理解,在大脑中做对比。
而图表具有集中、概括、便于分析和比较的特点,能给人一种直观、清晰的感觉;
因此,在数据表示方面,图表比文字更适合。
1.图表类型微软公司在数据图表显示这方面可以算是行家。Excel 作为 Office 三剑客之一,它提供着一些丰富的图表类型。
常见的图表大概能分为 8 种,分别是柱形图、折线图、饼图、条形图、面积图、X Y(散点图)、曲面图、雷达图。
如果将上述图表进行细分,还是划分出很多子类型图表。如:
当然,万变不离其宗。不管子类型图表怎么演变,还是属于上述 8 种图表。大概变化规律有四点:1)二维图形变成三维图形。2)横纵坐标表示值发生改变,如从具体数值变成百分比。3)图形的叠加,如堆积柱形图、簇 ...
挥别2018,起航2019
我的 2018 年总结。
流光容易把人抛,红了樱桃,绿了芭蕉。
2018 年已经落下帷幕。每当年末年初时,我都会对过去一年做下总结。
总结下自己在逝去的一年究竟收获什么。
这算是对过去一年的交代,也是对自己一个交代。
1.2018 的收获1-1.学习体系化我收获到第一个关键字是学习体系化。
说到学习,自己一直以“不日进则日退”激励自己。
因为自己内心一直很害怕失败,所以一直在学习,总是希望自己能做得再更好一点。
而我自己的知识来源途径有书籍、博客、公众号等。简单来说,自己遇到不懂的知识,就利用搜索引擎去了解和学习。
但是,这种知识是比较碎片化的。
通过这种方式,自己可能会对某个“点”的知识内容很清楚。
如果知识内容上升到“线”的层面,自己会很茫然。
这像一盘散乱的珠子。
你每一次只能拎出“一个”即止,而不是连续的“一串”。
因此,体系化是学习的正道。
学到的东西只有纳入自己的知识体系中,才算是为自己所用。
不成体系的零碎知识是没有任何价值的。
现在自己接触到新的领域知识,会先画出该领域的思维导图,然后对每个细的分类进行学习。
1-2.深度思考职场上有一句很流行的话「不要用战术上的勤奋 ...
账号认证那些事
QQ 承载着我们一代人的青春和记忆,一个账号和密码就能体验 QQ 各种功能。
而微信作为一款国民级应用,是每个人手机必安装的软件,同样也需要一个账号登陆才能使用。
纵观各种社交应用、网站,往往都是离不开账号体系。
账号体系中有个重要的功能是账号登录,账号登录涉及到身份认证方法。
我们在模拟登录网站去进行数据采集时,经常需要跟网站的身份认证“斗智斗勇”。
因此,让我们来扒一扒其中的一些原理。
1.基本身份验证我们写的爬虫都是采用 HTTP/HTTPS 协议。
HTTP 协议中有种名为 Basic Authentication(基本身份验证)的验证方式。
这种认证方式在 HTTP/1.0 就定义了。
它的原理是在请求的 Headers 中增加 Authorization 字段,该字段的值是将“用户名:密码”的经过 Base64 编码之后的字符串;然后将其发送给服务器端做校验。
我们进一步理解 HTTP 基本认证的过程:
客户端发送 Request 给服务端。
因为 Request 的 Headers 中没有包含 Authorization 字段,服务器会返回一个 4 ...
Python 代码性能优化技巧
众所周知,程序的性能好坏影响着用户体验。
所以性能是留住用户很重要的一环。
Python 语言虽然能做很多事情,但是有一个不足之处,那就是执行效率和性能不够理想。
因此,更有必要进行一定的代码优化来提高 Python 程序的执行效率。
本文章主要是输出自己在 Python 程序优化的经验。
1.尽量使用内置函数Python 的标准库中有很多内置函数,它们的运行效率都很高。
因为很多标准库是使用 C 语言编写的。
Pyhton 的内置函数有:
原图比较大,排版原因可能导致字体看不清。
在公众号后台中,回复【内置函数】即可获取高清图片。
2.拼接字符串运算符 “+“ 不仅能用于加法运算,还能做字符串连接。
但是这种效率不是很高。
在 Python 中,字符串变量在内存中是不可变的。
如果使用 “+“ 拼接字符串,内存会先创建一个新字符串,然后将两个旧字符串拼接,再复制到新字符串。
推荐使用以下方法:
2-1.使用 “%” 运算符连接这种方式有点像 C 语言中 printf 函数的功能,使用 “%s“ 来表示字符串类型参数,再用 “%“ 连接一个字符串和一组变量。
1234fir = & ...
阅读优秀代码是提升技术的最佳途径
我们身在行业中,要不断地学习提高自己的能力。
有一种不错的方式来提高自己的技术实力。
那就是阅读别人优秀的代码。
那也许你会有疑问,为何要阅读别人优秀的代码?而不是拿到代码就进行阅读?
正如意大利作家伊塔洛·卡尔维诺的《为什么要读经典》中提到经典于对喜欢它的人构成一种宝贵的经验。
因此,阅读别人的优秀源代码有很多好处,收益也会非常大。
通过大量阅读别人的代码,我们可以采用更先进的方法、风格和架构模式,让自己的技术能力和知识不断的增长。
我收集一些优秀的 Python Web 相关的优秀项目,分享给大家参考学习。
1.flask-adminflask-admin 是基于 flask 框架开发的 admin 管理系统。
该库能基于现有的数据模型,快速创建管理界面。
易用性很高,简单配置参数就能运行。
运行结果如下:
另外,它还是微服务应用,提供很多 API。我们能从中学到微服务架构设计思路、数据(model)-视图(view) 绑定设计等。
Github 仓库地址
2.FlaskBBFlaskBB 基于 Flask 框架做的论坛,轻量级的论坛应用。
虽然具备论坛帖子分类、成员 ...
使用 Python 分析全国所有必胜客餐厅
在之前的一篇文章中,我讲到如何爬取必胜客官网中全国各大城市餐厅的信息。
虽然餐厅数据信息被抓取下来,但是数据一直在硬盘中“躺尸”。
不曾记得,自己已经第 n 次这么做了。
说到这里,要追溯到自己的大学时光。
自己从大学开始就接触 Python,当时是自己的好奇心很强烈。
好奇为什么 Python 不需要浏览器就能抓取网站数据。
内心感叹到,这简直是太妙了。
自己为了体验这种抓取数据的乐趣,所以写了很多的爬虫程序。
随着自己知识面地拓展,自己了解到数据分析这领域。
自己从而才知道爬取到的数据,原来背后还隐藏的一些信息。
自己也是在学习这方面的相关知识。
这篇文章算是数据分析的处女稿,主要内容是从数据中提取出必胜客餐厅的一些信息。
1.环境搭建百度前端技术部开源一个基于 Javascript 的数据可视化图表库。
其名字为 ECharts。
它算是前端数据可视化的利器,能提供直观,生动,可交互,可个性化定制的数据可视化图表。
国内有个大神突发奇想,这么好用的库如果能和 Python 结合起来就好了。
于是乎,pyecharts 库就应运而生。
因此,pyecharts 的作用是用于生成 ...
爬虫必备工具 —— Chrome 开发者工具
在《论语》中,孔子提倡“学而不思则罔,思而不学则殆”的学习方法。
我们再往深层面挖掘,“思”究竟是在思考什么?
个人理解是思考并总结出一些共性的东西,即“套路”。
有套路了,我们学习或工作会更加有效率。
当我们爬取不同的网站是,每个网站页面的实现方式各不相同,我们需要对每个网站都进行分析。
那是否有一些通用的分析方法?
我分享下自己爬取分析的“套路”。在某个网站上,分析页面以及抓取数据,我用得最多的工具是 Chrome 开发者工具。
Chrome 开发者工具是一套内置于 Google Chrome 中的 Web 开发和调试工具,可用来对网站进行迭代、调试和分析。
因为国内很多浏览器内核都是基于 Chrome 内核,所以国产浏览器也带有这个功能。
例如:UC 浏览器、QQ 浏览器、360 浏览器等。
接下来,我们来看看 Chrome 开发者工具一些比较牛逼的功能。
1.元素面板通过元素(Element)面板,我们能查看到想抓取页面渲染内容所在的标签、使用什么 CSS 属性(例如:class=”middle”)等内容。
例如我想要抓取我知乎主页中的动态标题,在网页页面所在处上右 ...
推荐几个免费数据源的网站(送书福利)
说到数据分析,我们会很容易联想到 Python。
因为我们可以拿 Python 对已有的数据做数据分析。
那什么是数据分析?
数据分析指用适当的统计分析方法对收集来的大量数据进行分析,提取有价值的信息。
在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
“啤酒与尿布”的故事就是最典型的数据分析案例。
“啤酒”和“尿布”这两个商品看上去没有关联性。
而沃尔玛将其摆放在一起进行销售、并获得了很好的销售收益。
原因在于沃尔玛对购物篮分析,研究出“啤酒与尿布”之间存在一定关联性。
这就是数据分析的意义。
再例如通过数据分析出北京的空气质量的走势;
分析近 10 年来 NBA 球队战绩和夺冠率之间的关系等等。
说到这里,你也许有疑问。
我没有数据,怎么做数据分析?
别急,我推荐几个免费的数据源网站。
1.awesome-public-datasets这是一个 GitHub 仓库,其收集的数据所在领域比较广泛,收录政府、金融、计算机网络、软件、体育、气候天气等30个领域的数据。
这些数据集的质量都是比较高,大部分都是免费且能直接下载到的数据。
Github 仓库地址
2.FiveT ...