极客猴 - 猴哥的个人博客

发表于2019-01-24|个人成长

月初，自己给公众号指定出新的目标。在不影响技术文章的输出情况下，输出一些自己所思所想。本文是第一篇自己思考的文章，可能写得不够好，请见谅，毕竟是新的尝试。但这也算是自己的输出。在之前，我只是将重点以笔记的形式记录下来自己的思考。第一篇文章，让我们来聊聊拖延症。我在知乎看到过一个关于拖延的精彩回答，说得非常好，我就直接引用。拖延，是心理上的一种逃避，当人们做的事情有困难，不经济，短期看不到反馈，那么人们就会想尽办法去拖延，知道 deadline 前的一段时间内，才匆匆忙忙地区完成整个任务，这件事情。不可否认，人都有拖延行为，只不过程度的深浅。比如: 寒风刺骨的冬天，本该到了起床时间，自己跟自己说再睡 10 分钟就起床。再如: 周末，自己本来计划在家写篇工作报告，但被一部精彩的电视剧所吸引，自己一直跟自己说看完这集就去写报告，结果一拖再拖，周末就过去了，报告也没有写完。拖延症其实慢性毒药。因为拖延症会慢慢腐蚀高效的状态。举我自己亲身的例子。我每天到公司第一件事，就是把自己需要做的事情罗列出来，然后设定优先级，再开始工作。而我的工作模式是”单线程”模式，每次做完一 ...

170 行代码爬取《白蛇：缘起》短评数据

发表于2019-01-17|Python爬虫实战

在我的童年记忆中，电视台播放的动画片大多都是从日本、美国引进的。很多动画片算是银幕上的经典，例如：《变形金刚》系列、《猛兽侠》、《蜘蛛侠》、《七龙珠》、《名侦探柯南》、《灌篮高手》、《数码宝贝》等。但是国产的精品动画篇确认寥寥无几，可能是当时我国动漫产业还处在起步阶段。一晃几十年过去了，现在的国产动漫算是强势崛起，这也涌现出《斗破苍穹》、《秦时明月》、《天行九歌》等优秀的动画片。 2019年1月11日，一部国产动画电影《白蛇：缘起》在全国热映，一经上映便是好评如潮。这部电影凭借惊艳的花屏，出色的配音取得猫眼 9.4 分、豆瓣 8.0 分的高分成绩。既然是难得一见的精品，那么我去猫眼上爬爬网友的短评，看看网友们的观点。 1.分析页面估计很多人经常光顾猫眼电影网，猫眼的反爬机制越来越严格，手段也越来越多。如果选择“刚正面”，爬取 PC 端的页面，可能总体收益不高。况且，PC 端的页面只有精彩短评，没有全部的网页评论数据。因此，我选择转移战场，从手机页面入手，看看是否有收获。将浏览器选择以手机模式浏览器，结果发现手机网页有全部的短评数据。点击“查看全部讨论”，继续抓包分 ...

图表类型，你选对了吗？

发表于2019-01-06|数据分析

2019 年已悄然过去一个星期，不知你是否有新的收获？而自己在新年的头一周，一方面忙于工作，试着挑战一些更高难度的工作；另一方面在积极“充电”。自然而然公众号就拖更了。不过值得庆幸的是，今天更新了。今天给大家分享的内容是如何准确选择图表类型。虽然文字能很生动形象地描述出一件事或一个人，但是它在数据面前则显得有点吃力。因为文字描述一些数据时，需要人们去理解，在大脑中做对比。而图表具有集中、概括、便于分析和比较的特点，能给人一种直观、清晰的感觉；因此，在数据表示方面，图表比文字更适合。 1.图表类型微软公司在数据图表显示这方面可以算是行家。Excel 作为 Office 三剑客之一，它提供着一些丰富的图表类型。常见的图表大概能分为 8 种，分别是柱形图、折线图、饼图、条形图、面积图、X Y（散点图）、曲面图、雷达图。如果将上述图表进行细分，还是划分出很多子类型图表。如：当然，万变不离其宗。不管子类型图表怎么演变，还是属于上述 8 种图表。大概变化规律有四点：1）二维图形变成三维图形。2）横纵坐标表示值发生改变，如从具体数值变成百分比。3）图形的叠加，如堆积柱形图、簇 ...

挥别2018，起航2019

发表于2019-01-01|随笔

我的 2018 年总结。流光容易把人抛，红了樱桃，绿了芭蕉。 2018 年已经落下帷幕。每当年末年初时，我都会对过去一年做下总结。总结下自己在逝去的一年究竟收获什么。这算是对过去一年的交代，也是对自己一个交代。 1.2018 的收获1-1.学习体系化我收获到第一个关键字是学习体系化。说到学习，自己一直以“不日进则日退”激励自己。因为自己内心一直很害怕失败，所以一直在学习，总是希望自己能做得再更好一点。而我自己的知识来源途径有书籍、博客、公众号等。简单来说，自己遇到不懂的知识，就利用搜索引擎去了解和学习。但是，这种知识是比较碎片化的。通过这种方式，自己可能会对某个“点”的知识内容很清楚。如果知识内容上升到“线”的层面，自己会很茫然。这像一盘散乱的珠子。你每一次只能拎出“一个”即止，而不是连续的“一串”。因此，体系化是学习的正道。学到的东西只有纳入自己的知识体系中，才算是为自己所用。不成体系的零碎知识是没有任何价值的。现在自己接触到新的领域知识，会先画出该领域的思维导图，然后对每个细的分类进行学习。 1-2.深度思考职场上有一句很流行的话「不要用战术上的勤奋 ...

账号认证那些事

发表于2018-12-20|网络基础

QQ 承载着我们一代人的青春和记忆，一个账号和密码就能体验 QQ 各种功能。而微信作为一款国民级应用，是每个人手机必安装的软件，同样也需要一个账号登陆才能使用。纵观各种社交应用、网站，往往都是离不开账号体系。账号体系中有个重要的功能是账号登录，账号登录涉及到身份认证方法。我们在模拟登录网站去进行数据采集时，经常需要跟网站的身份认证“斗智斗勇”。因此，让我们来扒一扒其中的一些原理。 1.基本身份验证我们写的爬虫都是采用 HTTP/HTTPS 协议。 HTTP 协议中有种名为 Basic Authentication（基本身份验证）的验证方式。这种认证方式在 HTTP/1.0 就定义了。它的原理是在请求的 Headers 中增加 Authorization 字段，该字段的值是将“用户名：密码”的经过 Base64 编码之后的字符串；然后将其发送给服务器端做校验。我们进一步理解 HTTP 基本认证的过程：客户端发送 Request 给服务端。因为 Request 的 Headers 中没有包含 Authorization 字段，服务器会返回一个 4 ...

Python 代码性能优化技巧

发表于2018-12-13|小白入门Python

众所周知，程序的性能好坏影响着用户体验。所以性能是留住用户很重要的一环。 Python 语言虽然能做很多事情，但是有一个不足之处，那就是执行效率和性能不够理想。因此，更有必要进行一定的代码优化来提高 Python 程序的执行效率。本文章主要是输出自己在 Python 程序优化的经验。 1.尽量使用内置函数Python 的标准库中有很多内置函数，它们的运行效率都很高。因为很多标准库是使用 C 语言编写的。 Pyhton 的内置函数有：原图比较大，排版原因可能导致字体看不清。在公众号后台中，回复【内置函数】即可获取高清图片。 2.拼接字符串运算符 “+“ 不仅能用于加法运算，还能做字符串连接。但是这种效率不是很高。在 Python 中，字符串变量在内存中是不可变的。如果使用 “+“ 拼接字符串，内存会先创建一个新字符串，然后将两个旧字符串拼接，再复制到新字符串。推荐使用以下方法： 2-1.使用 “%” 运算符连接这种方式有点像 C 语言中 printf 函数的功能，使用 “%s“ 来表示字符串类型参数，再用 “%“ 连接一个字符串和一组变量。 1234fir = & ...

阅读优秀代码是提升技术的最佳途径

发表于2018-12-02|个人成长

我们身在行业中，要不断地学习提高自己的能力。有一种不错的方式来提高自己的技术实力。那就是阅读别人优秀的代码。那也许你会有疑问，为何要阅读别人优秀的代码？而不是拿到代码就进行阅读？正如意大利作家伊塔洛·卡尔维诺的《为什么要读经典》中提到经典于对喜欢它的人构成一种宝贵的经验。因此，阅读别人的优秀源代码有很多好处，收益也会非常大。通过大量阅读别人的代码，我们可以采用更先进的方法、风格和架构模式，让自己的技术能力和知识不断的增长。我收集一些优秀的 Python Web 相关的优秀项目，分享给大家参考学习。 1.flask-adminflask-admin 是基于 flask 框架开发的 admin 管理系统。该库能基于现有的数据模型，快速创建管理界面。易用性很高，简单配置参数就能运行。运行结果如下：另外，它还是微服务应用，提供很多 API。我们能从中学到微服务架构设计思路、数据(model)-视图(view) 绑定设计等。 Github 仓库地址 2.FlaskBBFlaskBB 基于 Flask 框架做的论坛，轻量级的论坛应用。虽然具备论坛帖子分类、成员&#x ...

使用 Python 分析全国所有必胜客餐厅

发表于2018-11-27|数据分析

在之前的一篇文章中，我讲到如何爬取必胜客官网中全国各大城市餐厅的信息。虽然餐厅数据信息被抓取下来，但是数据一直在硬盘中“躺尸”。不曾记得，自己已经第 n 次这么做了。说到这里，要追溯到自己的大学时光。自己从大学开始就接触 Python，当时是自己的好奇心很强烈。好奇为什么 Python 不需要浏览器就能抓取网站数据。内心感叹到，这简直是太妙了。自己为了体验这种抓取数据的乐趣，所以写了很多的爬虫程序。随着自己知识面地拓展，自己了解到数据分析这领域。自己从而才知道爬取到的数据，原来背后还隐藏的一些信息。自己也是在学习这方面的相关知识。这篇文章算是数据分析的处女稿，主要内容是从数据中提取出必胜客餐厅的一些信息。 1.环境搭建百度前端技术部开源一个基于 Javascript 的数据可视化图表库。其名字为 ECharts。它算是前端数据可视化的利器，能提供直观，生动，可交互，可个性化定制的数据可视化图表。国内有个大神突发奇想，这么好用的库如果能和 Python 结合起来就好了。于是乎，pyecharts 库就应运而生。因此，pyecharts 的作用是用于生成 ...

爬虫必备工具 —— Chrome 开发者工具

发表于2018-11-25|Python爬虫入门

在《论语》中，孔子提倡“学而不思则罔，思而不学则殆”的学习方法。我们再往深层面挖掘，“思”究竟是在思考什么？个人理解是思考并总结出一些共性的东西，即“套路”。有套路了，我们学习或工作会更加有效率。当我们爬取不同的网站是，每个网站页面的实现方式各不相同，我们需要对每个网站都进行分析。那是否有一些通用的分析方法？我分享下自己爬取分析的“套路”。在某个网站上，分析页面以及抓取数据，我用得最多的工具是 Chrome 开发者工具。 Chrome 开发者工具是一套内置于 Google Chrome 中的 Web 开发和调试工具，可用来对网站进行迭代、调试和分析。因为国内很多浏览器内核都是基于 Chrome 内核，所以国产浏览器也带有这个功能。例如：UC 浏览器、QQ 浏览器、360 浏览器等。接下来，我们来看看 Chrome 开发者工具一些比较牛逼的功能。 1.元素面板通过元素（Element）面板，我们能查看到想抓取页面渲染内容所在的标签、使用什么 CSS 属性（例如：class=”middle”）等内容。例如我想要抓取我知乎主页中的动态标题，在网页页面所在处上右 ...

推荐几个免费数据源的网站（送书福利）

发表于2018-11-20|数据分析

说到数据分析，我们会很容易联想到 Python。因为我们可以拿 Python 对已有的数据做数据分析。那什么是数据分析？数据分析指用适当的统计分析方法对收集来的大量数据进行分析，提取有价值的信息。在实用中，数据分析可帮助人们作出判断，以便采取适当行动。 “啤酒与尿布”的故事就是最典型的数据分析案例。 “啤酒”和“尿布”这两个商品看上去没有关联性。而沃尔玛将其摆放在一起进行销售、并获得了很好的销售收益。原因在于沃尔玛对购物篮分析，研究出“啤酒与尿布”之间存在一定关联性。这就是数据分析的意义。再例如通过数据分析出北京的空气质量的走势；分析近 10 年来 NBA 球队战绩和夺冠率之间的关系等等。说到这里，你也许有疑问。我没有数据，怎么做数据分析？别急，我推荐几个免费的数据源网站。 1.awesome-public-datasets这是一个 GitHub 仓库，其收集的数据所在领域比较广泛，收录政府、金融、计算机网络、软件、体育、气候天气等30个领域的数据。这些数据集的质量都是比较高，大部分都是免费且能直接下载到的数据。 Github 仓库地址 2.FiveT ...