Skip to content

简单但绝不简陋的 Python3 爬虫项目,集合 HelloGitHub 所有平台的账号信息。会基础的 Python 语法就能看懂!

Notifications You must be signed in to change notification settings

HelloGitHub-Team/Hydra

Folders and files

NameName
Last commit message
Last commit date

Latest commit

15fb6ff · Apr 21, 2021

History

37 Commits
Mar 7, 2021
Mar 5, 2021
Apr 21, 2021
Mar 6, 2021
Feb 26, 2021
Mar 4, 2021
Jan 22, 2021
Mar 4, 2021
Mar 10, 2021
Mar 7, 2021
Mar 19, 2021
Mar 6, 2021
Mar 6, 2021
Mar 19, 2021

Repository files navigation

Hydra(九头蛇)


GitHub Workflow Status Codacy grade Codacy coverage
简单但绝不简陋的 Python3 爬虫项目。
参考「建立完美的 Python 项目」 创建

Hydra 力求用最简单的代码实现聚合 HG 多平台的数据。

从本项目中你可以看到:熟悉的 Python 基础语法如何编写爬虫操作数据库常用第三库分析网页解析接口编写单元测试mock 请求异常监控和管理保证代码质量的自动化GitHub Action 等实战应用。

此项目是汇集「HelloGitHub」在每个平台的账号和内容数据,方便我们的作者们看到自己作品的数据(投稿吗?)。支持平台:博客园头条知乎掘金即刻 等。

你要加入我们吗?

一、运行

基于 Python 3.9.1 实现,理论上支持 3.7.5+

首先,下载项目:git clone or 点击下载 zip 包

然后,在项目根目录创建配置文件,.local_env.yaml

最后,把玩起来吧!

  1. 安装 poetry:pip install poetry

  2. 安装依赖:在项目根目录执行 poetry install --no-root

  3. 运行单个爬虫:poetry run python main.py wechat|cnblogs|toutiao|csdn|zhihu|juejin|jike

运行遇到问题和更多说明点这里,贡献代码看这里

二、展示

比如:查看某一日发布的原创文章数据

SELECT
	summary ,
	clicks_count ,
	platform ,
	publish_date
FROM
	hydra_content
WHERE
	content_type = "article"
AND publish_date = "2021-03-01"
AND(
	is_original = 1
	OR is_original IS NULL
);
+-----------------------------------------+----------------+------------+----------------+
| summary                                 |   clicks_count | platform   | publish_date   |
|-----------------------------------------+----------------+------------+----------------|
| 更新啦!第 59 期《HelloGitHub》开源月刊 |             77 | csdn       | 2021-03-01     |
| 更新啦!第 59 期《HelloGitHub》月刊     |           5133 | wechat     | 2021-03-01     |
| 更新啦!第 59 期《HelloGitHub》开源月刊 |           1022 | cnblogs    | 2021-03-01     |
| 更新啦!第 59 期《HelloGitHub》开源月刊 |           1053 | toutiao    | 2021-03-01     |
| 更新啦!第 59 期《HelloGitHub》开源月刊 |           1879 | zhihu      | 2021-03-01     |
| 更新啦!第 59 期《HelloGitHub》开源月刊 |            931 | juejin     | 2021-03-01     |
+-----------------------------------------+----------------+------------+----------------+
6 rows in set
Time: 0.050s

三、声明

知识共享许可协议
本作品采用 署名-非商业性使用-禁止演绎 4.0 国际 进行许可。

About

简单但绝不简陋的 Python3 爬虫项目,集合 HelloGitHub 所有平台的账号信息。会基础的 Python 语法就能看懂!

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages