# baike-spider **Repository Path**: hl0929/baike-spider ## Basic Information - **Project Name**: baike-spider - **Description**: 百度百科爬虫 爬取明星基本信息 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 1 - **Created**: 2023-06-11 - **Last Updated**: 2024-01-29 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 项目介绍 利用网页特征信息爬取演员百科信息 # 环境配置 * 虚拟环境 ```bash python3 -m venv venv source venv/bin/activate ``` * 安装依赖 ```bash pip install -r requirements.txt ``` # 执行爬虫 ```bash python main.py ``` # 项目结构 ```bash . ├── LICENSE ├── README.md ├── data │ ├── lastnames.txt # 百家姓 │ └── person.jsonl # 爬虫结果 ├── main.py # 爬虫执行主程序 ├── requirements.txt ├── test │ ├── example.html │ └── test_bs4.py # 测试 bs4 └── utils ├── downloader.py # html 下载 ├── manager.py # url 管理 └── parser.py # html 解析 ```