# menu **Repository Path**: smart-ice-box/menu ## Basic Information - **Project Name**: menu - **Description**: 菜谱爬取以及存储模块 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2022-01-08 - **Last Updated**: 2022-03-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: 项目 ## README # menu ## 介绍 菜谱爬取以及存储模块 ## 目录说明 data(此部分不在仓库中,需要从百度网盘中下载) foods/-食物百科数据 graphics/-食物训练图片 xiao_chu_fang/-下厨房网站的菜谱 duplicate_removal_keys.txt-不重复菜品关键词 foods.txt-菜谱中出现的所有食物 keys.txt-菜品关键词 keys_to_recognize.txt-需要进行图像识别的关键词 keys_to_shoot.txt-需要提供实物进行拍照获取数据的关键词(其中加了?的表示可以暂时不需要用实物) synonym.txt-同义词 src analysis.py-分析爬取的数据 fetch.py-爬取数据 HTML.py-工具类,用于爬取html页面 main.py-主函数,用于启动爬取程序 pre_process.py-用于从graphics/中产生用于识别的训练集和测试集的工具类 ## 安装教程 1. 安装依赖库`pip install -r requirements.txt` 2. 如果需要,则前往[百度网盘]下载data数据 ## 主要功能函数,均在[main]中 1. 菜谱数据爬取`fetch_all_menu()` 2. 食物百科数据爬取`fetch_all_food()` 3. 食物训练图片爬取`fetch_all_pictures()` ## 鸣谢 1. 感谢[下厨房]提供的菜谱数据 2. 感谢[百度百科]提供的食物百科数据 3. 感谢[百度图片]提供的食物训练图片 [下厨房]:https://www.xiachufang.com [百度百科]:https://baike.baidu.com [百度图片]:https://image.baidu.com [main]:src/main.py [百度网盘]:todo!