# search_engine **Repository Path**: he-rb/search_engine ## Basic Information - **Project Name**: search_engine - **Description**: 基于某个网站的站内搜索引擎 可以根据需求下载不同的离线 html 文档实现不同网站的站内搜索,对 html 文档完成去标签化 根据去标签化后的文档,进行分词、权重计算,建立正排索引与倒排索引,用于搜索 对搜索关键词进行分词,根据相关度对搜索结果排序,并以Json字符串形式返回结果 实现了文档记录、竞价排名、去掉暂停词的功能 模拟httplib库实现了HTTP服务,其中TCP采用多路转接的方案实现 - **Primary Language**: C++ - **License**: 0BSD - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2023-09-11 - **Last Updated**: 2024-09-12 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # search_engine #### 介绍 基于某个网站的站内搜索引擎 可以根据需求下载不同的离线 html 文档实现不同网站的站内搜索,对 html 文档完成去标签化 根据去标签化后的文档,进行分词、权重计算,建立正排索引与倒排索引,用于搜索 对搜索关键词进行分词,根据相关度对搜索结果排序,并以Json字符串形式返回结果 实现了文档记录、竞价排名、去掉暂停词的功能 模拟httplib库实现了HTTP服务,其中TCP采用多路转接的方案实现 #### 使用说明 在搜索框内搜索相应的关键字即可 #### 项目预览 ![输入图片说明](image/image.png)