# HelloWaiMao **Repository Path**: samhula/hellowaimao ## Basic Information - **Project Name**: HelloWaiMao - **Description**: 外贸工具 - **Primary Language**: JavaScript - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 1 - **Created**: 2024-06-03 - **Last Updated**: 2025-03-04 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## Hello!WaiMao 一个工具,关于爬取内容,AI重写,发布到自媒体(小红书,Facebook,Twitter, Tiktok, 头条等) ## 功能介绍 - 采集(Spider)爬取目标网站的列表及详情页:文章或产品等... - 生成(AI)设置提示语,使用AI网站来重写提供的内容(可以是爬虫爬到的也可以是你复制粘帖过来了),产生一个全新的内容。 - 发布(Publisher)发内容到自媒体(小红书,Facebook的个人主页或小组,Twitter,Tiktok,头条 etc),你可以自行扩展要发布的内容,其中的规则就是css selector ### 怎么使用 #### 1.使用Spider - 点击"自媒体",切换到"采集",如果你要爬取的内容需要登录,在"帐号"这个tab下,点击"新增",添加帐号,在后续爬取过程中使用到。 - a)点击“采集目标”,可以看到有很多按钮 ![spider header](assets/spider-header.png) b)点击“新增”,添加目标,目标分为列表及详情,注意:选择了目标,采集的内容是详情,还需要进一步来采集详情 ![添加采集目标](assets/spider-source.png) c)字段说明: 类型:也就是要采集的平台(阿里国际c站,中国制造等你自己定义的目标) 名称:自定义名称 链接:要采集的链接 页数:如果是列表,需要设置一下这个页页,如果是自动加载到底的,就设置为1 登录:默认是不需要,如果需要,那就会自动使用前面配置过的帐号进行登录 生效:默认是生效,如果是不生效,这个目标不会被采集 列表:是否是列表,如果是列表,会走列表采集模式,否则是详情采集模式 最后点击保存给后续配置使用 d)配置采集规则 平台:也就是前面说的类型,这里没有统一说明,这个可以在字典中配置,后续会讲到 模块名称:目前系统中分为列表及详情,当然也可以扩展为多级,比如列表-列表-详情,这个模块是绑定了具体的执行代码 规则:规则是一个Json对象,每个平台对应的配置字段不一样,这个取决于网站结构及采集代码,后续会开放采集代码上传的入口,方便大家自行扩展 ![添加采集规则](assets/image.png) e)配置采集任务 为什么为有这一步呢?因为我们配置了帐号,采集目标,采集规则,我们需要一个逻辑来把这三者关联起来,所以就产生了这一个逻辑,当然也可以放到其他层里,但这样感觉逻辑简单一点,就任性了 ![添加任务](assets/image1.png) f)配置计划 这一步可有可无,如果只要一次一个的执行,那可以回到“采集目标”这个tab下,点击对应目标的“采集”按钮就可以了(前提上abde已经配置好) ![单个生成](assets/image2.png) 如果需要一次或者定时执行,那这一步就需要配置,这一步提供的功能如下: 1.资源圈定:特定圈定(指定哪些),条件圈定(设置一个条件,自动查询出来) ![](assets/image3.png) 2.执行时机:立即执行,指定时间执行(指定一个未来时间执行一次),定时执行(在满足条件的情况下循环执行) ![执行时机](assets/image4.png) #### 2.使用AI重写 整体流程与Spider的使用方式类似,不同点是增加了“提示语配置”与查看生成的结果“生成数据” ![AI生成](assets/image2-0.png) ##### 配置提示语 点击“生成”,切换到“提示语”tab,点击“新增”按钮 ![新增提示语](assets/image2-1.png) 图中有对应字段的简单说明,我们先来看一段提示语: ``` 你是google SEO 专家,请帮我把这个标题:"{{title}}"重写生成符合google seo的要求的{{lang}}文本标题,并在标题中随机埋入这些关键词:{{keywords}},只输出标题不输出关键字 ``` 其中{{lang}}内置占位符,对应的是图中的语言,当程序运行时会自动替换成配置的语言;{{title}}是自定义占位符,要跟图中的数据字段配置的内容一致,会使用数据中的对应内容来替换这个占位符;{{keywords}}对应图中的关键词; 假如数据: ``` {title:"Hello!WaiMao"} ``` 提示语配置如下: 语言:英文 数据字段:title 注意:数据中没有title那就没法运行了 关键词:a,b,c 最终生成的提示语: ``` 你是google SEO 专家,请帮我把这个标题:Hello!Waimo,重写生成符合google seo的要求的英文文本标题,并在标题中随机埋入这些关键词:a,b,c,只输出标题不输出关键字 ``` ##### 生成数据 ![alt text](assets/image2-3.png) 通过"内容"这个字段有没有内容来判断是否生成成功;再看"状态"是否是已生成 #### 3.使用发布器(Publisher) 发布的流程与Spider采集也类似,在此不展开说了. ### 配置-字典 最后我们来说一下配置,其中分为平台类型,模块类型 ![alt text](assets/imagen-0.png) 平台类型:是指自定义的一个名称,方便你识别, 模块类型:是与平台类型相关,提供具体的程序,比如采集,生成,发布等程序 #### 新增采集小红书 1. 新增一个平台类型,名为小红书,设置范围为采集 2. 在新增的平台类型后,点击“配置”,设置范围为采集,根据具体情况,选择列表,并执行的代码上传或者选择内置 3. 以上两步完成后,就可以按照采集的流程来配置了 #### 新增AI生成 流程与上面一致 #### 新增发布器 流程与采集一致 ### 最后 如何判断采集成功?方法1:到“生成数据”,看有没有数据;方法2:看采集目标的状态 如何判断生成成功?方法1:到“生成数据”,检查是否有生成结果或者状态是否变为已生成 如何判断发布成功?方法1:检查数据状态是否为“已发布”;方法2:到对应的平台看看结果咯 数据状态分为两种: - 采集目标:未采集,已采集; - 采集数据:已采集,已生成,已发布;