新闻动态
08
2023-04
Msray-plus,是一款采用GO语言开发的企业级综合性爬虫/采集软件。 关键词:搜索引擎结果采集、域名采集、URL采集、网址采集、全网域名采集、CMS采集、联系信息采集 支持亿级数据存储、导入、重复判断等。无需使用复杂的命令,提供本地WEB管理后台对软件进行相关操作,功能强大且简单易上手! 1:可从国内外多个搜索引擎批量采集用户导入的关键词对应的搜索结果(SERP数据),并进行结构化数据存储与自定义过滤处理; 2:可从用户提供的url种子地址,源源不断的自动爬取全网网站数据,并进行结构化数据存储与自定义过滤处理; 3:可从用户提供的网站列表数据中,全自动的提取出网站联系方式信息,包括但不限于邮箱、手机/电话、QQ、微信、facebook、twitter等。 同时支持存储域名、根网址、网址(url)、IP、IP所属国家、标题、描述、访问状态等多种数据,主要运用于全网域名/网址/采集、行业市场研究分析、指定类型网站采集与分析、网络推广分析以及为各种大数据分析等提供数据支撑。
16
2022-08
## 新版本发布(1.4.0) 发布时间:2022-08-161. 去除agent数据库信息。直接由txt载入到内存中;2. 更改logger日志信息组件;3. IP数据库更新;4. 配置文件更新;5. 爬虫(外链)引擎任务队列引擎,改用自研队列组件代替了redis相关操作;6. 爬虫(外链)引擎任务种子数据存储引擎,改用自研方案代替了redis相关存储;7. 任务数量统计算法重写与升级,基于内存存储任务结果数量,然后定时更新同步到数据库,提升效率并减少了大量磁盘IO操作;8. 数据重复判断引擎,改用自研布隆过滤器加强版实现,取代redis相关操作,性能与资源占用大量提升;9. 入库算法更新,循环单次入库,改为批量入库,减少大量磁盘IO操作;10. 新增任务对应的被方案过滤结果数量、被重复过滤数量显示;11. 已采集关键词判断逻辑优化;12. 命令行提示信息优化,授权信息格式化后显示在顶部,方便识别与查找;13. 优化任务执行队列,修复部分情况下导致任务排队中需要重启的问题;14. 重写关键词拓展引擎,改为按需拓展。无需指定线程数!当可用种子关键词不足时,自动触发。防止关键词拓展速度
22
2022-07
使用msray进行精准文章数据收集与二次开发实现伪原创网站自动更新现在各大开源CMS基本都提供有数据更新接口,可以实现外部对接与自动发布。但是如果管理的网站较多,或者想要给网站发布很多内容,人工去做的话,成本会很高。如何自动化的生成精准内容,并自动进行伪原创,再自动更新到网站呢?方案:1: 指定多个关键词,使用msray批量采集多个搜索引擎的返回结果,然后使用webhook模块实现实时推送结果到伪原创服务端;2: 伪原创服务端接收采集到的网站数据,根据算法实现配图、文字替换、内容组装、广告过滤等等,生成正式的文章数据,推送到网站更新服务端;3: 网站更新服务端,接收生成的正式文字内容,一对一、或者一对多的自动化的发布到指定网站;关于网站更新网站内容更新,应该是每个网站比较重要的话题,无论是新手还是老蒋,都晓得更新的重要性。首先,网站的更新是网站存在的根底。不时更新网站,不只有利于搜索引擎的珍藏,也有利于改善用户体验。假如文章创意高,内容空泛,也会遭到搜索引擎的喜爱。当然,好的伪原创也会起到相似的效果。这里我们还应该关注网站的更新频率,假如网站的更新频率很高,比方SEO能够想象,每次搜索
22
2022-07
问:msray可以只采集国外网站域名或网址吗?答:可以!实现该功能,我们需要借助msray的过滤引擎。过滤引擎,与重复过滤不同。重复过滤是系统内置的,而过滤引擎是可以自定义配置,根据多个维度,对抓取到的结果进行处理的引擎;我们可以配置“网站服务器归属国家过滤“参数,如:(1) 简介可针对每条采集结果,解析出域名对应IP所属服务器国家,然后针对国家进行过滤判断。(2) 说明如果需要以国家为条件对结果做过滤,那么启用状态必须保持开启!否则规则即使配置了也不会生效;启用类型,分为“包含”和“不含”;过滤值,可以有一个或多个;点击新增按钮即可添加。如果是包含,则采集的网站的服务器所属国家/区域,只存储属于“过滤值”中指定的国家/区域。如果是不含,则采集的网站的服务器所属国家/区域,只存储不属于“过滤值”中指定的国家所属国家/区域。比如不想要国内的域名,那么启用类型就选择“不含”,过滤值里面就添加中国注意:规则值,是以网络线路归属国家区域来划分。比如中国、香港、台湾、美国、日本、俄罗斯。
08
2022-07
msray V1.3.6版本 于07-07发布!1. 新增百度移动版引擎;2. 搜索引擎名称改动,百度定制超级版改为百度电脑版;3. 导出功能升级,导出全部支持显示每条结果的所属引擎、以及所属搜索关键词;4. 谷歌原版引擎升级;5. 搜索任务,支持导出自动拓展的搜索引擎相关关键词;6. 关键词载入与重复采集判断逻辑优化;