今天我们要介绍的是通过搜素引擎的搜索语法+国内主流的黄页网站实现联系方式的采集
在寻找各类公司联系方式的过程中,黄页网站具有一定的优势。
黄页黄站的优势
1:信息分类清晰:
黄页网站通常会按照行业、地区等进行分类,用户能够快速定位到所需的企业类别,从而更有针对性地获取联系方式。例如,当您寻找某地区特定行业的公司时,通过黄页网站的分类筛选,能迅速找到相关企业,节省大量搜索时间。
2:信息相对集中:
将众多企业的信息汇集在一个平台上,方便用户进行集中浏览和查找。不必在多个网站或平台间来回切换,提高了获取信息的效率。
3:部分信息经过核实:
一些正规的黄页网站会对所收录的企业信息进行一定程度的核实,这在一定程度上保证了联系方式的准确性和可靠性。:
4:提供企业简介和业务范围:
除了联系方式,还能了解企业的基本情况、业务范畴等,有助于您在联系前对企业有初步的了解,更好地准备沟通内容。
国内主流的黄页网站
顺企网一个企业黄页和供求信息发布平台,提供企业最新发布的产品、新闻等信息。
慧聪网: B2B电子商务平台,提供B2B行业资讯、供应、求购信息。
企业录: 为企业供求信息提供网上宣传发布,为中国公司企业商业信息网上免费发布,并且展示企业,发布公司相关商业信息。
行业信息网: 按照行业进行分类,展示收录企业名录,包括电子商务、内贸企业黄页、外贸企业黄页、批发企业黄页、采购企业黄页、工厂、加工合作、商人名录等。
114企业网:汇集114企业各行各业的商业信息,是人们查询企业详细信息和联系业务的平台,同时又是企业宣传形象和展销产品的窗口。
浙江民营企业网: 浙江中小企业网上贸易中心,领先的浙江产业集群B2B电子商务平台。
企业录:为企业供求信息提供网上宣传发布,为中国公司企业商业信息网上免费发布,并且展示企业,发布公司相关商业信息。
浙江民营企业网: 浙江中小企业网上贸易中心,领先的浙江产业集群B2B电子商务平台。
黄页网站特点
这里我们以 顺企网为例分析:
我们打开一个公司的黄页链接
在这个页面中,首先他的url都是包含 contact,页面文字都是包含 “联系方式”
通过浏览该网站其他公司的黄页我们发现所有的页面都是一样的结构
构建关键词
这样我们就可以将我们的搜索语法构造成为
“联系方式” site:11467.com inurl:contact
这个搜索语法的作用是在 11467.com 这个网站内,搜索包含“联系方式”这个关键词,并且链接中包含“contact”的页面。其中: “联系方式”是要搜索的关键词; “site:11467.com”表示只在 11467.com 这个网站内搜索; “inurl:contact”表示搜索链接中包含“contact”的页面。
我们通过语法在百度搜索引擎中搜索得到对应的结果如图:
软件采集
软件分为两个步骤采集,这样设计的优势是提高软件的灵活性,并且可扩展性提高,性能支持单独定义线程,大大提到了效率。
任务1:利用关键词采集到包含相关关键词的页面
任务2:利用任务1的结果作为种子,采集页面包含的联系方式
任务一:利用关键词采集相关网址
1:种子示例
intitle:联系方式 site:yellowurl.cn inurl:contact
intitle:联系方式 site:qy6.com inurl:contact
intitle:联系方式 site:zj123.com inurl:contact
intitle:联系我们 site:11467.com inurl:contact
联系我们 site:cn114bst.com
联系方式 site:cnlinfo.net
搜索任务,种子文件为txt格式内容为:一行一个关键词
2:配置参数
如上图所示,
上传我们的种子文件
搜索引擎因为是国内的黄页网站我们使用百度完全可以
重复判断选择【按网址】在黄页网站上每个网址都是一个公司的黄页地址
存储字段【标题】注:标题可以获取到对应公司名称
按自己的情况进行配置即可。大部分参数都可以使用默认设置即可。
3:开始运行
4:导出结果
任务二:使用联系任务采集联系方式
1:种子文件
种子文件我们使用任务一导出的网址格式的txt文件即可,
示例:
2:配置参数
上传种子文件后选择需要采集的字段,其余可以保持默认设置即可
3:运行任务
在联系任务采集选项卡点击【开始任务】
4:导出结果
总结:
本示例主要针对国内主流黄页网站进行联系方式的采集,其他类似网站也可以用此方法进行采集
通过合理构造我们的关键词可以实现更多的功能,如:按照城市搜索等。
免责声明
本平台所采集的数据均来源于公开渠道,我们在采集过程中严格遵循相关法律法规和道德规范,确保所采集的数据合法、合规、正当。
需要特别说明的是,我们所提供的数据仅用于一般的信息参考和合法用途。如果用户将这些数据用于非法活动或违反任何法律法规的行为,所产生的一切后果将由用户自行承担,本平台不承担任何法律责任。
我们致力于为用户提供有价值的信息服务,但无法对用户如何使用这些数据进行直接控制。因此,请用户务必在使用本平台提供的数据时,遵守法律法规和社会公德,以合法、合理、诚信的方式使用数据。
再次感谢您对本平台的支持和信任。