网站地图 专辑地图 DJ舞曲 网址导航 时间查询 词典查询 问答查询 邮编查询 万年历查询 机械 苗木 升学
  • 人人DJ
  • 人人DJ
  • 炫音社
  • 西西音乐
  • 成都漫音
  • 成都音画时尚
  • English | 简体中文 | 繁體中文

    heritrix

    Heritrix是一个开源的网络爬虫,主要用于在互联网上抓取和归档网页内容。它是由Internet Archive(互联网档案馆)开发的,旨在帮助机构和个人建立自己的网络内容归档。

    Heritrix的设计目标是支持大规模的、可持续的网页抓取,并且具有高度的可配置性和灵活性。它使用模块化的架构和可扩展的插件系统,可以根据用户的需求进行定制和扩展。

    Heritrix被广泛应用于数字图书馆、档案馆、新闻机构等领域,用于创建和维护大规模的网络内容归档,以便长期保存和检索互联网上的信息资源。

    不过对于国内网站来说不会带来什么流量,可以选择robots.txt协议禁止。

    User-agent: heritrix

    Disallow: /

    如果还是禁止不了,可以选择nginx规则禁止访问,如下:

    if ($http_user_agent ~* "heritrix") {

     return 403;

    }

    补充纠错
    上一蜘蛛: YouBot
    下一蜘蛛: EtaoSpider