<html dir="ltr"><head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style title="owaParaStyle">P {
        MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px
}
</style>
</head>
<body ocsi="x">
<p><font face="Courier New" size="2">Hi,</font></p>
<p><font face="Courier New" size="2"></font>&nbsp;</p>
<p><font face="Courier New" size="2">Further to my last design question re LSID HTTP proxies (thanks for the responses), I wanted to raise the issue of HTTP LSID proxies and crawlers, in particular the crawl delay part of the robots exclusion protocol.</font></p>
<p><font face="Courier New" size="2"></font>&nbsp;</p>
<p><font face="Courier New" size="2">I'll outline a situation we had recently:</font></p>
<p><font face="Courier New" size="2"></font>&nbsp;</p>
<p><font face="Courier New" size="2">The GBIF portal and ZipCodeZoo site both inclde IPNI LSIDs in the pages. These are presented in their proxied form using the TDWG LSID resolver (eg
</font><a href="http://lsid.tdwg.org/urn:lsid:ipni.org:names:783030-1" target="_blank"><font face="Courier New" size="2">http://lsid.tdwg.org/urn:lsid:ipni.org:names:783030-1</font></a><font face="Courier New" size="2">). Using the TDWG resolver to access the
 data for an IPNI LSID does not issue any kind of HTTP redirect, instead the web resolver uses the LSID resolution steps to get the data and presents it in its own response (ie returning a HTTP 200 OK response).</font></p>
<p><font face="Courier New" size="2"></font>&nbsp;</p>
<p><font face="Courier New" size="2">The problem happens when one of these sites that includes proxied IPNI LSIDs is crawled by a search engine. The proxied links appear to belong to tdwg.org, so whatever crawl delay is agreed between TDWG and the crawler in
 question is used. The crawler has no knowledge that behind the scenes the TDWG resolver is hitting ipni.org. We (ipni.org) have agreed our own crawl limits with Google and the other major search engines using directives in robots.txt and directly agreed limits
 with Google (who don't use the robots.txt directly).</font></p>
<p><font face="Courier New" size="2"></font>&nbsp;</p>
<p><font face="Courier New" size="2">On a couple of occasions in the past we have had to deny access to the TDWG LSID resolver as it has been responsible for far more traffic than we can support (up to&nbsp;10 times the crawl limits we have agreed with search engine
 bots) - this due to the pages on the GBIF portal and / or zipcodezoo being crawled by a search engine, which in turn triggers a high volume of requests from TDWG to IPNI. The crawler itself has no knowledge that it is in effect accessing data held at ipni.org
 rather than tdwg.org as the HTTP response is HTTP 200.</font></p>
<p><font face="Courier New" size="2"></font>&nbsp;</p>
<p><font face="Courier New" size="2">One of Rod's emails recently mentioned that we need a resolver to act like a tinyurl or bit.ly. I have pasted below the HTTP headers for an HTTP request to the TDWG LSID resolver, and to tinyurl / bit.ly. To the end user
 it looks as though tdwg.org is the true location of the LSID resource, whereas with the tinyurl and bitly both just redirect traffic.</font></p>
<p><font face="Courier New" size="2"></font>&nbsp;</p>
<p><font face="Courier New" size="2">I'm just posting this for discussion really - if we are to mandate use of a web based HTTP resolver/proxies, it should really issue 30* redirects so that established crawl delays between producer and consumer will be used.
 The alternative would be for the HTTP resolver to read and process the directives in robots.txt, but this would be difficult to implement as it is not in itself a crawler, just a gateway.</font></p>
<p><font face="Courier New" size="2"></font>&nbsp;</p>
<p><font face="Courier New" size="2">I'm sure that if proxied forms of LSIDs become more prevalent this problem will become more widespread, so now - with the on-going attempt to define what services a GUID resolver should provide -&nbsp;might be a good time to
 plan how to fix this.</font></p>
<p><font face="Courier New" size="2"></font>&nbsp;</p>
<p><font face="Courier New" size="2">cheers,<br>
Nicky</font></p>
<p><br>
<font face="Courier New" size="2">[nn00kg@kvstage01 ~]$ curl -I </font><a href="http://lsid.tdwg.org/urn:lsid:ipni.org:names:783030-1" target="_blank"><font face="Courier New" size="2">http://lsid.tdwg.org/urn:lsid:ipni.org:names:783030-1</font></a><br>
<font face="Courier New" size="2">HTTP/1.1 200 OK<br>
Via: 1.1 KISA01<br>
Connection: close<br>
Proxy-Connection: close<br>
Date: Mon, 27 Apr 2009 11:41:55 GMT<br>
Content-Type: application/xml<br>
Server: Apache/2.2.3 (CentOS)</font></p>
<p><font face="Courier New" size="2"></font>&nbsp;</p>
<p><font face="Courier New" size="2">[nn00kg@kvstage01 ~]$ curl -I </font><a href="http://tinyurl.com/czkquy" target="_blank"><font face="Courier New" size="2">http://tinyurl.com/czkquy</font></a><br>
<font face="Courier New" size="2">HTTP/1.1 301 Moved Permanently<br>
Via: 1.1 KISA01<br>
Connection: close<br>
Proxy-Connection: close<br>
Date: Mon, 27 Apr 2009 12:16:38 GMT<br>
Location: </font><a href="http://www.ipni.org/ipni/plantNameByVersion.do?id=783030-1&amp;version=1.4&amp;output_format=lsid-metadata&amp;show_history=true" target="_blank"><font face="Courier New" size="2">http://www.ipni.org/ipni/plantNameByVersion.do?id=783030-1&amp;version=1.4&amp;output_format=lsid-metadata&amp;show_history=true</font></a><br>
<font face="Courier New" size="2">Content-type: text/html<br>
Server: TinyURL/1.6<br>
X-Powered-By: PHP/5.2.9</font></p>
<p><font face="Courier New" size="2"></font>&nbsp;</p>
<p><font face="Courier New" size="2">[nn00kg@kvstage01 ~]$ curl -I </font><a href="http://bit.ly/KO1Ko" target="_blank"><font face="Courier New" size="2">http://bit.ly/KO1Ko</font></a><br>
<font face="Courier New" size="2">HTTP/1.1 301 Moved Permanently<br>
Via: 1.1 KISA01<br>
Connection: Keep-Alive<br>
Proxy-Connection: Keep-Alive<br>
Content-Length: 287<br>
Date: Mon, 27 Apr 2009 12:19:48 GMT<br>
Location: </font><a href="http://www.ipni.org/ipni/plantNameByVersion.do?id=783030-1&amp;version=1.4&amp;output_format=lsid-metadata&amp;show_history=true" target="_blank"><font face="Courier New" size="2">http://www.ipni.org/ipni/plantNameByVersion.do?id=783030-1&amp;version=1.4&amp;output_format=lsid-metadata&amp;show_history=true</font></a><br>
<font face="Courier New" size="2">Content-Type: text/html;charset=utf-8<br>
Server: nginx/0.7.42<br>
Allow: GET, HEAD, POST</font></p>
<p><br>
<br>
<br>
<font face="Courier New" size="2">- Nicola Nicolson<br>
- Science Applications Development,<br>
- Royal Botanic Gardens, Kew,<br>
- Richmond, Surrey, TW9 3AB, UK<br>
- email: n.nicolson@rbgkew.org.uk<br>
- phone: 020-8332-5766</font></p>
</body>
</html>