<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Dear Steve,<div><br></div><div>I like BCI -- Roger Hyam did a very nice job creating this service. Indeed,&nbsp;I think Roger was offering to set up something rather like what you describe (see&nbsp;<a href="http://www.biocol.org/static/bcisgs.html">http://www.biocol.org/static/bcisgs.html</a> ).</div><div><br></div><div>BCI would be one way to create a namespace for specimen identifiers.&nbsp;As always, there's more than one such tool in our community. The Repository of Biological Repositories (<a href="http://biorepositories.org/">http://biorepositories.org/</a>) is a similar service from the barcoding community, and I gather there are moves to try and integrate these two resources (sigh). The other consideration would be how the BCI identifiers actually map to digital resources at the institutions (for example do the BCI identifiers map onto the dataset ids that GBIF has for each collection?).</div><div><br></div><div>Let's hope that implementing resolvable specimen identifiers does not the typical fives years to actually happen...</div><div><br></div><div>Regards</div><div><br></div><div>Rod</div><div><br><div><div>On 27 Feb 2012, at 21:17, Steve Baskauf wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div>In all of this discussion I am surprised that there has been no mention <br>of Biodiversity Collections Index (BCI; <br><a href="http://www.biodiversitycollectionsindex.org/">http://www.biodiversitycollectionsindex.org/</a>). &nbsp;To my knowledge, it has <br>never been "down" for any significant period of time and has an <br>extremely comprehensive listing of collections. &nbsp;Any collection that <br>isn't there can be added in a matter of a few minutes.<br><br>The reason why URLs are globally unique is because a centralized <br>authority (ICANN) makes sure that no two entities can have the same <br>domain name. &nbsp;It is the responsibility of the domain owner to not have <br>two URLs that are the same within that domain. &nbsp;In other words, the <br>domain owner makes sure that they identify their resources using locally <br>unique identifiers which in combination with the domain name creates a <br>globally unique identifier.<br><br>BCI essentially performs an analogous function to ICANN in the <br>biodiversity informatics community. &nbsp;It assigns a unique number to each <br>collection and ensures that no two collections can have the same <br>number. &nbsp;It slaps that number onto the end of the string <br>"urn:lsid:biocol.org:col:" to create an LSID and onto the end of <br>"<a href="http://biocol.org/urn:lsid:biocol.org:col:">http://biocol.org/urn:lsid:biocol.org:col:</a>" to create an HTTP URI, both <br>of which are globally unique, actionable (in their own ways), and <br>persistent.<br><br>All of the hand wringing about people changing their collection codes or <br>institution codes, or about two institutions in different fields (or <br>units within the same institution) having the same institution codes <br>goes away if we simply use the BCI-assigned number to identify the <br>collection. &nbsp;Within a particular collection, it is the institution's <br>responsibility to create and maintain locally unique identifiers for <br>their specimens. &nbsp;BCI has a systematic way to relate subcollections <br>within collections (each with their own identifier) and a large <br>institution with subcollections would just have to delegate at what <br>level the coordination of locally unique identifiers would be done. &nbsp;<br>Nobody outside the institution can do it for them - they just need to <br>bear the responsibility to stick with a system and not change it.<br><br>I mention this because there are really three categories of <br>specimen-containing institutions:<br>1. Those with enough stability and the financial and IT resources to <br>generate and provide dereferencing for their own actionable GUIDs.<br>2. Those with the ability to generate and maintain a database of <br>non-HTTP-dereferenceable globally unique identifiers (I'm thinking about <br>UUIDs or UUIDs that are part of LSIDs) and to associate them with <br>specimens in their database, but which do not have the IT infrastructure <br>or the inclination to provide actionability for their globally unique <br>identifiers.<br>3. Those who have a system of assigning locally unique identifiers (I'm <br>thinking bar codes) to their specimens but who because of small size <br>will probably never have sophisticated IT capabilities nor the ability <br>to provide dereferencing for actionable GUIDs.<br><br>Either categories 2 or 3 would include institutions that do not have <br>control over a stable domain name or which have institutional <br>restrictions on the use of domain names that would preclude use of their <br>domain name as part of an HTTP URI.<br><br>Category 1 institutions create HTTP URI GUIDs using their domain names <br>and do whatever they want as far as the locally unique part of their <br>GUID is concerned. &nbsp;Their freedom comes with the responsibility of <br>providing dereferencing under their domain name forever.<br><br>Category 2 and 3 institutions create globally unique and persistent, but <br>not (yet) dereferenceable identifiers with the hope of transforming them <br>into HTTP URIs at a later time. &nbsp;Category 2 institutions have this <br>already in the form of their UUIDs. &nbsp;Category 3 institutions create <br>their own globally unique identifiers by means of a simple rule: "place <br>the BCI number for our collection, followed by a slash, in front of our <br>locally unique identifier" (e.g. "15590/" for the LSU herbarium + <br>"LSU00000434" for the barcode to create "15590/LSU00000434" as an <br>identifier for the specimen shown at <br><a href="http://images.cyberfloralouisiana.com/images/specimensheets/lsu/0/0/4/34/LSU00000434_l.jpg">http://images.cyberfloralouisiana.com/images/specimensheets/lsu/0/0/4/34/LSU00000434_l.jpg</a>). &nbsp;<br>Category 3 institutions go to BCI and write in the "note" for their <br>collection what their rule is and then anybody who knows the barcode (or <br>accession number or whatever kind of locally unique number they commit <br>to) for the specimen knows the non-actionable globally unique <br>identifier. &nbsp;If the institution already consistently uses a "Darwin Core <br>triple" (institutionID:collectionID:catalogNumber) as a "poor-man's <br>GUID" in their database, they could slap "the BCI number for our <br>collection, followed by a slash" in front of it to guarantee that it <br>didn't clash with any others Darwin Core triples.<br><br>As for the transformation of the non-actionable globally unique <br>identifiers created by category 2 and 3 institutions into actionable <br>ones, a benevolent large institution (let us assume GBIF) who is willing <br>to take on the job of providing dereferencing services for the category <br>2 and 3 institutions acquires "<a href="http://purl.org/specimen/">http://purl.org/specimen/</a>" (or some other <br><a href="http://purl.org">purl.org</a> name) else if that's already taken) to use as the means to <br>create the HTTP-proxied forms of the non-actionable globally unique <br>identifiers. &nbsp;I suggest using a <a href="http://purl.org">purl.org</a> prefix rather than using a <br>subdomain of <a href="http://gbif.org">gbif.org</a> in the event that in the next hundred years gbif <br>looses their funding or gets tired of providing this service. &nbsp;(See <br><a href="http://www.nbii.gov/termination/index.html">http://www.nbii.gov/termination/index.html</a> for an example of how a big <br>program with a nearly 20 year history can disappear in a puff of <br>political idiocy.) &nbsp;If necessary, the "<a href="http://purl.org/specimen/">http://purl.org/specimen/</a>" prefix <br>could get passed over to some other big benevolent institution without <br>requiring GBIF to give control of part of their domain to a non-GBIF <br>entity.<br><br>Now we have another simple rule. &nbsp;If we discover an identifier that has <br>http:// at its front end, we dereference it to access its metadata. &nbsp;If <br>we discover an identifier which we think represents a specimen that does <br>not begin with "http://", we try putting "<a href="http://purl.org/specimen/">http://purl.org/specimen/</a>" on <br>the front of it. &nbsp;If nothing happens we are no worse off than before. &nbsp;<br>If we are lucky, we get metadata. &nbsp;Preferably the proxy system would get <br>established quickly and we would tell the type 3 institutions to place <br>"<a href="http://purl.org/specimen/">http://purl.org/specimen/</a>" + the BCI number for our collection, <br>followed by a slash, in front of our locally unique identifier". &nbsp;But if <br>in typical TDWG fashion it takes five years to decide to do this, &nbsp;the <br>small institution still has an identifier (in the form of the <br>non-actionable identifier) guaranteed to be globally unique among <br>identifiers generated by institutions who agree to abide by this set of <br>rules. &nbsp;In any case, we don't risk mucking up the Linked Data cloud with <br>a bunch of synonymous URIs that need to be linked with owl:sameAs, since <br>the UUIDs and category 3 globally unique identifiers can't be used as <br>URI references in RDF. &nbsp;One could later write in RDF:<br><br>&lt;rdf:Description &nbsp;rdf:about="<a href="http://purl.org/specimen/15590/LSU00000434">http://purl.org/specimen/15590/LSU00000434</a>"&gt;<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&lt;dc:identifier&gt;15590/LSU00000434&lt;/dc:identifier&gt;<br>&lt;/rdf:Description&gt;<br><br>to make sure that semantic clients understand that the non-URI globally <br>unique identifier is associated with the proxied version.<br><br>There would be technical details to figure out how the information about <br>the specimens would be transferred between the smaller data-providing <br>institution and the benevolent provider of dereferencing, but people are <br>already doing that with GBIF so it doesn't seem so impossible to imagine <br>that this could be worked out.<br><br>The unveiling of BCI was done with great fanfare and it is one of the <br>few biodiversity-related resources which actually follows all of the <br>rules about persistent, actionable, and unique identifiers. &nbsp;Yet it <br>rarely gets mentioned any more. &nbsp;Let's leverage it.<br><br>Steve<br><br>On 2/26/2012 9:27 PM, Paul Murray wrote:<br><blockquote type="cite">On 25/02/2012, at 4:29 AM, Dean Pentcheff wrote:<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite"><blockquote type="cite">This is directly in response to Rod's response to Paul. I think the two of you may have just articulated nearly the same idea, though you seem not to think you did.<br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite">Paul envisions institutions each declaring their own URI-creating formula (to resolve down to a specimen at that institution), promulgated at a "forum" location.<br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite">Rod envisions URI formulation as happening at a GBIFesque centralized site.<br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite">If Paul's forum were GBIF (or similar), with an added function that GBIF (or similar) renegotiates any institutional declaration that collides with a pre-existing declaration, does that map to the same thing for both of you?<br></blockquote></blockquote><blockquote type="cite">Well, if institutions are assigning URIs with their own domain names in them, or if GBIF is handing out URI prefixes that the institutions use, then collisions wouldn't be an issue.<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">As a technical person, perhaps I don't quite see things from the point of view of institutions whose interest in the web stops at having a pretty website, as someone suggested. It seems to me the easiest thing in the world to spark up a server and say "these are our URIs". But if people are outsourcing their web presence, then I can appreciate that creating a SemWeb presence might not seem as easy a thing to do to them. This is also the case for people who live in large institutions with byzantine rules about what may and may not go on the corporate websites.<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">If there are places where the issuing of ids to specimens is as chaotic as Rod describes, well - I think the flip side of what I was saying earlier, that people that create the numbers can easily create URIs, is that if the people who create the numbers have bits and bobs all over the place, then an external institution like GBIF is not going to be able to sort it out remotely. Someone has to be on the ground, treading the dusty caverns under the museum, their feeble yellowish torch beam counterpoint to the flickering and burned-out bluish fluorescent lights above, flicking the spiders away and copying labels into their iPad and working out what's what, trying not to accidentally kick over the skeletons.<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">Or the equivalent in cyberspace - the forgotten databases with their cryptic column names distant echoes of those hidden recesses where the specimen boxes are packed.<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">A start might be:<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">* GBIF issues URI prefixes to people/institutions that want them. A system for doing this would need to be decided on, and that will involve (shudder) people.<br></blockquote><blockquote type="cite">* GBIF advises the institution on setting up the namespace under that, trying to make the point that URIs should be persistent, unique, all those good things<br></blockquote><blockquote type="cite">* GBIF acts as a registry for these namespaces, a place to declare "if you have a specimen record from collection X, then for sem-web purposes the URI should look like *this*" - allowing all that legacy data to be knitted together.<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">The GBIF webserver might manage incoming http requests by<br></blockquote><blockquote type="cite">* holding some very basic, minimal data - even just a dcterms:title and nothing else<br></blockquote><blockquote type="cite">* or, 303 redirecting to the institution's own webserver (much in the manner of a PURL server) according to rules expressed simply as a regular expression find/replace.<br></blockquote><blockquote type="cite">* or, fetching the RDF from the institutions' server, and ADDING some RDF facts of its own to the result<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">This third option means that the GBIF database can serve as a central spot where movements of specimens (ie, the assignment of a new accession number) can be put. Hopefully not the only spot, though. Best practice is always to serve up the initial and the immediately prior URI along with any URI you give to the specimen. (this only makes sense for RDF, though: you can't just "add" things to a nicely formatted HTML page).<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">To make all this happen, you would want some sort of usable machine-to-machine service, you'll have to manage authentication (Passwords are a bit of a pain - perhaps a cryptographic certificate given out when the namespace prefix is assigned? Easy enough to do.). You'll want a test/staging service and a real service …<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">Its a fair bit of work, come to think of it, just on the technical side, and this is without starting on the "part-of" issues.<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">----------------<br></blockquote><blockquote type="cite">(Perhaps "<a href="http://uri.gbif.org">uri.gbif.org</a>" as the virtual host name? http:/uri.gbif.org/institution-code/collection-id/number. We'd also like a URI for "the list of institutions" and for each institution "the list of collections". Perhaps reserve "meta"? Thus http:/uri.gbif.org/uq/meta, http:/uri.gbif.org/uq/collectionX/meta as the well-known locations for README information.)<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">(Allocation of URIs would cover more than just specimens. here at <a href="http://biodiversity.org.au">biodiversity.org.au</a>, we use dotted names rather than slashes for our namespaces, meaning that our URIs have natural LSID equivalents. I think LSID componens can have slashes, so urn:lsid:uri.gbif.org:uq/collecitonX:12345)<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">If you have received this transmission in error please notify us immediately by return e-mail and delete all copies. If this e-mail or any attachments have been sent to you in error, that error does not constitute waiver of any confidentiality, privilege or copyright in respect of information in the e-mail or attachments.<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">Please consider the environment before printing this email.<br></blockquote><blockquote type="cite">_______________________________________________<br></blockquote><blockquote type="cite">tdwg-tag mailing list<br></blockquote><blockquote type="cite"><a href="mailto:tdwg-tag@lists.tdwg.org">tdwg-tag@lists.tdwg.org</a><br></blockquote><blockquote type="cite"><a href="http://lists.tdwg.org/mailman/listinfo/tdwg-tag">http://lists.tdwg.org/mailman/listinfo/tdwg-tag</a><br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">.<br></blockquote><blockquote type="cite"><br></blockquote><br>-- <br>Steven J. Baskauf, Ph.D., Senior Lecturer<br>Vanderbilt University Dept. of Biological Sciences<br><br>postal mail address:<br>VU Station B 351634<br>Nashville, TN &nbsp;37235-1634, &nbsp;U.S.A.<br><br>delivery address:<br>2125 Stevenson Center<br>1161 21st Ave., S.<br>Nashville, TN 37235<br><br>office: 2128 Stevenson Center<br>phone: (615) 343-4582, &nbsp;fax: (615) 343-6707<br><a href="http://bioimages.vanderbilt.edu">http://bioimages.vanderbilt.edu</a><br><br><br>_______________________________________________<br>tdwg-tag mailing list<br>tdwg-tag@lists.tdwg.org<br>http://lists.tdwg.org/mailman/listinfo/tdwg-tag<br><br></div></blockquote></div><br><div>
<span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; font-size: medium; ">---------------------------------------------------------<br>Roderic Page<br>Professor of Taxonomy<br>Institute of Biodiversity, Animal Health and&nbsp;Comparative Medicine<br>College of Medical, Veterinary and Life&nbsp;Sciences<br>Graham Kerr Building<br>University of Glasgow<br>Glasgow G12 8QQ, UK<br><br>Email:&nbsp;<a href="mailto:r.page@bio.gla.ac.uk">r.page@bio.gla.ac.uk</a><br>Tel: +44 141 330 4778<br>Fax: +44 141 330 2792<br>AIM: <a href="mailto:rodpage1962@aim.com">rodpage1962@aim.com</a><br>Facebook:&nbsp;<a href="http://www.facebook.com/profile.php?id=1112517192">http://www.facebook.com/profile.php?id=1112517192</a><br>Twitter:&nbsp;<a href="http://twitter.com/rdmpage">http://twitter.com/rdmpage</a><br>Blog:&nbsp;<a href="http://iphylo.blogspot.com">http://iphylo.blogspot.com</a><br>Home page:&nbsp;<a href="http://taxonomy.zoology.gla.ac.uk/rod/rod.html">http://taxonomy.zoology.gla.ac.uk/rod/rod.html</a><br></span>
</div>
<br></div></body></html>