<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Hi Tony,<div><br></div><div>A few quick comments.</div><div><br></div><div>Querying multiple sources on the fly ("federation") seems to me to be doomed to fail. I tried it in 2005 with the now defunct "Taxonomic Search Engine" and the performance hit of multiple HTTP requests, multiple, changeable interfaces and variable up time of the source databases made it hard work. I think at the scale we operation centralisation is the way forward. The arguments against centralisation tend to boil down to the interests of the data providers outweighing those of the users, which is a bad thing.</div><div><br></div><div>We have a very large, centralised taxonomy, namely the GBIF classification (it's easily the biggest around), itself based on an aggregation of lots of taxonomies. Why not focus on making that the best documented classification we can? There are mechanisms (such as GitHub) that we could use to enable people to download it, improve it, fork it if they wish, and so on. GBIF has names connected to actual data, and data that arguably is useful outside taxonomy, so it would seem a sensible place to focus resources. If not GBIF, then who?</div><div><br></div><div>There is, however, one major problem with GBIF, and indeed most other classifications. They bear little relationship to evolutionary history, especially at deeper levels (it doesn't help that there isn't a "tree of life"). In one sense this is fine, as I think we need to keep phylogeny and classification separated otherwise we conflate two rather different things. But we do need to integrate evolutionary information. The NCBI classification will continue to grow and be central to organising genomic information, therefore we need a mapping between GBIF and NCBI. Much of this will be done via names, but a lot won't, and will rely on other links, such as specimens. We also need to integrate phylogenies themselves, which is a different challenge. Unless we deal with genomics and phylogenetics the taxonomic database community risks being even more marginalised.</div><div><br></div><div>My own feeling is that we've spent &nbsp;a lot of time fussing with standards, etc., without working out what would be the best landscape for the people who use taxonomic information. IMHO we should be building a Google for biodiversity information. Until we do, we're basically just mucking about.&nbsp;</div><div><br></div><div>Regards</div><div><br></div><div>Rod</div><div><br></div><div><br><div><div>On 5 Nov 2012, at 00:33, &lt;<a href="mailto:Tony.Rees@csiro.au">Tony.Rees@csiro.au</a>&gt; &lt;<a href="mailto:Tony.Rees@csiro.au">Tony.Rees@csiro.au</a>&gt; wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div>Hi Rod,<br><br>Questioning the value of taxonomic databases while on a TDWG list is a separate discussion...<br><br>I think we have to accept that at present there is no unified, curated, up-to-date taxonomic treatment for all life: meaning that in order to retrieve taxonomic information about "any" taxon, we (either as a human client or a remote app) may well need to query more than one taxonomic DB to locate relevant content. So I guess the essence of my question is, can we simplify / standardise things so that such resources can be queried in a standardised way (with only the destination / resource name changing) and, having done so, receive consistently structured responses (whether TCS, DwC, or other). The answer at present appears to be "no" which begs the question of what incentives there are or are not to do so, and thence whether TDWG as the "biodiversity standards" body, has a reason to exist in this space.<br><br>The reasons most obvious to me are (1) querying multiple taxonomic data sources in order to build a more complete picture than any one of them can currently supply on its own; (2) comparing different viewpoints or current treatments of a particular taxon between sources of "expertise", bearing in mind that these may differ and between them provide more insight than a single "received view"; (3) providing access to ancillary information / "taxon pages" specific to the data source in question which may for example provide attribute, distribution, literature information associated with the taxa in addition to just the names; and (4) treating the remote information as an expert source which can be queried remotely on demand trather than having to host all the same information locally - in the same way as quering any other remote data source, maintained by relevant experts, may have a place in system design as opposed to hosting everything internally - think Google Maps or whatever - and just returning the subset of information relevant to a particular query at a particular time. In other words we outsource the data collation and ongoing management to someone whose mission (and hopefully resourcing) it is to do this and concentrate on what we can do with the data once received.<br><br>I would have thought that none of the above is rocket science and has indeed already been achieved in other domains for example the OGC web mapping services already mentioned, the data standards required by OBIS and GBIF for participation in their data aggregating networks, and so on. What we have here is a parallel "taxonomic information aggregating" activity which similarly would ideally need standards for data interchange if the poor consumer is not to deal with a multiplicity of uncontrolled local data structures and query/response syntaxes. Indeed the parallel with OGC standards is not completely theoretical in that OGC WFS (web feature service) can be adapted to map to taxonomic information (just qwithout the spatial component) without difficulty if only the community could agree on a relevant schema - in other words tools exist already (GeoServer, DeeGree) which could handle the requests/responses I believe, but they have no defined standards to work with unless you roll-your-own...<br><br>Just my 2 cents of course... I amagine the "global names" folks and their associates would have more to say on this matter of standardising access to distributed taxonomic data sources.<br><br>Regards - Tony<br><br><br><br><blockquote type="cite">-----Original Message-----<br></blockquote><blockquote type="cite">From: Roderic Page [mailto:r.page@bio.gla.ac.uk]<br></blockquote><blockquote type="cite">Sent: Saturday, 3 November 2012 4:58 PM<br></blockquote><blockquote type="cite">To: Rees, Tony (CMAR, Hobart)<br></blockquote><blockquote type="cite">Cc: &lt;<a href="mailto:J.Kennedy@napier.ac.uk">J.Kennedy@napier.ac.uk</a>&gt;; &lt;<a href="mailto:mdoering@gbif.org">mdoering@gbif.org</a>&gt;;<br></blockquote><blockquote type="cite">&lt;<a href="mailto:deepreef@bishopmuseum.org">deepreef@bishopmuseum.org</a>&gt;; <a href="mailto:pmurray@anbg.gov.au">pmurray@anbg.gov.au</a>; <a href="mailto:eotuama@gbif.org">eotuama@gbif.org</a>;<br></blockquote><blockquote type="cite"><a href="mailto:tdwg-tag@lists.tdwg.org">tdwg-tag@lists.tdwg.org</a>; Pigot, Simon (CMAR, Hobart)<br></blockquote><blockquote type="cite">Subject: Re: [tdwg-tag] Any TCS users with experiences to report?<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">Playing devil's advocate I think there are several issues here:<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">1. The example you gave of an OGC query illustrates what for me is a<br></blockquote><blockquote type="cite">major limitation of existing approaches (such as DiGiR and TAPIR), they<br></blockquote><blockquote type="cite">focus on standardising queries not identifiers. Hence we can query<br></blockquote><blockquote type="cite">databases in a consistent (if cumbersome) way, but have no easy way to<br></blockquote><blockquote type="cite">refer to the things (taxa, specimens, etc.) we retrieve. Having stable,<br></blockquote><blockquote type="cite">reusable, resolvable identifiers would be a step forward.<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">2. Taxonomic concepts aren't much use unless connected to data.<br></blockquote><blockquote type="cite">Arguably the most widely used taxonomic database in biodiversity is the<br></blockquote><blockquote type="cite">NCBI taxonomy database, which has stable identifiers, an API, and taxa<br></blockquote><blockquote type="cite">that are connected to data (sequences and publications). The GBIF<br></blockquote><blockquote type="cite">backbone classification is also connected to data (specimens and<br></blockquote><blockquote type="cite">observations) although its taxon identifiers (like its occurrence ids)<br></blockquote><blockquote type="cite">aren't terribly stable.<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">3. I think the standards-first approach tends to put the cart before<br></blockquote><blockquote type="cite">the horse. I'm not sure it's the lack of standards that is the problem,<br></blockquote><blockquote type="cite">it's the lack of usable information in taxonomic databases. Apart from<br></blockquote><blockquote type="cite">NCBI and GBIF, what science can I do with taxonomic databases? What<br></blockquote><blockquote type="cite">questions do they allow me to ask?<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">Regards<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">Rod<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">Sent from my iPhone<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">On 3 Nov 2012, at 03:41, &lt;<a href="mailto:Tony.Rees@csiro.au">Tony.Rees@csiro.au</a>&gt; wrote:<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite"><blockquote type="cite">Hi Jessie, also others who have responded thus far,<br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite">You said:<br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><blockquote type="cite">I think it would be great if the major databases that describe taxa<br></blockquote></blockquote></blockquote><blockquote type="cite">(not<br></blockquote><blockquote type="cite"><blockquote type="cite"><blockquote type="cite">just list names) described their data as concepts and allowed people<br></blockquote></blockquote></blockquote><blockquote type="cite">to<br></blockquote><blockquote type="cite"><blockquote type="cite"><blockquote type="cite">link to their databases when identifying specimens and when<br></blockquote></blockquote></blockquote><blockquote type="cite">sequencing<br></blockquote><blockquote type="cite"><blockquote type="cite"><blockquote type="cite">etc, this would be the start of a really useful biodiversity<br></blockquote></blockquote></blockquote><blockquote type="cite">network.<br></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite">Agreed! And also the databases that "just list names" are dealing<br></blockquote></blockquote><blockquote type="cite">with concepts as we know, comprising a valid name plus all listed<br></blockquote><blockquote type="cite">synonyms in these cases...<br></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite">My feeling is the reason that there is not yet any standardization in<br></blockquote></blockquote><blockquote type="cite">this area - every data resource does its own thing using its own home-<br></blockquote><blockquote type="cite">grown schema in the main (that is, presuming a web service is even<br></blockquote><blockquote type="cite">offered) and the "standards group" (TDWG) has not pushed a model of any<br></blockquote><blockquote type="cite">sort of standard client which expects to be able to access distributed<br></blockquote><blockquote type="cite">taxonomic information in a standard way, so there is no incentive for<br></blockquote><blockquote type="cite">the sources to provide this. Sort of like a fax machine with no-one on<br></blockquote><blockquote type="cite">the other end wishing to communicate with it. By contrast (for example)<br></blockquote><blockquote type="cite">the OGC has defined standards for geospatial web services which, once<br></blockquote><blockquote type="cite">adhered to, allow one wants one's own data to be accessed by standards-<br></blockquote><blockquote type="cite">compliant remote client apps in a standard way, so if I publish a layer<br></blockquote><blockquote type="cite">(map) from my geoserver here (<a href="http://www.cmar.csiro.au/geoserver/">http://www.cmar.csiro.au/geoserver/</a> ) as<br></blockquote><blockquote type="cite">layer name = bioreg:CAAB37020002 then any remote client can access it<br></blockquote><blockquote type="cite">via standard syntax which will retrieve it in a specified format, for<br></blockquote><blockquote type="cite">example<br></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><a href="http://www.cmar.csiro.au/geoserver/wms?service=WMS&amp;version=1.1.0&amp;reques">http://www.cmar.csiro.au/geoserver/wms?service=WMS&amp;version=1.1.0&amp;reques</a><br></blockquote><blockquote type="cite">t=GetMap&amp;layers=bioreg:CAAB37020002&amp;styles=&amp;bbox=109.0,-44.5,156.5,-<br></blockquote><blockquote type="cite">8.5&amp;width=512&amp;height=388&amp;srs=EPSG:4326&amp;format=image/gif<br></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite">So maybe for either TCS, DwC and so on a missing part of the task is<br></blockquote></blockquote><blockquote type="cite">to define the syntax for such calls (plus relevant expected responses)<br></blockquote><blockquote type="cite">for taxonomic data and then create some example both publishing and<br></blockquote><blockquote type="cite">retrieving (client) software to exercise this - provided there is an<br></blockquote><blockquote type="cite">interest in doing so of course!<br></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite">More soon,<br></blockquote></blockquote><blockquote type="cite"><blockquote type="cite"><br></blockquote></blockquote><br></div></blockquote></div><br><div>
<span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; font-size: medium; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; font-size: medium; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; font-size: medium; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">---------------------------------------------------------<br>Roderic Page<br>Professor of Taxonomy<br>Institute of Biodiversity, Animal Health and&nbsp;Comparative Medicine<br>College of Medical, Veterinary and Life&nbsp;Sciences<br>Graham Kerr Building<br>University of Glasgow<br>Glasgow G12 8QQ, UK<br><br>Email:&nbsp;<a href="mailto:r.page@bio.gla.ac.uk">r.page@bio.gla.ac.uk</a><br>Tel: +44 141 330 4778<br>Fax: +44 141 330 2792</div><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Skype: rdmpage<br>Facebook:&nbsp;<a href="http://www.facebook.com/rdmpage">http://www.facebook.com/rdmpage</a><br>Twitter:&nbsp;<a href="http://twitter.com/rdmpage">http://twitter.com/rdmpage</a><br>Blog:&nbsp;<a href="http://iphylo.blogspot.com">http://iphylo.blogspot.com</a><br>Home page:&nbsp;<a href="http://taxonomy.zoology.gla.ac.uk/rod/rod.html">http://taxonomy.zoology.gla.ac.uk/rod/rod.html</a></div><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Citations:&nbsp;<a href="http://scholar.google.co.uk/citations?hl=en&amp;user=4Z5WABAAAAAJ">http://scholar.google.co.uk/citations?hl=en&amp;user=4Z5WABAAAAAJ</a></div></span></div></span></span>
</div>
<br></div></body></html>