Richard,<div><br></div><div>Your proposed plan does not actually give researchers what they need for large scale analysis.</div><div><br></div><div>They need to know what is &quot;meant&quot; by a particular identifier.</div>
<div><br></div><div>In the mosquito community we have a split between those who have adopted <i>Ochlerotatus</i> as a genus.</div><div>For some this changed <i>Aedes triseriatus</i> to <i>Ochlerotatus triseriatus</i>, others refuse to adopt the new name.</div>
<div><br></div><div>Are these the same or different things?</div><div><br></div><div>Under your scheme they are different things because the idea that an entity is a species is merged</div><div>with the particular taxonomic placement of that entity.</div>
<div><br></div><div>How does your proposal solve this?</div><div><br></div><div>What is needed is a linked data identifier that resolves to data that help determine those instances of</div><div><br></div><div><i>Aedes triseriatus</i> and <i>Ochlerotatus triseriatus</i> that are the same, and those instances that are different.</div>
<div><br></div><div>In reference to the earlier discussion on separating identifiers from resolution, how will a user determine</div><div>if occurrences tagged with the <i>Aedes triseriatus</i> UUID or LSID and those tagged with the <i>Ochlerotatus</i></div>
<div><i>triseriatus</i> LSID are referring to the same species?</div><div><br></div><div>The proposed solution leaves users with just a name and no clear way of determining what the person identifying</div><div>the specimen actually meant. The original species description is amazingly non-informative.</div>
<div><br></div><div>Most non-taxonomist&#39;s don&#39;t care that much about what particular genus something is in. They care that</div><div>the specimens they collected with malaria parasites are linked to other specimens of the same species.</div>
<div>At those times they do care, they want quick way to lookup the current name <i>i.e. phylogenetic hypothesis</i></div><div><i></i>that can remain linked to their data.</div><div><br></div><div>If you leave in the TaxonConceptID, then users have a choice of filling it in or ignoring it. For those that would</div>
<div>like to use something like this, it will dramatically improve data integration and move disagreements about</div><div>name changes in the background. A change, that I think, would improve the relationship between taxonomists</div>
<div>and other biological scientists.</div><div><br></div><div>There were a number of other issues in previous emails that suggested that the taxonomic community</div><div>has chosen to rehash informatics issues that have already been thoroughly discussed by the scientific</div>
<div>informatics community. What is somewhat alarming is that they seem to have come to completely</div><div>opposite conclusions.</div><div><br></div><div>Also the thread on &quot;trust&quot; seemed particularly misinformed. If the writer intended to imply that by going to</div>
<div>the current GBIF site they can &quot;trust&quot; the data, they are wrong. I see no mechanism on the GBIF home</div><div>page that allows me to determine that this is the &quot;real&quot; GBIF site.</div><div><br></div>
<div>This is not meant to disparage GBIF, but to clarify the discussion. In fact the person who seems to be</div><div>the most concerned with &quot;trust&quot; does not have any way to authenticate that his highly touted resolution</div>
<div>service is the &quot;real&quot; one. </div><div><br></div><div>I suspect that the &quot;trust&quot; issue was either particularly uninformed or a smoke screen for a different issue</div><div>which may be about data and services from cronies vs. data and services from non-cronies.</div>
<div><br></div><div>If you don&#39;t trust a particular provider, you can just remove those URI&#39;s from your data store by filtering by</div><div>&quot;context&quot; or reification.</div><div><br></div><div>Respectfully,</div>
<div><br></div><div>- Pete</div><div><br></div><div><span class="Apple-style-span" style="font-family: Helvetica; font-size: 12px; "><div>---------------------------------------------------------------</div><div><div><div>
<div><div><div><a href="http://spiders.entomology.wisc.edu/pjd/index.html">Pete DeVries</a></div><div>Department of Entomology</div><div>University of Wisconsin - Madison</div><div>445 Russell Laboratories</div><div>1630 Linden Drive</div>
<div>Madison, WI 53706</div><div>Email: <a href="mailto:pdevries@wisc.edu">pdevries@wisc.edu</a></div><div><a href="http://species.geospecies.org/">GeoSpecies Knowledge Base</a></div><div><a href="http://about.geospecies.org/">About the GeoSpecies Knowledge Base</a></div>
<div>------------------------------------------------------------</div></div></div></div></div></div></span></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br><div class="gmail_quote">
On Wed, Sep 2, 2009 at 2:53 PM, Richard Pyle <span dir="ltr">&lt;<a href="mailto:deepreef@bishopmuseum.org">deepreef@bishopmuseum.org</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<br>
Greetings (again)...<br>
<br>
With a slightly more rested brain, I&#39;ll provide some more specific feedback<br>
on the DwC Taxonomy terms.  I&#39;ll use John&#39;s Aug 25 proposed list of terms &amp;<br>
definitions as a starting point.<br>
<br>
(Tim -- go get a cup of coffee before continuing....)<br>
<br>
&gt; taxonID: An identifier for a specific taxon-related name usage (a<br>
&gt; Taxon record). May be a global unique identifier or an identifier<br>
&gt; specific to the data set.<br>
<br>
As I said in my previous post, I worry that &quot;taxon&quot; is too familiar, and has<br>
too many meanings such that, without reviewing the definition, people may<br>
jump to the wrong conclusion about what sort of data object should be<br>
resolved through this ID.  As klunky as it is, I feel it better to be<br>
unambiguous and use something like &quot;taxonNameUsageID&quot;  This is the term GNUB<br>
has adopted; and while GNUB is still in early draft form, it took literally<br>
decades of deliberation to finally arrive at that term.  If GNA &amp; GNUB gain<br>
the traction that many of us are hoping it will, I believe that the term<br>
&quot;TaxonNameUsage&quot; will become much more familiar to managers of taxonomic<br>
data in the future.  Thus, I would propose:<br>
<br>
taxonNameUsageID: An identifier for a specific taxon-related name usage<br>
instance (a particular name as it is used within the context of a particular<br>
publication or other documentation source). May be a global unique<br>
identifier or an identifier specific to the data set.<br>
<br>
&gt; acceptedTaxonID: A unique identifier for the acceptedTaxon.<br>
<br>
I&#39;m not exactly sure what this is supposed to represent, but I gather that<br>
it is used in cases where the taxon name for this record is not regarded as<br>
the accepted taxon name. Stan wrote:<br>
<br>
&gt; In the context of an identification, yes, a taxon is asserted<br>
&gt; to be valid/accepted by the identifier (at the time), but not<br>
&gt; all identifications are accepted by the data manager, so that<br>
&gt; last statement isn&#39;t always true.  Also not all taxa are<br>
&gt; accepted/valid within a classification (if it includes<br>
&gt; synonymous taxa).<br>
<br>
If this is the purpose for the &quot;acceptedTaxonID&quot; (and I agree it&#39;s important<br>
to represent this), then I think we need to be more explicit about what is<br>
meant by accepted.  For example, consider these three different meanings<br>
(I&#39;ll use the terms provided by John, rather than my recommended terms):<br>
<br>
1. Accepted in the sense of name orthograpgy<br>
A specimen was identified as &quot;Centropyge loricula&quot;, so the TaxonID resolves<br>
to this name.  The data manager knows that the correct orthography is<br>
&quot;Centropyge loriculus&quot;, so acceptedTaxonID resolves to that name.<br>
<br>
2. Accepted in the sense of subjective synonymy<br>
A specimen was identified as &quot;Centropyge flammeus&quot;, so the TaxonID resolves<br>
to this name.  The data manager follows modern literature in treating this<br>
name as a junior synonym of C. loriculus, so acceptedTaxonID resolves to<br>
&quot;Centropyge loriculus&quot;.<br>
<br>
3. Accepted in the sense of Concept Circumscription<br>
A specimen was identified as &quot;Centropyge loriculus&quot; and the TaxonID resolves<br>
to the usage instance of &quot;Centropyge loriculus Günther 1874 sec Woods &amp;<br>
Schultz 1953&quot;, but the data manager feels this is not the most appropriate<br>
circumscription for the taxon represented by the specimens, so<br>
acceptedTaxonID resolves to the usage instance of &quot;Centropyge loriculus<br>
Günther 1874 sec Allen 1975&quot;.<br>
<br>
In my mind, all three of these would be appropriate use cases for<br>
acceptedTaxonID; but I suspect some people would not regard #3 as<br>
appropriate.  As long as taxonID and acceptedTaxonID both point to Usage<br>
instances, it doesn&#39;t really matter, because a resolved Usage Instance<br>
record will provide the full set of metadata to do whatever comparison<br>
(orthography/synonymy/circumscription) the consumer of the record wishes to<br>
do.  However, I do think the definition of the term should address these<br>
different possible resolutions of meaning.<br>
<br>
The draft GNUB structure (which I can send to anyone who is interested) has<br>
a field called &quot;ValidUsageID&quot;, which is a recursive foreign key to the same<br>
or a different Usage Instance, and is used explicitly for synonym treatments<br>
(#2 in the above list).  Best to explain by example:<br>
<br>
Each row below represents a Taxon Name Usage Instance, and &quot;VUID&quot; refers to<br>
ValidUsageID.<br>
<br>
TNUID   Reference               VUID    FullName<br>
====================================================<br>
  1     Günther 1874      1     Centropyge loriculus<br>
  2     Woods&amp;Schultz 1953  2   Centropyge flammeus<br>
  3     Allen 1975                3     Centropyge loriculus<br>
  4     Allen 1975                3     Centropyge flammeus<br>
====================================================<br>
<br>
For the first three records, TNUID=VUID.  This means that each of those<br>
publications treated each of those names as a valid species. By contrast,<br>
TNUID 4 has VUID 3 (i.e., TNUID&lt;&gt;VUID), which means that Allen 1975 treated<br>
the name &quot;Centropyge flammeus&quot; as a junior synonym of &quot;Centropyge<br>
loriculus&quot;.  Note that in the GNUB data model, the TNUID link must point to<br>
TNUID within the Reference.  For example, in row #4, TNUID=3; not 1. In<br>
simplest terms, row #4 translates to &quot;Allen 1975 regarded Centropyge<br>
flammeus as a junior synonym of Centropyge loriculus.&quot;  In other words, this<br>
relationship applies specifically to use-case #2 in the list above.<br>
<br>
As for the term itself, my recommendation would depend on which of the three<br>
use-case examples listed above the term &quot;acceptedTaxonID&quot; is intended to<br>
represent.  If it is really only meant for Use-case #2 (synonymy), then I<br>
would recommend following GNUB with &quot;validUsageID&quot;.  However, I think it&#39;s<br>
probably best to leave the scope of meaning of the term open to any of these<br>
use-cases, in which case I would recommend the term &quot;acceptedUsageID&quot;.  But<br>
in either case, I think the definition needs to be more explicit.<br>
<br>
&gt; higherTaxonID: A unique identifier for the taxon that is the parent of<br>
&gt; the scientificName.<br>
<br>
Again, why not be explicit?  Following the &quot;taxon&quot; root-stem approach, this<br>
should probably be &quot;parentTaxonID&quot;.  In the GNUB data model, the field used<br>
for this exact same purpose is &quot;ParentUsageID&quot;.  So, accordingly, my<br>
recommendation for the DwC term wothld be &quot;parentUsageID&quot;.<br>
<br>
&gt; originalTaxonID: A unique identifier for the basionym (botany),<br>
&gt; basonym (bacteriology), or replacement of the scientificName.<br>
<br>
I wrestled with this term a lot when developing the Taxonomer data model,<br>
and launched several threads on Taxacom about it, and discussed it<br>
extensively with many database nerds and taxononmy nerds of all Code<br>
flavors.  &quot;Protologue&quot; was the closes existing term to what this term is<br>
intended for, but the problem with &quot;Protologue&quot; (a term familiar to<br>
botanical taxonomists) is that it may be spread across more than one<br>
publication.  As I understand it, it&#39;s the set of Usage Instances that<br>
collectively fulfill the criteria for a name being validly published.  I<br>
finally decided on the term &quot;Protonym&quot;. Although I later discovered that<br>
this word had been defined in a different way in the context of fungi<br>
taxonomy, I was assured by Paul Kirk (curator of Index Fungorum) that my use<br>
of the term should take precedence.  Consequently, the term we use in GNUB<br>
(Paul is one of the original architects of GNUB) is &quot;ProtonymID&quot;.<br>
<br>
I&#39;m not necessarily pushing for DwC to adopt this term; however, I am<br>
reasonably confident that GNUB will retin it, and depending on the future<br>
success of GNUB, it may end up becoming solidified in our community.  As<br>
such, I think &quot;protonymID&quot; is the best term to use for DwC.  However, if<br>
this is not acceptable, then I would suggest &quot;originalUsageID&quot; as a more<br>
explicit alternative.<br>
<br>
&gt; scientificName: The taxon name (with date and authorship information<br>
&gt; if applicable). When forming part of an Identification, this should be<br>
&gt; the name in the lowest level taxonomic rank that can be determined.<br>
&gt; This term should not contain Identification qualifications, which<br>
&gt; should instead be supplied in the IdentificationQualifier term.<br>
<br>
This is probably fine, but it sort of depends on where DwC settles on the<br>
definition of &quot;acceptedTaxon(ID)/acceptedUsage(ID)&quot;.  If the scope includes<br>
orthographic variants, then the definition of scientificName should be<br>
expanded to explicitly refer to &quot;exact orthography&quot; (which may or may not<br>
match the orthography represented by acceptedXXX).  In GNUB, each usage has<br>
a field called &quot;VerbatimNameString&quot;, which is intended to capture the exact<br>
string of characters (as best as can be represented via UTF-8) that appeared<br>
in the publcation/reference.  However, I don&#39;t think this is necessary for<br>
DwC.  But I do think the definition of scientificName should make comment on<br>
orthography.<br>
<br>
&gt; acceptedTaxon: The currently valid (zoological) or accepted<br>
&gt; (botanical) name for the scientificName.<br>
<br>
This definition suggests that this term applies only to my use-case #2<br>
(synonymies).  As described earlier, in GNUB (which was initially developed<br>
by two botanists and one zoologist), the term &quot;valid&quot; was used instead of<br>
&quot;accepted&quot;.  Either one will do, but I think it makes sense to follow GNUB.<br>
In any case, I would propose the following:<br>
<br>
If the intent is only for taxonomic synonymies (use-case 2), then go with<br>
&quot;validUsage&quot; to be consistent with GNUB, and recommend that a full<br>
usage-instance string (&quot;Centropyge loriculus Günther 1874 sec Allen 1975&quot;)<br>
be provided, if available.<br>
<br>
If the intent is less specific, and is open to<br>
orthographic/synonym/circumscription relationships, then go with<br>
&quot;acceptedUsage&quot; (with the same full usage-instance string)<br>
<br>
&gt; higherTaxon: The taxon that is the parent of the scientificName.<br>
<br>
Again, I would go with &quot;parentUsage&quot;, and recommend the full usage-instance<br>
string.<br>
<br>
&gt; originalTaxon: The basionym (botany), basonym (bacteriology), or<br>
&gt; replacement of the scientificName..<br>
<br>
As per above, I would go with &quot;protonym&quot; (which need only be a name-string,<br>
such as &quot;Centropyge loriculus Günther 1874&quot;); but if not protonym, then<br>
&quot;originalUsage&quot;.<br>
<br>
&gt; higherClassification: A list (concatenated and separated) of the names<br>
&gt; for the taxonomic ranks less specific than that given in the<br>
&gt; scientificName.<br>
<br>
I&#39;m fine with this.<br>
<br>
&gt; kingdom, phylum, class, order, family, genus, subgenus,<br>
&gt; specificEpithet, infraspecificEpithet - all unchanged.<br>
<br>
Fine by me.<br>
<br>
&gt; taxonRank: The taxonomic rank of the scientificName. Recommended best<br>
&gt; practice is to use a controlled vocabulary.<br>
<br>
Fine by me.<br>
<br>
&gt; verbatimTaxonRank: The verbatim original taxonomic rank of the<br>
scientificName.<br>
<br>
I think this is OK, but I&#39;m not entirely sure how strictly the term<br>
&quot;verbatim&quot; is applied.  For example, should this be verbatim as it appears<br>
on the specimen label or original database record (e.g., &quot;f.&quot; if it says<br>
&quot;f.&quot;; &quot;forma&quot; if it says &quot;forma&quot;, etc.)  Or, does it just mean the<br>
&quot;interpreted&quot; rank (i.e., convert &quot;f.&quot; to &quot;forma&quot;).  My inclination is the<br>
former; but for most names (i.e., those without explicit rank qualifiers<br>
embedded within the name-string), this would be blank.  For example, all<br>
species and higher ranks would be blank, because nobody explicitly writes<br>
&quot;species&quot; when listing a species name.  To a zoologist, a subspecies name<br>
looks like &quot;Centropyge loriculus flammeus&quot;, but to a botanist it looks like<br>
&quot;Centropyge loriculus subsp. flammeus&quot;.  Sensu stricto, the use of the word<br>
&quot;verbatim&quot; would imply that the zoologist would leave this item empty, but<br>
the botanist would enter &quot;subsp.&quot;  Do I interpret this correctly?  Or (as I<br>
suspect), do I misunderstand the purpose of this item.<br>
<br>
&gt; scientificNameAuthorship, nomenclaturalCode - unchanged<br>
<br>
Fine by me.<br>
<br>
&gt; taxonPublicationID: A unique identifier for the publication of the Taxon.<br>
<br>
Presumably this would be the publication to which the specific usage<br>
instance for taxonID/taxonNameUsageID is anchored.  If so, then I think the<br>
definition needs to be expanded.  As written, some people might interpret<br>
the publication as always being the original publication (i.e., the &quot;Günther<br>
1874&quot; of &quot;Centropyge loriculus Günther 1874 sec Allen 1975&quot;).  Others might<br>
(more correctly, in my view) interpret it as the concept definition<br>
publication (i.e., the &quot;Allen 1975&quot; of &quot;Centropyge loriculus Günther 1874<br>
sec Allen 1975&quot;).<br>
<br>
&gt; taxonPublication: A reference for the publication of the Taxon.<br>
<br>
Same comment as above.<br>
<br>
&gt; taxonomicStatus, nomenclaturalStatus, taxonAccordingTo, taxonRemarks,<br>
&gt; vernacularName - unchanged.<br>
<br>
I&#39;m fine with all of these except possibly taxonAccordingTo, which I need to<br>
think about some more.<br>
<br>
Sorry for the long post -- I&#39;m just making up for having not been part of<br>
this discussion earlier.  I am more than happy to help draft revised<br>
definitions for all of these terms, but only after we resolve their intended<br>
scope &amp; meaning.<br>
<br>
By the way, where do I find the current draft definitions for all these<br>
terms? When I go to <a href="http://code.google.com/p/darwincore/wiki/Taxon" target="_blank">http://code.google.com/p/darwincore/wiki/Taxon</a>, I only<br>
see definitions for three of the terms.<br>
<div><div></div><div class="h5"><br>
Aloha,<br>
Rich<br>
<br>
Richard L. Pyle, PhD<br>
Database Coordinator for Natural Sciences<br>
  and Associate Zoologist in Ichthyology<br>
Department of Natural Sciences, Bishop Museum<br>
1525 Bernice St., Honolulu, HI 96817<br>
Ph: (808)848-4115, Fax: (808)847-8252<br>
email: <a href="mailto:deepreef@bishopmuseum.org">deepreef@bishopmuseum.org</a><br>
<a href="http://hbs.bishopmuseum.org/staff/pylerichard.html" target="_blank">http://hbs.bishopmuseum.org/staff/pylerichard.html</a><br>
<br>
<br>
<br>
_______________________________________________<br>
tdwg-content mailing list<br>
<a href="mailto:tdwg-content@lists.tdwg.org">tdwg-content@lists.tdwg.org</a><br>
<a href="http://lists.tdwg.org/mailman/listinfo/tdwg-content" target="_blank">http://lists.tdwg.org/mailman/listinfo/tdwg-content</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br>---------------------------------------------------------------<br>Pete DeVries<br>Department of Entomology<br>University of Wisconsin - Madison<br>445 Russell Laboratories<br>
1630 Linden Drive<br>Madison, WI 53706<br>------------------------------------------------------------<br>
</div>