<div dir="ltr"><div><div><a href="http://www.seco.tkk.fi/publications/2011/hyvonen-et-al-sapo-2011.pdf">http://www.seco.tkk.fi/publications/2011/hyvonen-et-al-sapo-2011.pdf</a><br><br></div>Here a chapter of a book discussing many of the aspects we need to solve for biodiversity informatics. The example is from Finland (smaller scale) and used for cultural museums, but the the ideas might be worth investigating for our field as well.<br>
<br></div>Hanna <br></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Sun, May 19, 2013 at 3:50 AM, David Remsen <span dir="ltr">&lt;<a href="mailto:dremsen@gbif.org" target="_blank">dremsen@gbif.org</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word">David,<div><br></div><div>You might like to use the GBIF vocabulary server.  It has a multi-lingual country name thesaurus based on ISO 3166 and has over 23K terms for 226 ISO countries.  You can download the data or use the service.  It may have some lexical variants and misspellings.  You can also get an account and add any you might know of.   And all presented to you in your old friend Drupal.  Perhaps you might like to serve as curator.  Maybe?  Diamond in the rough here, I&#39;m sure of it.<br>
<div><br></div><div><a href="http://vocabularies.gbif.org/vocabularies/country" target="_blank">http://vocabularies.gbif.org/vocabularies/country</a></div><div><br></div><div>Best,</div><div>Dave</div><div><br><div>
<span style="text-indent:0px;letter-spacing:normal;font-variant:normal;text-align:-webkit-auto;font-style:normal;font-weight:normal;line-height:normal;border-collapse:separate;text-transform:none;font-size:medium;white-space:normal;font-family:Helvetica;word-spacing:0px"><span style="text-indent:0px;letter-spacing:normal;font-variant:normal;text-align:-webkit-auto;font-style:normal;font-weight:normal;line-height:normal;border-collapse:separate;text-transform:none;font-size:medium;white-space:normal;font-family:Helvetica;word-spacing:0px"><div style="word-wrap:break-word">
<div><div style="word-wrap:break-word;font-size:12px"><span style="text-indent:0px;letter-spacing:normal;font-variant:normal;font-style:normal;font-weight:normal;line-height:normal;border-collapse:separate;text-transform:none;font-size:12px;white-space:normal;font-family:Helvetica;word-spacing:0px"><div style="word-wrap:break-word">
<span style="text-indent:0px;letter-spacing:normal;font-variant:normal;font-style:normal;font-weight:normal;line-height:normal;border-collapse:separate;text-transform:none;font-size:12px;white-space:normal;font-family:Helvetica;word-spacing:0px"><span style="text-indent:0px;letter-spacing:normal;font-variant:normal;font-style:normal;font-weight:normal;line-height:normal;border-collapse:separate;text-transform:none;font-size:12px;white-space:normal;font-family:Helvetica;word-spacing:0px"><span style="text-indent:0px;letter-spacing:normal;font-variant:normal;font-style:normal;font-weight:normal;line-height:normal;border-collapse:separate;text-transform:none;font-size:12px;white-space:normal;font-family:Helvetica;word-spacing:0px"><div>
<div>----------------------------------------------------------------------------</div><div>David Remsen</div><div>Global Biodiversity Information Facility Secretariat</div><div>Universitetsparken 15, DK-2100 Copenhagen, Denmark</div>
<div>Tel: <a href="tel:%2B1%20508%20289%207477" value="+15082897477" target="_blank">+1 508 289 7477</a>   Fax: <a href="tel:%2B1%20508%20289%207900" value="+15082897900" target="_blank">+1 508 289 7900</a></div><div>Mobile <a href="tel:%2B1%20508%20274%204055" value="+15082744055" target="_blank">+1 508 274 4055</a></div>
<div>Skype: dremsen</div><div>----------------------------------------------------------------------------</div><div><br></div></div></span></span></span></div></span></div><br></div></div></span><br></span><br>
</div><div><div class="h5">
<br><div><div>On May 17, 2013, at 10:39 AM, Matt Jones wrote:</div><br><blockquote type="cite"><div dir="ltr">A good official list of countries is available from the Library of Congress:<div>  <a href="http://www.loc.gov/standards/codelists/countries.xml" target="_blank">http://www.loc.gov/standards/codelists/countries.xml</a></div>

<div>  For background, see: <a href="http://www.loc.gov/marc/countries/" target="_blank">http://www.loc.gov/marc/countries/</a></div><div><br></div><div>And of course there&#39;s ISO 3166, the list of country codes:</div>

<div>  <a href="http://www.iso.org/iso/home/standards/country_codes/country_names_and_code_elements_xml.htm" target="_blank">http://www.iso.org/iso/home/standards/country_codes/country_names_and_code_elements_xml.htm</a></div>
<div>
  <a href="http://www.iso.org/iso/country_codes" target="_blank">http://www.iso.org/iso/country_codes</a><br></div><div><br></div><div>Not sure about the alternate representations and misspellings, though.</div><div><br>

</div><div>Matt</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Fri, May 17, 2013 at 5:57 AM, Shorthouse, David <span dir="ltr">&lt;<a href="mailto:davidpshorthouse@gmail.com" target="_blank">davidpshorthouse@gmail.com</a>&gt;</span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Folks,<br>
<br>
The Canadensys development team, <a href="http://www.canadensys.net/" target="_blank">http://www.canadensys.net</a> is looking<br>
for efficient, low-maintenance ways to validate and reconcile data in<br>
its National cache of occurrence data. We are working on a Java<br>
library to initially tackle single-field Darwin Core validations,<br>
<a href="https://github.com/Canadensys/narwhal-processor" target="_blank">https://github.com/Canadensys/narwhal-processor</a>. We hope this library<br>
is sufficiently generalized for uses outside our project.<br>
<br>
Our current challenge is to reconcile country names, which requires<br>
access to an up-to-date, well-maintained knowledge base of country<br>
names, their alternative representations (possibly multilingual), and<br>
mappings to known misspellings. For performance reasons, we&#39;d like<br>
this thesaurus to be embedded in the library, but with the capacity to<br>
be periodically refreshed with data pulled from external resources<br>
such as <a href="http://dbpedia.org/" target="_blank">dbpedia.org</a>. This clearly has ties to semantic web thinking<br>
and, because we&#39;re new to the tools and services in this space, we&#39;d<br>
like to solicit pointers and feedback such that we build this part of<br>
our library with maximal benefit to other projects. We started<br>
collecting thoughts here:<br>
<a href="https://github.com/Canadensys/narwhal-processor/issues/14" target="_blank">https://github.com/Canadensys/narwhal-processor/issues/14</a>.<br>
<br>
Cheers,<br>
<br>
David P. Shorthouse<br>
Christian Gendreau<br>
_______________________________________________<br>
tdwg mailing list<br>
<a href="mailto:tdwg@lists.tdwg.org" target="_blank">tdwg@lists.tdwg.org</a><br>
<a href="http://lists.tdwg.org/mailman/listinfo/tdwg" target="_blank">http://lists.tdwg.org/mailman/listinfo/tdwg</a><br>
</blockquote></div><br></div>
_______________________________________________<br>tdwg mailing list<br><a href="mailto:tdwg@lists.tdwg.org" target="_blank">tdwg@lists.tdwg.org</a><br><a href="http://lists.tdwg.org/mailman/listinfo/tdwg" target="_blank">http://lists.tdwg.org/mailman/listinfo/tdwg</a><br>
</blockquote></div><br></div></div></div></div></div><br>_______________________________________________<br>
tdwg mailing list<br>
<a href="mailto:tdwg@lists.tdwg.org">tdwg@lists.tdwg.org</a><br>
<a href="http://lists.tdwg.org/mailman/listinfo/tdwg" target="_blank">http://lists.tdwg.org/mailman/listinfo/tdwg</a><br>
<br></blockquote></div><br></div>