<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Hi David,<div><br></div><div>You've built your other libraries using GBIF parsers. &nbsp;Have you looked at how the GBIF country names interpretation works? &nbsp;It would be helpful to know why it is not suitable for your use.</div><div><br></div><div>The GBIF library concatenates known lists (such as ISO) along with about 2500 variations we've collected through period review of what we observe while indexing, and then using google refine we've mapped them to the ISO codes and we follow the ISO code changes as best we can. &nbsp;Your narwhal-processor already has a software dependency on the GBIF code.</div><div><br></div><div>Please remember that patches and additions are always welcome to the GBIF code, if you felt it could be improved. &nbsp;I'm biased of course, but I'd rather see something that is broken fixed than watching a recreation of something that already exists.</div><div><br></div><div>Cheers,</div><div>Tim</div><div><br></div><div><br><div><div>On May 17, 2013, at 4:39 PM, Matt Jones wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div dir="ltr">A good official list of countries is available from the Library of Congress:<div>&nbsp;&nbsp;<a href="http://www.loc.gov/standards/codelists/countries.xml">http://www.loc.gov/standards/codelists/countries.xml</a></div>
<div style="">&nbsp; For background, see:&nbsp;<a href="http://www.loc.gov/marc/countries/">http://www.loc.gov/marc/countries/</a></div><div style=""><br></div><div style="">And of course there's ISO 3166, the list of country codes:</div>
<div style="">&nbsp; <a href="http://www.iso.org/iso/home/standards/country_codes/country_names_and_code_elements_xml.htm">http://www.iso.org/iso/home/standards/country_codes/country_names_and_code_elements_xml.htm</a></div><div style="">
&nbsp; <a href="http://www.iso.org/iso/country_codes">http://www.iso.org/iso/country_codes</a><br></div><div style=""><br></div><div style="">Not sure about the alternate representations and misspellings, though.</div><div style=""><br>
</div><div style="">Matt</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Fri, May 17, 2013 at 5:57 AM, Shorthouse, David <span dir="ltr">&lt;<a href="mailto:davidpshorthouse@gmail.com" target="_blank">davidpshorthouse@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Folks,<br>
<br>
The Canadensys development team, <a href="http://www.canadensys.net/" target="_blank">http://www.canadensys.net</a> is looking<br>
for efficient, low-maintenance ways to validate and reconcile data in<br>
its National cache of occurrence data. We are working on a Java<br>
library to initially tackle single-field Darwin Core validations,<br>
<a href="https://github.com/Canadensys/narwhal-processor" target="_blank">https://github.com/Canadensys/narwhal-processor</a>. We hope this library<br>
is sufficiently generalized for uses outside our project.<br>
<br>
Our current challenge is to reconcile country names, which requires<br>
access to an up-to-date, well-maintained knowledge base of country<br>
names, their alternative representations (possibly multilingual), and<br>
mappings to known misspellings. For performance reasons, we'd like<br>
this thesaurus to be embedded in the library, but with the capacity to<br>
be periodically refreshed with data pulled from external resources<br>
such as <a href="http://dbpedia.org/" target="_blank">dbpedia.org</a>. This clearly has ties to semantic web thinking<br>
and, because we're new to the tools and services in this space, we'd<br>
like to solicit pointers and feedback such that we build this part of<br>
our library with maximal benefit to other projects. We started<br>
collecting thoughts here:<br>
<a href="https://github.com/Canadensys/narwhal-processor/issues/14" target="_blank">https://github.com/Canadensys/narwhal-processor/issues/14</a>.<br>
<br>
Cheers,<br>
<br>
David P. Shorthouse<br>
Christian Gendreau<br>
_______________________________________________<br>
tdwg mailing list<br>
<a href="mailto:tdwg@lists.tdwg.org">tdwg@lists.tdwg.org</a><br>
<a href="http://lists.tdwg.org/mailman/listinfo/tdwg" target="_blank">http://lists.tdwg.org/mailman/listinfo/tdwg</a><br>
</blockquote></div><br></div>
_______________________________________________<br>tdwg mailing list<br><a href="mailto:tdwg@lists.tdwg.org">tdwg@lists.tdwg.org</a><br>http://lists.tdwg.org/mailman/listinfo/tdwg<br></blockquote></div><br></div></body></html>