Wetenschap
De ideale beestenbieb
Het is een monsterklus: het digitaliseren van de collecties van natuurhistorische musea. En hoe doe je dat slim, zodat het toekomstbestendig is en leesbaar door computers?
donderdag 20 september 2018
© Collection Naturalis Biodiversity Center, MMNAT01_AF_NNM001000415.

De bètawetenschappen zijn óf natuurkunde, óf postzegels verzamelen. De Nieuw-Zeelandse fysicus Ernset Rutherford heeft het waarschijnlijk wél gezegd, en waarschijnlijk geen gelijk. Onderschat echter niet de charme van postzegelverzamelingen. Biologen sparen hun beestjes en plantjes met het enthousiasme van een kleuter op het strand, en dat levert echt wat op. De evolutietheorie, bijvoorbeeld, was er waarschijnlijk niet geweest als Charles Darwin niet acht jaar lang boven duizenden bijna-maar-net-niet-helemaal-dezelfde zeepokken had gehangen.

Natuurhistorische collecties, tegenwoordig grotendeels ondergebracht in collecties als die van Naturalis, dragen bij aan allerlei takken van wetenschap, van ecologie tot culturele antropologie tot geologie tot archeologie. Omdat de verzamelde objecten en de boeken die erover geschreven werden ook iets zeggen over de mensen die dat deden en hun tijd, krijgen ze behalve een wetenschappelijke waarde ook een cultureel-historische waarde. Iets om zuinig op te zijn dus, en om met de wereld te delen.

De natuurhistorische musea van de wereld zijn daar druk mee bezig. Dat is makkelijker gezegd dan gedaan, want je wilt het ook goed doen, liefst meteen de eerste keer. Als je tien potjes met dezelfde kwal hebt, moeten die dan allemaal op de foto? En hoe? En hoe zit dat met de veldverslagen? Naturalis heeft behalve de 42 miljoen dode planten en beesten ook een hele collectie aan archieven. Hoe ontsluit je die?

Dodo's

Hoe lastig die vraag is, ontdek je pas als je kijkt naar oude beschrijvingen. Er zijn afbeeldingen van dodo’s die zo verschillen dat ze doen vermoeden dat Mauritius twee soorten dodo had, maar er zijn geen sporen van die tweede soort gevonden. Is dat pech, of was de tekenaar gewoon slecht? Wat moet je met een beschrijving van een plant die een soortnaam heeft die nu niet meer gebruikt wordt, verzameld op een eiland dat nu niet meer zo heet, vlakbij een dorpje dat twintig jaar later door de Hollanders werd platgebrand?

Om dat soort ellende te voorkomen, slaan de collectiebeheerders de handen ineen met wetenschapshistorici en IT-specialisten. Een van hen is promovenda Lise Stork van het informatica-instituut LIACS. Ze is eerste auteur van een binnenkort verschijnend artikel in het vakblad Web Semantics over het ontsluiten van een stuk Naturalis-archief met behulp van, ehm, web semantics.

Het woord ‘semantiek’ is chique voor ‘de studie van betekenissen’, en betekent dus ironisch genoeg zelf zo goed als niks. In deze specifieke context betekent het: informatie op een website zetten, en wel zodanig dat een computer de betekenis snapt. Een voorbeeldje: tussen 1820 en 1850 produceerden natuurhistorici in Nederlands-Indië zo’n 17.000 pagina’s aan soortbeschrijvingen. Als je die scant en online gooit, kan een computer er niks mee. Als je een bureautje betaalt om al die pagina’s over te tikken, maakt het fouten, mis je koppelingen met de afbeeldingen en dan is je tekst weliswaar doorzoekbaar, maar nog steeds niet echt handig bruikbaar voor computers.

Onderschat

Als computers niet alleen de tekst kunnen doorzoeken, maar ook de betekenis kennen, kunnen ze min of meer zelfstandig door databanken struinen en zelf dingen leren en verbanden leggen. ‘Ik denk dat veel mensen nog onderschatten hoe belangrijk dat gaat worden’, aldus Stork.

‘Taal is dubbelzinnig’, legt Stork uit, ‘maar websemantiek is dat niet. De meeste mensen denken bij een url alleen aan een webadres, maar zo’n uniform resource locator, of de verwante uniform resource identifier is ook een unieke code die iets specifieks aangeeft.’ Zulke codes kan je gebruiken om een manuscript van betekenis te voorzien. Dat is vooralsnog mensenwerk: iemand tikt een pagina over (al werkt Stork samen met een groep in Groningen die handschriftlezende software bouwt die die taak moet overnemen), en voegt vervolgens die codes toe.

De beschrijving ‘Pteropus minimus Geoff, gevangen te Buitenzorg, in de stad’ is geen al te moeilijke biologentaal. Pteropus geeft aan dat het beest (een vleermuis) samen met een aantal andere soorten behoort tot het geslacht van die naam; deze specifieke soort is de P. minimus. Na de naam staat degene die de soort voor het eerst beschreven heeft, vaak in afkorting omdat het biologen eigenlijk weinig interesseert. De allergrootste beschrijver was Carolus Linneaus, die een deel van zijn werk in de Leiden deed: bij ‘zijn’ soorten staat er alleen een ‘L.’ ‘Geoff’ is kort voor de Franse natuuronderzoeker Étienne Geoffroy Saint Hilaire. Buitenzorg is de koloniale naam voor een stad in Java die tegenwoordig Bogor heet.

Vleerhonden

De verwerker moet aangeven dat Pteropus minimus een soortnaam is. Van soortnamen moet vastgelegd zijn dat ze onderdeel kunnen zijn van hogere indelingen, zoals in dit geval ‘vleerhonden’ en ‘vleermuizen’. Hij of zij moet aangeven dat ‘Buitenzorg’ een plaatsnaam is die gekoppeld is aan de moderne naam “Bogor”. ‘De code linkt dan ook naar een lengte- en breedtegraad’, legt Stork uit: ‘Als iemand “Bogor” intypt, krijgt hij daardoor ook alles dat uit “Buitenzorg” komt.’ De ontdekker krijgt ook een code, zodat je kan zoeken op alle beesten die Geoff gevonden heeft.

Omdat biologen inmiddels tot de conclusie zijn gekomen dat P. minimus eigenlijk helemaal niet zo op de andere Pteropussen lijkt, is het beestje omgedoopt tot Macroglossus minimus. ‘Dan moet er dus een soort url gebruikt worden, dat uitlegt dat die twee namen eigenlijk hetzelfde zijn.’ Om het extra netjes te houden is er een aparte databank die netjes uitlegt wat een ‘lengtegraad’ is, en wat de precieze definitie is van omgevingen als ‘stad’.

Is dat genoeg, als in het jaar 2224 de anderstalige overlevenden van de Laatste Oorlog meer willen weten over biodiversiteit en de geschiedenis daarvan? Stork: ‘Je kan in elk geval je vraag invoeren in gewone mensentaal; de interface is gebruiksvriendelijk. De vraag of dat voldoende is, is een probleem dat je met alles hebt. Als je geen idee hebt wat een tafel is, en je zou er eentje vinden in het bos, kom je er dan nog uit?’

Maar die vraag is noch fysica, nog postzegels verzamelen.