Handboek Internetresearch & Datajournalistiek: Booleaanse operatoren

Het boek van de maand september is het Handboek Internetresearch & datajournalistiek van Andrew Dasselaar en Jerry Vermanen. We plaatsen deze maand wat voorproefjes uit het boek en interviewen een van de auteurs. Het boek is geschreven voor journalisten, studenten, wetenschappers en andere nieuwsgierige mensen, die willen weten hoe ze onderzoeksvragen beter kunnen formuleren en zo betere antwoorden te krijgen. Hieronder kun je een voorproefje uit het boek lezen.  Het is het eerste deel van hoofdstuk 3: Zoeken via Google en andere zoekmachines. Een ander voorproefje uit het boek over het structureren van een onderzoek vind je HIER. Een bespreking van het boek lees je HIER. (H.F. 

Universele zoekmachinecommando’s: Booleaanse operatoren

Zoekmachines worden steeds slimmer en dat is gek genoeg een nadeel. Je kunt met slecht geformuleerde zoekopdrachten namelijk al een heel eind komen. Daardoor leren veel onderzoekers nooit de speciale commando’s die het zoeken via Google en andere zoekmachines zo veel gemakkelijker maken. In
dit hoofdstuk zetten we dat recht.

Iedere zoekmachine heeft een eigen gebruiksaanwijzing en eigen speciale opdrachten. Verderop komen met name de bijzondere eigenschappen van Google uitgebreid aan de orde. Maar er zijn ook overeenkomsten tussen zoekmachines. Zo kunnen ze allemaal worden bediend door het gebruik van zogeheten booleaanse operatoren. Dit zijn opdrachten waarmee een zoekmachine kan worden verteld iets wel of juist niet te doen.

George Boole. Uit: The Illustrated London News, 21 januari 1865.

Booleaanse operatoren, waarvan hierna een overzicht, worden in hun oorspronkelijke vorm altijd in hoofdletters geschreven, al hebben sommige zoekmachines tegenwoordig andere manieren om booleaanse operatoren te gebruiken.

    • AND AND vertelt een zoekmachine dat deze de woorden aan weerskanten van AND beide moet meenemen in een zoekvraag. De opdracht fiets AND fietsenmaker leidt dus tot pagina’s waarop zowel het woord fiets als fietsenmaker voorkomt. Goede zoekmachines, zoals Google, zoeken standaard met de booleaanse operator AND. Die hoef je dus niet te typen.
    • OR OR is vergelijkbaar met AND; de opdracht werkt op de woorden links en rechts van OR. Wie zoekt op chocola OR chocolade krijgt pagina’s waarop alleen chocola staat én pagina’s waarop alleen chocolade staat, maar ook pagina’s waarop beide termen voorkomen. OR is handig voor wie wil zoeken op verschillende spellingsvarianten van een woord of naam en kan ook worden gebruikt om te zoeken naar de combinatie van een persoon en meerdere onderwerpen. Einstein relativity OR peace zoekt naar de beroemde geleerde in documenten die over vrede of relativiteit gaan. (Of over beide, maar het aantal pagina’s waarop Einstein in combinatie met beide onderwerpen wordt genoemd, is een stuk kleiner.) Slechte zoekmachines zijn eraan te herkennen dat ze standaard met OR zoeken. Dit levert meer zoekresultaten op, zodat het lijkt alsof de zoekmachine groter is dan in werkelijkheid het geval is. Ook bij Google krijg je soms zoekresultaten waarop niet alle woorden uit je zoekvraag voorkomen. Dat heeft echter een andere reden. Google past kunstmatige intelligentie toe op je zoekopdracht. Op basis daarvan doet Google een beredeneerde gok of je een zoekresultaat nuttig zult vinden, ook al voldoet het strikt genomen niet aan je zoekopdracht.
    • NOT Een vaak onderschatte, maar uiterst nuttige booleaanse operator. NOT vertelt de zoekmachine dat het resultaat een bepaalde term absoluut niet mag bevatten. Hoewel het op het eerste gezicht nogal onzinnig lijkt om de zoekmachine te vertellen waarnaar deze niet moet zoeken, is NOT erg handig om zoekresultaten uit te dunnen. Wie zoekt naar mensen die Krajicek heten, maar geen pagina’s over de voormalige Nederlandse tennisser wil krijgen, voegt aan zijn zoekvraag simpel NOT tennis toe. Binnen Google heet de operator NOT anders. Daar gebruik je het minteken. Dit plak je aan de voorkant van het woord dat je wilt filteren. In plaats van op Krajicek NOT tennis zoek je dus op Krajicek -tennis.
Zoek op Krajicek en Google concludeert dat je wel de tennisser zult bedoelen.
Gebruik de boolean NOT, in Googles geval een minteken, in combinatie met het woord tennis, en het aantal zoekresultaten loopt drastisch terug.
  • NEAR Waar AND de zoekmachine vertelt dat twee termen beide op een pagina moeten voorkomen, is NEAR nog wat specifieker: de termen moeten dicht bij elkaar staan, meestal met maximaal twintig woorden tussenruimte. Dit is handig, want de zoekopdracht Wim NEAR Kok levert niet alleen pagina’s op waarop Wim Kok staat, maar ook alle wetenschappelijke publicaties van ‘Kok, Wim’. Helaas wordt NEAR tegenwoordig nauwelijks nog ondersteund.
  • Wildcards Ondergeschikt aan het belang van booleaanse operatoren, maar niettemin nuttig bij zoekmachines die ze ondersteunen, zijn wildcards, ook wel jokers geheten. Een wildcard is het symbool * en wordt gebruikt om een ontbrekend of variabel gedeelte van een zoekvraag op te vullen. Voorbeeld: “De * valt niet ver van de boom” zal resultaten opleveren met ieder willekeurig woord op de plek van de *. De wildcard is dus uitstekend geschikt om te gebruiken als je op zoek bent naar een exact citaat, maar niet meer precies weet hoe dit citaat ook alweer luidde. Sommige zoekmachines staan het ook toe om een wildcard in een woord te gebruiken. Voorbeeld: “Jans*en” levert zowel pagina’s op met de term ‘Jansen’ als ‘Janssen’. Waar het gebruik van dergelijke wildcards in 2004, bij het verschijnen van de eerste editie van dit boek, nog nut had, is Google anno 2018 zo slim geworden dat de machine in veel gevallen zelf zal zoeken op meerdere varianten van een woord. Dat heeft zo weer zijn eigen nadelen, want soms wil je dat helemaal niet. Dwing in dat geval Google om bij de les te blijven door de zoekterm tussen aanhalingstekens te zetten. Voorbeeld: “Janssen”. Let op: vroeger kon je het plusteken gebruiken om hetzelfde effect te bereiken. Dit werkt echter niet meer binnen Google.
Wildcards zijn onder meer handig als je een deel van een citaat niet meer weet.

Geef een reactie

Deze website gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.