Datall's first blog

Datall's first blog

Tussen de regels door lezen: Innovatieve zoekmachine verbetert intelligence van bedrijven

Data analysisPosted by Stefan Gelissen 15 May, 2014 08:49

Iedere organisatie heeft er baat bij dat haar leden onderling informatie uitwisselen. Maar hoe kunnen deze mensen gemotiveerd worden zodat ze op een optimale wijze informatie gaan delen? Deze blog introduceert een innovatieve zoekmachine waarmee een eerste stap gezet wordt richting het stimuleren van informatie-uitwisseling. De daaropvolgende uitwisseling van beschikbare informatie zal resulteren in waardevolle intelligence voor een bedrijf.


Introductie
Elke vorm van intelligence (business, market, competitive, etc.) is informatie die van cruciale waarde voor een bedrijf kan zijn. Deze intelligence kan een bedrijf namelijk helpen bij het nemen van weloverwogen en onderbouwde beslissingen. Het is daarom niet verwonderlijk dat bedrijven over deze informatie willen beschikken. Echter, menig manager reageert nog steeds sceptisch op het gebruik van intelligence binnen de onderneming. Maar deze sceptici kunnen zich de volgende vraag stellen:

Waarom is het zo dat een bevelhebber in het leger niet zonder intelligence kan,
terwijl een manager denkt dat hij of zij wel zonder kan?

Steeds meer organisaties, veelal multinationals, erkennen dat ze intelligence noodzakelijk achten voor hun bedrijfsvoering. Deze intelligence is essentieel om concurrenten voor te kunnen blijven.

Een belangrijk ingrediënt voor intelligence is data. De afgelopen tien jaar is bij bedrijven de hoeveelheid aan data substantieel toegenomen. Deze toename is ondermeer te danken aan het gemak waarmee data verkrijgbaar is. Internet biedt tegenwoordig bijvoorbeeld toegang tot grote hoeveelheden open source (digitale) informatie.

Om deze grote hoeveelheden data te consumeren zijn er zogenaamde kennisplatforms ontwikkeld om, binnen de verzamelde data, waardevolle informatie te (her)ontdekken. Deze platformen kunnen de (vaak) duizelingwekende hoeveelheden aan beschikbare data samenvatten en bovendien makkelijker inzichtelijk maken.
Een voorbeeld van zo’n kennisplatform is het “intelligence platform”. Dit type platform verzamelt en structureert niet alleen data, maar helpt ook bij het inzichtelijk maken van de verzamelde informatie. Deze “intelligence platforms” wakkeren vaak de creativiteit van medewerkers aan die nauw betrokken zijn bij informatieverwerking (zogenaamde kenniswerkers). Daarbij stimuleren diverse functionaliteiten van het platform deze mensen om buiten de bestaande kaders te denken. Een voorbeeld van zo’n specifieke functie is de focus van deze blog: Een innovatieve zoekmachine, namelijk de Semantic Search Engine.


De Semantic Search Engine
MI7 is een “intelligence platform” ontwikkeld door Indicium International. Op dit moment haalt MI7 automatisch informatie op uit verschillende bronnen en faciliteert dat werknemers deze informatie onderling gaan uitwisselen. Ervaring toont dat juist dit uitwisselen van informatie het onderling samenwerken van werknemers bevordert.

Binnen MI7 zijn verschillende innovatieve functionaliteiten ontwikkeld zoals LiquidConnect (verbinden van informatie in 3D) en BluePrint (eenvoudige patroonherkenning).
De laatste toevoeging is een krachtige zoekmachine, de Semantic Search Engine. Het belangrijkste doel van deze zoekmachine is het doorzoeken en terugvinden van documenten opgeslagen in de MI7 database. Om dit te bewerkstelligen maakt de nieuwe zoekmachine gebruik van een wiskundige analyse genaamd Latent Semantic Analysis, kortweg LSA (Landauer & Dumais, 1997). Door LSA kan de zoekmachine op een intelligente wijze kennis blootleggen die opgeslagen is in bedrijfsdocumenten. Bij deze documenten kan ondermeer gedacht worden aan wetenschappelijke artikelen, patenten, product datasheets en profielen van concurrenten en personen. De afzonderlijke documenten bevatten ieder een hoeveelheid aan gegevens (d.w.z., woorden en cijfers). De implementatie van LSA maakt dat de zoekmachine een verzameling aan woorden en cijfers in een document kan duiden. Dit houdt in dat de zoekmachine kan afleiden wat de “diepere betekenis” achter de woorden en cijfers is. De zoekmachine ziet daarvoor een document niet simpelweg als een berg aan woorden en cijfers, maar “leest tussen de regels door”. Net zoals mensen kan deze zoekmachine de onderliggende essentie ontrafelen en afleiden waar een tekst eigenlijk echt over gaat. Het volgende illustratieve voorbeeld toont hoe dit “tussen de regels door lezen” werkt en wat het nut daarvan is.


Een illustratief voorbeeld van de nieuwe Semantic Search Engine
Figuur 1 laat zien hoe MI7 de zoekresultaten van de Semantic Search Engine presenteert na het invoeren van de zoekopdracht (query) “electron microscope”. Deze resultaten zijn verkregen bij het doorzoeken van een MI7 database met daarin een aanzienlijk aantal gegevens opgeslagen in afzonderlijke documenten. Merk op dat deze MI7 database hoort bij een bedrijf dat microscopen ontwikkelt en verkoopt.

Figuur 1: Screenshot van MI7’s zoekresultaten geproduceerd met de Semantic Search Engine
(klik hier voor een grotere weergave van de afbeelding)

De bovenstaande zoekresultaten zijn geordend op “LSA score” en verder gespecificeerd aan de hand van “Name” en “Type”. Hoe hoger de LSA score, des te relevanter het teruggevonden document is gegeven de query (“electron microscope”). Onder “Name” zijn de titels vermeld van de opgehaalde documenten. Ten slotte geeft “Type” weer of het bijvoorbeeld een wetenschappelijk artikel (“Paper”) is, een datasheet van een product (“File”), een profiel van een concurrent (“Company”), of een profiel van een product (“Product”).

Hoe worden deze gegevens doorzocht en teruggevonden, en wat is de rol van LSA in dit zoekproces? Grof gesteld bestaat dit zoekproces uit drie stappen:

(1) LSA stelt de zoekmachine in staat af te leiden hoe andere woorden gerelateerd zijn aan die in de query. Zodoende kan zoekmachine afleiden dat naast “electron microscope” deze query ook betrekking heeft op concepten als “technology” en “high resolution”. Deze concepten tezamen omvatten de onderliggende betekenis, of essentie, van de query.

(2) Door LSA kan de zoekmachine ook de diepere betekenis/essentie afleiden van gegevens opgeslagen in de MI7 database. Nemen we eens als voorbeeld de product-datasheet van “Titan Krios” in Figuur 1. De zoekmachine was in staat te ontdekken dat de essentie van dit document samengevat kan worden met de volgende woorden (zie witte box met naam “Top Words”):
  • TEM (afkorting voor Transmission Electron Microscope)
  • technology
  • high
  • microscope
  • resolution

(3) Voor het terugvinden van gegevens doet de zoekmachine een beroep op de bij stappen (1) en (2) ontdekte onderliggende betekenis/essentie van zowel query als gegevens. Dit verklaart waarom de zoekmachine op de proppen kwam met bijvoorbeeld de “Titan Krios” datasheet. Bij de vorige twee stappen kwamen we al te weten dat de zoekmachine bij zowel de “Titan Krios” datasheet als de query afleidde dat deze in essentie gingen over iets als “technology”, “microscope” en “high resolution”. Precies deze overeenkomst in onderliggende betekenis verklaart in belangrijke mate waarom de query dit specifieke document (“Titan Krios”) terugvond.

Figuur 1 toont nog een ander interessant resultaat met betrekking tot de zoekresultaten van de Semantic Search Engine: Een document (tweede in de volgorde van LSA scores) dat een technologie beschrijft uit een gerelateerd kennisgebied, namelijk spectroscopie. Elektronenmicroscopen en spectroscopie komen overeen in de zin dat ze allebei zichtbaar maken wat normaal gesproken onzichtbaar is voor het oog. Dit duidt er wederom op dat de nieuwe zoekmachine tussen de regels door kan lezen en kan afleiden dat spectroscopie op de een of andere manier gerelateerd is aan de techniek van elektronenmicroscopen. Daarbij is het opmerkelijk dat in dit document over spectroscopie geen enkele keer het woord “microscope” voorkomt.


Een voorbeeld van Exact Search
Ter vergelijking is het interessant om de zoekresultaten in Figuur 1 te contrasteren met die van een traditionele “exacte match” zoekmachine. MI7 beschikt over zo’n traditionele zoekfunctionaliteit, namelijk “Exact Search”. Deze zoekfunctionaliteit haalt documenten terug uit de MI7 database alleen als deze woorden bevatten die exact overeenkomen met die in de query.

Figuur 2 toont een screenshot van de “Exact Search” zoekresultaten na het invoeren van de query “electron microscope”. Deze query is identiek aan de query gebruikt bij de Semantic Search Engine hierboven, en maakt dat Exact Search een document terughaalt alleen wanneer dit de twee woorden “electron” en “microscope” tegelijkertijd bevat.

Figuur 2: Screenshot van MI7’s zoekresultaten verkregen met Exact Search
(klik hier voor een grotere weergave van de afbeelding)

De zoekresultaten in Figuur 2 laten zien dat de resultaten van Exact Search minimaal overeenkomen met die van de Semantic Search Engine. Hoewel de zoekmachines allebei twee identieke productprofielen van “JEM Transmission Electron Microscopes” terughalen en één wetenschappelijk artikel over “Transmission Electron Microscopes”, verschillen ze wat betreft de andere documenten.
Wat het meest opvalt is dat Exact Search alleen documenten terugvindt die “electron microscope” in hun titel hebben. Dit is niet verwonderlijk omdat de gebruikte query exact uit die woorden bestaat. Maar ook opmerkelijk is dat al deze gevonden documenten enkel gericht zijn op elektronenmicroscopen als product.
Een tekortkoming van de Exact Search resultaten is dat ze geen documenten bevatten die op de een of de andere manier gerelateerd zijn aan elektronenmicroscopen. Daarentegen, de eerdere Semantic Search Engine resultaten lieten zien dat deze nieuwe zoekmachine wel in staat was om zulke interessante en waardevolle informatie terug te vinden (bijvoorbeeld, kennis over spectroscopie).


Hoe de nieuwe Semantic Search Engine helpt bij het verbinden van mensen
Vaak is binnen een bedrijf informatie en kennis verspreid over verschillende mensen. Daarbij drukken deze mensen dikwijls gelijksoortige en gerelateerde informatie uit in een andere bewoording. Een oorzaak voor dit verschil in het verwoorden van informatie kan een verschil in jargon zijn. Bijvoorbeeld, marketing managers en research en development medewerkers vallen soms terug op een verschillende bewoording bij het communiceren van gelijksoortige informatie. Het gevolg hiervan is dat boodschappen en documenten die verschillen in woordgebruik soms dezelfde informatie bevatten.

Een probleem kan ontstaan wanneer individuen met “exact search” naar relevante documenten zoeken in de MI7 database, maar in de query hun eigen jargon of bewoording toepassen. Onder die omstandigheden kan het gebeuren dat de query uit woorden bestaat die geen exacte match vertonen met de woorden in relevante documenten. Een tekortkoming van “exact search” is juist dat deze de zoekresultaten zal beperken tot documenten die uitsluitend een exacte woordmatch hebben. Echter, MI7’s nieuwe Semantic Search Engine omzeilt dit probleem en is in staat toch relevante documenten te vinden die geschreven zijn in een andere bewoording of afwijkend jargon.
Interessante en relevante informatie kan ook gevonden worden in documenten die concepten, onderwerpen, of kennisgebieden beschrijven die gerelateerd zijn aan de zoekwoorden in de query. In het bovenstaande voorbeeld werd al beschreven hoe het gebied van spectroscopie gerelateerd was aan dat van elektronenmicroscopen. De zoekresultaten van de Semantic Search Engine toonden aan dat deze zoekmachine ook dergelijke informatie kon terugvinden. Voor bedrijven kan het zeker de moeite waard zijn om zo'n verwante informatie te raadplegen. Vaak kan deze informatie namelijk de horizon verbreden van personen in een bedrijf die nauw betrokken zijn bij een specifiek product (bijvoorbeeld, elektronenmicroscopen).

Ten slotte, een belangrijk gevolg van de Semantic Search Engine is dat de zoekresultaten ervoor zullen zorgen dat mensen gaan samenwerken. De zoekresultaten laten namelijk een individu kennis maken met relevante informatie die aanwezig is bij anderen in het bedrijf, zelfs als deze hun toegevoegde informatie in de MI7 database afwijkend verwoorden of in een ander jargon. Daarnaast zullen deze individuen ook gaan inzien dat personen die werkzaam zijn in gerelateerde kennisgebieden (bijvoorbeeld, spectroscopie) ook interessante en relevante informatie documenteren.
Op het moment dat individuen inzien dat andere personen relevante kennis bezitten dan zullen ze gaan communiceren met deze mensen. Resultaat: mensen raken verbonden met elkaar. Tegelijkertijd zullen ze informatie gaan uitwisselen en juist dit zal hun helpen buiten de bestaande kaders te treden. De intelligence van een bedrijf zal ongetwijfeld voordeel hebben bij een dergelijk gedrag.

Meer informatie?
Indien u meer informatie wilt ontvangen over de nieuwe Semantic Search Engine, MI7, of behoefte heeft aan een presentatie dan kunt u contact opnemen met een van de auteurs van deze blog:

Nick Kusters - Indicium International ( www.indicium-group.com )
drs. ing. Alain Wille - Indicium International ( www.indicium-group.com )
dr. ing. Stefan Gelissen - Datall ( www.datall-analyse.nl )

Dankwoord
De auteurs willen graag Joseph Rodenberg (Rodenberg Tillman & Associates) en Edel bedanken voor hun waardevolle opmerkingen.


Gebruikte literatuur
Landauer, T.K., & Dumais, S.T., 1997. A solution to Plato’s problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge. Psychological Review, 104, 211-240.