Dataset simpele analyses uitvoeren

1. Inleiding

Zoals een wijze Jedi ooit zei: “Captures lead to data, data leads to information, information leads to insights.” Simpelweg het verzamelen van ruwe gegevens, zoals netwerkpakketjes of de verzoeken aan een webserver, is niet voldoende om het verschil te maken in de strijd tegen kwaadwillende hackers. Als je gaat kijken naar de cijfers wordt al snel duidelijk waarom: een middelgrote website krijgt gemiddeld zo’n 20.000 unieke bezoekers per maand, die elk gemiddeld 7 pagina’s bezoekt. Dat zijn minstens 140.000 datapunten om te verwerken - en voor bovengemiddelde websites is dit nog veel meer!

Voordat je daadwerkelijk actie kan ondernemen moet je al die opgevangen berichten analyseren en vertalen naar begrijpelijke, acteerbare inzichten. Wat ‘begrijpelijk’ en ‘acteerbaar’ precies inhouden ligt aan de doelgroep van je dashboard: voor de gemiddelde systeembeheerder is het misschien interessant om te weten dat een MySQL-server op dat moment niet bereikbaar is, zodat deze stappen kan ondernemen om de server weer online te krijgen, terwijl een CISO eerder zou willen weten wat de maandelijkse uptime is, zodat er kan worden gekeken of er extra back-up servers moeten worden ingekocht.

2. Wat moet ik leren?

Om deze inzichten inzichtelijk te maken ga je aan de slag met Python. De eerste stap, gegevens ophalen uit een database, heb je geleerd in blok 1. Daarna moet je nadenken over slimme manieren om informatie op te slaan in Python. Waar we dat in blok 1 deden met lists, is het beter om dit te gaan doen met dictionaries of zelfs een dataframe. Op basis van je gebruikersonderzoek weet je welke dreigingen je moet opsporen. Hoe die dreigingen er uit zien kan je onderzoeken op basis van desk research.

3. Hoe leer ik dit? - [ ] Herhaling: lists - [ ] Dictionaries - [ ] NumPy: data analyseren in Python - [ ] NumPy for absolute beginners - [ ] Pandas: Dataframes voor analyse - [ ] Pandas officiële handleiding - [ ] Intro to Python for Computer Science and Data Science, hoofdstukken 6-8 - O’Reilly database