Archiefbestanden

Archiefmasters identificeren en selecteren via de inventaris

Wil je graag aan de slag met jouw gemaakte bestandsinventaris (bv. via DROID) om archiefformaten te selecteren die kunnen instromen in een batch-intakeproject? Dan lees je hieronder hoe je dat kan doen in drie stappen!

Stap 1: CSV opslaan als een bewerkbare spreadsheet

Het resultaat van een DROID-analyse is een CSV-bestand, of 'Comma-Separated Values' of kommagescheiden bestand. Dit bestand is goed om bv. imports of exports te doen, maar minder goed om te bewerken. Daarom kan je hieronder lezen hoe je dit CSV-bestand kan omzetten in een makkelijk hanteerbare spreadsheet waarin je bewerkingen kan uitvoeren in bijvoorbeeld Excel, Libre Office of Google Spreadsheet.

Formatteer je data bij het importeren als tekst. Dit zorgt ervoor dat Excel de oorspronkelijke data uit het CSV-bestand niet zal omvormen. Dit doe je zo:

  • Importeer je CSV-bestand in jouw programma naar keuze, bv. Excel.
    • Je opent daarvoor een nieuwe spreadsheet.
    • Je kiest bovenaan bij 'Bestand' of 'File' voor 'Import(eer)' en dan laat je de eerste optie aangeduid staan, namelijk 'CSV file' en weer 'Import(eren)'.
    • Je selecteert dan de DROID-export die op jouw computer opgeslagen staat en klikt daarna op 'Gegevens ophalen' of 'Get data'.
  • Geef aan hoe je de CSV in kolommen wil opsplitsen. Klik op 'Gescheiden' of 'Delimited'. Een CSV kan door een komma (,) of een puntkomma (;) gescheiden worden. Kijk dus goed na in je bronbestand hoe dit wordt gedaan. Als je het niet weet, kan je altijd je CSV openen met een tekstbewerkingsprogramma (bv. TextEdit of Word) om de ruwe informatie te bekijken. Klik op 'Volgende' of 'Next'.
    • Selecteer dus 'Komma'/'Comma' of 'Puntkomma'/'Semicolon' (afhankelijk van jouw CSV-bestand) en deselecteer 'Tab'. Je ziet dan in het voorbeeld of de preview onderaan dat de data wordt opgesplitst in kolommen. Klik op 'Volgende' of 'Next', en klik op 'Voltooien' of 'Finish' en OK.

Nu kan je jouw CSV-data gaan bewerken in bijvoorbeeld Excel. Wanneer de bewerkingen en dus jouw selectie klaar zijn, dan kan je de data opslaan als Excelbestand (.xls), maar best ook 'opslaan als' CSV-bestand. Let op: doe dit als CSV UTF-8-bestand (.csv), anders loop je het risico dat er vreemde tekentjes in jouw CSV sluipen in plaats van bv. de letters à of é. Dit komt door encoding problemen.

Stap 2: dubbels verwijderen op basis van de MD5-checksums

Om te voorkomen dat er dubbele bestanden bij meemoo worden bewaard (en er dus ook dubbele opslag wordt voorzien én betaald) is het belangrijk om waar mogelijk de dubbels voor de eigenlijke instroom te verwijderen. Hoe je dit aanpakt, staat zeer gedetailleerd uitgeschreven op de TRACKS-website. Een bezoekje waard! Of lees meer hieronder.

In jouw bestandsinventaris kan je de dubbels zichtbaar maken in Excel door:

  1. Selecteer de kolom waarin je dubbels zichtbaar wil maken.
  2. Klik onder onder 'Start' of 'Home' op 'Voorwaardelijke opmaak' of 'Conditional Formatting'.
  3. Kies bovenaan 'Markeringsregels voor cellen' of 'Highlight Cells Rules'.
  4. Kies onderaan 'Dubbele waarden' of 'Duplicate Values' en klik op 'OK' in het pop-upvenster. Je dubbele waarden hebben een kleur of highlight gekregen.
    1. Maak een filter: selecteer alles (command + a of ctrl + a), klik bovenaan op 'Gegevens' of 'Data' en dan 'Filter'. Je kan nu filteren op de dubbele (en dus ingekleurde) waarden.
    2. Klik op de filter (of pijl) in de correcte kolom. Kies bij Filter - Op kleur/By colour voor 'Celkleur' of 'Cell Colour' het gekleurde vakje. Je filtert op deze manier de geïdentificeerde dubbele waarden uit.

En in Google Spreadsheet door:

  1. Selecteer de kolom waarin je dubbels zichtbaar wil maken.
  2. Klik bovenaan op 'Opmaak' en dan 'Conditionele opmaak'. Er verschijnt rechts een extra vak, waarbij 'Toepassen op bereik' reeds ingevuld is door de waarde van de geselecteerde kolom, bv. M1:M1000 (wat betekent rijen 1 tot en met 1000 in kolom M).
  3. Onder 'Opmaakregels - Cellen opmaken als...' kies je helemaal onderaan 'Aangepaste formule is'.
  4. In het vakje 'Waarde of formule' vul je volgende formule in: =AANTAL.ALS($M$1:$M$1000;M1)>1, waarbij je M vervangt door de letter van de kolom waarin je op zoek gaat naar dubbele waarden. Is dat bv. in kolom E, dan vul je volgende formule in: =AANTAL.ALS($E$1:$E$1000;E1)>1. De waarde 1000 vervang je door de waarde van het totaal aantal rijen van je spreadsheet.
  5. Klik op 'Klaar'. Je dubbele waarden hebben een kleur of highlight gekregen.
    1. Maak een filter: selecteer alles, klik bovenaan op 'Gegevens' en dan 'Een filter maken'. Je kan nu filteren op de dubbele (en dus ingekleurde) waarden.
    2. Klik op de filter in de correcte kolom. Kies 'Filteren op kleur' en kies de juiste kleur onder 'Opvulkleur'. Je filtert op deze manier de geïdentificeerde dubbele waarden uit.

De dubbele waarden kregen nu eenzelfde kleur. Hierdoor kan je makkelijk detecteren of er dubbels aanwezig zijn in je bestandsinventaris, zodat je deze kan verwijderen uit jouw selectie van archiefbestanden. Je gaat best op zoek naar dubbels in volgende kolommen in je bestandsinventaris (via DROID): NAME en MD5_HASH. Deze moeten namelijk altijd uniek zijn, anders zal de instroom en dus archivering niet slagen.

Stap 3: filteren op mime type of bestandsextensie

Niet alle bestandsformaten komen in aanmerking voor duurzame bewaring in het meemoo-archiefsysteem. Daarom is het belangrijk om een weloverwogen selectie te maken vooraleer jij jouw digitale (deel)collectie aanbiedt aan meemoo. Het aanmaken van en werken met filter in jouw bestandsinventaris helpt jou daarbij.

Maak eerst een filter aan in jouw bewerkbare spreadsheet (zie stap 1).

  1. Selecteer alle data. Je moet er wel eerst voor zorgen dat er zich zeker geen lege rijen in jouw spreadsheet bevinden die jouw data onderbreken.
    1. Voor Mac-gebruikers: commandtoets + letter a.
    2. Voor Windows-gebruikers: controltoets + letter a.
  2. Klik op 'Gegevens' of 'Data' en dan 'Filter'. Dat is het trechtersymbooltje. Je ziet in jouw bovenste rij dat elke kolom een pijltje naar beneden heeft gekregen. Dat is jouw filter waarop je kan klikken. Je ziet dan alle waarden uit die kolom netjes staan, die je kan aan- en uitvinken.
  3. Wij vinden het daarnaast ook handig om de bovenste rij vast te zetten in een spreadsheet. Dat zorgt ervoor dat als je naar beneden scrolt, deze bovenste rij altijd bovenaan zichtbaar blijft. Deze bovenste rij is de naamgeving van iedere kolom.
    1. Klik op 'Beeld' of 'View' en dan 'Bovenste rij blokkeren' of 'Freeze Top Row'.

Ga nu aan de slag met jouw filters om de juiste bestandsformaten te selecteren en eventueel deselecteren. Bestudeer eerst nog eens goed welke archiefformaten wel en vooral niet in aanmerking komen voor een digitale-instroomtraject. Met vragen ben je altijd welkom bij jouw projectmanager.

  1. Klik in de kolom 'MIME_TYPE' op het pijltje naar beneden. Je ziet nu alle mogelijke mime types aanwezig in jouw spreadsheet.
    1. Dit is een standaard die het media of content type van een bestand specificeert (en dus in relatie staat tot de bestandsextensie), zoals text/plain, audio/mpeg, image/jpeg, video/mp4, application/pdf, etc.
  2. Vink eerst de selectie uit door 'Selecteer alle' of 'Select All' uit te vinken.
  3. Ga dan mime type per mime type te werk. Alle bestandsformaten die niet in aanmerking komen voor digitale instroom bij meemoo verwijder je ten eerste uit deze spreadsheet, maar verwijder je bovenal ook uit jouw selectie van aan te leveren materiaal!
  4. Vergeet jouw bewerkingen niet op te slaan. Je kan deze spreadsheet best ook eens aftoetsen met jouw meemoo-projectmanager.