La conservation des données dépendra de la valeur de réutilisation potentielle, s’il faut conserver ou détruire les données, et des ressources requises pour organiser de façon appropriée les données et s’assurer qu’elles demeurent utilisables dans le futur. Dans certains cas, il peut être souhaitable de conserver toutes les versions des données (p. ex. les données brutes, traitées, analysées, définitives), mais dans d’autres cas, il peut être préférable de conserver uniquement les données sélectionnées ou définitives (p. ex. transcriptions au lieu d’entrevues sonores).
Il est recommandé d’élaborer un plan de gestion de données qui précisera, dès le début d’un projet de recherche, les données et les documents afférents qui seront à conserver et à protéger, à l’aide de copie de sauvegarde.
Une bonne règle est celle du 3-2-1 : 3 copies, dont 2 copies de sauvegarde avec 1 copie hors site.
Idéalement, il faudrait conserver toutes les données de recherche jugées de qualité avec les documents afférents, c’est-à-dire : les métadonnées, les documents décrivant la méthodologie de collecte de données et de conception de la base de données, ainsi que les documents décrivant les façons d’utiliser ou de transformer la base de données
Il n’y a pas de règle générale sur la fréquence des mises à jour des copies de sauvegarde des bases de données. Lorsque le projet de recherche progresse et que de nouvelles données sont disponibles, les fichiers conservés doivent être régulièrement mis à jour.
Par la suite, il est recommandé d’utiliser un plan de mise à jour qui peut faire un rappel automatique pour effectuer une révision et déterminer si des modifications à la base de données ou à un des documents afférents seraient nécessaires à faire.
Aucun type de technologie n’est parfait, c’est pourquoi il est recommandé d’utiliser différentes technologies pour copier une même base de données. Voici une liste des technologies courantes :
Même si la plupart offrent des technologies de cryptage, la protection des données n’est pas assurée. En outre, la bande passante est limitée, ce qui peut restreindre l’utilisation de grandes bases de données. Finalement, le service est sujet à changement selon les orientations et la stabilité du fournisseur de service.
Il est important d’utiliser un format de fichier qui permettra une utilisation à long terme aisée de la base de données et ne nécessitant pas de conversion importante des données enregistrées. Il est recommandé d’utiliser des formats en logiciel libre (TXT, CSV, TAB, MP3, FLAC, XML), idéalement avec un encodage Unicode (ex. UTF-8). Si la base de données inclut de nombreuses métadonnées, il est alors suggéré d’utiliser des formats structurés comme SPSS, SAS ou Stata.
Si vous utilisez un logiciel propriétaire, il est important de préciser lequel.