Analyse des données en recherche

Analyse des données en recherche

Le chercheur, quelle que soit sa discipline, est confronté au problème de savoir quoi faire des données une fois qu’elles ont été collectées. La masse de données peut être si importante que le chercheur ne peut pas les mettre toutes sous la forme dans laquelle elles sont collectées dans son rapport.

Une grande partie des données doivent être réduites à une forme adaptée à l'analyse afin qu'un ensemble concis de conclusions ou de résultats puisse être présenté à un public scientifique.

Pour tenter d'analyser les données, nous devons d'abord décider

  • Si la totalisation des données sera effectuée à la main ou par ordinateur
  • Comment les informations peuvent-elles être converties sous une forme qui permettra de les traiter efficacement et
  • Quels outils ou méthodes statistiques seront utilisés

Ces derniers temps, les ordinateurs sont devenus un outil essentiel pour la tabulation et l’analyse des données d’enquête.

Même dans les études à petite échelle qui emploient des procédures statistiques relativement simples, la tabulation informatique est encouragée pour un traitement facile et flexible des données.

Les micro-ordinateurs et les ordinateurs portables peuvent produire des tableaux de n'importe quelle dimension et effectuer des opérations statistiques beaucoup plus facilement et généralement avec beaucoup moins d'erreurs que ce qui est possible manuellement.

En supposant que la base de données est volumineuse et que le traitement des données sera effectué par ordinateur, nous aborderons les problèmes majeurs suivants dans la tâche d'analyse des données :

  • Préparation des données qui comprend :
    • édition,
    • codage, et
    • la saisie des données.
  • Explorer, afficher et examiner des données qui impliquent de décomposer, d'examiner et de réorganiser les données pour rechercher des descriptions, des modèles et des relations significatifs.

Édition

La première étape habituelle de l’analyse consiste à modifier les données brutes. La vérification détecte les erreurs et les omissions, les corrige dans la mesure du possible et certifie que les normes minimales de qualité des données sont respectées.

La responsabilité de l'éditeur est de garantir que les données sont ;

  1. précis,
  2. cohérent avec l'intention de la question ou d'autres informations,
  3. uniformément inscrit,
  4. complet, et
  5. disposés de manière à simplifier le codage et la tabulation.

L'édition des données peut être réalisée de deux manières : édition sur le terrain et édition interne, également appelée édition centrale.

Modification des champs est l'édition préliminaire des données par un superviseur de terrain le même jour que l'entretien. Son objectif est d'identifier les omissions techniques, de vérifier la lisibilité et de clarifier les réponses logiquement ou conceptuellement incohérentes.

Lorsque des lacunes sont constatées lors des entretiens, il convient de rappeler plutôt que de deviner ce que le répondant « aurait probablement dit ».

Une deuxième tâche importante du superviseur consiste à réinterroger quelques répondants, au moins sur certaines questions présélectionnées, à titre de contrôle de validité. Dans central ou édition en interne, tous les questionnaires font l'objet d'une révision minutieuse. Il s'agit d'un travail rigoureux effectué par le personnel du bureau central.

Codage

Le codage est le processus d'attribution de numéros ou d'autres symboles aux réponses afin que les réponses puissent être regroupées en un nombre limité de classes ou de catégories. Le codage aide le chercheur à réduire plusieurs milliers de réponses à quelques catégories contenant les informations critiques destinées à la question posée.

Le codage numérique peut être incorporé lors de la préparation du questionnaire lui-même, ce que nous appelons pré-codage ou après que le questionnaire ait été administré. Les questions répondues, que nous appelons post-codage.

Le précodage se limite nécessairement principalement aux questions dont les catégories de réponses sont connues à l'avance.

Il s'agit principalement de questions fermées (comme le sexe, la religion) ou de questions dont la réponse est déjà un nombre et ne nécessite donc pas de conversion (comme l'âge, le nombre d'enfants).

Le précodage est particulièrement utile pour la saisie des données, car il rend inutile l’étape intermédiaire consistant à remplir une feuille de codage. Les données sont accessibles directement depuis le questionnaire.

Un répondant, un enquêteur, un superviseur de terrain ou un chercheur (selon la méthode de collecte de données) peut attribuer des réponses numériques appropriées sur l'instrument en le cochant ou en l'encerclant à l'emplacement de codage approprié.

Le principal avantage du post-codage par rapport au pré-codage est que le post-codage permet au codeur de vérifier quelles réponses sont données par le répondant avant de commencer le codage.

Cela peut conduire à une grande simplification. Le post-codage permet également au chercheur de coder plusieurs réponses à une seule variable en écrivant un numéro de code différent pour chaque combinaison de réponses données.

Le codage, qu'il soit pré ou post, est une procédure en deux parties impliquant :

  1. choix d'un numéro différent pour chaque catégorie de réponse possible ; et
  2. choix de la ou des colonnes appropriées sur la carte informatique qui doivent contenir les numéros de code de ces variables.

Le codage des données sacrifie certains détails des données, mais cela est nécessaire pour une analyse efficace. Au lieu de demander le mot musulman ou chrétien à une question demandant l'identification de sa religion, nous pourrions utiliser le code « M » ou « C ».

Normalement, cette variable serait codée 1 pour les musulmans et 2 pour les chrétiens. Les codes de type « QI » ou « VI » sont appelés codes alphanumériques. Lorsque des chiffres sont utilisés exclusivement (par exemple 1, 2, etc.), les codes sont numériques.

Codebook et sa construction

Le livre de codes est un type de livret compilé par le personnel de l'enquête qui indique la signification de chaque code de chaque question d'un questionnaire.

Par exemple, le livre de codes pourrait révéler que pour la question numéro 10, l’homme est codé 1 et la femme 2.

Le livre de codes est utilisé par le chercheur comme guide pour rendre la saisie des données moins sujette aux erreurs et plus efficace. C'est aussi le

la source définitive pour localiser les positions des variables dans le fichier de données pendant l'analyse.

Si un questionnaire peut être entièrement précodé, avec un code de bord indiquant l'emplacement de la variable dans le fichier de données, alors un livre de codes distinct n'est pas nécessaire et un questionnaire vierge peut être utilisé comme livre de codes.

Cependant, notamment pour le post-codage et pour les questions ouvertes qui reçoivent de nombreuses réponses, il n'y a pas suffisamment de place sur le questionnaire pour identifier tous les codes.

Ce qui suit est un exemple de partie d'un livre de codes.

Exemple de livre de codes

Question n°Emplacement de la colonneNombre variableDescription des variablesNom de variable
1-3V101Numéro du répondant

Code personnel 999 = Manquant

IDENTIFIANT
4V102Lieu de résidence: l=Rural 2=Urbain 9=ManquantRES
25V103Sexe du répondant : l=Homme 2=Femme 9=ManquantSEXE
36-7V104Âge:

Code personnel
99=Manquant

ÂGE
48V105État civil: l=Célibataire 2=Marié 3=Veuf 4=Divorcé 5=Séparé 9=ManquantMATRIMONIAL

Codage des non-réponses

La non-réponse (ou les cas manquants) résulte de l’absence de réponse à une question, et ces phénomènes sont inévitables dans tout questionnaire.

Des précautions doivent être prises pour éviter les non-réponses, mais si elles se produisent, le chercheur doit concevoir un système de codage, de préférence un système standard, afin que le même code puisse être utilisé pour la non-réponse, quelle que soit la question particulière.

Un code numérique doit être attribué à une non-réponse.

Les nombres utilisés le plus souvent pour la non-réponse sont 0 et 9. Pour les variables nécessitant plus d'une colonne, le nombre est simplement répété pour chaque colonne (par exemple, 99, 999).

Tout code numérique est satisfaisant pour la non-réponse tant qu'il ne s'agit pas d'un nombre susceptible d'apparaître comme une réponse légitime.

Par exemple, si vous demandiez au répondant d'indiquer le nombre d'enfants dans sa famille, vous ne devriez pas utiliser 9 pour la non-réponse, car vous ne pourriez pas distinguer une non-réponse dans une famille de neuf enfants.

En plus des éléments de non-réponse, il peut également être nécessaire d'attribuer un code pour les réponses abrégées « Ne sait pas » et pour les réponses « Sans objet (NA) », lorsque la question ne s'applique pas à un répondant en particulier. Les réponses « Ne sait pas » sont souvent codées comme « O » ou « OO ».

La saisie des données

Une fois le codage terminé, l'étape suivante consiste à saisir les informations codées dans un fichier qui peut être stocké sur un disque, disquette ou bande.

Si les questionnaires sont pré-codés, y compris un codage en marge pour indiquer les colonnes appropriées dans le fichier de données pour chaque variable, les codes peuvent être extraits directement des questionnaires.

Ceci est conseillé dans la mesure du possible, car cela permet d'économiser du travail administratif, qui non seulement coûte du temps et de l'argent, mais crée également un risque d'erreur supplémentaire.

Cependant, si le questionnaire a été post-codé et si les codes sont compliqués et nécessitent un long manuel de codage, il sera difficile, voire impossible, de travailler directement à partir des questionnaires. Dans un tel cas, une procédure standard consiste à diviser la tâche de construction du fichier de données en deux opérations distinctes ;

  1. lire les questionnaires et le livre de codes et transférer les codes numériques corrects pour chaque question sur une feuille de transcription ou de transfert, et
  2. saisir les données dans l'ordinateur via un terminal informatique.

Jusqu'à tout récemment, l'utilisation de cartes perforées était le moyen le plus courant de saisir des données sur des ordinateurs.

Ce système a pratiquement disparu. Ces derniers temps, de nombreux ordinateurs permettent la saisie de données depuis formulaires à balayage optique. Lors des examens, les candidats assombrissent de petits cercles, des ellipses ou des ensembles de lignes parallèles pour choisir une réponse au test.

Les scanners optiques traitent les questionnaires marqués et stockent les réponses dans un fichier de données brutes dans l'ordinateur. Certains questionnaires sont actuellement développés, qui comportent des formulaires à numérisation optique comme feuilles de réponses, ou le questionnaire lui-même peut être superposé à un formulaire à numérisation optique.

Si tel est le cas, le chercheur n’aura pas besoin de transférer les données vers les formulaires.

Cette technologie a été adoptée par les concepteurs de questionnaires pour la collecte de données la plus courante. Cela réduit le nombre de fois où les données sont traitées, réduisant ainsi le nombre d'erreurs introduites.

En plus de la procédure ci-dessus, la saisie au clavier reste un pilier pour les chercheurs qui ont besoin de créer immédiatement un fichier de données et de le stocker dans un espace minimal sur des supports variés.

Pour cette procédure, il faut prendre ses données codées, s'asseoir devant un terminal informatique, et saisir ses données sur le clavier du terminal, au cas par cas. Une fois les données saisies, nous pouvons obtenir une liste de l'ordinateur de ce que vous avez saisi et vérifier la liste avec les données codées d'origine.

Réponse du clavier téléphonique est une autre capacité rendue possible par les ordinateurs reliés aux lignes téléphoniques.

À l'aide du clavier du téléphone (touchez un), le répondant répond aux questions en appuyant sur le numéro approprié.

L'ordinateur capture les données en « écoutant », en décodant le signal électrique de la tonalité et en stockant la réponse numérique ou alphabétique dans un fichier de données.

Aujourd'hui, Lecteurs de codes à barres sont largement utilisés en entreprise. Cette technologie peut être utilisée pour simplifier le rôle de l'intervieweur en tant qu'enregistreur de données.

Au lieu d'écrire ou de taper à la main des informations sur les répondants et leurs réponses, l'enquêteur peut passer un code-barres sur les codes appropriés. Les données sont enregistrées dans une petite unité légère pour être traduites ultérieurement.

Transformation de variables

Il est souvent nécessaire de transformer ou de modifier les données pour des analyses ultérieures. Il s'agit du processus de modification des données de leur forme originale vers un format qui prend mieux en charge l'analyse des données pour atteindre les objectifs de recherche.

De nombreux chercheurs pensent que le biais de réponse sera moindre si les enquêteurs demandent aux répondants leur année de naissance plutôt que leur âge, même si l'objectif de l'analyse des données est d'étudier l'âge des répondants en années.

Les données brutes codées comme année de naissance peuvent être facilement transformées en âge actuel en soustrayant l'année de naissance de l'année en cours.

Étant donné que ce calcul peut être effectué plus facilement et avec plus de précision à l'aide d'un ordinateur qu'à la main, il doit être effectué au cours de l'analyse. l'analyse des données phase plutôt que pendant le codage.

La réduction ou la combinaison de catégories adjacentes d'une variable est une transformation de données courante qui réduit le nombre de catégories, et toutes ces transformations peuvent être effectuées dans l'ordinateur à n'importe quelle étape de l'analyse. Par exemple, les années d'âge (telles que 0, 1, ..) peuvent être réduites et transformées en catégories d'âge. 0-4, 5-9, 10-14, etc.

L’un des inconvénients de ce processus de regroupement est que l’identité individuelle des observations est définitivement perdue.

Pour éviter cela, il est toutefois conseillé de créer une nouvelle variable à partir de l'ancienne en conservant la variable d'origine.

Dans tous les cas, la variable d'origine doit être conservée et la variable transformée doit recevoir un nouveau nom afin que vous puissiez effectuer d'autres transformations chaque fois que nécessaire.

Calcul d'une nouvelle variable

Parfois, il est nécessaire de calculer une nouvelle variable en combinant deux ou plusieurs variables à des fins d'analyse.

Supposons que pour un individu, vous ayez enregistré le nombre de filles (x1) et le nombre de fils (x2) il ou elle l'a fait.

Vous souhaitez combiner ces deux variables en une seule variable (x), qui indique le nombre total d'enfants de l'individu, tel que x=x1+x2.

Lors du calcul d'une nouvelle variable, vous pouvez effectuer une addition, une soustraction, une multiplication et une division avec une ou plusieurs variables originales.

Pour calculer votre marge bénéficiaire P, vous pouvez soustraire la valeur d'achat (Y) de la valeur des ventes (X). P=XY. P est donc votre variable calculée. Toutes ces opérations peuvent facilement être effectuées par un programme informatique à n’importe quelle étape de l’analyse de vos données.

Recodage des données

Le recodage est une procédure de manipulation courante que vous devez adopter lors de la configuration de votre variable pour l'analyse.

Le but de l'enregistrement est généralement de réduire le nombre de catégories dans une variable à un nombre plus gérable pour l'analyse numérique.

Supposons, par exemple, que vous ayez codé la religion comme suit :

Musulman=1, Hindou=2, Chrétien=3, Bouddhiste=4, Autres=5

Supposons qu'une analyse de fréquence montre que les chrétiens, les bouddhistes et la catégorie « autres » ne constituent ensemble qu'une petite proportion de l'ensemble. Dans ce cas, vous êtes convaincu qu’une analyse séparée de vos données par ces catégories sous-représentées n’a peut-être pas de sens.

Dans ce cas, vous serez tenté de combiner ces trois catégories et d'attribuer un nouveau code « 3 ».

Quel est le principal défi auquel sont confrontés les chercheurs après la collecte de données ?

Après avoir collecté des données, les chercheurs sont confrontés au défi de traiter et d'analyser la grande quantité de données pour les présenter de manière concise et significative, adaptées à un rapport scientifique. public.

Pourquoi les ordinateurs sont-ils considérés comme des outils essentiels pour compiler et analyser les données d’enquête ?

Les ordinateurs sont essentiels pour compiler et analyser les données d’enquête car ils peuvent produire des tableaux de n’importe quelle dimension, effectuer des opérations statistiques plus facilement et généralement avec beaucoup moins d’erreurs que les méthodes manuelles, ce qui rend le traitement des données efficace et flexible.

Quel est le but de l’édition de données brutes dans la recherche ?

La modification des données brutes détecte les erreurs et les omissions, les corrige autant que possible et garantit que les données répondent aux normes de qualité minimales. Il garantit que les données sont exactes, cohérentes, saisies uniformément et organisées de manière à simplifier le codage et la tabulation ultérieurs.

Qu’est-ce que le codage dans le contexte de l’analyse des données et pourquoi est-il nécessaire ?

Le codage est le processus d'attribution de numéros ou d'autres symboles aux réponses, permettant de regrouper les réponses dans un nombre limité de classes ou de catégories. Cela permet de réduire de nombreuses réponses à quelques catégories contenant les informations critiques destinées à la question posée.

Quelle est la différence entre le pré-codage et le post-codage ?

Le précodage attribue des codes numériques aux réponses lors de la préparation du questionnaire, principalement pour les questions dont les catégories de réponses sont connues. Le post-codage attribue des codes une fois le questionnaire administré, ce qui permet plus de flexibilité dans le codage de réponses multiples ou inattendues.

Comment les non-réponses ou les cas manquants sont-ils traités dans l’analyse des données ?

Les non-réponses sont inévitables dans tout questionnaire. On leur attribue un code numérique, souvent 0 ou 9, pour les distinguer des réponses légitimes. On veille à ce que le code de non-réponse ne puisse pas être confondu avec une réponse valide.

Qu’est-ce que la transformation variable dans l’analyse des données ?

La transformation variable est le processus de modification des données de leur forme originale vers un format qui prend mieux en charge l'analyse des données pour atteindre les objectifs de recherche. Cela peut impliquer des opérations telles que l'addition, la soustraction, la multiplication ou la division sur une ou plusieurs variables originales.