La base de sondage doit être représentative de la population et c’est une question qui sort du cadre de la théorie statistique exigeant le jugement d’experts dans le domaine particulier étudié. Toutes les bases de sondage ci-dessus omettent certaines personnes qui voteront à la prochaine élection et contiennent certaines personnes qui ne voteront pas ; certaines bases de sondage contiendront plusieurs enregistrements pour la même personne. Les personnes ne figurant pas dans la base de sondage n’ont aucune chance d’être échantillonnées.
Parce qu’une base de sondage en grappes contient moins d’informations sur la population, elle peut imposer des contraintes sur le plan d’échantillonnage, nécessitant éventuellement l’utilisation de méthodes d’échantillonnage moins efficaces et/ou rendant plus difficile l’interprétation des données résultantes.
La théorie statistique nous parle des incertitudes liées à l’extrapolation d’un échantillon à la base de sondage. Il faut s’attendre à ce que les bases de sondage, contiennent toujours quelques erreurs. Dans certains cas, cela peut conduire à un biais d’échantillonnage. Ce biais doit être minimisé et identifié, bien qu’il soit presque impossible de l’éviter complètement dans un monde réel. Il ne faut pas non plus supposer que les sources qui prétendent être impartiales et représentatives le sont.
Lors de la définition de la base de sondage, des questions pratiques, économiques, éthiques et techniques doivent être abordées. La nécessité d’obtenir des résultats en temps opportun peut empêcher d’étendre le cadre loin dans le futur. Les difficultés peuvent être extrêmes lorsque la population et le cadre sont disjoints. Il s’agit d’un problème particulier dans le domaine de la prévision, où des déductions sur l’avenir sont faites à partir de données historiques. En fait, en 1703, lorsque Jacob Bernoulli a proposé à Gottfried Leibniz la possibilité d’utiliser des données historiques de mortalité pour prédire la probabilité de décès précoce d’un homme vivant, Gottfried Leibniz a reconnu le problème en répondant:
La nature a établi des modèles provenant du retour des événements, mais seulement pour la plupart. De nouvelles maladies inondent la race humaine, de sorte que, quel que soit le nombre d’expériences que vous avez faites sur des cadavres, vous n’avez pas ainsi imposé une limite à la nature des événements, de sorte qu’à l’avenir ils ne pourraient pas varier.
– Gottfried Leibniz
Leslie Kish a posé quatre problèmes fondamentaux des bases de sondage :
- Éléments manquants : Certains membres de la population ne sont pas inclus dans la base de sondage.
- Éléments étrangers : Les non-membres de la population sont inclus dans la base de sondage.
- Des entrées en double : Un membre de la population est enquêté plus d’une fois.
- Groupes ou grappes : La base de sondage répertorie les grappes au lieu des individus.
Des problèmes comme ceux énumérés peuvent être identifiés par l’utilisation de tests préalables à l’enquête et d’études pilotes.