Elk meetinstrument is onbetrouwbaar, maar sommige instrumenten zijn onbetrouwbaarder dan andere.
Met de vraag naar de betrouwbaarheid van het meetinstrument staat de vraagstelling centraal of het meetinstrument zuiver is: c.q. levert de meting van een kenmerk steeds dezelfde score op? Het antwoord op deze vraag luidt te allen tijde: nee. Een voorbeeld moge dit verduidelijken. Er zijn verschillende meetinstrumenten om de lengte van een persoon te meten. Volstrekt onbetrouwbare meetinstrumenten zijn de armen, voeten en duimen van mensen. Toch hebben deze lange tijd dienst gedaan en ze werkten prima voor de doeleinden waarvoor de mensen deze meetinstrumenten gebruikten. Toch voldeed dit meetinstrument niet optimaal. Mensen die stof kochten bij een grote marktkoopman kregen meer waar voor hun geld. Dit heeft zelfs tot enige jurisprudentie geleid door de mensen die zich bekocht voelden.
Daarom is men overgegaan tot een standaardeenheid, namelijk de meter. Deze werd gedefinieerd als een willekeurige afstand die te verdelen is in honderd stukjes (de centimeter) of in duizend stukjes (de millimeter) of veelvouden daarvan (de hectometer en de kilometer). Als iedereen nou maar van die willekeurige afspraak gebruik maakte was daarover in ieder geval geen discussie meer mogelijk. Helaas blijken de meetinstrumenten die gebaseerd zijn op de meter ook niet geheel betrouwbaar. Het meetlint kan in de loop der tijd iets zijn uitgerekt, en een metalen liniaal meet door wisselingen in de temperatuur soms iets kleiner en soms iets groter (al was het maar in honderdsten van millimeter).
Niet alleen een verandering in het meetinstrument kan de score beïnvloeden. Het kan ook liggen aan het te meten kenmerk zelf. Zo wordt vaak gedacht dat de lengte van een persoon een constante is. Dat is niet het geval. Als een persoon 's morgenvroeg gemeten wordt dan is hij wat langer dan wanneer dezelfde persoon met hetzelfde meetinstrument 's avonds gemeten wordt. Dit komt doordat de persoon door de verrichte arbeid van die dag vermoeid is geraakt en daardoor letterlijk iets in elkaar zakt. Andere kenmerken zijn heel erg instabiel, zoals motivatie en concentratie.
Een score die het meetinstrument aan het kenmerk van een onderzoekseenheid toekent, kan aldus beschouwd worden als een optelling van een aantal factoren. In woorden kan men stellen dat de gemeten score bepaald wordt door een sommatie van de factoren die bestaan uit de werkelijke score van het kenmerk, de afwijking als gevolg van de stand van dat kenmerk op het moment van meten en de afwijking in de stand van het meetinstrument op het moment van meten (zie formule).
Een meetinstrument is betrouwbaarder als deze scores toekent aan kenmerken waarvan de afwijking in de meting zo min mogelijk aan het meetinstrument is te wijten. Met andere woorden, men streeft als onderzoeker naar een situatie waarin Ameetinstr nul is.
Voor het bepalen van de betrouwbaarheid wordt de veronderstelling gemaakt dat de errorterm ‘e’ gemiddeld nul is en aansluitend dat het een stabiel kenmerk betreft waardoor ook Akenmerk nul is. In de formule blijft nu over dat de gemeten score bepaald wordt door de ware score en de afwijking in het meetinstrument. Omdat in deze formule de ware score niet bekend is, is de afwijking in het meetinstrument ook niet te berekenen. Men kan echter wel stellen dat de ware score steeds dezelfde zal zijn. Dus veranderingen in de gemeten score duiden op een verandering in de afwijking in de meting door het meetinstrument. Met dit als achtergrond kan men twee gemeten scores met elkaar vergelijken. Verandert er niets dan is Ameetinst klein en dus is het meetinstrument in hoge mate betrouwbaar.
De betrouwbaarheid van ieder meetinstrument is niet hetzelfde. Het opmeten van de lengte van mijn tuin bijvoorbeeld kan met behulp van verschillende meetinstrumenten worden gedaan. Bij gebruik van een meetlint van 20 meter, blijken er steeds afwijkingen in te zitten: het lint loopt niet recht, soms ligt het tussen de planten en struiken en soms wordt het lint iets strakker aangetrokken. Dit leid tot steeds verschillende scores rond de 30 meter. Aangezien de lengte van de tuin een stabiel kenmerk is, en de ware score ook niet verandert, moeten de verschillende uitkomsten worden veroorzaakt worden door de onbetrouwbaarheid in het meetinstrument en afwijkingen van andere factoren. Indien er gebruik gemaakt kan worden van een laser, dan is de afwijking in de meting kleiner.
Er zijn vier methoden om de betrouwbaarheid van een meetinstrument vast te stellen. Elke methode heeft een eigen naam: interne consistentie, homogeniteit, a-specificiteit en stabiliteit.