O saneamento é um procedimento utilizado para se analisar a dispersão dos dados da amostra e, por consequência, homogeneizá-la se for necessário; nesse etapa do processo de avaliação, a partir de critérios objetivos previamente estabelecidos, identificam-se os pontos atípicos, ou seja, eventuais elementos estranhos à massa de dados (NBR 14653-2:2011, item 3.48); como efeito do saneamento, teremos uma amostra mais homogênea, ou seja, um coeficiente de variação menor.
O saneamento pode ser feito a partir do critério de Arley: calcula-se o intervalo de valores admissíveis e se exclui o elemento que ultrapassar os limites desse intervalo.
Por fim, analisa-se cada item amostra contra os limites do intervalo, excluindo-se aquele que os extrapolar. Caso mais de um elemento ultrapasse os limites do intervalo, exclui-se aquele que mais se distanciar da média do conjunto, um por vez; após se faz nova análise.
Os limites do intervalo serão calculados pelo número máximo de desvios-padrão admissíveis, observando-se a seguinte fórmula:
O valor rcrítico é calculado com o auxílio das seguintes equações:
Se ri > rcrítico, então o elemento i é um ponto atípico (outlier).
Para amostras cujo número de graus de liberdade for maior do que 60 (sessenta), os valores críticos podem ser consultados nesta página na seção Valores críticos do critério de Arley.
A cada etapa de saneamento, espera-se que sejam reduzidos a dispersão de dados e, por consequência, o coeficiente de variação . O exemplo abaixo é continuidade da homogeneização apresentada na página: Homogeneização por fatores
Na primeira etapa do saneamento, temos a seguinte situação:
Nessa etapa, a dispersão de dados pode ser demonstrada com o seguinte gráfico:
O sétimo item extrapolou o limite superior, sendo portanto um ponto atípico que deverá ser excluído do conjunto de dados.
Passamos, então, para segunda etapa do saneamento, onde temos a seguinte situação:
A dispersão dos dados diminuiu e isso pode ser comprovado objetivamente pela análise do coeficiente de variação ( cv ), que foi reduzido. Visualmente, esse é o segundo gráfico de dispersão dos elementos da amostra:
Todos os elementos estão contidos dentro dos limites do intervalo; portanto, encerra-se o saneamento.
A planilha desenvolvida para esse procedimento encontra-se disponível abaixo.
ARLEY, Niels; BUCH, Kai Rander. Introducción a la teoría de la probabilidad y de la estadística. Tradução: Fernando Bombal Gordón. Madrid: Editorial Alhambra S.A., 1968.