O saneamento é um procedimento utilizado para se analisar a dispersão dos dados da amostra e, por consequência, homogeneizá-la se for necessário; nesse etapa do processo de avaliação, a partir de critérios objetivos previamente estabelecidos, identificam-se os pontos atípicos, ou seja, eventuais elementos estranhos à massa de dados (NBR 14653-2:2011, item 3.48); como efeito do saneamento, teremos uma amostra mais homogênea, ou seja, um coeficiente de variação menor.

O saneamento pode ser feito a partir do critério de Arley: calcula-se o intervalo de valores admissíveis e se exclui o elemento que ultrapassar os limites desse intervalo.

Por fim, analisa-se cada item amostra contra os limites do intervalo, excluindo-se aquele que os extrapolar. Caso mais de um elemento ultrapasse os limites do intervalo, exclui-se aquele que mais se distanciar da média do conjunto, um por vez; após se faz nova análise. 

Os limites do intervalo serão calculados pelo número máximo de desvios-padrão admissíveis, observando-se a seguinte fórmula:  \qquad \qquad r_i = \left | \dfrac{x_i - \overline{x}}{s} \right |

 \begin{tabular}{llcl} Onde \colon &  & & \\ & r_i & = & módulo do valor \textsl{r} de cada item da amostra \\ & x_i & = & item da amostra \\ & \overline{x} & = & média da amostra \\ & s & = & desvio-padrão da amostra \\ & & & \\ \end{tabular}

 

O valor rcrítico é calculado com o auxílio das seguintes equações:

 t' = \dfrac{\sqrt{n - 2}\ r_1}{\sqrt{n -1 -r_1^2}} = \dfrac{v_1}{\sqrt{\dfrac{1}{n-2} \sum_{i=2}^n v_i^2}} \\ \vspace{0.5cm} \\ Quando\ r_1\ cresce\ de\ - \sqrt{n-1}\ a\ \sqrt{n-1},\ t'\ cresce\ de\ -\infty\ a\ \infty \\ \vspace{0.5cm} \\ P(\textbf{r}_1 \leqq r_{1}) = P \left (  t' \leqq \dfrac{\sqrt{n-1}\ r_1}{\sqrt{n-1-r_{1}^2}}   \right ) \vspace{0.5cm} \\ (Arley;\ Buch,\ 1968,\ p.\ 127) \\

 

Se ri > rcrítico, então o elemento i é um ponto atípico (outlier).

 

 \begin{tabular}{W{r}{1cm}W{c}{4cm}W{c}{4cm}W{c}{4cm}W{c}{4cm}}\multicolumn{5}{c}{\underline{\textbf{VALORES CRÍTICOS DO CRITÉRIO DE ARLEY}}}~ \\ ~ & ~ & ~ & ~ & ~ \\ & & & & \\~ & \multicolumn{4}{c}{\textbf{Níveis de significância}}~ \\ & & & & \\\hline & & & & \\\multicolumn{1}{c}{\textbf{n}} & \multicolumn{1}{c}{\textbf{Até 5}} & \multicolumn{1}{c}{\textbf{De 6 a 10}} & \multicolumn{1}{c}{\textbf{De 11 a 50}} & \multicolumn{1}{c}{\textbf{Mais de 50}} \\ \multicolumn{1}{c}{\textbf{ \alpha }} & \multicolumn{1}{c}{\textbf{10\%}} & \multicolumn{1}{c}{\textbf{5\%}} & \multicolumn{1}{c}{\textbf{1\%}} & \multicolumn{1}{c}{\textbf{0,1\%}} \\ ~ & ~ & ~ & ~ & ~ \\ \hline & & & & \\ \end{tabular}

 

 \text{O tamanho da amostra determina o nível de significância  a ser observado}.

 

 \begin{tabular}{W{r}{1cm}W{c}{4cm}W{c}{4cm}W{c}{4cm}W{c}{4cm}} ~ & ~ & ~ & ~ & ~ \\ ~ & ~ & ~ & ~ & ~ \\~ & \multicolumn{4}{c}{Valores calculados de r_{crítico}} ~ \\ & & & & \\ \hline\multicolumn{1}{c}{\textsl{v}} & \multicolumn{4}{c}{ 1 - \alpha\ (nível\ de\ significância)} \\ \hline\multicolumn{1}{c}{\textsl{(n-2)}}~ & \multicolumn{1}{c}{\textbf{10\%}} & \multicolumn{1}{c}{\textbf{5\%}} & \multicolumn{1}{c}{\textbf{1\%}} & \multicolumn{1}{c}{\textbf{0,1\%}} \\ \hline1 & 1,396802246667 & 1,409854013930 & 1,414039094356 & 1,414211817657 \\ 2 & 1,558845726812 & 1,645448267190 & 1,714730299493 & 1,730318756761 \\ 3 & 1,610767273040 & 1,756678896320 & 1,917470007174 & 1,982277452092 \\ 4 & 1,630762756310 & 1,814348579883 & 2,050920874940 & 2,178081788276 \\ 5 & 1,639785107068 & 1,848120989322 & 2,142143397362 & 2,329179181813 \\ 6 & 1,644305985101 & 1,869843467308 & 2,207460449799 & 2,447066496204 \\ 7 & 1,646726101493 & 1,884817464819 & 2,256183156132 & 2,540662816502 \\ 8 & 1,648070495805 & 1,895690594160 & 2,293777489986 & 2,616345470418 \\ 9 & 1,648825374541 & 1,903908644774 & 2,323598419729 & 2,678597827685 \\ 10 & 1,649240581246 & 1,910319451657 & 2,347797401525 & 2,730593224702 \\ 11 & 1,649452740623 & 1,915449559834 & 2,367809177077 & 2,774612442483 \\ 12 & 1,649540328120 & 1,919641666992 & 2,384623653463 & 2,812324317393 \\ 13 & 1,649550224167 & 1,923127650602 & 2,398944210506 & 2,844972070836 \\ 14 & 1,649511331471 & 1,926069612253 & 2,411283530841 & 2,873497810707 \\ 15 & 1,649441924042 & 1,928584067601 & 2,422023678615 & 2,898626856449 \\ 16 & 1,649353787364 & 1,930756792430 & 2,431454959729 & 2,920925788055 \\ 17 & 1,649254637503 & 1,932652257974 & 2,439801765486 & 2,940843086057 \\ 18 & 1,649149579501 & 1,934319812556 & 2,447240190043 & 2,958738057148 \\ 19 & 1,649042010684 & 1,935797840996 & 2,453910308391 & 2,974901748554 \\ 20 & 1,648934193404 & 1,937116630121 & 2,459924904329 & 2,989572295195 \\ 21 & 1,648827625688 & 1,938300384715 & 2,465375786536 & 3,002946337977 \\ 22 & 1,648723285399 & 1,939368672719 & 2,470338433559 & 3,015187628642 \\ 23 & 1,648621793593 & 1,940337478925 & 2,474875460242 & 3,026433592053 \\ 24 & 1,648523525285 & 1,941219985086 & 2,479039239382 & 3,036800386359 \\ 25 & 1,648428685433 & 1,942027155581 & 2,482873908829 & 3,046386845139 \\ 26 & 1,648337361584 & 1,942768182705 & 2,486416925424 & 3,055277577983 \\ 27 & 1,648249560627 & 1,943450829214 & 2,489700280551 & 3,063545430949 \\ 28 & 1,648165234646 & 1,944081694657 & 2,492751460109 & 3,071253455285 \\ 29 & 1,648084299167 & 1,944666424521 & 2,495594209362 & 3,078456494949 \\ 30 & 1,648006646091 & 1,945209875959 & 2,498249147345 & 3,085202476039 \\ 31 & 1,647932152864 & 1,945716250251 & 2,500734264200 & 3,091533461248 \\ 32 & 1,647860688966 & 1,946189199507 & 2,503065326629 & 3,097486517678 \\ 33 & 1,647792120492 & 1,946631913257 & 2,505256210659 & 3,103094435343 \\ 34 & 1,647726313353 & 1,947047189206 & 2,507319176445 & 3,108386325426 \\ 35 & 1,647663135479 & 1,947437491420 & 2,509265096559 & 3,113388121070 \\ 36 & 1,647602458318 & 1,947804998478 & 2,511103646681 & 3,118122998698 \\ 37 & 1,647544157802 & 1,948151643530 & 2,512843465713 & 3,122611734171 \\ 38 & 1,647488114954 & 1,948479147822 & 2,514492290892 & 3,126873005218 \\ 39 & 1,647434216218 & 1,948789048874 & 2,516057072321 & 3,130923649344 \\ 40 & 1,647382353594 & 1,949082724295 & 2,517544070502 & 3,134778884673 \\ 41 & 1,647332424649 & 1,949361411999 & 2,518958939716 & 3,138452499780 \\ 42 & 1,647284332420 & 1,949626227424 & 2,520306799613 & 3,141957017466 \\ 43 & 1,647237985264 & 1,949878178286 & 2,521592296891 & 3,145303836562 \\ 44 & 1,647193296656 & 1,950118177241 & 2,522819658639 & 3,148503355098 \\ 45 & 1,647150184972 & 1,950347052817 & 2,523992738619 & 3,151565077658 \\ 46 & 1,647108573242 & 1,950565558865 & 2,525115057569 & 3,154497709211 \\ 47 & 1,647068388913 & 1,950774382772 & 2,526189838386 & 3,157309237380 \\ 48 & 1,647029563604 & 1,950974152614 & 2,527220036955 & 3,160007004763 \\ 49 & 1,646992032862 & 1,951165443403 & 2,528208369219 & 3,162597772696 \\ 50 & 1,646955735935 & 1,951348782569 & 2,529157335030 & 3,165087777597 \\ 51 & 1,646920615543 & 1,951524654771 & 2,530069239209 & 3,167482780890 \\ 52 & 1,646886617670 & 1,951693506138 & 2,530946210192 & 3,169788113346 \\ 53 & 1,646853691357 & 1,951855748017 & 2,531790216577 & 3,172008714548 \\ 54 & 1,646821788511 & 1,952011760296 & 2,532603081846 & 3,174149168097 \\ 55 & 1,646790863729 & 1,952161894344 & 2,533386497486 & 3,176213733093 \\ 56 & 1,646760874123 & 1,952306475641 & 2,534142034718 & 3,178206372326 \\ 57 & 1,646731779164 & 1,952445806108 & 2,534871154990 & 3,180130777589 \\ 58 & 1,646703540536 & 1,952580166204 & 2,535575219400 & 3,181990392437 \\ 59 & 1,646676121989 & 1,952709816795 & 2,536255497156 & 3,183788432691 \\ 60 & 1,646649489220 & 1,952835000830 & 2,536913173200 & 3,185527904950 \\ \hline\end{tabular}

 

Para amostras cujo número de graus de liberdade for maior do que 60 (sessenta), os valores críticos podem ser consultados nesta página na seção Valores críticos do critério de Arley.

A cada etapa de saneamento, espera-se que sejam reduzidos a dispersão de dados e, por consequência, o coeficiente de variação  ( cv ) . O exemplo abaixo é continuidade da homogeneização apresentada na página: Homogeneização por fatores

Na primeira etapa do saneamento, temos a seguinte situação:

 

 \begin{tabular}{crrrr}\multicolumn{1}{c}{\textbf{Item da amostra}} & \multicolumn{1}{c}{\textbf{Valor unitário}} & \multicolumn{1}{c}{\textbf{Resultado da análise}} & \multicolumn{1}{c}{\textbf{Extrapolação dos limites}} & \multicolumn{1}{c}{\textbf{Item a ser excluído}} \\ & \multicolumn{1}{c}{\textbf{homogeneizado}} & & \multicolumn{1}{c}{\textbf{do intervalo}} & \\ 1 & 175,24 & Aceito & & \\ 2 & 175,24 & Aceito & & \\ 3 & 175,24 & Aceito & & \\ 4 & 176,71 & Aceito & & \\ 5 & 172,09 & Aceito & & \\ 6 & 175,24 & Aceito & & \\ 7 & 169,46 & Rejeitado & 169,46 & Excluir o item \\ 8 & 173,14 & Aceito & & \\ 9 & 174,03 & Aceito & & \\ 10 & 171,66 & Aceito & & \\ 11 & 175,72 & Aceito & & \\ 12 & 176,24 & Aceito & & \\ 13 & 172,09 & Aceito & & \\ 14 & 171,66 & Aceito & & \\ 15 & 176,24 & Aceito & & \\ 16 & 174,03 & Aceito & & \\ 17 & 172,09 & Aceito & & \\ 18 & 176,24 & Aceito & & \\ 19 & 173,14 & Aceito & & \\ 20 & 175,05 & Aceito & & \\ 21 & 175,72 & Aceito & & \\ 22 & 176,71 & Aceito & & \\ 23 & 172,74 & Aceito & & \\ 24 & 171,66 & Aceito & & \\ 25 & 174,79 & Aceito & & \\ 26 & 173,57 & Aceito & & \\ 27 & 176,24 & Aceito & & \\ 28 & 174,53 & Aceito & & \\ 29 & 173,95 & Aceito & & \\ 30 & 171,66 & Aceito & & \\ 31 & 171,66 & Aceito & & \\ 32 & 173,95 & Aceito & & \\ 33 & 174,79 & Aceito & & \\ 34 & 173,95 & Aceito & & \\ 35 & 174,03 & Aceito & & \\ 36 & 176,24 & Aceito & & \\ 37 & 173,14 & Aceito & & \\ 38 & 176,24 & Aceito & & \\ 39 & 174,03 & Aceito & & \\ 40 & 174,53 & Aceito & & \\ 41 & 174,53 & Aceito & & \\ 42 & 174,53 & Aceito & & \\ & & & & \\& & & & \\ & \multicolumn{3}{c}{\textbf{Limites do intervalo}}  & \\& & & & \\& \multicolumn{1}{l}{Média  } & & 174,14 & \\ & \multicolumn{1}{l}{Desvio-padrão ( s )} & & 1,73 & \\ & \multicolumn{1}{l}{Coeficiente de variação ( c_v )} & & 0,99\% & \\ & \multicolumn{1}{l}{Número de elementos} & & 42 & \\ & \multicolumn{1}{l}{Coeficiente tabelado ( r )} & & 2,517544 & \\ & & & & \\& \multicolumn{3}{c}{\textbf{Limites inferior e superior}} & \\&  & & & \\&  \multicolumn{1}{l}{l_{inf} = média - ( s \cdot r )} & & 169,79 & \\ & \multicolumn{1}{l}{l_{sup} = média + ( s \cdot r)} & & 178,49 & \\ \end{tabular}

 

Nessa etapa, a dispersão de dados pode ser demonstrada com o seguinte gráfico:

 

O sétimo item extrapolou o limite superior, sendo portanto um ponto atípico que deverá ser excluído do conjunto de dados.

Passamos, então, para segunda etapa do saneamento, onde temos a seguinte situação:

 

 \begin{tabular}{crrrr}\multicolumn{1}{c}{\textbf{Item da amostra}} & \multicolumn{1}{c}{\textbf{Valor unitário}} & \multicolumn{1}{c}{\textbf{Resultado da análise}} & \multicolumn{1}{c}{\textbf{Extrapolação dos limites}} & \multicolumn{1}{c}{\textbf{Item a ser excluído}} \\ & \multicolumn{1}{c}{\textbf{homogeneizado}} & & \multicolumn{1}{c}{\textbf{do intervalo}} & \\ 1 & 175,24 & Aceito & & \\ 2 & 175,24 & Aceito & & \\ 3 & 175,24 & Aceito & & \\ 4 & 176,71 & Aceito & & \\ 5 & 172,09 & Aceito & & \\ 6 & 175,24 & Aceito & & \\  &  & & &   \\ 8 & 173,14 & Aceito & & \\ 9 & 174,03 & Aceito & & \\ 10 & 171,66 & Aceito & & \\ 11 & 175,72 & Aceito & & \\ 12 & 176,24 & Aceito & & \\ 13 & 172,09 & Aceito & & \\ 14 & 171,66 & Aceito & & \\ 15 & 176,24 & Aceito & & \\ 16 & 174,03 & Aceito & & \\ 17 & 172,09 & Aceito & & \\ 18 & 176,24 & Aceito & & \\ 19 & 173,14 & Aceito & & \\ 20 & 175,05 & Aceito & & \\ 21 & 175,72 & Aceito & & \\ 22 & 176,71 & Aceito & & \\ 23 & 172,74 & Aceito & & \\ 24 & 171,66 & Aceito & & \\ 25 & 174,79 & Aceito & & \\ 26 & 173,57 & Aceito & & \\ 27 & 176,24 & Aceito & & \\ 28 & 174,53 & Aceito & & \\ 29 & 173,95 & Aceito & & \\ 30 & 171,66 & Aceito & & \\ 31 & 171,66 & Aceito & & \\ 32 & 173,95 & Aceito & & \\ 33 & 174,79 & Aceito & & \\ 34 & 173,95 & Aceito & & \\ 35 & 174,03 & Aceito & & \\ 36 & 176,24 & Aceito & & \\ 37 & 173,14 & Aceito & & \\ 38 & 176,24 & Aceito & & \\ 39 & 174,03 & Aceito & & \\ 40 & 174,53 & Aceito & & \\ 41 & 174,53 & Aceito & & \\ 42 & 174,53 & Aceito & & \\ & & & & \\& & & & \\ & \multicolumn{3}{c}{\textbf{Limites do intervalo}}  & \\& & & & \\& \multicolumn{1}{l}{Média } & & 174,25 & \\ & \multicolumn{1}{l}{Desvio-padrão ( s )} & & 1,58 & \\ & \multicolumn{1}{l}{Coeficiente de variação ( c_v )} & & 0,91\% & \\ & \multicolumn{1}{l}{Número de elementos} & & 41 & \\ & \multicolumn{1}{l}{Coeficiente tabelado ( r )} & & 2,516057 & \\ & & & & \\& \multicolumn{3}{c}{\textbf{Limites inferior e superior}} & \\&  & & & \\&  \multicolumn{1}{l}{l_{inf} = média - ( s \cdot r_{crítico})} & & 170,27 & \\ & \multicolumn{1}{l}{l_{sup} = média + ( s \cdot r_{crítico})} & & 178,23 & \\ \end{tabular}

 

 

A dispersão dos dados diminuiu e isso pode ser comprovado objetivamente pela análise do coeficiente de variação ( cv ), que foi reduzido. Visualmente, esse é o segundo gráfico de dispersão dos elementos da amostra:

 

 

 

Todos os elementos estão contidos dentro dos limites do intervalo; portanto, encerra-se o saneamento.

A planilha desenvolvida para esse procedimento encontra-se disponível abaixo.

 
 
 
 
 
Fonte:
ARLEY, Niels; BUCH, Kai Rander. Introducción a la teoría de la probabilidad y de la estadística. Tradução: Fernando Bombal Gordón. Madrid: Editorial Alhambra S.A., 1968.