가설 검증

Python을 사용한 가설 테스트에 대한 간단하고 간단한 자습서

이미지 : http://www.advanceinnovationgroup.com/blog/median-based-hypothesis-testing

이 블로그에서는 파이썬에서 통계 메소드를 사용한 가설 테스트에 대한 간단한 튜토리얼을 제공합니다. 가설 테스트는 우리 모두에게 친숙한 과학적 방법의 일부이며 초기 교육 시절에 배웠던 것입니다. 그러나 통계에서 모집단 표본에 대해 많은 실험이 수행됩니다.

“샘플 집합이 우리에게 제안 된 설명에 대해 무엇을 말해 주는지 결정하려면 일반적으로 불확실성에 대한 추론을 추론하거나 통계 학자들이 부르는대로해야합니다. 불확실성의 추론은 통계적 추론의 핵심이며 일반적으로 Null Hypothesis Significance Testing이라는 방법을 사용하여 수행됩니다.” 오븐.

이 블로그의 예로 Kaggle에있는 유럽 축구 데이터 세트를 사용하고 가설 테스트를 수행합니다. 데이터 세트는 여기에서 찾을 수 있습니다.

1 단계

관찰하다

첫 번째 단계는 현상을 관찰하는 것입니다. 이 경우 다음과 같은 결과가 발생합니다. 평균 허용 목표에 방어 침략의 영향이 있습니까?

2 단계

연구 조사

지나가는 좋은 사고 방식은 더 똑똑하지 않고 똑똑하게 일하는 것입니다. 한 가지 좋은 방법은 관찰과 관련된 연구가 이미 존재하는지 확인하는 것입니다. 그렇다면 질문에 대답하는 데 도움이 될 수 있습니다. 이미 존재하는 연구 또는 실험에 대해 알고 있으면 실험을 더 잘 구성하거나 질문에 대답 할 수 있으며 실험을 수행 할 필요가 없습니다.

3 단계

귀무 가설과 대립 가설 형성

다른 가설은 우리의 교육 된 추측이고 귀무 가설은 그 반대입니다. 대립 가설이 두 변수간에 유의 한 관계가 있다고 말하면 귀무 가설은 유의 한 관계가 없음을 나타냅니다.

Null 가설은 다음과 같습니다. 방어 공격 등급이 65 이상인 팀과 65 세 미만의 팀간에 허용되는 목표에는 통계적인 차이가 없습니다.

대안 가설 : 방어 공격 등급이 65 이상인 팀과 65 세 미만의 팀간에 허용되는 목표에는 통계적인 차이가 있습니다.

4 단계

가설이 단측 검정인지 양측 검정인지 확인합니다.

단일 테스트

"중요도 0.05를 사용하는 경우 단측 검정을 사용하면 모든 알파가 관심있는 한 방향으로 통계적 유의성을 검정 할 수 있습니다." 단측 테스트의 예는 "65보다 낮은 등급의 공격 팀이 65보다 낮은 등급의 팀보다 통계적으로 훨씬 더 많은 목표를 허용합니다."입니다.

이중 테스트

“중요도 0.05를 사용하는 경우 양측 검정을 사용하면 알파의 절반이 한 방향으로 통계적 유의성을 테스트하고 알파의 절반이 다른 방향으로 통계적 유의성을 테스트 할 수 있습니다. 이는 검정 통계량 분포의 각 꼬리에 0.025가 있음을 의미합니다.”

양측 검정을 사용하면 양방향에서 통계적 유의성을 검정합니다. 우리의 경우, 우리는 양방향에서 통계적 유의성을 테스트하고 있습니다.

5 단계

임계 값 유의 수준 (알파) 설정

(알파 값) : 귀무 가설을 기각 할 수있는 한계 임계 값입니다. 알파 값은 0과 1 사이에서 설정하는 값일 수 있습니다. 그러나 과학에서 가장 일반적인 알파 값은 0.05입니다. 알파가 0.05로 설정되면 결과가 임의성으로 인한 가능성이 5 % 이하인 경우에도 귀무 가설을 기각 할 수 있습니다.

P- 값 :이 데이터에 무작위로 도달 할 계산 된 확률.

p- 값을 계산하고 0.03으로 나오면“내가보고있는 결과가 실제로 임의적이거나 순수한 운에 기인 할 가능성이 3 %”라고 말하는 것으로 해석 할 수 있습니다.

Learn.co의 이미지

우리의 목표는 p- 값을 계산하여 알파와 비교하는 것입니다. 알파가 낮을수록 테스트가 더 엄격 해집니다.

6 단계

샘플링 수행

여기 축구라는 데이터 세트가 있습니다. 테스트를 위해 데이터 세트에는 team_def_aggr_rating 및 goals_allowed라는 두 개의 열만 필요합니다. 이 두 열로 필터링 한 다음 방어 침략 등급이 65 이상인 팀과 방어 침략 등급이 65 미만인 팀에 대해 두 개의 하위 집합을 만듭니다.

가설 검정을 요약하면 다음과 같습니다.

방어 공격이 평균 허용 목표에 미치는 영향. 귀무 가설 : 방어 침략 등급이 65보다 크거나 같은 팀에서 허용되는 목표에는 65 세 미만의 팀과 통계적으로 차이가 없습니다. 대체 가설 : 방어 침략 등급이 더 큰 팀에서는 허용되는 목표에 통계적인 차이가 있습니다. 65 세 이하 팀 대비 65 세 이상. 양측 테스트 알파 : 0.05

이제 통계 테스트를 실행할 수있는 두 개의 샘플 목록이 있습니다. 그 단계를 시작하기 전에 두 분포를 그려 시각적으로 알 수 있습니다.

7 단계

2- 표본 T- 검정 수행

2- 표본 t- 검정은 두 모집단 평균이 같은지 확인하는 데 사용됩니다. 이를 위해 statsmodels라는 Python 모듈을 사용합니다. statsmodels에 대해 너무 자세하게 설명하지는 않지만 여기에서 설명서를 볼 수 있습니다.

8 단계

평가 및 결론

우리가 설정 한 알파는 a = 0.05였습니다. 테스트 결과에서 알 수 있듯이 p- 값이 알파보다 작습니다. 우리는 귀무 가설을 기각 할 수 있으며 95 % 신뢰를 가지고 대립 가설을 받아들입니다.

읽어 주셔서 감사합니다! 가설 테스트에 대한 자세한 내용은 여기에서 가설 테스트에 참여한 GitHub I에서이 그룹 프로젝트를 확인할 수 있습니다.

자원:

오븐, 매튜 YourStatsGuru에서 검색 한 "통계 및"과학적 방법 ". https://www.yourstatsguru.com/secrets/scimethod-stats/?v=4442e4af0916

SAS 소개. UCLA : 통계 컨설팅 그룹. https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-the-differences-between-one-tailed-and-two-tailed-tests/ (5 월 액세스) 16, 2019).

공학 통계 핸드북. https://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm