나는 10 개의 변수를 하나의 종속적이고 9 개의 독립적 인 첫 번째 나는 독립적 인 다음 무작위 관찰 표본을 채취하고 선입시 모델 A 의사 결정 트리는 임의의 포리스트의 빌딩 블록이며 직관적 인 모델입니다. 우리는 의사 결정 트리를 결국 예측 클래스 (또는 회귀의 경우 연속 값)로 이어지는 데이터에 대해 묻는 일련의 예 / 아니오 질문으로 생각할 수 있습니다. 이것은 우리가 하는 것처럼 분류를 하기 때문에 해석 가능한 모델입니다: 우리는 (이상적인 세계에서) 결정에 도달할 때까지 우리가 가지고 있는 사용 가능한 데이터에 대한 일련의 쿼리를 요청합니다. 프로그래밍 경험: 파이썬초보자 수준의 경험 이전에 우리는 간단한 생성 분류자 (순진한 베이즈; 깊이 참조 : 순진한 베이즈 분류 참조) 및 강력한 차별 분류자 (지원 벡터 기계 참조; 심층: 벡터 기계 지원). 여기서는 임의 포리스트라는 비파라메트릭 알고리즘인 또 다른 강력한 알고리즘에 대한 동기부여를 살펴보겠습니다. 임의 포리스트는 앙상블 방법의 예이며, 이는 더 간단한 추정기의 앙상블의 결과를 집계하는 데 의존한다는 것을 의미합니다. 이러한 앙상블 방법과 다소 놀라운 결과는 합계가 부분보다 클 수 있다는 것입니다 : 즉, 다수의 추정자 중 과반수 투표는 투표를하는 개별 추정자보다 더 나은 것으로 끝날 수 있습니다! 다음 섹션에서 이에 대한 예제를 살펴보겠습니다. 먼저 표준 가져오기부터 시작합니다. 모델에 대한 기본 매개 변수를 사용합니다. 어떻게 이것을 사용 해야 제안 합니까 :https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/learn/random_forest_mnist.py 또는 그것을 사용할 수 있습니다 그리고 그것은 당신이 무슨 짓을 했는지 동일? 모델의 향후 구현에서는 중요하지 않고 성능이 저하되지 않는 변수를 제거할 수 있습니다. 또한 다른 모델을 사용하는 경우 지원 벡터 컴퓨터와 같이 임의 포리스트 피쳐 중요도를 일종의 기능 선택 방법으로 사용할 수 있습니다. 가장 중요한 두 가지 변수인 최대 온도 1일 전의 최대 온도와 과거 평균만 있는 임의의 포리스트를 신속하게 만들고 성능이 어떻게 비교되는지 살펴보겠습니다. 데이터 준비의 마지막 단계는 데이터를 교육 및 테스트 집합으로 분할하는 것입니다.

교육 중에 모델이 실제 온도를 `볼`수 있도록 하여 피처에서 온도를 예측하는 방법을 배울 수 있습니다. 모든 기능과 대상 값 간에 약간의 관계가 있을 것으로 예상되며 모델의 작업은 교육 중에 이 관계를 배우는 것입니다. 그런 다음 모델을 평가할 때는 답변이 아닌 기능에만 액세스할 수 있는 테스트 집합에서 예측하도록 요청합니다. 테스트 집합에 대한 실제 답변이 있으므로 이러한 예측을 실제 값과 비교하여 모델이 얼마나 정확한지 판단할 수 있습니다.