You are on page 1of 1

이 비디오에서는 그룹화의 기본 사항과 이것이 데이터 세트를 변형하는 데 도움이 되는 방법에 대해

설명합니다. 다음과 같은 점을 알고 싶으십니까? 앞뒤, 뒤쪽, 4 륜 구동 드라이브, 차량가격과 서로 다른


유형의 드라이브 시스템 간에 어떤 관계가 있습니까? 그렇다면 어떤 유형의 드라이브 시스템이 자동차에
가장 큰 가치를 더할까요? 모든 데이터를 서로 다른 드라이브 바퀴의 유형별로 그룹화하고 서로 다른
드라이브 바퀴의 결과를 비교할 수 있다면 좋을 것입니다. 팬더에서는, 이 일은 방법별로 그 그룹을
사용하여 할 수 있습니다. 방법별 그룹은 분류 변수에 사용되며, 해당 변수의 여러 범주에 따라 데이터를
서브세트로 그룹화합니다. 단일 변수로 그룹화하거나 여러 변수 이름을 전달하여 여러 변수를 그룹화할 수
있습니다. 예를 들어, 우리는 자동차의 평균 가격을 찾고 그것이 다른 종류의 바디스타일과 드라이브
바퀴 변수들 사이에 어떻게 다른지를 관찰한다고 합시다. 이렇게 하기 위해서 먼저 우리가 관심을 갖는 세
가지 데이터 열을 골라냅니다. 첫 번째 코드 줄에 해당합니다. 그런 다음 두 번째 줄의 드라이브 휠과
바디 스타일에 따라 줄어든 데이터를 그룹화합니다. 우리는 평균 가격이 보드 간에 어떻게 다른지 알고
싶기 때문에, 리는 각 그룹의 평균을 취하고 이 부분을 선 맨 끝에 덧붙일 수 있습니다. 이제 데이터가
하위 범주로 그룹화되며 각 하위 범주의 평균 가격만 표시됩니다. 데이터에 따르면 후면 휠과 후면 바퀴
드라이브 하드 하트가 가장 높은 가치를 가지며 4 개의 바퀴 드라이브 해칭은 가장 낮은 값을 가집니다.
이 형식의 테이블은 읽기 쉬운 것이 아니며 시각화하기도 쉽지 않습니다. 쉽게 이해하기 위해 피벗 방법을
사용하여 이 테이블을 피벗 테이블로 변환할 수 있습니다. 이전 테이블에서는 드라이브 휠과 바디
스타일이 모두 열을 듣고 있었습니다. 피벗 테이블에는 열에 하나의 변수 및 행에 표시된 다른 변수가
있습니다. 코드 한 줄과 Panda 의 피벗 방법을 사용하여 바디 스타일 변수를 피벗하여 열을 따라
표시되고 드라이브 휠이 행들에 표시됩니다. 이제 가격 데이터가 사각형 격자로 바뀌어 눈에 잘 띄기
쉬워졌다. 이는 일반적으로 Excel 스프레드시트에서 수행되는 작업과 유사합니다. 피벗 테이블을
나타내는 다른 방법은 열 맵 플롯을 사용하는 것입니다. 열 맵은 데이터의 사각형 격자선을 사용하며
격자선 점의 데이터 값에 따라 색상 강도를 지정합니다. 이 방법은 여러 변수를 통해 대상 변수를
플롯하고 이러한 변수와 대상 간의 관계를 통해 시각적 단서를 얻을 수 있는 좋은 방법입니다. 이
예제에서는 pyplot 의 p 색상 방법을 사용하여 열 맵을 플롯하고 이전 피벗 테이블을 그래픽 형식으로
변환합니다. 빨강-파랑 색 구성표를 지정합니다. 출력 플롯에서는 각 유형의 바디스타일이 X 축을 따라
번호가 매겨지고 각 유형의 드라이브 휠은 Y 축을 따라 번호가 매겨집니다. 평균 가격은 그들의 가치에
따라 다른 색깔로 그려진다. 색도에따르면, 열 지도의 맨 위 부분은 아래 부분보다 가격이 더 비싼
것으로 보입니다.

You might also like