Bài tập thống kê ứng dụng | Trường Đại học Kinh tế – Luật, Đại học Quốc gia Thành phố Hồ Chí Minh

Mã hóa lại các thuộc tính của các biến định tính bằng các số. Nhìn vào bảng ta có thể thấy: Có tất cả 157 giá trị nhưng chỉ có 30 giá trị khác nhau. Thấp nhất là Infiniti và Jaguar có tần số là 1, chiếm tỉ lệ 0.64%. Tài liệu giúp bạn tham khảo, ôn tập và đạt kết quả cao. Mời đọc đón xem!

lOMoARcPSD| 46663874
1
NỘI DUNG
I
MÔ TẢ DỮ LIỆU..............................................................................................................4
1. Mô tả bộ dữ liệu:..............................................................................................4
2. Phân loại biến...................................................................................................4
3. Mã hóa lại các thuộc tính của các biến định tính bằng các số...........................4
Mã hóa biến định tính Vehicle_type.................................................................5
Mã hóa biến Manufacturer................................................................................5
Mã hóa biến Model...........................................................................................6
II. MÔ TẢ CÁC BIẾN TRONG BỘ DỮ LIỆU.................................................................8
1. Lập các bảng tần số của từng biến....................................................................8
Lập bảng tần số của biến Manufacturer............................................................9
Lập bảng tần số của Vehicle_type.....................................................................9
Bảng tần số của Model...................................................................................10
2. Lập các bảng tần số đồng thời của: ................................................................12
Lập bảng tần số đồng thời của Sales_in_thousands theo Manufacturer..........12
Lập bảng tần số đồng thời của Vehicle_type theo Manufacturer....................13
Lập bảng tần số đồng thời của Price_in_thousands theo Model.....................13
3. Dùng đồ thị phù hợp mô tả tất cả các biến có trong bộ dữ liệu và cho nhận xét.
..........................................................................................................................17
Biểu đồ Histogram của Manufacturer:............................................................17
Biểu đồ Histogram của
Sales_in_Thousands..................................................18
Biểu đồ tròn của Vehicle_type........................................................................19
Biểu đồ Histogram của Price_in_thousands...................................................20
Biểu đồ Histogram của Engine_size...............................................................21
Biểu đồ Histogram của Horsepower...............................................................22
Biểu đồ Histogram của Wheelbase.................................................................23
Biểu đồ Histogram của Width.........................................................................24
Biểu đồ Histogram của Length.......................................................................25
Biểu đồ Histogram của Curb_weight..............................................................26
lOMoARcPSD| 46663874
2
Biểu đồ Histogram của Fuel_capacity............................................................27
Biểu đồ Histogram của Fuel_efficiency..........................................................28
Biểu đồ Histogram của
Latest_Launch:..........................................................29
Biểu đồ Histogram của Power_perf_factor.....................................................30
4. Phát hiện các Missing value (nếu có).............................................................31
5. Tính toán các trị thống kê mô tả đặc trưng của tất cả các biến có trong dữ liệu.
Từ đó, hãy cho nhận xét về hình dáng phân phối dữ liệu của các biến.........................32
Sales_in_thousands.........................................................................................32
Price_in_thousands.........................................................................................33
Engine_size....................................................................................................34
Horsepower....................................................................................................35
Wheelbase......................................................................................................36
Width..............................................................................................................37
Length.............................................................................................................38
Curb_weight...................................................................................................39
Fuel_capacity..................................................................................................40
Fuel_efficiency...............................................................................................41
Power_perf_factor..........................................................................................42
BÀI TẬP NHÓM SỐ 1 – MÃ HỌC PHẦN: 221TK0508 DANH SÁCH NHÓM:
STT Tên MSSV Email
1 Lê Phan Ngọc Thiên An K214040228 anlpnt21404a@st.uel.edu.v n
2 Trần Châu Anh K214040229 anhtc21404a@st.uel.edu.vn
3 Trần Thanh Thảo K214040270 thaott21404a@st.uel.edu.vn
4 Hồ Thị Thanh Thủy K214090637 thuyhtt21409@st.uel.edu.vn
5 Ngô Thị Thúy Hoa K214091871 hoantt21409@st.uel.edu.vn
lOMoARcPSD| 46663874
3
I. MÔ TẢ DỮ LIỆU
1. Mô tả bộ dữ liệu:
- Bộ dữ liệu gồm 15 biến
- Bộ dữ liệu gồm 157 quan sát
2. Phân loại biến
Tên biến Loại dữ liệu Chi tiết Thang đo Đơn vị
Manufacturer Định tính Không liên tục Định danh
Không rời rạc
Model Định tính Không liên tục Định danh
Không rời rạc
Sales_in_thousand Định lượng Liên tục Tỷ lệ Đơn vị đo tiền tệ
s
Vehicle_type Định tính Không liên tục Định danh
Không rời rạc
Price_in_thousands Định lượng Liên tục Tỷ lệ Đơn vị đo tiền tệ
Engine_size Định lượng Liên tục Tỷ lệ Đơn vị đo độ dài
Horsepower Định lượng Rời rạc Tỷ lệ Đơn vị đo công
suất
Wheelbase Định lượng Liên tục Tỷ lệ Đơn vị đo độ dài
Width Định lượng Liên tục Tỷ lệ Đơn vị đo độ dài
Length Định lượng Liên tục Tỷ lệ Đơn vị đo độ dài
Curb_weight Định lượng Liên tục Tỷ lệ Đơn vị đo khối
lượng
Fuel_capacity Định lượng Liên tục Tỷ lệ Đơn vị đo thể
tích
Fuel_efficiency Định lượng Rời rạc Tỷ lệ Đơn vị đo hiệu
suất
Latest_Launch Định tính Không liên tục Định danh Đơn vị đo thời
Không rời rạc gian
Power_perf_factor Định lượng Liên tục Tỷ lệ Đơn vị đo hiệu
suất
lOMoARcPSD| 46663874
4
3. Mã hóa lại các thuộc tính của các biến định tính bằng các số
Mã hóa biến định tính Vehicle_type
Mã hóa biến Manufacturer
Mã hóa biến Model
lOMoARcPSD| 46663874
5
lOMoARcPSD| 46663874
6
lOMoARcPSD| 46663874
7
II. MÔ TẢ CÁC BIẾN TRONG BỘ DỮ LIỆU
1. Lập các bảng tần số của từng biến sau: Manufacturer; Vehicle_type; Model. Hãy
cho nhận xét chi tiết về các bảng tần số trên.
Lập bảng tần số của biến Manufacturer
lOMoARcPSD| 46663874
8
Nhìn vào bảng ta có thể thấy: Có tất cả 157 giá trị nhưng chỉ có 30 giá trị khác nhau.
- Dodge và Ford chiếm tần số cao nhất (11), chiếm tỉ lệ 7,01%.
- Thấp nhất là Infiniti và Jaguar có tần số là 1, chiếm tỉ lệ 0.64%.
- Các nhà sản xuất chủ yếu: Dodge, Ford, Chevrolet, Toyota, Mercedes-B
Lập bảng tần số của Vehicle_type
Nhìn vào bảng ta có thể thấy: Có tất cả 157 giá trị nhưng chỉ có 2 giá trị khác nhau
- Passenger có tần số 116 chiếm tỉ lệ 73.89%
- Car có tần số 41 chiếm tỉ lệ 26.11%
- Cho thấy số lượng passenger lớn hơn car nhiều (75 chiếc)
lOMoARcPSD| 46663874
9
Bảng tần số của Model
lOMoARcPSD| 46663874
10
lOMoARcPSD| 46663874
11
Nhìn vào bảng tần số ta thấy: Có 157 giá trị khác nhau tương ứng 157 loại trong tổng số
157 giá trị. Mỗi giá trị có tần số bằng nhau (1) và chiếm tỉ lệ như nhau (0,64%).
2. Lập các bảng tần số đồng thời của: Sales_in_thousands theo Manufacturer-
Vehicle_type theo Manufacturer; Price_in_thousands theo Model. Hãy cho nhận
xét chi tiết về các bảng tần số trên.
Lập bảng tần số đồng thời của Sales_in_thousands theo Manufacturer
- Bảng Sales_in_thousands có quá nhiều giá trị nên trước tiên chia thành từng
khoảng bằng nhau. Dựa vào công thức h=(x
max
+x
min
)/k với k=(2n)
1/3
, tính ra
được h=80
- Bảng tần số đồng thời của Sales_in_thousands theo Manufacturer
Sales_in_thousands_
catergories
Freq.
Percent
Cum.
0
125
22
93.63
80
97.45
3.82
160
6
1.91
240
99.36
3
100.00
0.64
480
1
Total
157
100.00
lOMoARcPSD| 46663874
12
Ta có thể thông qua bảng này biết được từng hãng xe có bao nhiều Model mang lại
doanh thu như thế nào. Các hãng ở đây đều có phần lớn dòng xe mang lại doanh
thu ở mức thấp nhất, doanh thu càng cao thì số dòng xe càng ít. Điển hình là chỉ
có Ford có dòng xe mang lại doanh thu ở mức cao nhất. Mercedes-B có nhiều
dòng xe nhất ở mức doanh thu thấp là 9 dòng, chiếm 5,73% trong tổng số.
Lập bảng tần số đồng thời của Vehicle_type theo Manufacturer
- Ở hầu hết các hãng thì dạng xe Passenger chiếm tỷ trọng cao hơn, vì vậy về tổng
số thì dạng xe Passenger sẽ chiếm phần lớn. Cụ thể dạng xe Car chiếm 26,11%
trong khi dạng xe Passenger chiếm 73,89%
- Hãng xe Chevrolet chiếm tỉ trọng xe Passenger nhiều nhất với 9 chiếc, trong khi
đó, hãng chiếm tỉ trọng xe Car cao nhất là Dodge với 6 chiếc.
Lập bảng tần số đồng thời của Price_in_thousands theo Model
- Bảng Price_in_thousands có quá nhiều giá trị nên trước tiên chia thành từng
khoảng bằng nhau. Dựa vào công thức h=(x
max
+x
min
)/k với k=(2n)
1/3
, tính ra
được h=12.
Price_in_thousands_
catergories
Percent
Cum.
0
5
3.23
3.23
12
76
24
41
36
22
lOMoARcPSD| 46663874
13
- Bảng tần số đồng thời của Price_in_thousands theo Model
Price_in_thousands_catergories
Model 0 12 24 36 48 60 72 84 Total
3-Sep 0 0 1 0 0 0 0 0 1
5-Sep 0 0 1 0 0 0 0 0 1
3000GT 0 0 1 0 0 0 0 0 1
300M 0 0 1 0 0 0 0 0 1
323i 0 0 1 0 0 0 0 0 1
328i 0 0 1 0 0 0 0 0 1
4Runner0 1 0 0 0 0 0 0 1
528i 0 0 0 1 0 0 0 0 1
A4 0 1 0 0 0 0 0 0 1
A6 0 0 1 0 0 0 0 0 1
A8 0 0 0 0 0 1 0 0 1
Accent 1 0 0 0 0 0 0 0 1
Accord 0 1 0 0 0 0 0 0 1
Alero 0 1 0 0 0 0 0 0 1
Altima 0 1 0 0 0 0 0 0 1
Aurora 0 0 0 1 0 0 0 0 1
Avalon 0 0 1 0 0 0 0 0 1
Avenger0 1 0 0 0 0 0 0 1
Beetle 0 1 0 0 0 0 0 0 1
Bonneville 0 1 0 0 0 0 0 0 1
Boxter 0 0 0 1 0 0 0 0 1
Bravada0 0 1 0 0 0 0 0 1
Breeze 0 1 0 0 0 0 0 0 1
C-Class0 0 1 0 0 0 0 0 1
C70 0 0 0 1 0 0 0 0 1
CL500 0 0 0 0 0 0 0 1 1
CLK Coupe 0 0 0 1 0 0 0 0 1
CR-V 0 1 0 0 0 0 0 0 1
Cabrio 0 1 0 0 0 0 0 0 1
Camaro 0 0 1 0 0 0 0 0 1
Camry 0 1 0 0 0 0 0 0 1
Caravan0 1 0 0 0 0 0 0 1
Carrera Cabrio 0 0 0 0 0 0 1 0 1
Carrera Coupe 0 0 0 0 0 1 0 0 1
Catera 0 0 1 0 0 0 0 0 1
Cavalier 0 1 0 0 0 0 0 0 1
Celica 0 1 0 0 0 0 0 0 1
Century0 1 0 0 0 0 0 0 1
Cherokee 0 1 0 0 0 0 0 0 1
Cirrus 0 1 0 0 0 0 0 0 1
Civic 0 1 0 0 0 0 0 0 1
48
3
1.94
60
5
3.23
2
72
1.29
1
0.65
84
100.00
155
100.00
lOMoARcPSD| 46663874
14
Concorde 0 1 0 0 0 0 0 0 1
Continental 0 0 0 1 0 0 0 0 1
lOMoARcPSD| 46663874
0 0 0 1
0 0 0 1
15
Contour0
1
0 0 0
Corolla0
1
0 0 0
Corvette 0
0
0 1 0
0
0
0
1
Cougar 0
1
0 0 0
0
0
0
1
Crown Victoria 0
1
0 0 0
0
0
0
1
Cutlass0
1
0 0 0
0
0
0
1
Dakota 0
1
0 0 0
0
0
0
1
DeVille0
0
0 1 0
0
0
0
1
Diamante 0
0
1 0 0
0
0
0
1
Durango0
0
1 0 0
0
0
0
1
E-Class0
0
0 0 1
0
0
0
1
ES300 0
0
1 0 0
0
0
0
1
Eclipse0
1
0 0 0
0
0
0
1
Elantra1
0
0 0 0
0
0
0
1
Eldorado 0
0
0 1 0
0
0
0
1
Escalade 0
0
0 1 0
0
0
0
1
Escort 0
1
0 0 0
0
0
0
1
Expedition 0
0
0 1 0
0
0
0
1
Explorer 0
0
1 0 0
0
0
0
1
F-Series 0
0
1 0 0
0
0
0
1
Firebird 0
0
1 0 0
0
0
0
1
Focus 0
1
0 0 0
0
0
0
1
Forester 0
1
0 0 0
0
0
0
1
Frontier 0
1
0 0 0
0
0
0
1
GS300 0
0
0 1 0
0
0
0
1
GS400 0
0
0 1 0
0
0
0
1
GTI 0
1
0 0 0
0
0
0
1
Galant 0
1
0 0 0
0
0
0
1
Golf 0
1
0 0 0
0
0
0
1
Grand Am 0
1
0 0 0
0
0
0
1
Grand Cherokee 0
0
1 0 0
0
0
0
1
Grand Marquis 0
1
0 0 0
0
0
0
1
Grand Prix 0
1
0 0 0
0
0
0
1
I30 0
0
1 0 0
0
0
0
1
Impala 0
1
0 0 0
0
0
0
1
Integra0
1
0 0 0
0
0
0
1
Intrepid 0
1
0 0 0
0
0
0
1
Intrigue 0
0
1 0 0
0
0
0
1
Jetta 0
1
0 0 0
0
0
0
1
LHS 0
0
1 0 0
0
0
0
1
lOMoARcPSD| 46663874
0 0 0 1
0 0 0 1
16
LS 0
1
0 0 0
0
0
0
1
LS400 0
0
0 0 1
0
0
0
1
LW 0
1
0 0 0
0
0
0
1
LX470 0
0
0 0 0
1
0
0
1
Land Cruiser 0
0
0 0 1
0
0
0
1
LeSabre0
0
1 0 0
0
0
0
1
Lumina 0
1
0 0 0
0
0
0
1
M-Class0
0
1 0 0
Malibu 0
1
0 0 0
Maxima 0
0
1 0 0
0
0
0
1
Metro 1
0
0 0 0
0
0
0
1
Mirage 0
1
0 0 0
0
0
0
1
Montana0
0
1 0 0
0
0
0
1
Monte Carlo 0
1
0 0 0
0
0
0
1
Montero0
0
1 0 0
0
0
0
1
Montero Sport 0
1
0 0 0
0
0
0
1
Mountaineer 0
0
1 0 0
0
0
0
1
Mustang0
1
0 0 0
0
0
0
1
Mystique 0
1
0 0 0
0
0
0
1
Navigator 0
0
0 1 0
0
0
0
1
Neon 0
2
0 0 0
0
0
0
2
Odyssey0
0
1 0 0
0
0
0
1
Outback0
1
0 0 0
0
0
0
1
Park Avenue 0
0
1 0 0
0
0
0
1
Passat 0
1
0 0 0
0
0
0
1
Passport 0
0
1 0 0
0
0
0
1
Pathfinder 0
0
1 0 0
0
0
0
1
Prizm 0
1
0 0 0
0
0
0
1
Prowler0
0
0 1 0
0
0
0
1
Quest 0
0
1 0 0
0
0
0
1
RAV4 0
1
0 0 0
0
0
0
1
RL 0
0
0 1 0
0
0
0
1
RX300 0
0
1 0 0
0
0
0
1
Ram Pickup 0
1
0 0 0
0
0
0
1
Ram Van0
1
0 0 0
0
0
0
1
Ram Wagon 0
1
0 0 0
0
0
0
1
Ranger 0
1
0 0 0
0
0
0
1
Regal 0
0
1 0 0
0
0
0
1
S-Class0
0
0 0 0
1
0
0
1
S-Type 0
0
0 1 0
0
0
0
1
S40 0
1
0 0 0
0
0
0
1
S70 0
0
1 0 0
0
0
0
1
S80 0
0
0 1 0
0
0
0
1
SC 0
1
0 0 0
0
0
0
1
lOMoARcPSD| 46663874
0 0 0 1
0 0 0 1
17
SL 1
0
0 0 0
0
0
0
1
SL-Class 0
0
0 0 0
0
1
0
1
SLK 0
0
0 1 0
0
0
0
1
SLK230 0
0
0 1 0
0
0
0
1
SW 0
1
0 0 0
0
0
0
1
Sable 0
1
0 0 0
0
0
0
1
Sebring Conv. 0
0
1 0 0
0
0
0
1
Sebring Coupe 0
1
0 0 0
0
0
0
1
Sentra 0
1
0 0 0
0
0
0
1
Seville0
0
0 1 0
0
0
0
1
Sienna 0
1
0 0 0
0
0
0
1
Silhouette 0
0
1 0 0
0
0
0
1
Sonata 0
1
0 0 0
0
0
0
1
Giá xe của các hãng chủ yếu tập trung ở tầm giá 12000-24000-36000.
Mức giá chiếm tỉ trọng cao nhất là 12000 với 76 dòng xe giữ 49,03% trong
tổng số.
Dòng xe có mức giá cao nhất là CL500 với tầm giá 84000.
3. Dùng đồ thị phù hợp mô tả tất cả các biến có trong bộ dữ liệu và cho nhận xét.
Biểu đồ Histogram của Manufacturer:
Mã hóa biến:
Lệnh thực hiện:
Stratus0
1
0 0 0
Sunfire0
1
0 0 0
TL 0
0
1 0 0
0
0
0
1
Tacoma 1
0
0 0 0
0
0
0
1
Taurus 0
1
0 0 0
0
0
0
1
Town car 0
0
0 1 0
0
0
0
1
V40 0
0
1 0 0
0
0
0
1
V70 0
0
1 0 0
0
0
0
1
Villager 0
1
0 0 0
0
0
0
1
Viper 0
0
0 0 0
1
0
0
1
Voyager0
1
0 0 0
0
0
0
1
Windstar 0
1
0 0 0
0
0
0
1
Wrangler 0
1
0 0 0
0
0
0
1
Xterra 0
1
0 0 0
0
0
0
1
Total 5
76
41 22 3
5
2
1
155
lOMoARcPSD| 46663874
0 0 0 1
0 0 0 1
18
Kết quả thu được:
lOMoARcPSD| 46663874
19
Nhận xét:
Manufacturer đa dạng, phân phối không đều và bị lệch.
Phân phối đạt đỉnh điểm (đạt Mode) tại một nhà chế tạo có tần số 27.
Biểu đồ Histogram của Sales_in_Thousands
Lệnh thực hiện:
Kết quả thu được:
lOMoARcPSD| 46663874
20
Nhận xét:
- Sales_in_Thousands có tần số xuất hiện lớn nhất nằm sát bên phải của biểu đồ.
Giá trị này đạt Mode trong khoảng từ 0-50 với tần số 100.
- Theo đó, rất ít giá trị được xuất hiện về phía cuối của biểu đồ → đồ thị lệch trái
rất nặng.
- Xuất hiện một giá trị lớn hơn 500, khiến cho Range của biểu đồ tăng lên → ảnh
hưởng đến đại lượng đo lường mức độ phân tán là Mean.
- Nhìn chung doanh số bán được có đa số hiệu suất rất kém và chỉ thỉnh thoảng xuất
hiện được một số lần doanh thu lớn mà thôi. Bởi đa số giá trị đều tập trung trong
khoảng doanh số nhỏ đầu tiên phía trái đồ thị.
Biểu đồ tròn của Vehicle_type
Mã hóa dữ liệu:
Lệnh thực hiện:
| 1/44

Preview text:

lOMoAR cPSD| 46663874 NỘI DUNG I
MÔ TẢ DỮ LIỆU..............................................................................................................4 1.
Mô tả bộ dữ liệu:..............................................................................................4 2.
Phân loại biến...................................................................................................4 3.
Mã hóa lại các thuộc tính của các biến định tính bằng các số...........................4
• Mã hóa biến định tính Vehicle_type.................................................................5
• Mã hóa biến Manufacturer................................................................................5
• Mã hóa biến Model...........................................................................................6
II. MÔ TẢ CÁC BIẾN TRONG BỘ DỮ LIỆU.................................................................8 1.
Lập các bảng tần số của từng biến....................................................................8
• Lập bảng tần số của biến Manufacturer............................................................9
• Lập bảng tần số của Vehicle_type.....................................................................9
• Bảng tần số của Model...................................................................................10 2.
Lập các bảng tần số đồng thời của: ................................................................12
• Lập bảng tần số đồng thời của Sales_in_thousands theo Manufacturer..........12
• Lập bảng tần số đồng thời của Vehicle_type theo Manufacturer....................13
• Lập bảng tần số đồng thời của Price_in_thousands theo Model.....................13 3.
Dùng đồ thị phù hợp mô tả tất cả các biến có trong bộ dữ liệu và cho nhận xét.
..........................................................................................................................17
• Biểu đồ Histogram của Manufacturer:............................................................17 Biểu đồ Histogram của
Sales_in_Thousands..................................................18
• Biểu đồ tròn của Vehicle_type........................................................................19
• Biểu đồ Histogram của Price_in_thousands...................................................20
• Biểu đồ Histogram của Engine_size...............................................................21
• Biểu đồ Histogram của Horsepower...............................................................22
• Biểu đồ Histogram của Wheelbase.................................................................23
• Biểu đồ Histogram của Width.........................................................................24
• Biểu đồ Histogram của Length.......................................................................25
• Biểu đồ Histogram của Curb_weight..............................................................26 1 lOMoAR cPSD| 46663874
• Biểu đồ Histogram của Fuel_capacity............................................................27
• Biểu đồ Histogram của Fuel_efficiency..........................................................28 Biểu đồ Histogram của
Latest_Launch:..........................................................29
• Biểu đồ Histogram của Power_perf_factor.....................................................30 4.
Phát hiện các Missing value (nếu có).............................................................31 5.
Tính toán các trị thống kê mô tả đặc trưng của tất cả các biến có trong dữ liệu.
Từ đó, hãy cho nhận xét về hình dáng phân phối dữ liệu của các biến.........................32
• Sales_in_thousands.........................................................................................32
• Price_in_thousands.........................................................................................33
• Engine_size....................................................................................................34
• Horsepower....................................................................................................35
Wheelbase......................................................................................................36
• Width..............................................................................................................37
• Length.............................................................................................................38
Curb_weight...................................................................................................39
• Fuel_capacity..................................................................................................40
Fuel_efficiency...............................................................................................41
Power_perf_factor..........................................................................................42
BÀI TẬP NHÓM SỐ 1 – MÃ HỌC PHẦN: 221TK0508 DANH SÁCH NHÓM: STT Tên MSSV Email 1 Lê Phan Ngọc Thiên An
K214040228 anlpnt21404a@st.uel.edu.v n 2 Trần Châu Anh
K214040229 anhtc21404a@st.uel.edu.vn 3 Trần Thanh Thảo
K214040270 thaott21404a@st.uel.edu.vn 4
Hồ Thị Thanh Thủy K214090637 thuyhtt21409@st.uel.edu.vn 5
Ngô Thị Thúy Hoa K214091871 hoantt21409@st.uel.edu.vn 2 lOMoAR cPSD| 46663874 I. MÔ TẢ DỮ LIỆU 1. Mô tả bộ dữ liệu:
- Bộ dữ liệu gồm 15 biến
- Bộ dữ liệu gồm 157 quan sát 2. Phân loại biến Tên biến Loại dữ liệu Chi tiết Thang đo Đơn vị Manufacturer Định tính
Không liên tục Định danh Không rời rạc Model Định tính
Không liên tục Định danh Không rời rạc
Sales_in_thousand Định lượng Liên tục Tỷ lệ Đơn vị đo tiền tệ s Vehicle_type Định tính
Không liên tục Định danh Không rời rạc
Price_in_thousands Định lượng Liên tục Tỷ lệ Đơn vị đo tiền tệ Engine_size Định lượng Liên tục Tỷ lệ Đơn vị đo độ dài Horsepower Định lượng Rời rạc Tỷ lệ Đơn vị đo công suất Wheelbase Định lượng Liên tục Tỷ lệ Đơn vị đo độ dài Width Định lượng Liên tục Tỷ lệ Đơn vị đo độ dài Length Định lượng Liên tục Tỷ lệ Đơn vị đo độ dài Curb_weight Định lượng Liên tục Tỷ lệ Đơn vị đo khối lượng Fuel_capacity Định lượng Liên tục Tỷ lệ Đơn vị đo thể tích Fuel_efficiency Định lượng Rời rạc Tỷ lệ Đơn vị đo hiệu suất Latest_Launch Định tính
Không liên tục Định danh Đơn vị đo thời Không rời rạc gian
Power_perf_factor Định lượng Liên tục Tỷ lệ Đơn vị đo hiệu suất 3 lOMoAR cPSD| 46663874
3. Mã hóa lại các thuộc tính của các biến định tính bằng các số
Mã hóa biến định tính Vehicle_type
Mã hóa biến Manufacturer Mã hóa biến Model 4 lOMoAR cPSD| 46663874 5 lOMoAR cPSD| 46663874 6 lOMoAR cPSD| 46663874 II.
MÔ TẢ CÁC BIẾN TRONG BỘ DỮ LIỆU
1. Lập các bảng tần số của từng biến sau: Manufacturer; Vehicle_type; Model. Hãy
cho nhận xét chi tiết về các bảng tần số trên.
Lập bảng tần số của biến Manufacturer 7 lOMoAR cPSD| 46663874
Nhìn vào bảng ta có thể thấy: Có tất cả 157 giá trị nhưng chỉ có 30 giá trị khác nhau.
- Dodge và Ford chiếm tần số cao nhất (11), chiếm tỉ lệ 7,01%.
- Thấp nhất là Infiniti và Jaguar có tần số là 1, chiếm tỉ lệ 0.64%.
- Các nhà sản xuất chủ yếu: Dodge, Ford, Chevrolet, Toyota, Mercedes-B
Lập bảng tần số của Vehicle_type
Nhìn vào bảng ta có thể thấy: Có tất cả 157 giá trị nhưng chỉ có 2 giá trị khác nhau
- Passenger có tần số 116 chiếm tỉ lệ 73.89%
- Car có tần số 41 chiếm tỉ lệ 26.11%
- Cho thấy số lượng passenger lớn hơn car nhiều (75 chiếc) 8 lOMoAR cPSD| 46663874
Bảng tần số của Model 9 lOMoAR cPSD| 46663874 10 lOMoAR cPSD| 46663874
Nhìn vào bảng tần số ta thấy: Có 157 giá trị khác nhau tương ứng 157 loại trong tổng số
157 giá trị. Mỗi giá trị có tần số bằng nhau (1) và chiếm tỉ lệ như nhau (0,64%).
2. Lập các bảng tần số đồng thời của: Sales_in_thousands theo Manufacturer-
Vehicle_type theo Manufacturer; Price_in_thousands theo Model. Hãy cho nhận
xét chi tiết về các bảng tần số trên.
Lập bảng tần số đồng thời của Sales_in_thousands theo Manufacturer
- Bảng Sales_in_thousands có quá nhiều giá trị nên trước tiên chia thành từng
khoảng bằng nhau. Dựa vào công thức h=(xmax+xmin)/k với k=(2n)1/3, tính ra được h=80 Sales_in_thousands_ Freq. Percent Cum. catergories 0 125 79.62 79.62 80 22 14.01 93.63 160 6 3.82 97.45 240 3 1.91 99.36 480 1 0.64 100.00 Total 157 100.00
- Bảng tần số đồng thời của Sales_in_thousands theo Manufacturer 11 lOMoAR cPSD| 46663874
Ta có thể thông qua bảng này biết được từng hãng xe có bao nhiều Model mang lại
doanh thu như thế nào. Các hãng ở đây đều có phần lớn dòng xe mang lại doanh
thu ở mức thấp nhất, doanh thu càng cao thì số dòng xe càng ít. Điển hình là chỉ
có Ford có dòng xe mang lại doanh thu ở mức cao nhất. Mercedes-B có nhiều
dòng xe nhất ở mức doanh thu thấp là 9 dòng, chiếm 5,73% trong tổng số.
Lập bảng tần số đồng thời của Vehicle_type theo Manufacturer
- Ở hầu hết các hãng thì dạng xe Passenger chiếm tỷ trọng cao hơn, vì vậy về tổng
số thì dạng xe Passenger sẽ chiếm phần lớn. Cụ thể dạng xe Car chiếm 26,11%
trong khi dạng xe Passenger chiếm 73,89%
- Hãng xe Chevrolet chiếm tỉ trọng xe Passenger nhiều nhất với 9 chiếc, trong khi
đó, hãng chiếm tỉ trọng xe Car cao nhất là Dodge với 6 chiếc.
Lập bảng tần số đồng thời của Price_in_thousands theo Model
- Bảng Price_in_thousands có quá nhiều giá trị nên trước tiên chia thành từng
khoảng bằng nhau. Dựa vào công thức h=(xmax+xmin)/k với k=(2n)1/3, tính ra được h=12. Price_in_thousands_ Freq. Percent Cum. catergories 0 5 3.23 3.23 12 76 49.03 52.26 24 41 26.45 78.71 36 22 14.19 92.90 12 lOMoAR cPSD| 46663874 48 3 1.94 94.84 60 5 3.23 98.06 72 2 1.29 99.35 84 1 0.65 100.00 Total 155 100.00
- Bảng tần số đồng thời của Price_in_thousands theo Model
Price_in_thousands_catergories Model 0 12 24 36 48 60 72 84 Total 3-Sep 0 0 1 0 0 0 0 0 1 5-Sep 0 0 1 0 0 0 0 0 1 3000GT 0 0 1 0 0 0 0 0 1 300M 0 0 1 0 0 0 0 0 1 323i 0 0 1 0 0 0 0 0 1 328i 0 0 1 0 0 0 0 0 1 4Runner0 1 0 0 0 0 0 0 1 528i 0 0 0 1 0 0 0 0 1 A4 0 1 0 0 0 0 0 0 1 A6 0 0 1 0 0 0 0 0 1 A8 0 0 0 0 0 1 0 0 1 Accent 1 0 0 0 0 0 0 0 1 Accord 0 1 0 0 0 0 0 0 1 Alero 0 1 0 0 0 0 0 0 1 Altima 0 1 0 0 0 0 0 0 1 Aurora 0 0 0 1 0 0 0 0 1 Avalon 0 0 1 0 0 0 0 0 1 Avenger0 1 0 0 0 0 0 0 1 Beetle 0 1 0 0 0 0 0 0 1 Bonneville 0 1 0 0 0 0 0 0 1 Boxter 0 0 0 1 0 0 0 0 1 Bravada0 0 1 0 0 0 0 0 1 Breeze 0 1 0 0 0 0 0 0 1 C-Class0 0 1 0 0 0 0 0 1 C70 0 0 0 1 0 0 0 0 1 CL500 0 0 0 0 0 0 0 1 1 CLK Coupe 0 0 0 1 0 0 0 0 1 CR-V 0 1 0 0 0 0 0 0 1 Cabrio 0 1 0 0 0 0 0 0 1 Camaro 0 0 1 0 0 0 0 0 1 Camry 0 1 0 0 0 0 0 0 1 Caravan0 1 0 0 0 0 0 0 1 Carrera Cabrio 0 0 0 0 0 0 1 0 1 Carrera Coupe 0 0 0 0 0 1 0 0 1 Catera 0 0 1 0 0 0 0 0 1 Cavalier 0 1 0 0 0 0 0 0 1 Celica 0 1 0 0 0 0 0 0 1 Century0 1 0 0 0 0 0 0 1 Cherokee 0 1 0 0 0 0 0 0 1 Cirrus 0 1 0 0 0 0 0 0 1 Civic 0 1 0 0 0 0 0 0 1 13 lOMoAR cPSD| 46663874 Concorde 0 1 0 0 0 0 0 0 1 Continental 0 0 0 1 0 0 0 0 1 14 lOMoAR cPSD| 46663874 0 0 0 1 0 0 0 1 Contour0 1 0 0 0 Corolla0 1 0 0 0 Corvette 0 0 0 1 0 0 0 0 1 Cougar 0 1 0 0 0 0 0 0 1 Crown Victoria 0 1 0 0 0 0 0 0 1 Cutlass0 1 0 0 0 0 0 0 1 Dakota 0 1 0 0 0 0 0 0 1 DeVille0 0 0 1 0 0 0 0 1 Diamante 0 0 1 0 0 0 0 0 1 Durango0 0 1 0 0 0 0 0 1 E-Class0 0 0 0 1 0 0 0 1 ES300 0 0 1 0 0 0 0 0 1 Eclipse0 1 0 0 0 0 0 0 1 Elantra1 0 0 0 0 0 0 0 1 Eldorado 0 0 0 1 0 0 0 0 1 Escalade 0 0 0 1 0 0 0 0 1 Escort 0 1 0 0 0 0 0 0 1 Expedition 0 0 0 1 0 0 0 0 1 Explorer 0 0 1 0 0 0 0 0 1 F-Series 0 0 1 0 0 0 0 0 1 Firebird 0 0 1 0 0 0 0 0 1 Focus 0 1 0 0 0 0 0 0 1 Forester 0 1 0 0 0 0 0 0 1 Frontier 0 1 0 0 0 0 0 0 1 GS300 0 0 0 1 0 0 0 0 1 GS400 0 0 0 1 0 0 0 0 1 GTI 0 1 0 0 0 0 0 0 1 Galant 0 1 0 0 0 0 0 0 1 Golf 0 1 0 0 0 0 0 0 1 Grand Am 0 1 0 0 0 0 0 0 1 Grand Cherokee 0 0 1 0 0 0 0 0 1 Grand Marquis 0 1 0 0 0 0 0 0 1 Grand Prix 0 1 0 0 0 0 0 0 1 I30 0 0 1 0 0 0 0 0 1 Impala 0 1 0 0 0 0 0 0 1 Integra0 1 0 0 0 0 0 0 1 Intrepid 0 1 0 0 0 0 0 0 1 Intrigue 0 0 1 0 0 0 0 0 1 Jetta 0 1 0 0 0 0 0 0 1 LHS 0 0 1 0 0 0 0 0 1 15 lOMoAR cPSD| 46663874 0 0 0 1 0 0 0 1 LS 0 1 0 0 0 0 0 0 1 LS400 0 0 0 0 1 0 0 0 1 LW 0 1 0 0 0 0 0 0 1 LX470 0 0 0 0 0 1 0 0 1 Land Cruiser 0 0 0 0 1 0 0 0 1 LeSabre0 0 1 0 0 0 0 0 1 Lumina 0 1 0 0 0 0 0 0 1 M-Class0 0 1 0 0 Malibu 0 1 0 0 0 Maxima 0 0 1 0 0 0 0 0 1 Metro 1 0 0 0 0 0 0 0 1 Mirage 0 1 0 0 0 0 0 0 1 Montana0 0 1 0 0 0 0 0 1 Monte Carlo 0 1 0 0 0 0 0 0 1 Montero0 0 1 0 0 0 0 0 1 Montero Sport 0 1 0 0 0 0 0 0 1 Mountaineer 0 0 1 0 0 0 0 0 1 Mustang0 1 0 0 0 0 0 0 1 Mystique 0 1 0 0 0 0 0 0 1 Navigator 0 0 0 1 0 0 0 0 1 Neon 0 2 0 0 0 0 0 0 2 Odyssey0 0 1 0 0 0 0 0 1 Outback0 1 0 0 0 0 0 0 1 Park Avenue 0 0 1 0 0 0 0 0 1 Passat 0 1 0 0 0 0 0 0 1 Passport 0 0 1 0 0 0 0 0 1 Pathfinder 0 0 1 0 0 0 0 0 1 Prizm 0 1 0 0 0 0 0 0 1 Prowler0 0 0 1 0 0 0 0 1 Quest 0 0 1 0 0 0 0 0 1 RAV4 0 1 0 0 0 0 0 0 1 RL 0 0 0 1 0 0 0 0 1 RX300 0 0 1 0 0 0 0 0 1 Ram Pickup 0 1 0 0 0 0 0 0 1 Ram Van0 1 0 0 0 0 0 0 1 Ram Wagon 0 1 0 0 0 0 0 0 1 Ranger 0 1 0 0 0 0 0 0 1 Regal 0 0 1 0 0 0 0 0 1 S-Class0 0 0 0 0 1 0 0 1 S-Type 0 0 0 1 0 0 0 0 1 S40 0 1 0 0 0 0 0 0 1 S70 0 0 1 0 0 0 0 0 1 S80 0 0 0 1 0 0 0 0 1 SC 0 1 0 0 0 0 0 0 1 16 lOMoAR cPSD| 46663874 Stratus0 1 0 0 0 0 0 0 1 0 0 0 1 Sunfire0 1 0 0 0 TL 0 0 1 0 0 0 0 0 1 Tacoma 1 0 0 0 0 0 0 0 1 Taurus 0 1 0 0 0 0 0 0 1 Town car 0 0 0 1 0 0 0 0 1 V40 0 0 1 0 0 0 0 0 1 V70 0 0 1 0 0 0 0 0 1 Villager 0 1 0 0 0 0 0 0 1 Viper 0 0 0 0 0 1 0 0 1 Voyager0 1 0 0 0 0 0 0 1 Windstar 0 1 0 0 0 0 0 0 1 Wrangler 0 1 0 0 0 0 0 0 1 Xterra 0 1 0 0 0 0 0 0 1 Total 5 76 41 22 3 5 2 1 155 SL 1 0 0 0 0 0 0 0 1 SL-Class 0 0 0 0 0 0 1 0 1 SLK 0 0 0 1 0 0 0 0 1 SLK230 0 0 0 1 0 0 0 0 1 SW 0 1 0 0 0 0 0 0 1 Sable 0 1 0 0 0 0 0 0 1 Sebring Conv. 0 0 1 0 0 0 0 0 1 Sebring Coupe 0 1 0 0 0 0 0 0 1 Sentra 0 1 0 0 0 0 0 0 1 Seville0 0 0 1 0 0 0 0 1 Sienna 0 1 0 0 0 0 0 0 1 Silhouette 0 0 1 0 0 0 0 0 1 Sonata 0 1 0 0 0 0 0 0 1
Giá xe của các hãng chủ yếu tập trung ở tầm giá 12000-24000-36000.
Mức giá chiếm tỉ trọng cao nhất là 12000 với 76 dòng xe giữ 49,03% trong tổng số.
Dòng xe có mức giá cao nhất là CL500 với tầm giá 84000.
3. Dùng đồ thị phù hợp mô tả tất cả các biến có trong bộ dữ liệu và cho nhận xét.
Biểu đồ Histogram của Manufacturer: Mã hóa biến: Lệnh thực hiện: 17 lOMoAR cPSD| 46663874 0 0 0 1 0 0 0 1 Kết quả thu được: 18 lOMoAR cPSD| 46663874 Nhận xét:
Manufacturer đa dạng, phân phối không đều và bị lệch.
Phân phối đạt đỉnh điểm (đạt Mode) tại một nhà chế tạo có tần số 27.
Biểu đồ Histogram của Sales_in_Thousands Lệnh thực hiện: Kết quả thu được: 19 lOMoAR cPSD| 46663874 Nhận xét:
- Sales_in_Thousands có tần số xuất hiện lớn nhất nằm sát bên phải của biểu đồ.
Giá trị này đạt Mode trong khoảng từ 0-50 với tần số 100.
- Theo đó, rất ít giá trị được xuất hiện về phía cuối của biểu đồ → đồ thị lệch trái rất nặng.
- Xuất hiện một giá trị lớn hơn 500, khiến cho Range của biểu đồ tăng lên → ảnh
hưởng đến đại lượng đo lường mức độ phân tán là Mean.
- Nhìn chung doanh số bán được có đa số hiệu suất rất kém và chỉ thỉnh thoảng xuất
hiện được một số lần doanh thu lớn mà thôi. Bởi đa số giá trị đều tập trung trong
khoảng doanh số nhỏ đầu tiên phía trái đồ thị.
Biểu đồ tròn của Vehicle_type Mã hóa dữ liệu: Lệnh thực hiện: 20