Lecture 2- Data collection - Statistics for Business | Trường Đại học Quốc tế, Đại học Quốc gia Thành phố HCM

Lecture 2- Data collection - Statistics for Business | Trường Đại học Quốc tế, Đại học Quốc gia Thành phố HCM được sưu tầm và soạn thảo dưới dạng file PDF để gửi tới các bạn sinh viên cùng tham khảo, ôn tập đầy đủ kiến thức, chuẩn bị cho các buổi học thật tốt. Mời bạn đọc đón xem!

Prepared by Tr nh Ng c Nhân
I) Key concepts
- ng quan sát): a single member of a collection of items that we want to Observation (đối tượ
study, such as a person, firms, or region
- (bi n): Variable ế is a characteristic of the subject or individual, such as an employee’s
income or an invoice amount
- p d u) consists of all the vData set (t li alues of all of the variables for all of the
observations we have chosen to observe
- c kì quan tr ng vì cho thi mid nha m i :DD)Type of data (c ọi ngườ
- Qualitative (categorical) data nh tính). Th ng kê thông qua c(d liệu đị TÍNH CHT a
s vi c (đẹp, x u, cao, th ) (ví d : Mình mu n kh o sát các b n v khó c ấp, đực cái, … độ a
môn Stat này. Mình s phát cho các b n m i m t t gi các b n t vi t nh ng cái ỗi ngườ ấy để ế
khó khăn mà mình gặ ựa vào đó đểp phi ra. Mình s d tng hp và giúp các bn pass môn
này A+)
- Numerical data (Quantitative): Mô t b ng s - thay vì d a vào tính ch t s vi c thì mình
s d a vào nh ng Pass môn Statistic. Thay vì mình h i ý ki n CON S để đánh giá (Vd nhé: ế
các b n v khó môn Stat, mình s vào s m c a các b bu c, độ căn cứ điể ạn (vd như số ổi đi họ
điể m quiz, m mid, điểm bonus, điể -> T này, mình scơ sở ng giđưa ra nhữ i pháp phù
h n.ợp để h tr các b )
+ Discrete data (d u r i r : n nh ng giá tr c ch n, r i r c (có th li c) Nh ch đếm được)
Vd: Con ngườ ệng, … Không thể nào mà con người có 2 mt, 2 chân, 2 tay, 1 cái mi i có 2,5
cái chân được đúng hong mọi người =))))
+ Continuous data (d u liên t c): Có th nh n các giá tr b t k trong m t kho ng xác li
định.
Vd: Hi n t i cân n ng c a mình là 61.2 kg, chi u cao c a mình là 1m64 ch ng h n (mình vd
thôi nhá)
Prepared by Tr nh Ng c Nhân
=> Maybe các b n s b m c l i này. Ví d , trong m t cu c ph ng v n khách hàng s d ng
dch v thanh toán ca BIDV, các bn hãy chn mt trong nhng cách th c sau b ng cách
ch n s :
1. Team “Tiền mặt”- Mình ch thích ti n m t thôi
2. Team “Cheque” kí mình đẹ- Xài tin mt làm gì, cm t giy kí phát thôi. Ch p mà :PP
3. Team “Quẹ còn đi làm t thẻ”- Qut cho l để vic khác =)))
Hãy ch n s mà các b n thích. N u các b n phân lo i d u này thành numerical thì xin ế li
chúc m ng, b i con s là m i di n cho m i cách ạn đã quay vào ô 0đ =))) Lưu ý mỗ ột cách đạ
thanh toán, nên data type là Categorical data nhé!!
Time series data: If each observation in the sample represents a different equally spaced
point in time (years, months, days) (là nh ng d c th c hi n và th ng kê trong liệu đượ
cùng m t kho ng th nh) ời gian xác đị
Cross sectional data: each observation represents a different individual unit (e.g., a person,
firm, geographic area) at the same point in time nghiên c u ( thu th p d u ch m t l li n
duy nh t c ng ngay t i th ủa các đối tượ ời điểm đó)
Prepared by Tr nh Ng c Nhân
Nominal data ( ): t, hay nó còn g nh tính á thang đo danh nghĩa ch dùng để đo tính chấ ọi là đị
:> Ví d : Nam, n , x p, t l n n a thì tránh b dính l i s hay tính ch t nha m ấu, đẹ … Mộ i
người :D
Ordinal data (thang đo thứ ệt đượ kém, nhưng bc): Các bn có th d dàng phân bi c s hơn-
không bi ng cách th c s gi a chúng. ết được kho
Vd: Ch n m t trong các s làm rõ vi c các b nào? sau để ạn có trình độ đi học như thế
1. u h c Ti
2. Trung h ọc cơ sở
3. Trung h c ph thông
4. i h c Đạ
Vi câu hi này, các bn rõ ràng phân bi c là c l THPT ệt đượ trình độ Đại h ớn hơn trình độ
nhưng mà không cách nào phân biệt được là hơn bao nhiêu (đơn giả ọi ngườ n thì m i kiu biết
nó cao hơn á, nhưng mà nào rõ ràng được là nó cao hơn bao nhiêu)không th .
Interval data (thang đo khoả Thông thường): ng interval data có dng là mt dãy các ch s
liên t n t n 5 ho n 7. c bi m 0 ục và đều đặ 1 đế c 1 đế Đặ ệt là Điể thang đo này là vô nghĩa.
Vd nhé: các b n hãy cho bi t y u t n cu c s ng c a m ế ế nào tác động đế ột người:
Không quan
trng
Không quá
quan tr ng
Bình thường
Quan tr ng
Cc kì quan
trng
Có nhi u s c
khe
1
2
3
4
5
=> Interval data có th t d được xem như là mộ ng đặc bit ca ordinal data. Tuy nhiên thì
mọi ngườ dàng hơn trong việ ấy đượi có th d c th c khong cách gia các tính cht.
Ratio data (s 0 Có t t c m i tính ch t c trên. thang đo này là có nghĩa nhé): ủa thang đo ở
Vd: Các b n vui lòng cho bi t thu nh p hàng tháng c a mình ế ?
1. 15tr
2. 30tr
3. 60tr
=> Các b n có th d dàng k t lu n là i ch n s 1 có thu nh 2 l n n s ế ngườ ập ít hơn người ch
2, ít hơn 4 lần người chn s 3.
Tips phân bi t:
B1: n bi t xem n c rank hay không Nh ế ó ó
B2: Xem ranking c ngh a không. N u c -> ratio ho c interval ó ý ĩ ế ó
B3: N u gi không th i không -> Ratio. N u gi cế á tr đó dướ ế á tr ó th xu i 0 => ống dướ
interval
Prepared by Tr nh Ng c Nhân
Sample vs census:
Sample là vi c các b n quan sát m ng c ch n ra trong m t population. ột vài đối tượ đượ
Census là vi c các b n nghiên c u t t c ng trong m t population. đối tượ
II) Exercise
Question 1: A survey by an electric company contains questions on the following:
1. Age of household head.
2. Sex of household head.
3. Number of people in household.
4. Use of electric heating (yes or no).
5. Number of large appliances used daily.
6. Thermostat setting in winter.
7. Average number of hours heating is on.
8. Average number of heating days.
9. Household income.
10. Average monthly electric bill.
11. Ranking of this electric company as compared with two previous electricity suppliers.
Describe the variables implicit in these 11 items as quantitative or qualitative, and describe
the scales of measurement.
-> Sample solution
1. quantitative/ratio
2. qualitative/nominal
3. quantitative/ratio
4. qualitative/nominal
5. quantitative/ratio
6. quantitative/interval
7. quantitative/ratio
8. quantitative/ratio
9. quantitative/ratio
10. quantitative/ratio
11. quantitative/ordinal
Prepared by Tr nh Ng c Nhân
Question 2: Below are questions from a survey of MBA students. Answers were written 15
in the blank at the left of each question. For each question, state the data type (categorical,
discrete numerical, or continuous numerical) and measurement level (nominal, ordinal,
interval, ratio). Explain your reasoning. If there is doubt, discuss the alternatives
1) What is your gender? (Male 5 0, Female 5 1)
2) What is your approximate undergraduate college GPA? (1.0 to 4.0)
3) About how many hours per week do you expect to work at an outside job this semester?
4) What do you think is the ideal number of children for a married couple?
5) On a 1 to 5 scale, which best describes your parents?
1 = = Father clearly dominant Mother clearly dominant ↔ 5
6) On a 1 to 5 scale, assess the current job market for your undergraduate major.
1 = = Very good Very bad ↔ 5
7) During the last month, how many times has your schedule been disrupted by car trouble?
8) About how many years of college does the more-educated one of your parents have?
(years)
9) During the last year, how many traffic tickets (excluding parking) have you received?
10) Which political orientation most nearly fits you? (1 = Liberal, 2 Middle-of-Road, 3 = =
Conservative)
11) What is the age of the car you usually drive? (years)
12) About how many times in the past year did you attend formal religious services?
13) How often do you read a daily newspaper? (0 = Never, 1 = Occasionally, 2 = Regularly)
14) Can you conduct simple transactions in a language other than English? (0 = No, 1 = Yes)
15) How often do you exercise (aerobics, running, etc)? (0 = Not at All, 1 = Sometimes, 2 =
Regularly)
-> Solution tham kh o
1) Categorical, nominal
2) Continuous, ratio
3) Continuous, ratio
4) Discrete, ratio
5) Categorical, ordinal
6) Categorical, ordinal
Prepared by Tr nh Ng c Nhân
7) Discrete, ratio
8) Continuous, ratio
9) Discrete, ratio
10) Categorical, ordinal
11) Continuous, ratio.
12) Discrete, ratio.
13) Categorical, ordinal.
14) Categorical, nominal.
15) Categorical, ordinal.
Question 3: Identify the following data as either time series or cross-sectional.
a. The number of rooms booked each night for the month of January 2014 at a Vail Resorts
hotel.
b. The amount spent on books at the start of this semester by each student in your statistics
class.
c. The number of Caesar salads sold for the week of April 19, 2014, at each Noodles &
Company restaurant.
d. The stock price of Coca-Cola Enterprises on May 1st for each of the last 10 years
=> Solution:
a. time series
b. cross-sectional
c. cross-sectional
d. time series
| 1/6

Preview text:

Prepared by Trịnh Ngọc Nhân I) Key concepts
- Observation (đối tượng quan sát): a single member of a collection of items that we want to
study, such as a person, firms, or region
- Variable (biến): is a characteristic of the subject or individual, such as an employee’s income or an invoice amount
- Data set (tập dữ liệu) consists of all the values of all of the variables for all of the
observations we have chosen to observe
- Type of data (cực kì quan tr ng vì ọ
cho thi mid nha mọi người :DD)
- Qualitative (categorical) data (dữ liệu định tính). Th ng kê thông qua ố
TÍNH CHT của
sự việc (đẹp, xấu, cao, thấp, đực cái, …) (ví d : ụ Mình mu n kh ố
ảo sát các bạn về khó c độ ủa
môn Stat này. Mình sẽ phát cho các bạn mỗi người m t
ộ tờ giấy để các bạn tự viết nh ng cái ữ
khó khăn mà mình gặp phải ra. Mình sẽ ựa vào đó để d
tổng hợp và giúp các bạn pass môn này A+)
- Numerical data (Quantitative): Mô tả bằng s -
ố thay vì dựa vào tính chất s vi ự ệc thì mình sẽ d a
ự vào những CON SỐ để đánh giá (Vd nhé: Pass môn Statistic. Thay vì mình h i ỏ ý kiến
các bạn về độ khó môn Stat, mình sẽ căn cứ vào số m điể c a
ủ các bạn (vd như số bu c ổi đi họ , điểm quiz, m
điểm bonus, điể mid, … -> Từ nà cơ sở y, mình sẽ ng gi đưa ra nhữ ải pháp phù
hợp để hỗ trợ các bạn.)
+ Discrete data (dữ liệu rời rạc :
) Nhận những giá trị chắc chắn, rời rạc (có thể đếm được )
Vd: Con người có 2 mắt, 2 chân, 2 tay, 1 cái miệng, … Không thể nào mà con ngườ i có 2,5
cái chân được đúng hong mọi người =))))
+ Continuous data (dữ liệu liên tục): Có thể nhận các giá trị bất k t ỳ rong một khoảng xác định.
Vd: Hiện tại cân nặng của mình là 61.2 kg, chiều cao của mình là 1m64 chẳng hạn (mình vd thôi nhá)
Prepared by Trịnh Ngọc Nhân
=> Maybe các bạn sẽ bị mắc l i ỗ này. Ví d , t ụ rong một cu c ộ ph ng v ỏ ấn khách hàng s d ử ng ụ
dịch vụ thanh toán của BIDV, các bạn hãy chọn một trong những cách thức sau bằng cách chọn số:
1. Team “Tiền mặt”- Mình chỉ thích tiền mặt thôi
2. Team “Cheque”- Xài tiền mặt làm gì, cầm tờ giấy kí phát thôi. Chữ kí mình đẹ p mà :PP
3. Team “Quẹt thẻ”- Quẹt cho lẹ để còn đi làm việc khác =))) Hãy ch n s ọ m
ố à các bạn thích. Nếu các bạn phân loại d
ữ liệu này thành numerical thì xin chúc m ng, b ừ
ạn đã quay vào ô 0đ =))) Lưu ý mỗi con s l
ố à một cách đại diện cho m i ỗ cách
thanh toán, nên data type là Categorical data nhé!!
Time series data: If each observation in the sample represents a different equally spaced
point in time (years, months, days) (là nhng d li c
ệu đượ thc hin và th ng kê trong cùng m t
khong thời gian xác định)
Cross sectional data: each observation represents a different individual unit (e.g., a person,
firm, geographic area) at the same point in time (nghiên c u ứ thu th p
d liu ch m t ln
duy nht của các đối tượng ngay t i
thời điểm đó)
Prepared by Trịnh Ngọc Nhân
Nominal data (thang đo danh nghĩa): chỉ dùng để t
đo tính chấ , hay nó còn gọi là định tính á :> Ví dụ: Nam, n , x
ữ ấu, đẹp, … Một lần nữa thì tránh bị dính l i ỗ s ha ố y tính chất nha mọi người :D
Ordinal data (thang đo thứ bậc): Các bạn có thể dễ dàng phân biệt được sự hơn- kém, nhưng
không biết được khoảng cách thực s gi ự a ữ chúng. Vd: Ch n m ọ t
ộ trong các số sau để làm rõ việc các b
ạn có trình độ đi học như thế nào? 1. Tiểu h c ọ 2. Trung học cơ sở 3. Trung học ph t ổ hông 4. i Đạ học
Với câu hỏi này, các bạn rõ ràng phân biệt được là trình độ Đại h c ọ l T ớn hơn trình độ HPT
nhưng mà không cách nào phân biệt được là hơn bao nhiêu (đơn giả
n thì mọi người kiểu biết
nó cao hơn á, nhưng mà không thể nào rõ ràng được là nó cao hơn bao nhiêu) .
Interval data (thang đo khoảng): Thông thường interval data có dạng là một dãy các chữ số
liên tục và đều đặn từ 1 đến 5 hoặc 1 đến 7. c
Đặ biệt là Điểm 0 ở thang đo này là vô nghĩa.
Vd nhé: các bạn hãy cho biết yếu t
ố nào tác động đến cu c ộ s ng c ố a ủ một người: Không quan Không quá ọ Cực kì quan trọng quan tr ng ọ Bình thường Quan tr ng trọng Có nhiều sức 1 2 3 4 5 khỏe
=> Interval data có thể được xem như là một dạng đặc biệt của ordinal data. Tuy nhiên thì
mọi người có thể dễ dàng hơn trong việ
c thấy được khoảng cách giữa các tính chất.
Ratio data (số 0 ở thang đo này là có nghĩa nhé): Có tất cả m i ọ tính chất c t ủa thang đo ở rên.
Vd: Các bạn vui lòng cho biết thu nhập hàng tháng c a ủ mình? 1. 15tr 2. 30tr 3. 60tr
=> Các bạn có thể dễ dàng kết luận là người ch n s ọ 1 có t ố
hu nhập ít hơn 2 lần người ch n s ọ ố
2, ít hơn 4 lần người chọn số 3.
Tips phân bit:
B1: Nhận biết xem n c ó ó rank hay không B2: Xem ranking có ngh ý ĩa không. Nếu c - ó > ratio hoặc interval
B3: Nếu giá trị không th đó
ể dưới không -> Ratio. Nếu giá trị có thể xuống dưới 0 => interval
Prepared by Trịnh Ngọc Nhân Sample vs census:
Sample là việc các bạn quan sát m ng ột vài đối tượ được ch n r ọ a trong m t ộ population.
Census là việc các bạn nghiên cứu tất cả đối tượng trong m t ộ population. II) Exercise
Question 1: A survey by an electric company contains questions on the following: 1. Age of household head. 2. Sex of household head.
3. Number of people in household.
4. Use of electric heating (yes or no).
5. Number of large appliances used daily.
6. Thermostat setting in winter.
7. Average number of hours heating is on.
8. Average number of heating days. 9. Household income.
10. Average monthly electric bill.
11. Ranking of this electric company as compared with two previous electricity suppliers.
Describe the variables implicit in these 11 items as quantitative or qualitative, and describe the scales of measurement.
-> Sample solution 1. quantitative/ratio 2. qualitative/nominal 3. quantitative/ratio 4. qualitative/nominal 5. quantitative/ratio 6. quantitative/interval 7. quantitative/ratio 8. quantitative/ratio 9. quantitative/ratio 10. quantitative/ratio 11. quantitative/ordinal
Prepared by Trịnh Ngọc Nhân
Question 2: Below are 15 questions from a survey of MBA students. Answers were written
in the blank at the left of each question. For each question, state the data type (categorical,
discrete numerical, or continuous numerical) and measurement level (nominal, ordinal,
interval, ratio). Explain your reasoning. If there is doubt, discuss the alternatives
1) What is your gender? (Male 5 0, Female 5 1)
2) What is your approximate undergraduate college GPA? (1.0 to 4.0)
3) About how many hours per week do you expect to work at an outside job this semester?
4) What do you think is the ideal number of children for a married couple?
5) On a 1 to 5 scale, which best describes your parents?
1 = Mother clearly dominant ↔ 5 = Father clearly dominant
6) On a 1 to 5 scale, assess the current job market for your undergraduate major.
1 = Very bad ↔ 5 = Very good
7) During the last month, how many times has your schedule been disrupted by car trouble?
8) About how many years of college does the more-educated one of your parents have? (years)
9) During the last year, how many traffic tickets (excluding parking) have you received?
10) Which political orientation most nearly fits you? (1 = Liberal, 2 = M iddle-of-Road, 3 = Conservative)
11) What is the age of the car you usually drive? (years)
12) About how many times in the past year did you attend formal religious services?
13) How often do you read a daily newspaper? (0 = Never, 1 = Occasionally, 2 = Regularly)
14) Can you conduct simple transactions in a language other than English? (0 = No, 1 = Yes)
15) How often do you exercise (aerobics, running, etc)? (0 = Not at All, 1 = Sometimes, 2 = Regularly)
-> Solution tham kh o ả 1) Categorical, nominal 2) Continuous, ratio 3) Continuous, ratio 4) Discrete, ratio 5) Categorical, ordinal 6) Categorical, ordinal
Prepared by Trịnh Ngọc Nhân 7) Discrete, ratio 8) Continuous, ratio 9) Discrete, ratio 10) Categorical, ordinal 11) Continuous, ratio. 12) Discrete, ratio. 13) Categorical, ordinal. 14) Categorical, nominal. 15) Categorical, ordinal.
Question 3: Identify the following data as either time series or cross-sectional.
a. The number of rooms booked each night for the month of January 2014 at a Vail Resorts hotel.
b. The amount spent on books at the start of this semester by each student in your statistics class.
c. The number of Caesar salads sold for the week of April 19, 2014, at each Noodles & Company restaurant.
d. The stock price of Coca-Cola Enterprises on May 1st for each of the last 10 years => Solution: a. time series b. cross-sectional c. cross-sectional d. time series