Nếu bạn sử dụng mô hình của bạn để dự đoán y, cho một giá trị của x, dự đoán của bạn là xác định và không nắm bắt được biến thay đổi trong các dữ liệu quan sát được. Xem trên phía bên phải của hình 3.5, đối với một giá trị cố định x = 5, có sự biến đổi trong thời gian trên trang web. Bạn muốn thu được biến đổi này trong mô hình của bạn, vì vậy cần bạn mở rộng mô hình của bạn để:
Ở đây, mới hạn được gọi là nhiễu (noisy), là những thứ mà bạn chưa tính được bởi các mối quan hệ bạn đã tìm ra cho đến nay. Nó cũng được gọi là sai số hạn (error term), ε đại diện cho các lỗi thực tế, sự khác biệt giữa các quan sát và đường hồi quy thực, là thứ bạn sẽ không bao giờ biết và chỉ có thể ước tính với βs của bạn.
Người ta thường thực hiện cho các mô hình giả định với nhiễu, được phân phối thông thường, được ký hiệu là:
Đó không phải là để nói rằng chúng ta không sử dụng hồi quy tuyến tính trong mô hình. Chúng tôi chỉ không đính kèm giả định "noise is normal" cho nó.
Với giả định trước đây về sự phân bố của nhiễu, mô hình này cho rằng, đối với bất kỳ giá trị nào của x, phân phối có điều kiện của y được cho bởi x là:
Vì vậy, với ví dụ trên, trong số các thiết lập của người có 5 người bạn mới trong tuần này, số lượng thời gian họ trên trang web có phân phối chuẩn với trung bình: * và một phương sai , và bạn đi để ước tính các thông số của bạn ,, từ dữ liệu.
Làm thế nào để bạn có lựa chọn phù hợp với mô hình này? Làm thế nào để bạn có được các thông số ,, từ dữ liệu ?
Vì vậy, những gì bạn có thể làm đối với dữ liệu quan sát để ước lượng sai sót của phương sai? Bây giờ bạn có đường ước tính, bạn có thể thấy, làm thế nào để cách xa các điểm dữ liệu quan sát được từ đường chính nó, và bạn có thể điều chỉnh những khác biệt này, còn được gọi là lỗi quan sát (observed errors) hoặc phần dư (residuals), hoặc ước tính của các lỗi thực tế εs.
Định nghĩa với i= 1, 2,…, n
Sau đó, ước tính phương sai của ϵ với công thức :
Điều này được gọi là sai số bình phương trung bình (mean squared error) và chiếm bao nhiêu giá trị dự đoán thay đổi từ quan sát. Sai số bình phương trung bình là một số lượng hữu ích cho bất kỳ vấn đề dự đoán nào. Trong hồi quy nói riêng, nó cũng là một ước lượng cho phương sai của bạn, nhưng nó có thể không phải luôn luôn được sử dụng hoặc giải thích theo cách đó. Nó xuất hiện trong các chỉ số đánh giá ở phần sau.
Đánh giá metrics
Chúng tôi hỏi trước đó, bạn có tự tin bạn sẽ có trong những ước tính và mô hình của bạn. Bạn có cặp giá trị đầu ra của hàm R, giúp bạn tự tin nhận được giá trị dự đoán: p và R-squared. Trở lại với mô hình của chúng tôi trong R, nếu chúng ta gõ vào summar(model), đó là tên chúng tôi đã cung cấp cho mô hình này, đầu ra sẽ là:
summary (model) Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-121.17 -52.63 -9.72 41.54 356.27
Coefficients:
Estimate Std. Error t value Pr(>|t|) (Intercept) -32.083 16.623 -1.93 0.0565 .
x 45.918 2.141 21.45 <2e-16 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 77.47 on 98 degrees of freedom Multiple R-squared: 0.8244, Adjusted R-squared: 0.8226 F-statistic:460 on 1 and 98 DF, p-value: < 2.2e-16
R-squared
Điều này có thể được giải thích như là tỷ lệ của phương sai bằng mô hình của chúng tôi. Lưu ý rằng sai số bình phương trung bình, là lỗi ở đó được chia cho tổng số lỗi, đó là tỷ lệ phương sai không giải thích được bằng mô hình của chúng tôi và chúng tôi tính toán trừ đi 1.
p-values
Nhìn vào các đầu ra, các ước số βs trong cột đánh dấu Estimate. Để xem các giá trị p, nhìn vào Pr> t. Chúng tôi có thể giải thích các giá trị trong cột này như sau: Chúng tôi đang làm cho một giả thuyết rằng βs là zero. Đối với bất kỳ β xác định, các giá trị p nhận được xác suất quan sát các dữ liệu mà chúng tôi quan sát, thu thập và kiểm tra số liệu thống kê mà chúng tôi thu được theo giả thuyết null. Điều này có nghĩa rằng nếu chúng ta có một giá trị p thấp, thì nó là rất khó để quan sát một thống kê kiểm tra như vậy theo giả thuyết, và hệ số là rất có khả năng là khác không.
Cross-validation
Một cách tiếp cận khác để đánh giá các mô hình như sau. Chia dữ liệu của chúng ta lên thành một tập huấn luyện và một bộ kiểm tra: 80% trong việc đào tạo và 20% trong các thử nghiệm. Lựa chọn với những mô hình trên tập huấn luyện, sau đó nhìn vào sai số bình phương trung bình trên tập kiểm tra và so sánh nó với trên tập huấn luyện. Hãy thực hiện so sánh này trên cỡ mẫu là tốt. Nếu sai số bình phương trung bình này là xấp xỉ như nhau, thì mô hình của chúng tôi khái quát tốt và chúng tôi không có nguy cơ overfitting. Hãy xem hình 3.6 để hiểu những gì có thể trông giống như vậy. Cách tiếp cận này là rất được khuyến khích.
Hình 1.6. So sánh lỗi bình phương trung bình trong huấn luyện và kiểm thử, lấy từ một slide của giáo sư Nando de Freitas
Các mô hình khác với các điều kiện lỗiCác sai số bình phương trung bình là một ví dụ về những gì được gọi là hàm mất mát (loss function). Đây là một trong những tiêu chuẩn để sử dụng trong hồi quy tuyến tính bởi vì nó mang lại cho chúng ta một biện pháp khá tốt của đo lường chặt chẽ ở sự phù hợp. Nó được bổ sung bằng để mô tả các thuộc tính mà εs được phân phối thông thường, chúng ta có thể dựa vào các nguyên tắc khả năng tối đa. Có những hàm mất mát khác như một dựa trên giá trị tuyệt đối chứ không phải là bình phương. Nó cũng có thể xây dựng các chức năng bị mất tùy chỉnh cụ thể cho vấn đề hay bối cảnh cụ thể của bạn, nhưng bây giờ.
Thêm dự đoán khác (Adding other predictors)
Những gì chúng ta trình bày ở trên, chỉ hồi quy tuyến tính đơn giản mà một kết quả hay biến phụ thuộc và một yếu tố dự báo. Nhưng chúng ta có thể mở rộng mô hình này bằng cách xây dựng trong dự đoán khác, được gọi là hồi quy tuyến tính đa biến (multiple linear regression):
Tất cả các môn toán mà chúng tôi đã làm trước khi nắm giữ bởi vì chúng tôi đã thể hiện nó trong ký hiệu ma trận, vì vậy nó đã được khái quát hóa để cung cấp cho các ước lượng thích hợp cho β. Trong ví dụ, chúng tôi đã đưa ra thời gian dành cho các trang web dự đoán, các chỉ báo khác có thể là tuổi tác và giới tính của người sử dụng, ví dụ.
Chúng ta sẽ khám phá lựa chọn tính năng hơn trong Chương 7, có nghĩa là việc chỉ ra các yếu tố dự báo bổ sung mà bạn muốn đưa vào mô hình của bạn. Mã R sẽ chỉ là:
model <- lm(y ~ x_1 + x_2 + x_3)
Hoặc để thêm vào trong tương tác giữa các biến:
model <- lm(y ~ x_1 + x_2 + x_3 + x2_*x_3)
Một vấn đề chính ở đây là làm cho các điểm phân tán của y đối với từng dự đoán cũng như giữa các yếu tố dự báo, và biểu đồ của y|x cho các giá trị khác nhau của từng dự đoán để giúp xây dựng trực giác. Như với hồi quy tuyến tính đơn giản, bạn có thể sử dụng cùng một phương pháp để đánh giá mô hình của bạn như đã mô tả: nhìn vào R2, giá trị p và sử dụng tập huấn luyện và tập kiểm thử.
Các phép biến đổi (Transformations)
Trở lại với một giá trị x và giá trị dự đoán y, tại sao chúng ta giả định một mối quan hệ tuyến tính? Thay vào đó, có thể, một mô hình tốt hơn sẽ là một mối quan hệ đa thức như thế này:
Quan hệ này, không phải là hồi quy tuyến tính? Thời gian qua, chúng tôi đã kiểm tra, đa thức không tuyến tính. Để nghĩ về nó như là tuyến tính, chúng ta chuyển đổi hoặc tạo ra các biến mới, ví dụ, z = x2 và xây dựng một mô hình hồi quy dựa trên z. Những biến đổi thông thường khác thường gặp là để có những bản ghi hoặc chọn một ngưỡng và biến nó thành một yếu tố dự báo nhị phân để thay thế.
Nếu bạn nhìn vào biểu đồ của thời gian so với số lượng bạn bè, hình dạng trông hơi cong. Bạn có khả năng có thể khám phá điều này hơn nữa bằng việc xây dựng một mô hình và kiểm tra để xem liệu điều này mang lại một sự cải tiến đáng kể nào không.
Những gì bạn đang phải đối mặt ở đây, mặc dù, là một trong những thách thức lớn nhất đối với một mô hình mẫu: bạn không bao giờ biết được sự thật. Có thể là các mô hình thực sự là bậc hai, nhưng bạn đang giả định tuyến tính hoặc ngược lại. Bạn làm tốt nhất những gì bạn làm để đánh giá các mô hình như đã thảo luận trước đó, nhưng bạn sẽ không bao giờ thực sự biết nếu bạn đang đúng. Ngày càng có nhiều dữ liệu đôi khi có thể giúp đỡ trong vấn đề này là tốt.
Ôn tập
Hãy xem xét các giả định, chúng tôi đã thực hiện khi chúng tôi xây dựng và lựa chọn phù hợp với mô hình của chúng tôi:
• Tính chất tuyến tính
• Lỗi thường được phân phối với trung bình bằng 0
• Lỗi độc lập lẫn nhau
• Lỗi có sai số không đổi thông qua giá trị của x
• Các yếu tố dự báo chúng tôi đang sử dụng là những dự đoán đúng
Khi nào và tại sao chúng ta thực hiện hồi quy tuyến tính? Chủ yếu là vì hai lý do:
• Nếu chúng ta muốn dự đoán một biến mà biết những thứ khác
• Nếu chúng ta muốn giải thích hay hiểu mối quan hệ giữa hai hay nhiều thứ
Bài tập
Để giúp hiểu và khám phá các khái niệm mới, bạn có thể mô phỏng bộ dữ liệu giả trong R. Ưu điểm của việc này là bạn " play God " bởi vì bạn thực sự biết sự thật cơ bản, và bạn có thể nhìn thấy như thế nào là tốt với mô hình của bạn là phục hồi sự thật.
Một khi bạn đã hiểu rõ hơn về những gì đang xảy ra với dữ liệu giả của bạn, sau đó bạn có thể chuyển sự hiểu biết của mình để trở thành thực tế. Chúng tôi sẽ chỉ cho bạn làm thế nào để mô phỏng một bộ dữ liệu giả ở đây, sau đó chúng tôi sẽ cung cấp cho bạn một số ý tưởng làm thế nào để khám phá nó hơn nữa:
# Simulating fake data
x_1 <- rnorm(1000,5,7) # from a normal distribution simulate
# 1000 values with a mean of 5 and
# standard deviation of 7
hist(x_1, col="grey") # plot p(x) true_error <- rnorm(1000,0,2) true_beta_0 <- 1.1
true_beta_1 <- -8.2
y <- true_beta_0 + true_beta_1*x_1 + true_error hist(y) # plot p(y)
plot(x_1,y, pch=20,col="red") # plot p(x,y)
1. Xây dựng một mô hình hồi quy và thấy rằng nó phục hồi các giá trị thực sự của βs.
2. Mô phỏng một biến giả có một phân phối Gamma với các thông số bạn thiết lập. Bây giờ làm cho sự thật được rằng y là một sự kết hợp tuyến tính của cả và . Phù hợp với một mô hình mà chỉ phụ thuộc vào . Điều chỉnh phù hợp với một mô hình mà chỉ phụ thuộc vào . Điều chỉnh phù hợp với một mô hình có sử dụng cả hai. Thay đổi kích thước mẫu và thực hiện vẽ đồ thị của các sai số bình phương trung bình của tập huấn luyện và thử nghiệm thiết so với kích thước mẫu.
3. Tạo một biến mới z, mà nó bằng . Bao gồm này là một trong những yếu tố dự báo trong mô hình của bạn. Hãy xem những gì sẽ xảy ra khi bạn phù hợp với một mô hình mà phụ thuộc vào chỉ và sau đó cũng trên z. Thay đổi kích thước mẫu và thực hiện vẽ đồ thị các sai số bình phương trung bình của tập huấn luyện và thử nghiệm thiết so với kích thước mẫu.
4. Xoay quanh việc thực hiện nhiều hơn bằng cách (a) thay đổi giá trị tham số (βs),
(b) thay đổi sự phân bố của các lỗi thực sự, và (c) bao gồm hơn dự đoán trong mô hình với các loại khác của các phân phối xác suất. (rnorm() có nghĩa là ngẫu nhiên tạo ra giá trị từ một phân phối chuẩn. rbinom() không giống nhau cho nhị thức. Vì vậy, xem thêm những các hàm trực tuyến và cố gắng tìm thêm.)
5. Tạo điểm phân tán của tất cả các cặp của các biến và biểu đồ của các biến số duy nhất.
» Tin mới nhất:
» Các tin khác: