I. Khái niệm

"Đoàn kết là mức độ mạnh". Tôi lần chần câu này lộ diện ở đâu khi nào tuy vậy này lại tổng quan ý tưởng của cách tiến hành Ensemble vào Machine Learning.

Bạn đang xem: Ensemble là gì

Lấy ví dụ gắng này, bạn có 1 model mà lại cổng output của Mã Sản Phẩm kia không tốt đề nghị chúng ta demo những model khác. Sau Lúc kiếm được Mã Sản Phẩm ưng ý cùng "chắc rằng bao gồm xác", bạn lại cần chỉnh chỉnh sửa sửa trường đoản cú thuật toán thù đến hyperparameter để mô hình đạt độ đúng chuẩn cao nhất. Tất cả đều bài toán nói bên trên sẽ ngốn của người tiêu dùng một đống thời gian vì bạn buộc phải chạy từng Model một, thế nên nhằm nkhô cứng rộng bạn phối hợp đều Mã Sản Phẩm "học tập yếu" này lại nhằm tạo thành một Model "học mạnh" hơn, bên cạnh đó công dụng nhận được cũng giỏi hơn đối với từng Model một.

Để phát âm sâu thêm, họ đang nắm rõ định nghĩa quy mô "yếu" và "mạnh".

Lúc làm các bài xích toán thù về phân nhiều loại (classification) giỏi hồi quy (regression), vững chắc ai ai cũng biết phần quan trọng đặc biệt độc nhất vô nhị là gạn lọc Mã Sản Phẩm. Việc lựa chọn này dựa vào nhiều yếu đuối tố: con số data, điểm sáng data (số chiều, phân phối), v.v...Từ đó ta sẽ sở hữu được đối sánh tương quan thân data và Model (bias-variance tradeoff) aka (mối quan hệ đánh thay đổi thân bias cùng variance). Ok, tôi sẽ không đi cụ thể định nghĩa này bởi nó cũng ngốn kha khá thời gian, những bạn có thể tham khảo ở chỗ này (https://forums.machinelearningcoban.com/t/moi-quan-he-danh-doi-giua-bias-va-variance/4173).

Nói tầm thường là không tồn tại một Model như thế nào hoàn hảo và tuyệt vời nhất khi đi cô quạnh vì quy tắc tradeoff trên, những Mã Sản Phẩm này có điểm yếu kém rõ ràng nhỏng bao gồm cái bị high bias (Model dự đoán thù không nên so với cái giá trị thực tiễn rất nhiều) xuất xắc bao gồm cái bị high variance (đoán đúng trên cỗ tài liệu train nhưng mà tạch với cỗ dữ liệu không chạm mặt bao giờ), yêu cầu chúng đều bị Điện thoại tư vấn là "yếu". Vậy tại vì sao ta không phối kết hợp những model "yếu" để tạo nên một model "mạnh" đúng cùng với câu " 3 cây chụm lại bắt buộc hòn núi cao" để sút bias / variance.

II. Kết đúng theo các Mã Sản Phẩm "yếu" như thế lào ???

Ok, Tóm lại là tôi tất cả một đụn Model "yếu" với tôi ao ước kết hợp thành một Model "mạnh", tác dụng rộng. Vậy tôi đề xuất follow quá trình sau:

First, lựa chọn model đang làm cho base mã sản phẩm cho cả thuật toán thù. Thường thì một Mã Sản Phẩm sẽ được lựa chọn ra (ví dụ là Decision Tree), ta lại yêu cầu các mô hình "yếu" đề xuất ta cần tăng số lượng model nên cần sử dụng lên => ta bao gồm n model Decision Tree Bagging: Xây dựng một lượng mập những Model (thường xuyên là thuộc loại) bên trên phần lớn subsamples khác nhau trường đoản cú tập training datamix (random sample trong 1 dataphối để chế tạo ra 1 dataphối mới). Những Mã Sản Phẩm này sẽ tiến hành train tự do với tuy vậy tuy nhiên với nhau nhưng mà áp ra output của chúng sẽ tiến hành mức độ vừa phải cùng khiến cho ra hiệu quả ở đầu cuối.Boosting: Xây dựng một lượng béo các mã sản phẩm (thường xuyên là thuộc loại). Mỗi model sau sẽ học tập phương pháp sửa những errors của Model trước (tài liệu mà lại Mã Sản Phẩm trước dự đoán thù sai) -> tạo ra thành một chuỗi những Model cơ mà Mã Sản Phẩm sau sẽ tốt rộng Model trước vị trọng số được update qua từng mã sản phẩm (rõ ràng sinh hoạt đấy là trọng số của những dữ liệu dự đoán thù đúng sẽ không thay đổi, còn trọng số của những tài liệu dự đoán không đúng sẽ tiến hành tăng thêm) . Chúng ta vẫn mang hiệu quả của Model sau cùng vào chuỗi Mã Sản Phẩm này làm hiệu quả trả về (do Model sau vẫn giỏi hơn Mã Sản Phẩm trước đề xuất giống như kết quả sau cũng sẽ xuất sắc rộng kết quả trước).

Xem thêm: Chuyên Mục : 12 Chòm Sao Là Ai Trong Anime /Manga? 12 Chòm Sao Là Ai Trong Anime/Manga

Stacking: Xây dựng một vài model (thường là không giống loại) và một meta Mã Sản Phẩm (supervisor model), train phần đa mã sản phẩm này tự do, kế tiếp meta Model vẫn học biện pháp kết hợp công dụng dự báo của một trong những quy mô một bí quyết cực tốt.

Trong 3 biến chuyển thể trên thì Bagging góp ensemble model giảm variance. Còn Boosting với Stacking triệu tập vào việc sút bias (cũng giảm cả variance).

Tiếp Từ đó, tôi vẫn giới thiệu cụ thể hơn về Bagging, còn Boosting với Stacking thì trong phần tiếp theo

*

Tương ứng cùng với L cỗ tài liệu là L mã sản phẩm "yếu".

w1(.),w2(.),...,wL(.)eginalignedw_1(.), w_2(.), ..., w_L(.)endalignedw1​(.),w2​(.),...,wL​(.)​

Kết hòa hợp các mã sản phẩm này lại, ta được một mã sản phẩm mới táo bạo rộng. Với số đông vấn đề khác biệt, như regression, áp ra output của những model "yếu" sẽ tiến hành trung bình cộng, kết quả này đang là cổng output của model "mạnh". Còn cùng với classification, class đầu ra output của từng một mã sản phẩm "yếu" sẽ được coi là 1 vote và class cơ mà cảm nhận số vote nhiều tuyệt nhất đã là đầu ra của Model "mạnh" (bí quyết này call là hard-voting). Trong ngôi trường thích hợp Mã Sản Phẩm "yếu" dự đoán xác suất của tất cả class thì ta công thêm trung bình cùng của Tỷ Lệ của từng class rồi rước Xác Suất có giá trị lớn số 1 (giải pháp này gọi là soft-voting).

*

Cuối thuộc, nhằm chốt phần lý thuyết cùng sang trọng phần code, tôi đang đã cho thấy một trong những tiện ích mà bagging mang về, đó là tính tuy vậy song. Nhỏng hình bên dưới, bạn sẽ thấy phần core của bagging rất nhiều là quá trình song song đề xuất nếu bạn có nhỏ máy khỏe khoắn, bạn có thể train từng model tuy vậy tuy vậy cùng nhau cùng cuối cùng tổng vừa lòng cổng output của các model này lại.

*

Code of Bagging

Thật may mang đến họ, tlỗi viện sklearn vẫn hỗ trợ các đồ vật cho tận răng

*

III. End

Tôi sẽ hoàn thành phần 1 nội dung bài viết tại đây, phần 2 vẫn tập trung vào boosting với stacking. Nếu bao gồm gì không đúng sót thì nên góp ý nhé. Bài viết bên trên dựa trên ý hiểu của tôi và bao gồm một phần dịch lại sau khoản thời gian tham khảo một cơ số nội dung bài viết bên trên medium, blog, v.v... Nếu bạn muốn có tầm nhìn tổng quan lại hơn thế thì nên xem thêm các links tiếp sau đây.

Source

https://towardsdatascience.com/ensemble-methods-bagging-boosting-and-stacking-c9214a10a205

Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *