Bố cục cuốn sách¶
Dự tính, cuốn sách sẽ gồm các phần chính sau đây:
Kỹ thuật xử lý dữ liệu: tập trung đi sâu vào các bước trong khối “Data Preparation”. Các kỹ thuật phân tích, làm sạch dữ liệu và tạo đặc trưng sẽ được đề cập. Một thư viện python về toàn bộ pipeline xây dựng đặc trưng cũng sẽ được giới thiệu. Đây là thư viện đi kèm với cuốn sách; tại thời điểm viết những dòng này, thư viện đó chưa được công bố.
Các mô hình Machine Learning: giải thích những họ mô hình machine learning khác nhau phù hợp với giới thiệu dạng bảng. Có hai nhóm mô hình chính sẽ được đề cập là mô hình dạng Cây Quyết Định (Decision Tree) và các mô hình Deep Learning.
Phân tích mô hình: thảo luận những vấn đề cần lưu ý khi phân tích mô hình.
Tabml Pipeline: giới thiệu một pipeline mà tôi đã sử dụng trong nhiều bài toán với dữ liệu dạng bảng khác nhau. Pipeline này sẽ giúp việc phát triển mô hình trở nên ít tốn công hơn và có thể dễ dàng thay đổi với nhưng loại bài toán cũng như những mô hình khác nhau.
Ngoài các phần thiên về lý thuyết chung trên đây, những bài toán phổ biến sẽ được đề cập:
Hệ thống gợi ý
Hệ thống xếp hạng
Dự đoán lượng mua
Thêm vào đó, những kiến thức toán và lập trình cần thiết có thể sẽ được đề cập trong một phần riêng.