Machine Learning cho dữ liệu dạng bảng
Lời nói đầu
Giới thiệu
Đặc điểm của dữ liệu dạng bảng
Machine Learning pipeline
Tại sao cần xây dựng pipeline
Thư viện tabml đi kèm cuốn sách
Pipeline đơn giản cho cuộc thi Titanic
Bố cục cuốn sách
Các bộ dữ liệu sử dụng trong sách
Kỹ thuật xử lý dữ liệu
Phân tích Khám phá Dữ liệu - EDA
Mục đích của EDA
EDA cho dữ liệu Titanic
EDA cho dữ liệu California Housing
Pandas profiling
Làm sạch dữ liệu
Xử lý các giá trị ngoại lệ
Xử lý dữ liệu bị khuyết
Đặc trưng hạng mục (WIP)
Mã hóa one-hot
Hashing
Crossing
Đặc trưng dạng số (WIP)
Embedding
Embedding
Word2vec
Instacart Product2vec
Hệ thống gợi ý
Hệ thống gợi ý
Bộ dữ liệu MovieLens-1M
Hệ thống dựa trên nội dung
Matrix Factorization
Factorization machine
Đóng góp từ tác giả khác
Dữ liệu chuỗi thời gian
Decision Tree algorithm
Random Forest algorithm
Phụ lục
Minh họa dữ liệu
.ipynb
.md
.pdf
repository
open issue
suggest edit
Binder
Đặc trưng dạng số (WIP)
¶
Crossing
Embedding