>>Giải thích khái niệm incomplete space:
Không gian được sử dụng để hình thành giả thuyết là không gian không
đủ, bởi vì nó là tập con của tập không gian đầy đủ X ( đó cũng liên
quan đến khái niệm inductive bias được gọi là language bias hoặc
restriction bias).
Cụ thể tập dữ liệu huấn luyện phải thõa các tính chất sau:
1. Không chứa dữ liệu chứa lỗi:
+ Phân loại sai.
+ Giá trị thuộc tính sai.
+ Giá trị thuộc tính thiếu.
2. Hàm mục tiêu ( đại ý giới hạn dữ liệu huấn luyện) phải nằm bên
trong không gian H ( tức là không gian giả thuyết đang xem xét).
>>Search completely: dựa trên cơ sở không gian đó, CE ( và find-S) sẽ thực hiện duyệt qua tất cả các phần tử một cách độc lập để tạo giả thuyết (vét cạn) mà không quan tâm đến thứ tự sắp xếp của chúng.
B> ID3 searches complete space incompletely
>> ID3 có thể thực hiện việc tìm kiếm và hình thành cây trên vùng không gian bất kì (bao gồm dữ liệu lổi và không cần thiết phải nằm trong H).
>> Searches incompletely
Đây cũng là cơ sở để gọi DT là inductive bias (reference bias hay
search bias).
Chiến lượt tìm kiếm của DT sỡ dĩ gọi là incomplete bởi vì nó thực hiện
với một số tính chất cơ bản sau:
1. Tìm kiếm theo thuật toán leo đồi từ đơn giản (cây rỗng) cho tới
phức tạp Simple-to-Complex cho một giả thuyết hiện hành duy nhất.
Thuật toán này mang tính chất greedy - tức là locally optimal: bởi vì
nó quyết định chỉ dựa vào các lân cận cục bộ gần nhất. Chứ không bao
quát toàn bộ dữ liệu, điều này có thể làm cho kết quả tìm kiếm không
hẳn là tốt nhất được (ví dụ tìm đường đi ngắn nhất).
2. Chiến lượt lựa chọn dựa trên heuristic sử dụng information gain, để
chọn ra nút tốt nhất nhằm phân hoạch tập dữ liệu tranning --> không
chính xác tuyệt đối.
3. Batch Learning: ID3 uses all training examples at each step to make
statistically-based decisions (¹ from CE method which makes decisions
incrementally).
4. Càng về cấp con thì giá trị xem xét thống kê càng bị nhỏ lại, điều
này có thể làm ảnh hưởng tới tính chính xác của các nút lá.
5. Khác với các chiến lược tìm kiếm , DT không cho phép backtracking,
là một hình thức quay lui để chọn lại sửa sai khi lựa chọn trước đó
không chính xác.
6. Kết quả chỉ chứa một giả thuyết duy nhất, không thể biểu diễn rõ
ráng tất cả các giả thuyết tương thích.
7. Preference for shortest trees, and for those with high information
gain attributes near the root ( cái này nằm trong nhấn mạnh inductive
bias hơn là ở đây).