Bài tập lý thuyết 2.1

26 views
Skip to first unread message

Cang Do

unread,
May 28, 2012, 11:43:05 AM5/28/12
to ch...@googlegroups.com
Explain why the size of the hypothesis space in the EnjoySport learning task is 
973. How would the number of possible instances and possible hypotheses increase 
with the addition of the attribute Watercurrent, which can take on the values 
Light, Moderate, or Strong? More generally, how does the number of possible 
instances and hypotheses grow with the addition of a new attribute A that takes on 
k possible values?  , 

Cang Do

unread,
May 28, 2012, 9:43:44 PM5/28/12
to Forum thảo luận cho lớp cao học khóa 5
Có thể nói bài này ai cũng có khả năng làm được. Do đó chỉ làm cho vui
thôi.



Nếu như chỉ tham khảo bảng dữ liệu x1-x4 trên slide thì chưa chính
xác.
Đây là dữ liệu tập giá trị của các thuộc tính (ref page 22 - text
book)

+ Sky (with possible values Sunny, Cloudy, and Rainy) : 3
+ AirTemp (with values Warm and Cold), : 2
+ Humidity (with values Normal and High), : 2
+ Wind (with values Strong and Weak), : 2
+ Water (with values Warm and Cool), : 2
+ Forecast (with values Same and Change) : 2

Size of Possible instances (distinct instances)
= |Sky| * |Temp|*|Humid|*|Wind|*|Water| *|Forest | ( quy tắc nhân )
= 3 2 2 2 2
2 = 96


Lưu ý: Giá trị mỗi thuộc tính có thể nhận tương ứng với từng thuộc
tính hoặc giá trị ?
Tất cả các giả thuyết chứa ít nhất 1 giá trị 0 đều là negative --> nó
thể hiện duy nhất 1


Size of distinct hypotheses (distinct hypotheses)
= 1 + |Sky| * |Temp|*|Humid|*|Wind|*|Water| *|Forest |
= 1 + (3+1)*(2+1)*(2+1)*(2+1)*(2+1)*(2+1)
= 1 + 4*3*3*3*3*3 = hình như 973 :)

Nếu có thêm thuộc tính giá trị
+ Watercurrent(with Light Moderate and Strong), : 3
= 1+ |Sky| * |Temp|*|Humid|*|Wind|*|Water| *|Forest |*|Watercurrent|
= 973*4 = ?


Tổng quát nhất cho thuộc tính A chứa k giá trị phân biệt
= 1+ |Sky| * |Temp|*|Humid|*|Wind|*|Water| *|Forest |*|A|
= 1+ |Sky| * |Temp|*|Humid|*|Wind|*|Water| *|Forest |*(k+1)

-----------------------

Cang Do

unread,
May 28, 2012, 9:47:57 PM5/28/12
to Forum thảo luận cho lớp cao học khóa 5
Lưu ý rằng thuộc tính Sky có 3 giá trị, do đó trong thuật giải CE mà thầy đã giải trường hợp x3 ( negative ) có 6 giả thuyết là chưa chính xác vì có thêm giả thuyết (Cloudy ,?,?,?,?,?) , mặc dù giả thuyết này cũng bị loại sau đó để cho ra 3 giả thuyết đúng.

--
You received this message because you are subscribed to the Google Groups "Forum thảo luận cho lớp cao học khóa 5" group.
To post to this group, send email to ch...@googlegroups.com.
To unsubscribe from this group, send email to chk5+uns...@googlegroups.com.
For more options, visit this group at http://groups.google.com/group/chk5?hl=en.


Trường Phan

unread,
May 29, 2012, 6:57:27 AM5/29/12
to Forum thảo luận cho lớp cao học khóa 5
- Tôi nghĩ không cần phải thêm giả thuyết <Cloudy , ? , ? , ? , ? , ?>
vì giả thuyết này không có trong tập X, cho dù có thêm vào cũng chắc
chắn bị loại bỏ do thuật giải CE phát sinh 2 tập hợp S và G từ những
giá trị mà X cung cấp. Thêm vào chỉ làm chậm thời gian thuật giải mà
thôi nên thầy giải trường hợp X3 có 6 giả thuyết là chính xác.

- Cang xem lại cách tính Possible Hypothesis khi thêm thuộc tính mới ,
tại sao 973 * 4 ?????????

- Công thức tổng quát khi thêm thuộc tính A có k giá trị sao dài quá
vậy , có thể rút gọn được không ?
hihi, đúng như lời Cang nói bài này làm cho vui thôi chứ không dễ chút
nào

Cang Do

unread,
May 29, 2012, 7:56:54 AM5/29/12
to ch...@googlegroups.com


- Trường coi lại thuật giải CE Negative nhé. Xem thuật giải chi tiết mình đã làm ở chủ đề CE. Chúng ta đang giải mù ( máy tự giải ) nên k thể biết thằng nào sẽ bị loại bõ ở phần sau mà cần phải liệt kê sau đó check if để loại ( nếu bạn thix làm về kỹ thật). Bạn nên nhớ cần phải cụ thể hóa các bước giải 1 cách đơn giản nhất để thực hiện cho mọi trường hợp chứ k phải nhìn vào bài giải đã có rồi giải thích với chỉ bài đó thôi đâu.

- Thế vào công thức ở dưới.
- Công thức này là bổ sung thôi thêm *(k+1) thì k thể gọi là dài dc.


Thân 

2012/5/29 Trường Phan <truo...@gmail.com>

Trường Phan

unread,
May 29, 2012, 8:23:21 AM5/29/12
to Forum thảo luận cho lớp cao học khóa 5
- Tại sao 973 * 4 mà không phải là 972 * 4 + 1
- Công thức có thể biểu diễn ngắn gọn được không (Bằng các ký hiệu và
tổng quát)? Công thức của Cang là liệt kệ cụ thể rồi.

Giả sử đề bài chỉ cho cái bảng dữ liệu X (không nói rõ mỗi thuộc tính
ai gồm những giá trị nào) liệu có áp dụng CE được không ? (như Cang
nói giá trị Cloudy của thuộc tính Sky không xuất hiện bảng dữ liệu X
nhưng vẫn phải liệt kê ra)

On 29 Tháng Năm, 18:56, Cang Do <dovanc...@gmail.com> wrote:
> - Trường coi lại thuật giải *CE Negative* nhé. Xem thuật giải chi tiết mình


> đã làm ở chủ đề CE. Chúng ta đang giải mù ( máy tự giải ) nên k thể biết
> thằng nào sẽ bị loại bõ ở phần sau mà cần phải liệt kê sau đó check if để
> loại ( nếu bạn thix làm về kỹ thật). Bạn nên nhớ cần phải cụ thể hóa các
> bước giải 1 cách đơn giản nhất để thực hiện cho mọi trường hợp chứ k phải
> nhìn vào bài giải đã có rồi giải thích với chỉ bài đó thôi đâu.
>
> - Thế vào công thức ở dưới.
> - Công thức này là bổ sung thôi thêm *(k+1) thì k thể gọi là dài dc.
>
> Thân
>

> 2012/5/29 Trường Phan <truong...@gmail.com>

Cang Do

unread,
May 29, 2012, 8:41:36 AM5/29/12
to ch...@googlegroups.com
- Trong 973 đã chứa giá trị 1 ( rỗng rồi ) , nên k thêm vào nữa.
- Nếu biểu diễn ngắn gọn thì là 973*(k+1), mình liệt kê là để dễ hiểu thôi.
- khi bạn nhìn vào 3.2.2.2.2.2 bạn có thắc mắc gì không ?
   trong bảng dữ liệu tranning TE  D 
thì cột đầu tiên chỉ chứa 2 giá trị mà sao đếm 3 ?
Cột strong gì đó chỉ chứa 1 giá trị vậy mà sao đếm 2 ?
các cột khác 2 giá trị thì đếm 2.
Rõ ràng là đề bài trong slide chưa rõ ràng cho nên cần phải tìm đề bài cái đã rồi tính tiếp ( xem đầu bài của mình có liệt kê     đề bài ref page 22 - text
book).

Nếu đề bài không cho tập gí trị thuột tính thì làm dựa trên D đã biết là hiển nhiên rồi. Nhưng nếu dựa trên D thì kết quả k phải là 973 đâu. Slide thầy chỉ trích ra thôi, ngoài ra còn ít nhất 3 chỗ bị lỗi trong mấy slides đó mà thầy k modify lại nên đọc hơi khó hiểu.

Lưu ý : D khác X
X là một tập tùy ý bất kỳ ( dữ liệu test )
D là tập dữ liệu TE trainning


2012/5/29 Trường Phan <truo...@gmail.com>

Trường Phan

unread,
May 29, 2012, 8:58:33 AM5/29/12
to Forum thảo luận cho lớp cao học khóa 5
Nếu 973 đã chứa 1 giá trị rỗng rồi thì khi thêm vào k giá trị mà biểu
diễn 973*4 tức là có đến 4 giá trị rỗng đó Cang ơi
Biểu diễn cụ thể để khỏi tranh luận nữa là
1 + 4.3.3.3.3.3.4 = 1 + 972 * 4

Mình bổ sung thêm về giải thích con số 3.2.2.2.2.2 là lực lượng không
gian khái niệm phân biệt (possible instance)
Để tính lực lượng không gian giả thuyết H phân biệt ta thêm 2 giá trị
0 và ?
nên |H| = 5.4.4.4.4.4

Tuy nhiên, chỉ cần những giả thuyết có chứa 1 giá trị 0 sẽ được phân
lớp thành negative, mà H ta cần tìm là những giả thuyết thỏa hàm mục
tiêu (positive) nên ta chỉ cần 1 giả thuyết rỗng <0 , 0 , 0 , 0 , 0 ,
0> đây chính là con số 1 trong công thức tính |H|, vì vậy lực lượng H
được tính như sau

|H| = 1 + 4.3.3.3.3.3 = 972 + 1 = 973

Khi thêm thuộc tính WaterCurrent (Light , Moderate,Strong) thì |H| = 1
+ 4.3.3.3.3.3.4 = 1 + 972 * 4

On 29 Tháng Năm, 19:41, Cang Do <dovanc...@gmail.com> wrote:
> - Trong 973 đã chứa giá trị 1 ( rỗng rồi ) , nên k thêm vào nữa.
> - Nếu biểu diễn ngắn gọn thì là 973*(k+1), mình liệt kê là để dễ hiểu thôi.
> - khi bạn nhìn vào 3.2.2.2.2.2 bạn có thắc mắc gì không ?
>    trong bảng dữ liệu tranning TE  D
>
> thì cột đầu tiên chỉ chứa 2 giá trị mà sao đếm 3 ?
> Cột strong gì đó chỉ chứa 1 giá trị vậy mà sao đếm 2 ?
> các cột khác 2 giá trị thì đếm 2.
> Rõ ràng là đề bài trong slide chưa rõ ràng cho nên cần phải tìm đề bài cái
> đã rồi tính tiếp ( xem đầu bài của mình có liệt kê     đề bài ref page 22 -
> text
> book).
>
> Nếu đề bài không cho tập gí trị thuột tính thì làm dựa trên D đã biết là
> hiển nhiên rồi. Nhưng nếu dựa trên D thì kết quả k phải là 973 đâu. Slide
> thầy chỉ trích ra thôi, ngoài ra còn ít nhất 3 chỗ bị lỗi trong mấy slides
> đó mà thầy k modify lại nên đọc hơi khó hiểu.
>
> Lưu ý : D khác X
> X là một tập tùy ý bất kỳ ( dữ liệu test )
> D là tập dữ liệu TE trainning
>

> 2012/5/29 Trường Phan <truong...@gmail.com>

Cang Do

unread,
May 29, 2012, 9:03:27 AM5/29/12
to ch...@googlegroups.com
Mô phật, thiện tai thiện tai [-o<
Mình đã cạn lời.
Reply all
Reply to author
Forward
0 new messages