Các dạng chiến lược trong Lý thuyết trò chơi

Hôm trước mình có nói qua về Lý thuyết trò chơi, và có đề cập đến "Cân bằng NASH", nhưng thực tế đây không phải là chiến lược duy nhất. Vì vậy hôm nay mình sẽ viết về các loại chiến lược này dựa trên những kiến thức mình được học ở trường.

(Để ảnh của Nhà toán học John Nash vì sau khi xem bộ phim "A beautiful mind" về cuộc đời của ông mình mới có động lực viết bài viết này)

 (Cách trình bày đã được sửa một chút. Credit: #Hoàngtử_boycodon :p)

Hãy cùng xét ví dụ sau: 

Hãng A và hãng B cùng bán 1 loại sản phẩm và đang quyết định xem có nên tiến hành chiến dịch quảng cáo không. Ma trận lợi ích được biểu diễn như sau:

(Quy ước: hành động và payoff của A sẽ luôn được viết trước hành động và payoff của B. Ví dụ: (Ad; Not Ad) sẽ hiểu là A chọn Ad, B chọn Not Ad, (10; 5) sẽ hiểu là A được 10, B được 5. Tất nhiên để lượng hóa được mức lợi ích của mỗi người cũng là cả 1 quá trình rồi. Ở đây trò chơi gồm 2 người chơi, đối vơi trò chơi nhiều người cũng làm tương tự.)

Chúng ta có 5 cách để xác định chiến lược cân bằng của trò chơi này, với đặc điểm chung là mỗi người sẽ tính đến lợi ích của mình trước, không quan tâm lợi ích của đối thủ như thế nào. Ngoại trừ cân bằng NASH, vì có thể có nhiều cân bằng, nên mới có cơ hội để tính đến lợi ích của đối thủ.

1. Sử dụng phương pháp chiến lược trội: Là chiến lược tối ưu mang lại lợi ích lớn nhất cho mỗi người chơi cho dù hành vi của đối thủ như thế nào.

- Với A: Nếu chọn "Ad" thì payoff là 10 (Nếu B chọn Ad), hoặc 15 (Nếu B chọn Not Ad). Nếu chọn "Not Ad" thì payoff là 6 (Nếu B chọn Ad), hoặc 9 (Nếu B chọn Not Ad).

Vì 10 > 6 15 > 9. Nên chiến lược trội của A sẽ là "Ad" (để có được mức payoff cao nhất là 10 hoặc 15) cho dù B chọn thế nào.

- Tương tự với B: Nếu chọn "Ad" thì payoff là 5 hoặc 8. Nếu chọn "Not Ad" thì payoff là 0 hoặc 2.

Vì 5 > 0 8 > 2 nên chiến lược trội của B sẽ là "Ad" (để có được mức payoff cao nhất là 5 hoặc 8) cho dù A chọn thế nào.

Cuối cùng, cân bằng của trò chơi khi sử dụng chiến lược trội là tập hợp các chiến lược trội của các người chơi, ở đây là (Ad; Ad) tương ứng với mức payoff (10; 5)

2. Sử dụng chiến lược bị áp đảo: Là chiến lược mà luôn tồn tại một chiến lược khác cho lợi ích lớn hơn cho dủ hành vi của đối thủ như thế nào. Xác định chiến lược bị áp đảo giúp loại bỏ những chiến lược không tốt để đưa trò chơi về dạng đơn giản hơn. Mọi chiến lược không phải là chiến lược trội thì đều là chiến lược bị áp đảo, một trò chơi không có chiến lược trội thì cũng không có chiến lược bị áp đảo.

3. Sử dụng chiến lược cực đại tối thiểu: Là chiến lược mà người chơi lựa chọn dựa trên kỳ vọng tối thiểu lớn nhất.

- Với A: Nếu chọn "Ad" thì payoff nhỏ nhất có thể đạt được là 10. Nếu chọn "Not Ad" thì payoff nhỏ nhất có thể đạt được là 6. Vì 10 > 6 nên chiến lược cực đại của A sẽ là "Ad" để trong trường hợp xấu nhất mức payoff sẽ là 10.

- Tương tự với B: Nếu chọn "Ad" thì payoff nhỏ nhất có thể đạt được là 5. Nếu chọn "Not Ad" thì payoff nhỏ nhất có thể đạt được là 0. Vì 5 > 0 nên chiến lược cực đại của A sẽ là "Ad" để trong trường hợp xấu nhất mức payoff sẽ là 5.

Cân bằng của trò chơi khi sử dụng chiến lược cực đại tối thiểu cũng là (Ad; Ad)

4. Sử dụng chiến lược cân bằng NASH: (Được đặt dựa theo tên của nhà toán học John Nash, nhưng mình hay thích viết thành NASH :p) Là chiến lược tối ưu mang lại lợi ích lớn nhất cho mỗi người chơi dựa trên những hành vi của đối thủ. Mỗi cân bằng có được khi sử dụng cân bằng NASH được gọi là một NE. Một trò chơi có thể có nhiều NE. Một cân bằng theo chiến lược trội là một NE, điều ngược lại không đúng.

- Nếu A đi trước:

A chọn Ad thì B sẽ được 5 hoặc 0, nên B sẽ chọn Ad để được 5 => cân bằng là (Ad; Ad), tương ứng với (10; 5)

Nếu A chọn Not Ad thì B sẽ được 8 hoặc 2, nên B sẽ chọn Ad để được 8 => cân bằng là (Ad; Not Ad), tương ứng với (15; 0)

- Nếu B đi trước:

B chọn Ad thì A sẽ được 10 hoặc 6, nên A sẽ chọn Ad để được 10 => cân bằng là (Ad; Ad), tương ứng với (10; 5)

Nếu B chọn Not Ad thì A sẽ được 15 hoặc 10, nên A sẽ chọn Ad để được 15 => cân bằng là (Ad; Not Ad), tương ứng với (15; 0)

Trong trò chơi đồng thời (2 người phải ra quyết định cùng 1 lúc), cân bằng cuối cùng được xác định bằng cách so sánh các cân bằng trong chiến lược của mỗi người ở trên. Có thể thấy (Ad; Ad) và (Ad; Not Ad) cùng xuất hiện, nên cân bằng của trò chơi khi sử dụng cân bằng NASH sẽ là (Ad; Ad) và (Ad; Not Ad), tương ứng với (10; 5) và (15; 0). Để chọn được 1 cân bằng cuối cùng thì đòi hỏi một người chơi cần phải bật tín hiệu đáng tin cậy cho người còn lại, ví dụ nếu B thấy A thuê thêm nhân viên Marketing, thì có thể A sẽ chọn Ad, thấy vậy B cũng sẽ chọn Ad.

Trong trò chơi tuần tự (tức là có 1 người đi trước và 1 người đi sau), người đi trước có thể (chỉ là có thể thôi) sẽ có lợi thế hơn để tối đa hóa lợi ích của mình và khiến đối thủ có mức lợi ích thấp hơn. Trong ví dụ trên, giả sử B được quyền đi trước, nhìn tổng thể, mức payoff cao nhất của B có thể đạt được là 8 nếu A chọn Not Ad và B chọn Ad. Nhưng đời không như mơ, B biết rằng nếu mình chọn Ad thì A sẽ chọn Ad, cân bằng sẽ là (Ad; Ad) ứng với (10; 5), còn nếu mình chọn Not Ad thì A sẽ chọn Ad, cân bằng sẽ là (Ad; Not Ad) ứng với (15; 0).  Nên khả năng cao là để có mức lợi ích cao hơn, B chọn Ad, và A cũng chọn Ad, cân bằng sẽ là (Ad; Ad), ứng với (10; 5).

5. Chiến lược hỗn hợp: Là chiến lược tối đa lợi ích kỳ vọng dựa vào xác suất hành động của đối thủ (cách sử dụng cũng giống như áp dụng vào bài toán tình yêu ở đây, nhưng xin phép được không nói kỹ trong bài này :<). Một trò chơi có thể không có NE trong chiến lược thuần nhưng chắc chắn sẽ có NE trong chiến lược hỗn hợp.

Nói chung là chỉ có vậy, hy vọng mọi người cảm thấy dễ hiểu với cách trình bày của mình, và nếu có thể cảm thấy áp dụng trong việc ra các quyết định trong cuộc sống thì càng tốt :p


Đọc thêm:
55
13786 lượt xem
55
24
24 bình luận