Sự ngớ ngẩn của những bọn abuse Data Driven

Details: Written by Chau Hong Linh; Category: Literature

Giả sử các ông các bà là chủ một quán phở. Thế thì việc phải biết là trong một thời gian kha khá dài, lượng thịt bò, thịt gà, bánh phở, rau giá, hành ngò cần trong mỗi ngày là bao nhiêu là rất quan trọng, để còn đi mua các thứ dự trữ sẵn mà bán.

Đấy là sức mạnh của data.

Nhưng căn cứ vào số lượng thịt bò, thịt gà, bánh phở, rau giá, hành ngò bán mỗi ngày cũng không thể trả lời chính xác được là ngày X tháng Y năm Z, liệu tỷ lệ phở bò, phở gà bán ra trong ngày có gần giống với các ngày khác không.

Lý do là đếch ai biết ngày đấy có cái gì xảy ra.

Về mặt lý thuyết mà nói, nếu không có gì thay đổi, thì cơ bản đấy sẽ là một ngày như mọi ngày, tức là tỷ lệ không có gì thay đổi, có thể lấy tỷ lệ trung bình của một tuần hay một tháng để suy ra tỷ lệ của ngày X, tháng Y, năm Z.

Nhưng giả sử đột nhiên thời tiết thay đổi? Đột nhiên có một đám đông thích ăn thịt gà hơn thịt bò từ một nước không ăn thịt bò như Ấn Độ tràn sang?

Hơn nữa, không một con số nào, một survey nào có thể giúp chủ quán phở làm cho việc ngày A tháng B năm C tỷ lệ bán phở bò tự nhiên gấp nhiều lần so với tỷ lệ bán phở gà, trái hẳn tự nhiên mọi khi (ví dụ thế). Trừ khi là đem cho miễn phí phở bò, và tăng giá phở gà rất đắt trong ngày đó. Mà cũng chưa chắc đã làm được, vì có khi khách hàng trong thành phố đó vẫn thích ăn phở gà hơn, và đếch thèm ăn ở quán đấy trong ngày đó.

Do đó người có kiến thức và kinh nghiệm sẽ không dựa hoàn toàn vào Data, mà dựa vào khả năng suy luận của mình từ Data, từ kinh nghiệm và trực giác.

Tất nhiên là một cục sắt có cắm điện thì làm đếch gì có trực giác. Cho đến nay, bỏ qua các đột phá về Mathematical Logics và Knowledge Presentation đã bị bọn chuột làm cho lụn bại, thì một cục sắt cũng không có cách nào khác để dự đoán cái gì, ngoài việc tính %.

Nhưng như đã nói ở trên, dự đoán % có rất nhiều khả năng sai lầm, nên quyết định chính vẫn phải là con người. Đáng tiếc là bầy cừu ở thế kỷ 21 được nhồi sọ là % thì đúng hơn không có %, cục sắt thì phải thông minh hơn con người, nên dần dần, khả năng tư duy logic, suy luận trực tiếp của con người bị giết chết, thay vào đấy là nô lệ cho con số %, cái gì cũng phải tìm một cái % nào đó thì mới yên tâm, kể cả % nhảm.

Ví dụ như để đánh giá một ngôn ngữ lập trình là tốt hay không, lũ lợn đã mất khả năng đánh giá trực tiếp vào syntax, semantic, compiler, interpreter, library của ngôn ngữ, mà thích tính xem có bao nhiêu % người dùng, bao nhiêu % công ty lớn dùng ...etc...

Tính % kiểu đấy, nhẽ xe Huyndai tốt hơn xe Ferrari nhiều, vì có nhiều người lái Huyndai hơn số người lái Ferrari, phỏng ạ?

Cái ảnh ở dưới là một minh hoạ rất cụ thể cho việc tính % sai lầm như thế nào: Nếu tính xác suất một cái máy bay đâm vào một cái ô tô đang đậu bình thường, thì con số đấy phải vô cùng nhỏ, và cục sắt có cắm điện hoặc một lũ lợn chỉ biết thờ màn hình tinh thể lỏng sẽ khẳng định là chuyện không thể có được.

Well, nó mới xảy ra cách đây mấy hôm, nhá.

Thậm chí quan sát một cái máy bay sắp đâm vào cái ô tô đang đậu đến nơi, thì lũ lợn cũng sẽ ngoạc mõm ra eng éc "Chuyện này vĩnh viễn không thể xảy ra, vì xác suất quá thấp".

Mất khả năng đánh giá trực tiếp vào tính chất, bản chất của vấn đề, dựa trên quan sát thực tế.

Một cái máy bay bay với vận tốc V, theo vector {x, y, z} thẳng về hướng một cái ô tô đang đứng yên, thì chắc chắn là nó phải đâm vào cái ô tô, bất kể là xác suất việc "một cái máy bay đâm vào một cái ô tô đang đậu là bao nhiêu %, dựa trên bao nhiêu historical data và tính theo methodology nào".

Đáng tiếc, tư duy logic, quan sát thực nghiệm, suy nghĩ một cách có hệ thống đã bị chết trong thế kỷ 21. Bầy cừu bị tẩy não từ mẫu giáo là phải tin màn hình tinh thể lỏng và con số %.

===========

Comment ở một tút khác trên Phê tê bốc:

=====
Giờ có một thằng giơ tay trước mặt mình, rồi mình theo cái luật 37% này để nghĩ xem nó có đang đấm vào mặt mình không để còn đỡ, thì xác suất bị vỡ mặt sẽ cao hơn 37% rất nhiều lần, phỏng ạ?

Thế kỷ này, quần chúng bị dụ vào một cái bẫy rất tởm là bẫy %. Cái này, từ những năm 1950 của thế kỷ trước các nhà khoa học (chưa bị thô bỉ hoá) đã cảnh báo rồi. Có cả một quyển sách gọi là "How to lie with Statistics" để vạch mặt mấy cái trò % rẻ tiền, nghe thì có vẻ hay, có vẻ khoa học, nhưng hết sức vô nghĩa.

Tư duy của con người từ thông tin đi đến kết luận hoặc hành động, nếu chia ra các nét chính theo logic hình thức thì có ba phương pháp là suy diễn, phản chứng và quy nạp, trong đó chỉ có quy nạp là hơi liên quan đến số má. Người có trí tuệ khác cục sắt cắm điện ở chỗ là không cần %.

Nói dài nữa thì tôi phải viết một quyển sách vài nghìn trang. Nếu c
omment này đủ 1000 like thì tôi sẽ viết.

Tạm nói nôm na, bây giờ ai đó nói "Xe Hàn không tốt bằng xe Nhật" thì đại đa số mọi người sẽ đồng ý, đại khái là Huyndai, KIA không có cửa nào mà so với Toyota, Honda.

Nhưng bây giờ hỏi vì sao lại có nhận định như thế, thì làm đếch gì có ai lấy 51% xe Hàn so với 51% xe Nhật xem có bao nhiêu % xe nào tốt hơn xe nào. Thậm chí không một hãng buôn ô tô hay một tập đoàn nghiên cứu nào có con số đấy. Cũng đếch ai ngồi lấy mẫu vài nghìn xe Hàn ngẫu nhiên đọ với vài nghìn xe Nhật ngẫu nhiên xem bao nhiêu % xe nào tốt hơn bao nhiêu % xe nào.

Nhưng căn bản là con người vẫn biết, và cái kiến thức đấy vẫn đúng. Vì thế nghiên cứu kiểu % chẳng qua là bọn nó làm trò trong khi không còn cách nào khác tử tế hơn, và không bắt chước được trí tuệ của con người thông minh, mà lại muốn bọn ngu cũng làm được việc, hoặc cục sắt có cắm điện cũng làm được việc, nên mới bịa ra một cái framework, méo mó có hơn không. Dù sai thì cũng có thể đổ tại framework hoặc methodology.

Còn người thông minh, không việc gì phải bắt chước lũ ngu cũng như cục sắt có cắm điện.

Không phải vô cớ mà các hệ thống decision making hiện nay thì quyết định tối hậu vẫn là con người, và enforced learning cho máy chính là con người chọc vào nó mà bảo kệ mẹ mày tính ra bao nhiêu %, nhưng thế này mới là đúng.
=====

=====
Chuyện nguy hiểm hơn cả cung cấp kiến thức sai chính là việc bọn chuột nó làm cho con người bị lệ thuộc vào những công cụ tuyên truyền diện rộng do chúng nó nắm.

Sau đó muốn tuyên truyền cái gì, chúng nó chỉ việc thay đổi thông tin trong đó, là quần chúng nhắm mắt nhắm mũi tin theo.

Trong nhiều năm gần đây, chúng nó đã huấn luyện cho bầy lợn tin là bất kỳ cái gì search Gu gờ ra hoặc viết trong Wikipedia đều đúng. Giờ thì đến ChatGPT.

Quần chúng không có kiến thức, search ra cái gì tin cái đấy, xem trên mạng thấy cái gì tin cái đấy, thành một bầy cừu.

Main Menu

Sự ngớ ngẩn của những bọn abuse Data Driven