Vì sao bọn kiểm duyệt không xóa text có chèn thêm ký tự như dấu chấm, dấu sao, khoảng trắng?

Đây là một post trên Phê tê bốc về vấn đề kiểm duyệt văn bản có chèn dấu chấm, dấu sao, khoảng trắng ...etc... giữa các từ để tránh kiểm duyệt, và các comment thảo luận về vấn đề này.

Không biết từ bao giờ, quần chúng rỉ tai nhau là nếu viết cái gì có các từ "nhạy cảm" thì cứ chèn dấu ., dấu *, khoảng trắng vào giữa là không sợ bị kiểm duyệt, xóa bài.

Có hai điều mà quần chúng không biết:

1. Về mặt lập trình mà nói, chỉ cần dưới năm chục dòng code, không cần phân tích Syntax Token, không cần hiểu Semantic, không cần AI, chương trình có thể phát hiện từ muốn kiểm duyệt dù viết dưới bất cứ hình thức nào.

Chỉ cần một list các từ muốn kiểm duyệt và một list các ký hiệu mà hệ thống nghi ngờ như dấu chấm, dấu sao, khoảng trắng ...etc...

Những thứ này có thể được định nghĩa thêm tùy ý, với số lượng đủ lớn cho tất cả các ngôn ngữ trên thế giới.

2. Các công ty như Phê tê bốc, Gu gờ, Táo, Bán đồng nát, Mi cờ dốp đều dùng người chạy bằng cơm, gồm những trang trại từ hàng trăm cho đến hàng chục nghìn người, của các công ty làm hợp đồng ở nhiều nước trên khắp thế giới, ngồi để đọc bài và kiểm duyệt. Thế thì chèn gì cũng vô ích.

(Chỉ cần dưới 50 dòng code Ruby để kiểm duyệt các loại chèn dấu)

Có người có ý kiến :

Nhưng kiểm duyệt Yay Text cũng rất dễ:

(Code vẫn y như cũ, thêm mỗi chỗ "unicode_normalize()")

(Kết quả thử nghiệm kiểm duyệt Yay Text)

Câu hỏi:

Nếu kiểm duyệt từ viết chèn dấu dễ như thế, tại sao cho đến nay, bọn chúng thường là không xóa bài có viết chèn dấu?

Tại sao bọn chúng lại muốn tạo cho người dùng cảm giác là khi viết chèn dấu sẽ không bị xóa bài?

Dưới đây là một số ý kiến của một số người comment trong tút ở Phê tê bốc.

Có một số ý kiến trùng lặp với các ý đã dẫn thì không post lại ở đây.

Ý kiến 1

Theo cháu nghĩ thì là nếu nó thừa khả năng để xử lý những trò biến dạng chữ mà nó không làm, thì chứng tỏ nó đang giấu diếm cái gì đó, có thể là liên quan đến phát ngôn của người sử dụng, đại khái giống như an ninh ngồi quán nước nghe lỏm, rồi theo dõi và đánh dấu đối tượng trên địa bàn vậy ạ, hoặc chúng muốn đánh giá mức độ chấp hành "tiêu chuẩn cộng đồng" xem những ai hoàn toàn chấp hành, ai sẽ tìm cách lách luật, rồi khoanh vùng đặc điểm của những tay lách luật, để ra một mớ quy định mới, không nghe theo thì tao đếch cho dùng, đến khi ngoan hết với nhau thì thôi.

Ý kiến 2

Cháu nghĩ là để huấn luyện tư duy người dùng. Rõ ràng là việc thêm dấu vào là không cần thiết và không có tác dụng hỗ trợ kiểm duyệt nghĩa là có thêm dấu hay ko, có dùng những từ đó hay không cũng chẳng có ảnh hưởng gì, không vi phạm và càng ko thể bị trừng phạt. Nhưng khi cấm hoặc giả vờ tạo lệnh cấm cho đến bình thường hóa những lệnh cấm vô lý thì theo thời gian nó sẽ thành thông lệ và người ta sẽ kính sợ rồi răm rắp làm theo thôi. Ở FB này còn tương đối hòa bình, chứ ở xứ chim xanh (twitter) bây giờ ăn nói hơi gay gắt một tí là bị cancel ngay, riết rồi chẳng ai nói được đúng những gì mình muốn nói nữa vì nhỡ đâu dính từ cấm (???) hoặc nội dung nhạy cảm bị một lũ thần kinh vào lên án bóc đến tận địa chỉ thật ngoài đời để dằn mặt. Bọn khùng đấy dựa vào cái gì để nói người ta đang dùng từ ngữ nhạy cảm và bị kiểm duyệt chứ? Dựa vào chính cái quy tắc tránh né bất thành văn được cả cộng đồng huấn luyện cho nhau chứ đâu. Cháu chứng kiến không ít lần chính người viết cũng tự thấy đuối lý và hèn cả người đi phải lên xin lỗi quỵ lụy bọn đồng bóng kia vì chắc là thứ tôi viết offend các bạn thật (???). Bản thân cháu có làm trong những mảng thường xuyên bị kiểm duyệt nội dung nên những lúc phải chọn từ khác hoặc cách biểu đạt khác thì đều thấy ngu hết cả người và rất khó chịu vì dùng những từ thay thế khiến ý của mình không được diễn đạt chính xác.

Ý kiến 3

Em dự đoán lý do bọn nó làm trò giả vờ không xóa các post có chèn chấm, chèn sao như sau đây:

1. Dụ dỗ người ta viết theo lối thêm chấm, thêm sao không có gì gọi là tránh kiểm duyệt, mà chính là chuẩn bị tâm lý compliance. Cũng như đeo khẩu trang thời CoVid, chả có tác dụng gì, không có công trình nghiên cứu khoa học tử tế nào. Chẳng qua là xem con người ta ngoan ngoãn, cam chịu và dễ lừa đến mức nào.

2. Làm cho người ta ngại viết, phải viết vòng vo, trốn tránh, không tư duy liền mạch, rõ ràng, sắc nét và không diễn đạt chính xác ý mình.

3. Các post có nhiều ., nhiều * là dễ cho Kiểm duyệt Chạy cơm nhìn, vì cái-gọi-là AI bọn nó đem ra hù thiên hạ thực ra là gần như vô dụng. Trong khi đấy dùng người mà nhìn hàng tỷ cái post cũng mệt. Tự nhiên có mớ post nhiều chấm, nhiều sao, một người có thể dùng mắt nhìn lướt nhiều post một lúc.

Và tất nhiên là những ai viết bài có nhiều chấm, nhiều sao càng dễ bị theo dõi, kể cả bằng người dùng mắt đọc, hay dùng phần mềm scan các post nào có tần suất chấm và sao nằm giữa các từ khá cao.

Bọn Tuýt là tự do giả hiệu, vì thằng Lợn Mục là thằng deep giả tốt, cái này chú nói cả chục năm nay rồi, nhưng rất ít người hiểu.

Con mụ CEO Tuýt thay thằng Mục bây giờ cũng là mầm non của World Economic Forum, lại đã từng làm trong ban chống Hate Speech của Department of Homeland Security, tức là ban bóp nghẹt tự do ngôn luận của deep.

Bọn nó dựa vào những thứ leng keng, lấp lánh như tiêu chuẩn cộng đồng, yêu thương trìu mến, chống Hate Speech, chống phân biệt này nọ, chủ yếu chỉ nhằm một mục đích duy nhất: "Bóp cổ những người nói sự thật".

Ý kiến 4

Hỏi mấy con LLM nó trả lời hay phết. Tuy hơi lòng vòng văn mẫu nhưng cũng có những ý coi được

“Đó là một câu hỏi thú vị về chiến lược kiểm duyệt nội dung trực tuyến. Có một số lý do có thể giải thích cho hiện tượng này:

1. Tạo ảo tưởng về tự do ngôn luận: Bằng cách cho phép nội dung có chèn dấu tồn tại, các nền tảng có thể tạo ra ảo tưởng rằng người dùng vẫn có thể bày tỏ ý kiến về các chủ đề nhạy cảm. Điều này giúp giảm bớt sự bất mãn và phản kháng của người dùng.

2. Thu thập thông tin: Khi người dùng nghĩ rằng họ có thể "lách luật" bằng cách chèn dấu, họ sẽ chia sẻ nhiều hơn. Điều này cho phép các nền tảng và cơ quan chức năng thu thập thêm thông tin về quan điểm và hoạt động của người dùng.

3. Giảm gánh nặng kiểm duyệt: Nếu mọi nội dung đều bị xóa ngay lập tức, sẽ có rất nhiều người phàn nàn và yêu cầu giải thích. Việc cho phép một số nội dung tồn tại giúp giảm số lượng khiếu nại cần xử lý.

4. Kiểm soát từ từ: Thay vì xóa ngay lập tức, các nền tảng có thể theo dõi và kiểm soát nội dung theo thời gian, tránh gây chú ý quá mức.

5. Tạo cảm giác an toàn giả: Khi người dùng cảm thấy họ có thể "lách luật", họ có xu hướng chia sẻ nhiều hơn và ít đề phòng hơn. Điều này có thể giúp các nền tảng nắm bắt được nhiều thông tin hơn.

6. Tạo ra hiệu ứng tự kiểm duyệt: Khi người dùng phải cố gắng "lách luật", họ đã tự nhận thức được rằng nội dung đó có thể gây tranh cãi. Điều này có thể dẫn đến việc họ tự điều chỉnh cách diễn đạt của mình.

Tóm lại, bằng cách cho phép một mức độ "lách luật" nhất định, các nền tảng có thể đạt được nhiều mục tiêu kiểm soát nội dung và quản lý người dùng một cách tinh vi hơn so với việc áp dụng kiểm duyệt cứng nhắc.