Số liệu kinh hoàng: 80% người dùng tự biến mình thành nạn nhân của "Bác sĩ AI"

Một nghiên cứu cho thấy chatbot AI chẩn đoán sai trong hơn 80% trường hợp bệnh ban đầu. Theo đó, lỗi phổ biến của các mô hình hàng đầu, bao gồm OpenAI và DeepSeek, là đưa ra phán đoán quá nhanh khi dữ liệu bệnh nhân không đầy đủ...

0:00 / 0:00
0:00
bac-si-ai.jpg
Có tới gần 40% người Mỹ đặt lòng tin vào các "bác sĩ AI", thế nhưng một nghiên cứu mới cho thấy 80% chẩn đoán ban đầu của các chatbot y tế là... sai

Theo một nghiên cứu mới, chatbot AI dành cho người tiêu dùng gặp khó khăn khi được sử dụng để chẩn đoán bệnh, đặc biệt là khi đối mặt với thông tin không đầy đủ, và nghiên cứu này cũng chỉ ra những rủi ro khi dựa vào chúng như những bác sĩ kỹ thuật số.

GẦN 40% DÂN MỸ TIN VÀO "BÁC SĨ AI"

Trong một cuộc khảo sát được thực hiện tháng 7/2025 bởi công ty dịch vụ y tế và truyền dịch tại nhà Drip Hydration, với sự tham gia của 2.000 người Mỹ do công ty tư vấn nghiên cứu Censuswide ủy thác, 39% số người được hỏi cho biết họ tin tưởng các công cụ như ChatGPT trong việc đưa ra các quyết định về chăm sóc sức khỏe. Tỷ lệ này cao hơn hẳn so với thái độ trung lập về việc liệu các hệ thống học tập trực tuyến (LLM) có thể hữu ích trong việc giải đáp các thắc mắc y tế hay không (được thể hiện bởi 31% số người được khảo sát) cũng như sự hoàn toàn không tin tưởng vào chatbot trong những vấn đề này (30%).

Dữ liệu này được công bố chỉ vài tuần sau khi các nhà nghiên cứu công bố một nghiên cứu cho thấy các mô hình AI từ các công ty bao gồm OpenAI, Anthropic, DeepSeek, Google và xAI phần lớn đã ngừng đưa ra các tuyên bố từ chối trách nhiệm về việc tuân theo lời khuyên y tế của chúng, điều từng là tiêu chuẩn trong ngành. Trong khi vào năm 2022, 26% câu trả lời của chatbot cho các câu hỏi về sức khỏe có chứa một số loại cảnh báo rằng người cung cấp thông tin y tế không phải là bác sĩ, thì đến năm 2025, con số này giảm xuống dưới 1%. Trong trường hợp người dùng tải lên hình ảnh y tế để bot phân tích, hiện chỉ còn hơn 1% câu trả lời bao gồm cảnh báo về việc tuân theo lời khuyên y tế từ bot - giảm từ khoảng 20% ​​ba năm trước.

Khảo sát trên toàn nước Mỹ cho thấy nam giới có nhiều khả năng tin tưởng vào lời khuyên y tế từ bot hơn: 48% cho biết đây là nguồn thông tin sức khỏe đáng tin cậy, so với 31% ở phụ nữ. Người dùng trung niên cũng tin tưởng hơn, với 52% người trưởng thành từ 45 đến 54 tuổi cho biết họ có thể dựa vào các mô hình AI để được trợ giúp về các vấn đề y tế, trong khi các nhóm người dùng lớn tuổi hơn và trẻ hơn lại ít chắc chắn hơn về khả năng của công nghệ này như một công cụ chăm sóc sức khỏe cá nhân.

Có rất nhiều tiêu đề báo chí khẳng định trí tuệ nhân tạo (AI) giỏi hơn bác sĩ,” Roxana Daneshjou, trợ lý giáo sư về khoa học dữ liệu y sinh tại Đại học Stanford và là đồng tác giả của bài báo đó, nói về những phát hiện của mình. “Bệnh nhân có thể bị nhầm lẫn bởi những thông điệp mà họ thấy trên truyền thông, và những lời cảnh báo là lời nhắc nhở rằng các mô hình này không nhằm mục đích chăm sóc y tế.”

Việc thiếu ngữ cảnh trong nhật ký trò chuyện về mọi thứ, từ triệu chứng sức khỏe đến chẩn đoán tiềm năng và tác dụng phụ của thuốc, có thể góp phần tạo nên niềm tin vào chatbot như là phiên bản ảo của các chuyên gia y tế có trình độ. Tuy nhiên, cuộc khảo sát của Censuswide cũng cho thấy sự không hài lòng hoặc lo ngại về tình trạng chăm sóc sức khỏe ở Mỹ có thể là yếu tố thúc đẩy sự phụ thuộc vào AI để được tư vấn về điều trị. Dữ liệu cho thấy 31% người Mỹ - và 37% phụ nữ - đang sử dụng chatbot để chuẩn bị câu hỏi cho các cuộc khám bác sĩ, trong khi 23% đang tìm cách tránh chi phí y tế. (Nam giới có nhiều khả năng đưa ra lý do này hơn, ở mức 27%).

Nhìn chung, 20% người được hỏi cho biết họ đã tìm đến các chatbot để xin ý kiến ​​thứ hai, trong khi 17% tin rằng chúng hữu ích để tránh sự thiên vị hoặc đối xử bất công trong hệ thống chăm sóc sức khỏe. (Trớ trêu thay, bản thân các chương trình AI đã được chứng minh là tuân theo định kiến ​​về chủng tộc và giới tính , và thậm chí sẽ sao chép sự bất bình đẳng trong chăm sóc sức khỏe hiện có dựa trên những giả định vô căn cứ về bệnh nhân dựa trên chủng tộc của họ).

Nghiên cứu cho thấy các mô hình ngôn ngữ quy mô lớn hàng đầu gặp khó khăn trong việc đưa ra nhiều chẩn đoán khác nhau khi dữ liệu bệnh nhân hạn chế, thường nhanh chóng thu hẹp lại thành một câu trả lời duy nhất.

NHỮNG HỆ LỤY NGUY HIỂM

bac-si-ai-01.jpg
Khảo sát trên toàn nước Mỹ cho thấy nam giới có nhiều khả năng tin tưởng vào lời khuyên y tế từ bot hơn: 48% cho biết đây là nguồn thông tin sức khỏe đáng tin cậy, so với 31% ở phụ nữ.

Kết quả nghiên cứu chỉ ra một hạn chế rộng hơn của trí tuệ nhân tạo: Trong khi chatbot có thể xác định các bệnh lý có khả năng xảy ra khi ca bệnh được mô tả đầy đủ, chúng lại kém tin cậy hơn ở giai đoạn đầu, khi quá trình suy luận lâm sàng còn nhiều điều chưa chắc chắn. Phát hiện này nhấn mạnh những nguy hiểm khi chỉ dựa vào công nghệ để xác định các vấn đề sức khỏe, đặc biệt là trong trường hợp dữ liệu người dùng nhập vào có thể mơ hồ hoặc không đầy đủ. “Các mô hình này rất giỏi trong việc đưa ra chẩn đoán cuối cùng khi dữ liệu đã đầy đủ, nhưng chúng gặp khó khăn ở giai đoạn đầu của ca bệnh, khi chưa có nhiều thông tin”, Arya Rao, tác giả chính của nghiên cứu và là nhà nghiên cứu tại hệ thống chăm sóc sức khỏe Mass General Brigham ở Massachusetts, cho biết.

Nghiên cứu, được công bố trên tạp chí Jama Network Open ngày 13/4, đã thử nghiệm các mô hình AI sử dụng 29 tình huống lâm sàng dựa trên một tài liệu tham khảo y khoa tiêu chuẩn. Thí nghiệm bao gồm việc tiết lộ dữ liệu từng bước, bao gồm tiền sử bệnh hiện tại, kết quả khám lâm sàng và kết quả xét nghiệm. Các nhà nghiên cứu đã đặt các câu hỏi chẩn đoán cho các mô hình ngôn ngữ tự động (LLM) và đo lường tỷ lệ thất bại của chúng, được định nghĩa là tỷ lệ các câu hỏi không được trả lời hoàn toàn chính xác.

Các nhà nghiên cứu đã đánh giá 21 mô hình LLM, bao gồm các mô hình hàng đầu của OpenAI, Anthropic, Google, xAI và DeepSeek.

Nghiên cứu cho thấy tỷ lệ thất bại vượt quá 80% đối với tất cả các mô hình khi cần thực hiện chẩn đoán phân biệt - khi thiếu thông tin đầy đủ về bệnh nhân. Tỷ lệ thất bại giảm xuống dưới 40% đối với các chẩn đoán cuối cùng với dữ liệu đầy đủ hơn, với các mô hình hoạt động tốt nhất đạt độ chính xác trên 90%.

Theo Anthropic, Claude được đào tạo để hướng dẫn những người có thắc mắc về y tế đến gặp các chuyên gia. Google cho biết Gemini cũng được thiết kế để làm điều tương tự và có các lời nhắc nhở được tích hợp sẵn trong ứng dụng để khuyến khích người dùng kiểm tra lại thông tin.

bac-si-ai-02jpg.jpg

Chính sách sử dụng của OpenAI nêu rõ rằng các dịch vụ của họ không được sử dụng để cung cấp lời khuyên y tế yêu cầu giấy phép mà không có sự tham gia chuyên môn phù hợp.

Các công ty đã và đang phát triển các mô hình học máy y tế chuyên biệt hơn, chẳng hạn như Articulate Medical Intelligence Explorer (AMIE) của Google và MedFound.

Sanjay Kinra, một nhà dịch tễ học lâm sàng tại Trường Y học Nhiệt đới và Vệ sinh London, cho biết kết quả ban đầu từ việc đánh giá các mô hình như AMIE rất khả quan. Tuy nhiên, ông nói thêm rằng chúng khó có thể thay thế được cách đánh giá lâm sàng của bác sĩ “phụ thuộc rất nhiều vào vẻ ngoài và cảm nhận của bệnh nhân”.

“Tuy nhiên, họ có thể đóng một vai trò nhất định, đặc biệt là trong những tình huống hoặc khu vực địa lý mà việc tiếp cận bác sĩ bị hạn chế,” Kinra nói. “Vì vậy, chúng ta cần khẩn cấp tiến hành các nghiên cứu với bệnh nhân thực tế từ những môi trường đó.”