Nghiên cứu ở Harvard AI của OpenAI chẩn đoán cấp cứu đôi lúc đúng hơn bác sĩ

Một nghiên cứu mới đăng trên tạp chí Science xem xét cách mô hình ngôn ngữ lớn hoạt động trong nhiều tình huống y khoa, trong đó có ca bệnh thật tại khoa cấp cứu. Ở một số bước chẩn đoán, ít nhất một mô hình cho kết quả chính xác hơn bác sĩ.

Nghiên cứu do nhóm bác sĩ và nhà khoa học máy tính dẫn dắt

Công trình được công bố trong tuần này, do nhóm nghiên cứu gồm các bác sĩ và nhà khoa học máy tính tại Harvard Medical School và Beth Israel Deaconess Medical Center thực hiện. Nhóm cho biết họ tiến hành nhiều thí nghiệm khác nhau để đo lường hiệu quả chẩn đoán của các mô hình của OpenAI khi so với bác sĩ.

Một thí nghiệm tập trung vào 76 bệnh nhân đến khoa cấp cứu của Beth Israel. Nhóm nghiên cứu đem chẩn đoán của hai bác sĩ chuyên khoa nội tổng quát (cấp chuyên gia) so với chẩn đoán do hai mô hình o1 và 4o của OpenAI tạo ra. Sau đó, hai bác sĩ chuyên khoa nội tổng quát khác được mời đánh giá chất lượng các chẩn đoán này, nhưng không được biết chẩn đoán nào do con người đưa ra và chẩn đoán nào do AI tạo ra.

Theo bài nghiên cứu, ở từng “điểm chạm” trong quá trình chẩn đoán, o1 cho kết quả nhỉnh hơn một chút hoặc tương đương hai bác sĩ tham gia, đồng thời tốt hơn 4o. Nhóm cũng nhấn mạnh sự khác biệt thể hiện rõ nhất ở điểm chạm đầu tiên – giai đoạn phân loại ban đầu tại khoa cấp cứu, khi thông tin về người bệnh còn ít nhất nhưng áp lực thời gian và mức độ khẩn cấp lại cao nhất, nên rủi ro đưa ra quyết định sai cũng lớn hơn.

Không “làm sạch” dữ liệu trước khi đưa cho AI

Trong thông cáo báo chí của Harvard Medical School về nghiên cứu, nhóm tác giả nhấn mạnh họ không xử lý trước dữ liệu theo bất kỳ cách nào. Các mô hình AI được cung cấp đúng những thông tin sẵn có trong hồ sơ bệnh án điện tử tại thời điểm mỗi lần đưa ra chẩn đoán, giống như điều mà bác sĩ có thể xem được khi làm việc.

Với lượng thông tin như vậy, mô hình o1 đưa ra “chẩn đoán trùng khớp hoặc rất gần” trong 67% trường hợp ở giai đoạn phân loại ban đầu. Trong khi đó, một bác sĩ đạt mức “trùng khớp hoặc rất gần” 55% số lần, còn bác sĩ còn lại đạt 50% số lần.

Trong thông cáo báo chí, Arjun Manrai – người điều hành một phòng thí nghiệm AI tại Harvard Medical School và là một trong các tác giả chính – cho biết nhóm đã kiểm tra mô hình AI theo hầu như mọi thước đo họ sử dụng, và kết quả vượt cả các mô hình trước đây lẫn mức nền mà nhóm đặt ra từ bác sĩ.

Không đồng nghĩa AI đã sẵn sàng quyết định sống còn ở cấp cứu

Dù vậy, nghiên cứu không kết luận AI đã đủ điều kiện để đưa ra quyết định mang tính sống còn trong phòng cấp cứu. Thay vào đó, nhóm tác giả cho rằng phát hiện này cho thấy nhu cầu cấp bách phải có các thử nghiệm tiến hành trong môi trường thực tế, theo dõi trước và sau khi triển khai, nhằm đánh giá các công nghệ như vậy khi tham gia trực tiếp vào chăm sóc người bệnh.

Nhóm nghiên cứu cũng lưu ý họ chỉ khảo sát hiệu quả khi mô hình nhận thông tin ở dạng văn bản. Theo họ, những nghiên cứu đã có cho thấy các mô hình nền tảng hiện nay còn hạn chế hơn khi phải suy luận với dữ liệu không phải văn bản, chẳng hạn hình ảnh hay các loại tín hiệu lâm sàng khác.

Ở một diễn biến liên quan, Adam Rodman – bác sĩ tại Beth Israel và cũng là tác giả chính của nghiên cứu – nói với báo Guardian rằng hiện chưa có khung quy chuẩn chính thức về trách nhiệm khi chẩn đoán bằng AI. Ông cũng nhấn mạnh người bệnh vẫn muốn con người đồng hành và hướng dẫn qua các quyết định liên quan sống còn, cũng như các lựa chọn điều trị khó khăn.

Tranh luận về cách so sánh: nội khoa không phải bác sĩ cấp cứu

Trong một bài viết bình luận về nghiên cứu, Kristen Panthagani – bác sĩ cấp cứu – nhận định đây là một nghiên cứu AI thú vị nhưng đã dẫn đến nhiều tiêu đề bị thổi phồng. Lý do, theo bà, là nghiên cứu đang so sánh chẩn đoán của AI với bác sĩ nội tổng quát, chứ không phải bác sĩ cấp cứu – những người trực tiếp hành nghề đúng chuyên khoa trong bối cảnh khoa cấp cứu.

Bà cho rằng nếu muốn so sánh công cụ AI với năng lực lâm sàng của bác sĩ, hợp lý nhất là bắt đầu bằng việc so với bác sĩ thực hành đúng chuyên ngành đó. Bà đưa ra ví dụ: một mô hình ngôn ngữ lớn có thể vượt bác sĩ da liễu trong một bài kiểm tra về phẫu thuật thần kinh, nhưng đó không phải thông tin thật sự hữu ích cho thực hành y khoa.

Panthagani cũng nhấn mạnh góc nhìn của bác sĩ cấp cứu khi gặp bệnh nhân lần đầu: mục tiêu chính không phải đoán cho ra chẩn đoán cuối cùng, mà là xác định liệu người bệnh có đang gặp tình trạng có thể gây tử vong hay không, để ưu tiên xử trí kịp thời.

Bài viết và tiêu đề về nghiên cứu sau đó đã được cập nhật để làm rõ rằng các chẩn đoán của bác sĩ trong thí nghiệm đến từ bác sĩ nội tổng quát cấp chuyên gia, đồng thời bổ sung ý kiến bình luận của Kristen Panthagani.

Nguồn: GenK

Website Cakhiabóng đá trực tuyến

Link Xoilac TV trực tiếp bóng đá TV

Link Xôi Lạc TV hôm nay