CAGI

 

Đào tạo Y tế và ChatGPT – Thanh gươm hai lưỡi

1. Giới thiệu

Kể từ khi ChatGPT được phát hành lần đầu cho công chúng vào tháng 11 năm 2022, đã có rất nhiều người thử nghiệm và rất ngạc nhiên về khả năng của nó. Có thể nói rằng ChatGPT đã tạo ra một cuộc náo động khá lớn. Theo ChatGPT chính nó, ChatGPT là một mô hình ngôn ngữ lớn được phát triển bởi OpenAI. Đó là một biến thể của mô hình GPT (Generative Pre-trained Transformer) và được đào tạo trên một tập dữ liệu lớn về văn bản trò chuyện để tạo ra các câu trả lời giống như con người trong các nhiệm vụ hiểu và tạo ra ngôn ngữ tự nhiên. Nó có thể được điều chỉnh cho các nhiệm vụ xử lý ngôn ngữ tự nhiên khác nhau như trả lời câu hỏi, dịch ngôn ngữ và tóm tắt văn bản.

Theo những khả năng này, đã có nhiều nỗ lực để khai thác khả năng của ChatGPT. ChatGPT có thể được sử dụng để làm những việc đa dạng, như tính toán toán học, mô phỏng mô hình, thách thức lập luận và thậm chí viết nhạc và bài luận. ChatGPT có thể đóng vai trò như một đối tác tư duy sáng tạo, quản lý sản phẩm, kiểm tra chất lượng (QA), trưởng phòng marketing và nhiều chuyên gia khác. Trong đó, tác giả đã sử dụng ChatGPT để tạo ra một bài nghiên cứu văn học về Twin Kỹ thuật số trong Lĩnh vực chăm sóc sức khỏe. Tác giả đã xuất bản bài báo biên tập mang tiêu đề “Một cuộc trò chuyện với ChatGPT về vai trò của hệ thống sinh học tính toán trong nghiên cứu tế bào gốc,” trong đó ChatGPT đã được sử dụng như một loại ‘đối tác trò chuyện’. ChatGPT cũng có thể thay thế các phương pháp truyền thống để đánh giá kiến thức của học sinh. Trong đó, tác giả đã cho thấy ChatGPT, đã được sử dụng cho các nhiệm vụ phát hiện tư thế, có thể đạt được hiệu suất SOTA hoặc tương tự cho các tập dữ liệu phổ biến, bao gồm SemEval-2016 và PStance. Tác giả đã sử dụng ChatGPT trong bài báo của họ mang tiêu đề “ChatGPT Nói Về Quyền Động Vật”.

Việc sử dụng ChatGPT trong lĩnh vực tài chính cũng đã được khám phá. Trong đó, kết quả nghiên cứu cho thấy ChatGPT có tiềm năng để cải thiện các ứng dụng tài chính dựa trên NLP. Tuy nhiên, trong việc sử dụng thương mại của ChatGPT, thực sự đòi hỏi sự cẩn trọng. Rủi ro bảo mật và vấn đề đạo đức là hai yếu tố cần được cân nhắc cẩn thận.

Dường như, ChatGPT cũng có thể được sử dụng để giúp lập trình viên thiết kế mã code của họ. Một lệnh đơn giản như “viết cho tôi một đoạn mã [ngôn ngữ lập trình] cho [nhiệm vụ]” sẽ kích hoạt ChatGPT để tạo ra mã code phù hợp. Tình huống này đã khiến cho cộng đồng lập trình tranh luận về việc ChatGPT có thể thay thế lập trình viên hay không. Đã có ý kiến trái chiều về vấn đề này. Nhiều người cho rằng ChatGPT hiện tại (hoặc trong tương lai) có thể thay thế lập trình viên. Trong khi đó, họ tin rằng ChatGPT sẽ không thể thay thế các nhà lập trình vì lập trình yêu cầu tư duy phức tạp, chỉ có con người mới có thể làm được.

Trong khi ChatGPT có vẻ mới mẻ và cung cấp nhiều khả năng chưa bao giờ có trước đây, nó đang gây ra rất nhiều cuộc thảo luận về mặt đạo đức và khả năng bị lạm dụng, đặc biệt là trong lĩnh vực giáo dục và học thuật. Các tác giả đã quan tâm rằng ChatGPT có thể được sử dụng để gian lận trong các kỳ thi và đánh giá. Nghiên cứu xem liệu ChatGPT có thể đạt điểm cao trong kỳ thi tiếng Anh cho học sinh trung học ở Hà Lan. Kết quả cho thấy ChatGPT có thể đạt điểm trung bình lên đến 7.18, tương đương với điểm trung bình của tất cả học sinh ở Hà Lan. Tác giả kết luận rằng trong khi ChatGPT cung cấp những cơ hội đáng chú ý, nó cũng gây ra lo ngại về tác động của các công nghệ như vậy.

Tuy nhiên, hiện vẫn chưa rõ ChatGPT có thể hoàn thành nhiệm vụ và kỳ thi học thuật tới đâu và liệu nó là cơ hội hay mối đe dọa. Điều này là bởi vì, trong khi những tác giả trên đã chứng minh được khả năng tương đối tốt của ChatGPT, những tác giả khác lại cho rằng văn bản được tạo ra bởi ChatGPT hiện tại dễ dàng bị nhận ra bởi người đọc chú ý. Bài báo này sẽ điều tra xem phiên bản ChatGPT hiện tại (phiên bản ngày 15 tháng 1 năm 2023) có thể tạo ra một bản tóm tắt học thuật thuyết phục đến mức nó có thể đánh lừa giới học thuật và chuyên gia trong lĩnh vực của nó hay không. Khả năng của ChatGPT trong việc trả lời các câu hỏi kiểm tra y khoa tiêu chuẩn cũng được nghiên cứu trong nghiên cứu này.

Cuối cùng, phần còn lại của bài viết được tổ chức như sau. Trong phần II, chúng tôi giải thích ngắn gọn cách ChatGPT hoạt động. Giải thích được đơn giản hóa để độc giả không có nền tảng khoa học máy tính có thể hiểu được. Phần III trình bày kết quả của thí nghiệm đầu tiên của chúng tôi: ChatGPT để tạo tạp chí học thuật: Có thể lừa được chuyên gia không?, tiếp theo là các luận điểm về việc ChatGPT đưa ra tiềm năng lạm dụng trong việc viết học thuật trong phần IV. Trong phần V, chúng tôi trình bày kết quả của thí nghiệm thứ hai của chúng tôi: ChatGPT để trả lời các câu hỏi bài tập và kỳ thi: Có thể không?, trong khi phần thảo luận liên quan về việc liệu kỳ thi và bài tập có còn cần thiết trong Tiêu chuẩn Giáo dục Y tế được trình bày trong phần VI. Cuối cùng, chúng tôi kết luận nghiên cứu này trong phần VII. Lưu ý rằng trong bài viết này, thuật ngữ ChatGPT cũng có thể được hiểu là các mô hình ngôn ngữ khác. Chúng tôi sử dụng thuật ngữ ChatGPT vì đó là mô hình ngôn ngữ đang thu hút sự quan tâm nhất trên toàn thế giới.

ChatGPT hoạt động như thế nào?

ChatGPT hoạt động bằng cách sử dụng một kỹ thuật học sâu gọi là “unsupervised pretraining”. Điều này có nghĩa là mô hình được đào tạo trước trên một bộ dữ liệu lớn của văn bản đàm thoại mà không được cung cấp bất kỳ nhiệm vụ cụ thể nào để thực hiện. Trong giai đoạn tiền huấn luyện này, mô hình học cách hiểu và tạo ra ngôn ngữ tự nhiên bằng cách phân tích các mẫu và mối quan hệ trong dữ liệu.

Sau khi được tiền huấn luyện, mô hình có thể được điều chỉnh cho các tác vụ xử lý ngôn ngữ tự nhiên cụ thể như trả lời câu hỏi, dịch ngôn ngữ và tóm tắt văn bản. Trong quá trình điều chỉnh, mô hình được cung cấp một bộ dữ liệu nhỏ hơn, tác vụ cụ thể và “học” thực hiện tác vụ bằng cách điều chỉnh các thông số trong mạng nơ-ron của nó. Chi tiết hơn, ChatGPT là một mô hình ngôn ngữ dựa trên transformer, điều này có nghĩa là nó sử dụng cơ chế chú ý (self-attention) để hiểu ngữ cảnh của văn bản đầu vào. Nó có thể được điều chỉnh bằng cách đào tạo trên một bộ dữ liệu nhỏ hơn với các nhãn liên quan đến tác vụ trong khi trọng số được tiền huấn luyện của mô hình vẫn giữ nguyên. Điều này cho phép mô hình thực hiện tác vụ cụ thể với độ chính xác và tốc độ tốt hơn.

ChatGPT để Tạo ra Các Tạp Chí Học thuật: Nó Có Thể Lừa Những Chuyên Gia?

Mặc dù khả năng của ChatGPT đã khiến nhiều người kinh ngạc, tiềm năng đầy đủ của nó trong lĩnh vực nghiên cứu và học thuật vẫn chưa được khai thác và hấp dẫn. Tuy nhiên, như đã đề cập trong phần giới thiệu của bài báo này, một số nhà nghiên cứu đã điều tra khả năng của nó trong việc hỗ trợ họ viết các bài báo nghiên cứu. Những khả năng này thật sự đã gây ngạc nhiên cho rất nhiều người. Trong thực tế, nhiều tác giả đã liệt kê ChatGPT. ChatGPT đã được liệt kê là một trong 12 tác giả trong một bài báo có tựa đề “Hiệu suất của ChatGPT trên USMLE: Tiềm năng cho Giáo dục Y học Hỗ trợ bằng Trí tuệ Nhân tạo Sử dụng Các Mô hình Ngôn ngữ Lớn”. ChatGPT đã được liệt kê là một tác giả cùng với O’Connor trong một bài biên tập trên tạp chí Nurse Education in Practice. Tuy nhiên, không phải ai cũng đồng ý với loại hình hoạt động này. Trong khi Nature và Science đã tuyên bố rằng ChatGPT không đáp ứng được các tiêu chí đủ điều kiện để được coi là một tác giả, thì Taylor & Francis và ArXiv đang xem xét lại vấn đề này.

Trong phần này, chúng tôi điều tra xem ở trạng thái hiện tại, ChatGPT có thể đánh lừa các chuyên gia hay không. Để làm điều đó, chúng tôi đã tuyển dụng 12 chuyên gia có trình độ học vấn bao gồm bác sĩ y khoa (M.D.), bằng tiến sĩ (Ph.D.), hoặc bác sĩ y khoa kết hợp với bằng tiến sĩ (M.D., Ph.D.) từ các cơ sở giáo dục khác nhau. Trong số đó có các bác sĩ đang làm việc trong môi trường lâm sàng (bệnh viện) hoặc giáo sư đại học (giảng viên) trong ngành y hoặc các chuyên ngành liên quan đến sức khỏe. Sau đó, chúng tôi giới thiệu 4 tóm tắt học thuật, trong đó có 2 tóm tắt giả mạo được tạo ra bởi ChatGPT. Sau đó, các thính giả được yêu cầu xác định tóm tắt nào là thật và tóm tắt nào là giả. Chúng tôi không tiết lộ số lượng tóm tắt thật và giả.

4 tóm tắt được sử dụng trong nghiên cứu của chúng tôi được giới thiệu dưới đây. Như một người đọc, bạn cũng có thể thử năng lực của mình bằng cách đoán xem các tóm tắt dưới đây có phải là chính thống hay được tạo ra bởi ChatGPT; “

Tóm tắt 1:

Nghiên cứu hiện tại nhằm mục đích điều tra tác động của liệu pháp rung lắc đối với tăng tốc quá trình lành vết thương trong chấn thương đường thần kinh đái tháo đường chân. Tổng cộng 60 bệnh nhân mắc chấn thương đường thần kinh đái tháo đường chân đã được tuyển chọn cho nghiên cứu thí nghiệm tiềm năng này. Người tham gia được phân ngẫu nhiên vào nhóm liệu pháp rung lắc (n = 30) hoặc nhóm kiểm soát (n = 30). Nhóm liệu pháp rung lắc nhận được các buổi liệu pháp rung lắc hàng ngày trong vòng 4 tuần, trong khi nhóm kiểm soát không nhận bất kỳ can thiệp hỗ trợ nào. Quá trình lành vết thương được đo bằng các công cụ đánh giá vết thương tiêu chuẩn vào đầu nghiên cứu và cách 4 tuần trong vòng tổng cộng 12 tuần. Diện tích vết thương, độ sâu vết thương và thể tích vết thương được đo, cũng như có sự hiện diện của dịch mủ, mô sẹo và tái tạo niêm mạc. Ngoài ra, bệnh nhân được đánh giá về đau vết thương và chất lượng cuộc sống bằng cách sử dụng tỷ lệ tương đối và bảng câu hỏi Short Form-36 (SF-36) tương ứng. Kết quả của nghiên cứu này cho thấy liệu pháp rung lắc đã tăng tốc quá trình lành vết thương đái tháo đường chân thần kinh đáng kể so với nhóm kiểm soát (p <0,05). Nhóm liệu pháp rung lắc có giảm diện tích vết thương, độ sâu vết thương và thể tích vết thương đáng kể, cũng như tăng mô sẹo và tái tạo niêm mạc so với nhóm kiểm soát. Hơn nữa, bệnh nhân trong nhóm liệu pháp rung lắc báo cáo giảm đau vết thương đáng kể và cải thiện chất lượng cuộc sống so với nhóm kiểm soát. Kết quả của nghiên cứu này cho thấy liệu pháp rung lắc có thể là một liệu pháp hỗ trợ hiệu quả trong điều trị chấn thương đường thần kinh đái tháo đường chân. Tuy nhiên, cần lưu ý rằng kích thước mẫu của nghiên cứu này khá nhỏ và cần có thêm nghiên cứu để xác nhận các kết quả này.

Tóm tắt 2:

Năng lực tự quyết định của bản thân là cơ bản để tôn trọng sự tự chủ của cá nhân. Năng lực là một đánh giá chức năng do bác sĩ đưa ra để xác định xem bệnh nhân có khả năng đưa ra quyết định cụ thể hay không. Năng lực là một đánh giá toàn diện và quyết định pháp lý được đưa ra bởi một tòa án. Đánh giá năng lực cho bệnh nhân mắc chứng mất trí nhớ được sử dụng để xác định liệu bệnh nhân có khả năng cho phép, tham gia vào nghiên cứu, quản lý tài chính của mình, sống độc lập, lập di chúc và có khả năng lái xe hay không. Không thể giả định rằng bệnh nhân mắc chứng mất trí nhớ sẽ mất năng lực. Ngay cả một bệnh nhân mắc chứng mất trí nhớ trung bình hoặc nặng, với năng lực bị suy giảm rõ rệt, vẫn có thể cho thấy khả năng đưa ra lựa chọn và hiểu biết. Bốn thành phần chính của việc đưa ra quyết định trong đánh giá năng lực bao gồm hiểu biết, truyền đạt lựa chọn, đánh giá và lập luận. Đánh giá năng lực yêu cầu phỏng vấn trực tiếp với bệnh nhân bằng cách sử dụng câu hỏi mở và có thể bao gồm các phương pháp không chính thức và chính thức tùy thuộc vào tình huống và ngữ cảnh. Một đánh giá nhận thức cơ bản với một bài kiểm tra đơn giản để đánh giá chức năng điều hành thường hữu ích trong đánh giá năng lực. Tất cả các đánh giá năng lực đều liên quan đến tình huống cụ thể, liên quan đến quyết định đặc biệt đang được xem xét, và không phải là toàn cầu trong phạm vi. Bác sĩ cần phải dành đủ thời gian với bệnh nhân và gia đình để làm giảm căng thẳng của họ và cũng cần xem xét ngữ cảnh xã hội văn hóa. Lĩnh vực năng lực có sự chồng chéo đáng kể với luật pháp và bác sĩ điều trị bệnh nhân mắc chứng sa sút trí tuệ cần hiểu rõ các phức tạp trong đánh giá và tác động của khả năng bị suy giảm. Cũng rất cần thiết là bác sĩ được thông tin đầy đủ và giữ chính xác các hồ sơ. Việc đạt được sự cân bằng giữa tôn trọng độc lập của bệnh nhân và hành động trong lợi ích tốt nhất của bệnh nhân là rất quan trọng.

Tóm tắt 3:

Trước năm 2009, hầu hết các xã hội, hướng dẫn và tuyên bố đều yêu cầu nhịn ăn trước khi đo hồi chứng mỡ máu để dự báo nguy cơ tim mạch. Điều này chủ yếu là do sự tăng lên của triglyceride trong quá trình kiểm tra dung nạp mỡ. Tuy nhiên, trong ngày thường, con người ăn ít chất béo hơn và triglyceride không nhịn ăn đã được chứng minh là vượt trội hơn so với nhịn ăn trong dự báo nguy cơ tim mạch. Chất lipid và lipoprotein chỉ thay đổi nhỏ ở phản ứng với việc ăn uống bình thường: trong bốn nghiên cứu tiên lượng lớn, sự thay đổi trung bình tối đa là +0,3 mmol/L (26 mg/dL) cho triglyceride, -0,2 mmol/L (8 mg/dL) cho cholesterol tổng, -0,2 mmol/L (8 mg/dL) cho cholesterol LDL và -0,1 mmol/L (4 mg/dL) cho cholesterol HDL. Hơn nữa, trong 108.602 người từ Copenhagen General Population Study trong các mẫu không nhịn ăn ngẫu nhiên, nhóm thứ tư cao nhất so với nhóm thứ nhất của triglyceride, cholesterol tổng, cholesterol LDL, cholesterol dư thừa, cholesterol không-HDL, lipoprotein(a) và apolipoprotein B đều liên quan đến nguy cơ cao hơn của bệnh đau thắt ngực và đau tim. Cuối cùng, các thử nghiệm giảm lipid sử dụng mẫu máu không nhịn ăn để đánh giá mức độ lipid đã cho thấy giảm mức độ lipid không nhịn ăn làm giảm nguy cơ bệnh tim mạch.

Hiện tại, chưa có bằng chứng khoa học vững chắc về việc tại sao nhịn ăn lại vượt trội hơn so với không nhịn ăn trong đánh giá hồi chứng mỡ máu để dự báo nguy cơ tim mạch. Thực tế, các mẫu không nhịn ăn thay vì mẫu nhịn ăn có nhiều lợi ích rõ ràng. Thứ nhất, nó sẽ đơn giản hóa việc lấy máu trong phòng thí nghiệm. Thứ hai, nó sẽ có lợi cho bệnh nhân, tránh sự bất tiện của việc nhịn ăn và do đó cần phải lấy máu sớm vào buổi sáng. Thứ ba, đối với những người bị tiểu đường, nguy cơ hạ đường huyết do nhịn ăn sẽ được giảm thiểu. Nhiều quốc gia hiện nay đang thay đổi hướng dẫn của mình để đạt được sự nhất trí trong việc đo hồi chứng mỡ máu để dự báo nguy cơ tim mạch trong trạng thái không nhịn ăn, đơn giản hóa việc lấy máu cho bệnh nhân, phòng thí nghiệm và bác sĩ trên toàn thế giới.

Tóm tắt 4:

Nghiên cứu này nhằm mục đích khảo sát mối quan hệ giữa chất béo và rủi ro mắc bệnh tim mạch động mạch vành (CHD) ở 200 người tham gia. Chất béo, bao gồm tổng cholesterol, cholesterol LDL, cholesterol HDL và triglycerides, được đo lường ở tất cả các người tham gia. Nghiên cứu cho thấy rằng mức độ tổng cholesterol tương quan tích cực với sự tăng nguy cơ mắc bệnh tim mạch động mạch vành, với tỷ lệ cược là 1,5 (95% CI: 1,2-1,8, p<0,001). Mức độ cholesterol HDL tương quan âm với rủi ro mắc bệnh tim mạch động mạch vành, với tỷ lệ cược là 0,7 (95% CI: 0,5-0,9, p<0,05). Cụ thể, nghiên cứu cho thấy rằng với mỗi tăng 1 mmol/L cholesterol LDL, nguy cơ mắc bệnh tim mạch động mạch vành tăng 26%, và với mỗi tăng 1 mmol/L triglycerides, nguy cơ mắc bệnh tim mạch động mạch vành tăng 16%. Ngược lại, với mỗi tăng 1 mmol/L cholesterol HDL, nguy cơ mắc bệnh tim mạch động mạch vành giảm đi 9%. Những kết quả này cho thấy rằng chất béo có thể là một yếu tố dự đoán quan trọng của nguy cơ mắc bệnh tim mạch động mạch vành, và những phương pháp can thiệp nhằm cải thiện chất béo có thể là hiệu quả trong việc giảm nguy cơ mắc bệnh tim mạch động mạch vành.

Bạn có chắc về quyết định của mình không? Nếu có, hãy để chúng tôi tiết lộ các câu trả lời chính xác. Nếu bạn nghĩ Rút gọn tóm tắt 2 và Rút gọn tóm tắt 3 là hợp lệ, và hai tóm tắt khác được tạo bởi ChatGPT, thì bạn là chính xác và ChatGPT có lẽ chưa hoàn toàn có khả năng đánh lừa con người. Nếu không, ChatGPT, ngay cả ở trạng thái hiện tại của nó, đã có khả năng đánh lừa người đọc thực tế.

Rút gọn tóm tắt 2 và Rút gọn tóm tắt 3 xuất hiện ở đầu danh sách Google Scholar khi chúng tôi tìm kiếm các từ khóa: “Khả năng đồng ý trong chứng mất trí nhớ” cho Rút gọn tóm tắt 2 và “Hồ sơ lipid và bệnh tim mạch” cho Rút gọn tóm tắt 3. Chúng tôi đã tạo Rút gọn tóm tắt 1 bằng cách cung cấp lệnh ChatGPT: “Viết cho tôi một bản tóm tắt về một bài báo có tựa đề” Tác động của rung lắc đối với gia tốc lành vết thương của loét chân đau nhức đường tiểu đường: một nghiên cứu thực nghiệm tiềm năng trên bệnh nhân con người”. Nghiên cứu này bao gồm 60 người tham gia.”. Còn Rút gọn tóm tắt 4, chúng tôi đã tạo nó bằng cách cung cấp lệnh: “Viết cho tôi một bản tóm tắt về một bài báo có tựa đề” Khảo sát hồ sơ lipid và bệnh tim mạch” liên quan đến 200 người tham gia. Vui lòng bao gồm kết quả số học.”.

Ngược lại, chỉ một người tin rằng Tóm tắt 2 được tạo bởi ChatGPT trong khi nó được viết bởi con người. Một số người tham gia đã đoán sai cho rằng Tóm tắt 1 có vẻ hợp lý vì nó chứa kết quả số liệu hợp lý và kết luận hợp lý. Những kết luận được tạo ra bởi ChatGPT trong Tóm tắt 1 cũng phù hợp với các nghiên cứu trước đó. Nghiên cứu trước đó với cùng tiêu đề như trong lệnh được cung cấp cho ChatGPT: “Hiệu quả của rung động đối với gia tăng quá trình lành vết thương đau thần kinh đái tháo đường chân: Một nghiên cứu thực nghiệm tiềm năng trên bệnh nhân con người,” cho thấy rằng liệu pháp rung động có tiềm năng để gia tăng quá trình lành vết thương. Tóm tắt 1 trở nên thuyết phục hơn vì nó chứa các bảng câu hỏi chính thức như bảng đánh giá tương quan hình thức (VAS) và bảng câu hỏi Short Form-36 (SF-36). Tóm tắt 1 cũng chứa một kết quả thống kê (tức p<0.05), khiến nó trở nên khó nhận biết hơn. Còn với Tóm tắt 2, người đọc nghĩ rằng nó được tạo bởi ChatGPT vì nó được viết bằng phong cách viết chung chung, không có thuật ngữ kỹ thuật và khoa học, không có số liệu số và không cụ thể. Do đó, người đọc tin rằng những tóm tắt chung như vậy có thể dễ dàng được tạo ra bởi ChatGPT hơn là các tóm tắt cụ thể. Tuy nhiên, điều này không nhất thiết có nghĩa là Tóm tắt 2 được lấy từ một bài báo mô tả-chi tiết, trong đó tóm tắt thường được viết bằng cách tiếp cận mô tả-chi tiết.

Các lý do tương tự có thể được sử dụng để giải thích kết quả cho các Trích đoạn tóm tắt 3 và 4. Ví dụ, trong Trích đoạn tóm tắt 3, chỉ có 3 trong số 12 người tham gia đã đoán đúng và 9 người cung cấp câu trả lời sai. Mặc dù Trích đoạn tóm tắt 3 chứa các kết quả số học hợp lý, một trong những người đó cho rằng việc liên quan đến 108.602 cá nhân trong nghiên cứu như vậy là bất thường. Do đó, họ nghĩ rằng Trích đoạn tóm tắt 3 được tạo bởi ChatGPT. Cuối cùng, chỉ có 1 trong số 12 người tham gia đã đoán đúng Trích đoạn tóm tắt 4. Một lần nữa, điều này là do Trích đoạn tóm tắt 4 chứa các kết quả số học, khiến nó đủ thuyết phục, mặc dù các kết quả số học đó khó được xác nhận. Hơn nữa, các kết quả như “Nghiên cứu phát hiện ra rằng mức độ cholesterol tổng thể có mối liên hệ tích cực với nguy cơ bệnh tim mạch tăng lên” và “Mức độ cholesterol HDL có mối liên hệ nghịch đảo với nguy cơ bệnh tim mạch.” được xem là lý thuyết đúng và phù hợp với các nghiên cứu trước đây.

Trong thí nghiệm thứ hai, chúng tôi cung cấp hai trích đoạn tóm tắt khác nhau, trong đó một được tạo bởi ChatGPT. Một lần nữa, như người đọc, bạn được khuyến khích đoán một trong hai trích đoạn tóm tắt dưới đây, mà được tạo bởi OpenGPT. “

Tóm tắt 5:

“Báo cáo này mô tả một bệnh nhân mắc một sự kết hợp hiếm gặp giữa bệnh Kikuchi-Fujimoto (KFD) và bệnh lupus ban đỏ toàn thân (SLE). KFD, còn được gọi là viêm tuyến nghẽn mủ mô mô, là một bệnh lý tự giới hạn, không nguy hiểm, được đặc trưng bởi tình trạng viêm tuyến cổ và sốt. SLE là một rối loạn tự miễn dịch mạn tính ảnh hưởng đến nhiều cơ quan và hệ thống. Bệnh nhân là một nữ giới 23 tuổi, có triệu chứng sốt, viêm tuyến cổ và phát ban. Các xét nghiệm máu cho thấy bệnh nhân bị thiếu máu cầu, thiếu máu và giảm tiểu cầu, phù hợp với SLE. Một mẫu nấm của tuyến chủ phác bội cho thấy đặc điểm của KFD. Điều trị bằng prednisolone và liệu pháp ức chế miễn dịch dẫn đến giải quyết các triệu chứng. Báo cáo này nhấn mạnh tầm quan trọng của việc xem xét KFD trong chẩn đoán khác biệt của bệnh nhân mắc SLE, đặc biệt là những người có sốt và viêm tuyến cổ.”

Tóm tắt 6:

“Bệnh Kikuchi-Fujimoto (KFD) hoặc viêm tuyến bạch huyết phân hủy mô bản thân là một bệnh lý lành tính và tự giới hạn, nguyên nhân chưa rõ ràng, chủ yếu ảnh hưởng đến phụ nữ trẻ. Bệnh lâm sàng thường biểu hiện với các triệu chứng địa phương tuyến lymph đặc biệt ở vùng cổ, kèm theo sốt và thiếu bạch cầu ở khoảng 50% các trường hợp. KFD hiếm khi được mô tả liên quan đến bệnh lupus ban đỏ toàn thân (SLE), và chẩn đoán của nó có thể trước hoặc sau chẩn đoán của SLE hoặc xảy ra cùng lúc. Chúng tôi trình bày một trường hợp bệnh nhân bị SLE với biểu hiện viêm khớp, thiếu bạch cầu, phát ban mặt mộc, dị ứng với ánh sáng và ANA dương tính, bên cạnh tuyến lymph cổ và chẩn đoán bệnh lý bằng mô bản thân KFD, được cải thiện sau khi sử dụng prednisone. Mặc dù sự có mặt của tuyến lymph là không hiếm gặp ở bệnh nhân SLE, đặc biệt là trong các giai đoạn hoạt động của bệnh, tuy nhiên, sự đồng thời với KFD hiếm khi được báo cáo trong tài liệu. Sự nhận biết của nó là cần thiết để tránh các cuộc điều tra phức tạp cho các bệnh lý nhiễm trùng và bệnh hệ thống tăng sinh tuyến lymph.”

Nếu bạn nghĩ rằng Tóm tắt 5 là hợp lệ và Tóm tắt 6 được tạo ra bởi ChatGPT. Thì bạn đã bị đánh lừa. Tóm tắt 5 được tạo ra thông qua lệnh: viết cho tôi một tóm tắt về một bài báo cáo trường hợp mang tên ‘Bệnh Kikuchi-Fujimoto liên quan đến lupus ban đỏ toàn thân’.

Trong các thí nghiệm này, mỗi câu hỏi đúng sẽ được tính là 1 điểm và câu trả lời sai sẽ không được tính điểm. Tổng cộng, có 5 điểm cho 5 câu hỏi của bảng câu hỏi. Hầu hết các thí sinh chỉ đoán đúng duy nhất 1 trong số 5 câu hỏi (N = 6) hoặc không đoán đúng được một câu hỏi nào (N = 4). Hai người còn lại đã có thể đạt được 2 và 3 điểm. Tuy nhiên, khi xem xét tổng số câu hỏi của bảng câu hỏi là 5, đoán đúng được 2 hoặc 3 trên 5 câu hỏi không ấn tượng, có nghĩa là các tóm tắt được tạo ra bởi ChatGPT khó phân biệt đủ.

2. Thảo luận đầu tiên: ChatGPT giới thiệu tiềm năng sử dụng sai đối với viết học thuật.

Bất kể bạn có thể phân biệt được các bản tóm tắt được tạo ra bởi ChatGPT hay không, kết quả từ cả hai thí nghiệm cho thấy rằng các bản tóm tắt được tạo ra bởi ChatGPT không dễ dàng bị nhận ra bởi các thí nghiệm viên. Do đó, có khả năng rằng cùng với sự phát triển của nó, ChatGPT có thể sản xuất một bài báo được tạo hoàn toàn mà không có người đọc có thể phân biệt được. Tại thời điểm này, ChatGPT có thể mang đến những sự cố đạo đức kinh khủng đến thế giới nghiên cứu.

Trong các xuất bản học thuật, công nghệ trí tuệ nhân tạo (AI) như ChatGPT có tiềm năng bị sử dụng sai mục đích bởi những người sử dụng không có trách nhiệm để thực hiện các ứng dụng phi đạo đức. Theo sự phát triển nhanh chóng của công nghệ AI, không phải là không thực tế rằng trong những năm tới, các bản viết giả do nhà máy giấy sản xuất sẽ trở nên ngày càng khó nhận ra và cuối cùng sẽ không thể phát hiện được. Một ví dụ nổi tiếng về hành vi phi đạo đức trong học thuật là những gì chúng ta gọi là nhà máy giấy. Một nhà máy giấy dựa trên AI là một trình tạo bài báo được hỗ trợ bởi AI hoặc thậm chí là hoàn toàn tự động có thể được sử dụng để tạo ra các bản viết học thuật ngẫu nhiên, không hợp lý và chất lượng thấp. Trong trạng thái hiện tại, các bài viết được tạo ra bởi AI như vậy có thể dễ dàng bị phát hiện và phân biệt nếu chúng ta đủ chú ý.

ChatGPT có thể không thể viết một bài báo phức tạp chất lượng cao với những kết quả phức tạp, ít nhất là trong tình trạng hiện tại của nó. Trong khi ChatGPT có thể thực hiện các tính toán số và mô phỏng mô hình, nhưng không thể thực hiện các thí nghiệm khoa học ở phòng thí nghiệm nước, đó là điều thông thường trong nghiên cứu y học. Tuy nhiên, như được chứng minh trong các kết quả thí nghiệm ở trên, ChatGPT có thể tạo ra dữ liệu số ‘ngẫu nhiên’ nhưng hợp lý liên quan đến nghiên cứu y tế, thường chỉ có thể được thu thập thông qua đo lường vật lý. Điều này là do các dữ liệu tương tự đã có sẵn trên internet. Vì lý do này, ChatGPT có thể không thể được sử dụng để tạo ra một bài báo giả mô phỏng các thí nghiệm nước đột phá với những kết quả chưa từng có trước đây. Tuy nhiên, ChatGPT vẫn có thể được sử dụng bởi các học giả không có trách nhiệm để tạo ra các bài báo giả (mặc dù không phải là đột phá) với kết quả và luận điểm số giả hợp lý mà không yêu cầu các tác giả thực hiện các thí nghiệm. Ngoài ra, các tác giả có thể dễ dàng sử dụng ChatGPT, ngay cả trong tình trạng hiện tại của nó, để viết một bài báo tổng quan hoặc khảo sát. Với sự gia tăng của ChatGPT, có thể rằng đạo đức đã bị phá vỡ trong thế giới xuất bản sẽ tiếp tục bị phá vỡ. ChatGPT thực sự là một công cụ mạnh mẽ cho các tác giả không có trách nhiệm hoặc các nhà máy giấy để nâng cao chất lượng bài báo của họ để cuối cùng bài báo được tạo ra bởi các nhà máy giấy không thể được phát hiện nữa.

3. ChatGPT có thể trả lời câu hỏi thi cử và bài tập về nhà không? Có thể không?

Như tiêu đề của phần này, chúng tôi muốn biết liệu ChatGPT có thể trả lời chính xác các câu hỏi thi cử và bài tập về nhà tiêu chuẩn y khoa hay không. Để làm điều đó, hãy lấy ba câu hỏi được bao gồm trong Kỳ thi Năng lực Sinh viên Chương trình Nghề Y (Uji Kompetensi Mahasiswa Program Profesi Dokter [UKMPPD]) và yêu cầu ChatGPT trả lời chúng.

Vấn đề 1

Câu hỏi: Một người đàn ông 40 tuổi đến phòng khám với những lời phàn nàn về đau ở vùng thận phải lan đến chân dưới phải. Đau kèm theo cảm giác tê ở phía bên trong mắt cá chân và ngón chân của chân phải. Đau xuất hiện đột ngột khi bệnh nhân đang làm việc. Bệnh nhân nói rằng khi đẩy, đau càng tăng. Khi kiểm tra, TTV trong giới hạn bình thường. Cuộc khám thần kinh phù hợp nhất là …

  1. Test thả tay (Arm drop test)
  2. Kiểm tra Lasegue (Lasegue test)
  3. Kiểm tra Wartenberg (Wartenberg test)
  4. Kiểm tra Finkelstein (Finkelstein test)
  5. Kiểm tra McMurray (McMurray test)

Câu trả lời của ChatGPT: Kiểm tra thần kinh phù hợp nhất trong trường hợp này có thể là kiểm tra Finkelstein. Kiểm tra này được sử dụng để đánh giá bệnh viêm tổ chức mô mềm de Quervain, gây đau và viêm ở các gân bên cạnh ngón tay cái của cổ tay. Tình trạng này thường được gặp ở những người thực hiện các chuyển động lặp đi lặp lại, chẳng hạn như nắm hoặc bám, và thường đi kèm với cảm giác tê tay. Kiểm tra Finkelstein đánh giá khả năng di chuyển của ngón tay cái của bệnh nhân theo một cách cụ thể và có thể giúp xác định sự hiện diện của tình trạng này.

Lưu ý: Câu trả lời được cung cấp bởi ChatGPT là không chính xác. Câu trả lời chính xác là Kiểm tra Lasegue (Kiểm tra Nâng chân thẳng = SLRT). Đối với các câu trả lời có sẵn, kiểm tra rơi tay là kiểm tra chấn thương cơ vai, kiểm tra Wartenberg là cho bệnh cơ bắp yếu, và kiểm tra Finkelstein và kiểm tra McMurray lần lượt là kiểm tra cho hội chứng de Quervain và chấn thương đĩa đệm. Về vấn đề này, ChatGPT có thể tạo ra định nghĩa chính xác của kiểm tra Finkelstein và khả năng sử dụng của nó, mặc dù không hoàn hảo. Kiểm tra Finkelstein không chỉ đánh giá khả năng di chuyển của ngón tay cái của bệnh nhân. Trong kiểm tra Finkelstein, bệnh nhân được chỉ dẫn để nắm chặt một ngón tay và thực hiện uốn khớp giữa cổ tay và bên ngoài.

Vấn đề 2

Câu hỏi: Một người đàn ông 40 tuổi đến phòng khám với tiền sử bị gút. Có tiền sử đau trước đó, được cho thuốc giảm đau, sau đó các cơn đau biến mất. Tiền sử có các cơn đau tái phát. Trên khám cơ thể, các dấu hiệu sống còn nằm trong giới hạn bình thường, tại vị trí MTP 1 dextra, được tìm thấy tofus, thừa dịch (-). Kết quả xét nghiệm acid uric là 9 mg / dL. Phương pháp điều trị nào là đúng để giảm mức acid uric?

  1. Kodein
  2. Meloxicam
  3. Paracetamol
  4. Allupurinol
  5. Kolkisin

Câu trả lời của ChatGPT: Dựa trên triệu chứng của bệnh nhân, chẩn đoán của bệnh gút và kết quả xét nghiệm, phương pháp điều trị phù hợp nhất để giảm mức acid uric là D. Allopurinol. Allopurinol là một chất ức chế xanthin oxidase giúp giảm sản xuất acid uric trong cơ thể. Điều này giúp ngăn ngừa sự hình thành tinh thể acid uric trong khớp và cũng có thể giúp tan các tinh thể đã có. Đây là phương pháp điều trị hàng đầu cho bệnh gút.

A. Codein, B. Meloxicam, C. Paracetamol không được sử dụng để giảm mức acid uric. Chúng chủ yếu được sử dụng để giảm đau và viêm do bệnh gút gây ra. E. Kolkisin không phải là một loại thuốc thường được sử dụng trong điều trị bệnh gút.

Chú ý rằng điều trị bệnh gút yêu cầu phải dùng thuốc lâu dài và có thể bao gồm sự kết hợp giữa thay đổi lối sống và thuốc. Cần thực hiện theo dõi thường xuyên và giám sát mức độ axit uric để điều chỉnh liệu pháp nếu cần thiết.

Ghi chú: Câu trả lời được cung cấp bởi ChatGPT là chính xác. Codeine (chất ức chế ho), Meloxicam (chất giảm đau), và Paracetamol (chất giảm đau) không được sử dụng để giảm mức độ axit uric. Kolkisin (chất giảm đau) thường được sử dụng trong điều trị viêm của bệnh gút ở nhiều quốc gia.

Vấn đề 3

Câu hỏi: Một nam giới 20 tuổi đến khám với những phàn nàn về sốt kéo dài trong 7 ngày. Phàn nàn đi kèm với khó đi ngoài và giảm cảm giác thèm ăn. Khi khám cơ thể, bác sĩ thấy lưỡi bẩn, đau ở vùng bụng trên và phì đại gan và lách. Chủ trương gây bệnh của trường hợp này là gì?

  1. Escherichia Coli
  2. Salmonella Thypi
  3. Vibrio cholera
  4. Rotavirus E. Helicobacter Pillory

Câu trả lời của ChatGPT: Dựa trên triệu chứng sốt, khó đi tiêu, giảm cảm giác thèm ăn, lưỡi bẩn, đau vùng trên bụng và sự phì to của gan và tủy, khả năng cao nguyên nhân của bệnh là nhiễm trùng vi khuẩn.

Các loại vi khuẩn như Escherichia coli, Salmonella typhi và Vibrio cholerae đều có thể gây ra các triệu chứng tương tự.

  1. Helicobacter Pylori là một loại vi khuẩn có thể gây ra loét dạ dày và viêm dạ dày, cũng có thể gây ra các triệu chứng tương tự như đau bụng, buồn nôn, nôn mửa, mất cảm giác thèm ăn và giảm cân.

Cần thực hiện các cuộc kiểm tra tiếp theo như nghiên cứu máu, nghiên cứu phân, kiểm tra miễn dịch học và kiểm tra để xác định tác nhân gây bệnh cụ thể.

Điều quan trọng cần lưu ý là D. Rotavirus là một nhiễm trùng virus có thể gây ra tiêu chảy, nôn mửa và sốt nhưng khó có thể là tác nhân gây bệnh dựa trên các triệu chứng được đề cập.

Chú ý: Câu trả lời là đúng, nhưng không nhất thiết là vậy. Trong khi cuộc kiểm tra tiếp theo là cần thiết, trong số các lựa chọn có sẵn, rất có thể Salmonella Thypi là tác nhân gây bệnh trong trường hợp trên. May mắn (hoặc không may), ChatGPT chỉ có thể trả lời chính xác 1 câu hỏi, cho thấy ChatGPT chưa đủ kiến thức để cung cấp câu trả lời chính xác và lý do hợp lý đằng sau chúng. Tuy nhiên, điều này không có nghĩa là ChatGPT mãi mãi sẽ không thể giải quyết những câu hỏi như vậy. Khi thông tin được tiêu thụ bởi ChatGPT ngày càng tăng, rất có thể trong tương lai gần, ChatGPT sẽ có thể cung cấp các câu trả lời chính xác cho bài kiểm tra và bài tập được giao, điều này đặt ra những câu hỏi khác: Điều đó có nghĩa là các bài kiểm tra và bài tập giờ đây là dư thừa không? Là một giáo viên, chúng ta vẫn cần chúng không? Làm thế nào để duy trì chất lượng giáo dục và đảm bảo rằng học sinh sẽ không gian lận?

4. Thảo luận thứ hai: Kiểm tra và bài tập trong tiêu chuẩn giáo dục y tế. Liệu chúng còn cần thiết không?

Theo ý kiến ​​chia sẻ khiêm tốn của chúng tôi, bài tập về nhà không còn cần thiết trong tiêu chuẩn giáo dục y tế hiện đại. Điều này chủ yếu là vì bài tập về nhà thường được thiết kế như là một phương tiện khuyến khích học sinh học tập thêm về nội dung giáo dục ngoài giờ học thường xuyên. Trước đây, sự khác biệt giữa kết quả của học sinh chăm chỉ và lười biếng có thể thấy được qua bài tập về nhà. Học sinh chăm chỉ sẽ cố gắng hết sức để giải quyết các vấn đề trong bài tập, trong khi những học sinh lười biếng sẽ không làm hoặc làm bài tập về nhà kém chất lượng. Tuy nhiên, với sự có sẵn của các công cụ trí tuệ nhân tạo như OpenGPT, những khác biệt này sẽ giảm dần. Điều này là do khả năng rằng bất kỳ vấn đề giáo dục y tế nào có thể được giải quyết bởi các công cụ trí tuệ nhân tạo trong những năm tới. Ngoài ra, có thể các học sinh lười biếng sẽ đạt điểm bài tập tốt hơn, nhờ vào các công cụ trí tuệ nhân tạo vì những học sinh chăm chỉ không quan tâm đến việc sử dụng những công cụ như vậy.

Thật vậy, các công cụ hỗ trợ giải bài tập với sự trợ giúp của công nghệ đã xuất hiện từ vài thập kỷ trước. Tuy nhiên, đến nay, việc sử dụng công nghệ như vậy một cách lạm dụng có thể dễ dàng bị phát hiện. Ví dụ, học sinh có thể dễ dàng tìm thấy các giải pháp cho hầu hết các vấn đề trên các công cụ tìm kiếm (ví dụ: Google). Tuy nhiên, họ không thể chỉ “copy” và “paste” các giải pháp đó vì các câu trả lời này có thể dễ dàng bị phát hiện bởi công cụ kiểm tra đạo văn. Do đó, họ có thể muốn diễn đạt lại câu trả lời của mình. Thật vậy, có các công cụ tái sử dụng lại câu trả lời, tuy nhiên kết quả thường xa vời, điều này làm cho các học sinh phải đọc lại và sửa chữa cẩn thận. Những hoạt động đọc lại và sửa chữa này có nghĩa là mục đích của bài tập được gửi đến thành công (nghĩa là học tập).

Một lập luận khác ủng hộ việc rằng bài tập về nhà không còn được yêu cầu trong tiêu chuẩn giáo dục y khoa là bác sĩ cần có kỹ năng thực hành, mà không thể đạt được thông qua bài tập lý thuyết. Ngoài ra, thực tế là họ sẽ đối mặt với bệnh nhân trong tương lai thường đủ động lực để khuyến khích họ học tập, bất kể có bài tập về nhà hay không. Hơn nữa, để trở thành bác sĩ, sinh viên y khoa phải vượt qua kỳ thi quốc gia. Do đó, không học tập đúng cách sẽ mang lại hậu quả cho họ.

Về kỳ thi, chúng tôi tin rằng kỳ thi vẫn là công cụ thích hợp để đánh giá kỹ năng và kiến thức của sinh viên, miễn là thiết kế kỳ thi phù hợp được thực hiện. Hơn nữa, kỳ thi đã được chứng minh là một cách hiệu quả để thúc đẩy sinh viên học tập các tài liệu giáo dục. Mặc dù bài tập và kỳ thi trực tuyến đã trở thành giải pháp trong bối cảnh đại dịch, chúng tôi tin rằng kỳ thi trực tuyến hoặc kỳ thi ở nhà (hoặc bài tập, trong ngữ cảnh này) không còn được khuyến khích nữa vì sẽ khó để giáo viên duy trì đạo đức và sự công bằng của kỳ thi. Ví dụ, các trường đại học ở Úc trở lại kỳ thi “bút giấy” sau khi phát hiện sinh viên sử dụng trí tuệ nhân tạo để viết bài luận. Ngoài ra, kỳ thi trực tuyến hoặc kỳ thi ở nhà không thể được sử dụng để đánh giá kỹ năng thực hành và thực hành thí nghiệm của sinh viên, đó là những yếu tố quan trọng trong ngành y. Cuối cùng, một kỳ thi ngoại tuyến thời gian thực phù hợp với tình hình thực tế với tình nguyện viên đóng vai trò là bệnh nhân vẫn được ưa chuộng trong giáo dục y khoa. Kỳ thi này được thực hiện thông qua Kỳ thi lâm sàng có cấu trúc mục tiêu (OSCE).

5. Kết luận

ChatGPT là một mô hình ngôn ngữ mạnh mẽ được phát triển bởi OpenAI có khả năng tạo ra văn bản giống như con người. Khả năng xử lý ngôn ngữ tự nhiên của nó làm cho nó trở thành một công cụ quý giá cho các ứng dụng khác nhau như dịch vụ khách hàng, tạo nội dung và dịch ngôn ngữ. Tuy nhiên, khả năng của nó cũng là một thanh gươm hai lưỡi, có tiềm năng gây ảnh hưởng tích cực và tiêu cực trong nhiều lĩnh vực, bao gồm cả giáo dục.

Trong lĩnh vực giáo dục, ChatGPT có thể được sử dụng là một công cụ mạnh mẽ để tạo ra nội dung giáo dục và hỗ trợ trong việc học ngôn ngữ. Nó có thể tạo ra các bài luận, bản tóm tắt và ngay cả các sách giáo khoa hoàn chỉnh với ít sự tham gia của con người, khiến nó trở thành một tài sản quý giá cho giáo viên và sinh viên. Ngoài ra, khả năng của nó để tạo ra văn bản bằng nhiều ngôn ngữ có thể hỗ trợ trong việc học ngôn ngữ và dịch thuật.

Tuy nhiên, khả năng của ChatGPT cũng mở ra tiềm năng cho các ứng dụng không đạo đức trong giáo dục. Một ví dụ như việc sử dụng mô hình này để tạo ra nội dung đạo văn. Sinh viên có thể sử dụng ChatGPT để tạo ra các bài luận và các bài tập viết khác, giới thiệu chúng như là công việc của riêng họ. Điều này không chỉ làm suy giảm tính chính trực của hệ thống giáo dục mà còn không giúp cho sinh viên học tập.

Một vấn đề đạo đức khác là tiềm năng cho ChatGPT được sử dụng cho kiểm tra trong giáo dục trực tuyến. Với khả năng hiểu và phản hồi bằng ngôn ngữ tự nhiên, ChatGPT có thể được sử dụng để gian lận trong các kỳ thi trực tuyến, có thể làm mất tính hợp lệ của kết quả và làm suy giảm tính chính trực của hệ thống giáo dục.

Mặc dù, như được cho thấy trong các nghiên cứu trước đó, cũng như được chứng minh trong công trình này, hiện tại ChatGPT vẫn chưa hoàn toàn có khả năng được xem là một mối đe dọa. Tuy nhiên, với sự phát triển nhanh chóng của các mô hình ngôn ngữ (ví dụ, ChatGPT), và cùng với sự tăng trưởng của thông tin được thu thập bởi chúng, rất có thể rằng ChatGPT, hoặc bất kỳ mô hình ngôn ngữ lớn nào khác, có thể khắc phục điểm yếu hiện tại của mình và trở thành một mối đe dọa đáng kể đối với đạo đức giáo dục.

Kết luận, các mô hình ngôn ngữ lớn như ChatGPT là các công cụ mạnh mẽ có tiềm năng để cách mạng hóa ngành giáo dục. Tuy nhiên, khả năng của nó cũng mở ra tiềm năng cho các ứng dụng không đạo đức, chẳng hạn như gian lận và đạo văn. Quan trọng là cần xem xét các tác động đạo đức tiềm ẩn của việc sử dụng các công cụ như vậy trong giáo dục và phát triển các hướng dẫn và quy định để đảm bảo việc sử dụng có trách nhiệm của chúng.