Кросс-лингвистическая адаптация медицинских LLM-моделей для ортопедических контекстов: Сравнительные результаты на казахстанских клинических данных и бенчмарке KazMMLU

Авторы

  • Байгараева Ж.Е. Казахский национальный технический исследовательский университет имени К. И. Сатпаева https://orcid.org/0000-0003-1919-3570
  • Болтабоева А.К. Казахский национальный технический исследовательский университет имени К. И. Сатпаева https://orcid.org/0000-0002-7279-9910
  • Иманбек Б.Т. Казахский национальный университет имени Аль-Фараби https://orcid.org/0000-0001-7249-380X
  • Ожикенов К. Казахский национальный технический исследовательский университет имени К.И. Сатпаева https://orcid.org/0000-0003-2026-5295
  • Баймбетов Д. Казахский национальный исследовательский технический университет имени К.И. Сатпаева https://orcid.org/0000-0002-9168-5089

DOI:

https://doi.org/10.52889/1684-9280-2026-77-2-jto046

Ключевые слова:

болезни костно-мышечной системы, переломы костей, остеоартрит, реабилитация, компьютеризированные системы медицинских записей, обработка естественного языка, машинное обучение, многоязычие

Аннотация

Заболевания и травмы костно-мышечной системы, включая переломы костей, дегенеративные изменения суставов, повреждения связок и менисков, а также состояния после эндопротезирования и остеосинтеза, часто приводят к длительному лечению и поэтапной реабилитации. В травматологии и ортопедии значительная часть клинической информации фиксируется в текстовых документах, однако смешение русского и казахского языков, вариативность терминов и обилие свободного текста затрудняют единообразное кодирование, анализ исходов и подготовку стандартизированных выписных и реабилитационных рекомендаций.
Целью настоящего исследования было оценить, улучшает ли кросс-лингвистическая доменная адаптация предварительно обученных медицинских трансформерных моделей понимание двуязычных медицинских формулировок на материале клинических нарративов травматолого-ортопедического профиля из Казахстана.
Методы. Проведено ретроспективное исследование, включившее 500 взрослых пациентов, пролеченных в отделении ортопедической хирургии Городской клинической больницы №4 (Алматы, Казахстан). Многостраничные электронные истории болезни, сохраненные в формате переносимого документа, были деидентифицированы, преобразованы в текст и далее структурированы в виде двуязычных (казахский и русский) инструкционно-диалоговых примеров, отражающих типичный стиль клинической документации. Две предварительно обученные медицинские трансформерные модели (компактная модель, оптимизированная для задач здравоохранения, и более крупная биомедицинская модель) были дообучены параметрически эффективной процедурой низкоранговой адаптации. Качество оценивалось на подмножестве «Медицина (профессиональный и университетский уровни, русский язык)» бенчмарка Kazakh Massive Multitask Language Understanding. Основным показателем была точность, дополнительными показателями — макро-усредненное гармоническое среднее точности и полноты, сбалансированная точность и коэффициент корреляции Мэтьюса. 95% доверительных интервалов для ключевых показателей рассчитывались методом бутстреп-перевыборки с одной тысячей итераций.
Результаты. После доменной адаптации компактная медицинская модель повысила точность с 20,88%
(95% доверительный интервал – 16,50–25,59) до 33,00 процента (95% доверительный интервал – 27,95–38,72); макро-усредненное гармоническое среднее точности и полноты увеличилось с 18,64% до 26,92%, сбалансированная точность — с 21,01% до 33,34%, коэффициент корреляции Мэтьюса — с 0,105 до 0,170. Более крупная биомедицинская модель изменилась минимально (28,96% до 29,63% точности). Универсальная многоязычная базовая модель без клинической доменной адаптации показала точность 30,64%.
Выводы. Полученные данные свидетельствуют, что кросс-лингвистическая доменная адаптация на ограниченном корпусе травматолого-ортопедической документации из Казахстана дает измеримый прирост качества, особенно для компактных инструкционно-ориентированных медицинских моделей, и может быть использована как основа для инструментов стандартизации документации и подготовки реабилитационных рекомендаций. При этом, для применения в клинических процессах высокой ответственности необходимы расширение данных на несколько центров, валидация на прикладных задачах документирования, а также отдельная оценка безопасности и конфиденциальности.

Биографии авторов

  • Байгараева Ж.Е., Казахский национальный технический исследовательский университет имени К. И. Сатпаева

    Магистр технических наук

  • Болтабоева А.К., Казахский национальный технический исследовательский университет имени К. И. Сатпаева

    PhD студент

  • Иманбек Б.Т., Казахский национальный университет имени Аль-Фараби

    Доцент, Факультет информационных технологий

  • Ожикенов К., Казахский национальный технический исследовательский университет имени К.И. Сатпаева

    Заведующий кафедрой «Технические средства робототехники и автоматики»

  • Баймбетов Д., Казахский национальный исследовательский технический университет имени К.И. Сатпаева

    Старший преподаватель, Кафедра программной инженерии

Библиографические ссылки

1. Challa, S., Wu, H. H., Cunningham, B. P., & O’Toole, R. V. (2018). Orthopaedic trauma in the developing world: Where are the gaps in research and what can be done? Journal of Orthopaedic Trauma, 32(Suppl 1), S43–S46. https://doi.org/10.1097/BOT.0000000000001293

2. DeMaio, E. L., Marra, G., Suleiman, L. I., & Tjong, V. K. (2024). Global health inequities in orthopaedic care: Perspectives beyond the United States. Current Reviews in Musculoskeletal Medicine, 17, 439–448. https://doi.org/10.1007/s12178-024-09917-8

3. Omiye, J. A., Gui, H., Rezaei, S. J., Zou, J., & Daneshjou, R. (2024). Large language models in medicine: The potentials and pitfalls: A narrative review. Annals of Internal Medicine, 177(2), 210–220. https://doi.org/10.7326/M23-2772

4. Wang, D., & Zhang, S. (2024). Large language models in medical and healthcare fields: Applications, advances, and challenges. Artificial Intelligence Review, 57, 299. https://doi.org/10.1007/s10462-024-10921-0

5. Singhal, K., Tu, T., Gottweis, J., Sayres, R., Wulczyn, E., Hou, L., Clark, K., Pfohl, S., Cole-Lewis, H., Neal, D., Schaekermann, M., Wang, A., Amin, M., Collins, M., Brower, A., Lee, J., H, S., Li, Y., Rajpurkar, P., & Hinton, G. (2025). Toward expert-level medical question answering with large language models. Nature Medicine, 31, 943–950. https://doi.org/10.1038/s41591-024-03423-7

6. Qiu, P., Wu, C., Zhang, X., Zhang, Q., & others. (2024). Towards building multilingual language model for medicine. Nature Communications, 15, 8384. https://doi.org/10.1038/s41467-024-52417-z

7. Aracena, C., & Dunstan, J. (2023). Development of pre-trained language models for clinical natural language processing in Spanish. In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics (Student Research Workshop) (pp. 52–60). https://doi.org/10.18653/v1/2023.eacl-srw.5

8. Chang, Y., Wang, X., Wang, J., Wu, Y., Zhu, K., Chen, H., & others. (2024). A survey on evaluation of large language models. ACM Transactions on Intelligent Systems and Technology, 15, 39. https://doi.org/10.1145/3641289

9. McIntosh, T. R., Susnjak, T., Arachchilage, N. A. G., & others. (2025). Inadequacies of large language model benchmarks in the era of generative artificial intelligence. IEEE Transactions on Artificial Intelligence. https://doi.org/10.1109/TAI.2025.3569516

10. Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., & Chen, W. (2021). LoRA: Low-rank adaptation of large language models. arXiv. https://doi.org/10.48550/arXiv.2106.09685

11. Han, Z., Gao, C., Liu, J., Zhang, H., & others. (2024). Parameter-efficient fine-tuning for large models: A comprehensive survey. arXiv. https://doi.org/10.48550/arXiv.2403.14608

12. Togmanov, M., Mukhituly, N., Turmakhan, D., Zhumabekov, A., & others. (2025). KazMMLU: Evaluating language models on Kazakh, Russian, and regional knowledge of Kazakhstan. arXiv. https://doi.org/10.48550/arXiv.2502.12829

13. Meta AI. (2025). Introducing Meta Llama 3: The most capable openly available large language model to date. Website. [Cited 16 Jul 2025]. Available from URL: https://ai.meta.com/blog/meta-llama-3/

14. Google. MedGemma: Health AI developer foundations. Website. [Cited 16 Jul 2025]. Available from URL:

https://developers.google.com/health-ai-developer-foundations/medgemma

15. Taylor, N., Ghose, U., Rohanian, O., Young, T., & others. (2024). Efficiency at scale: Investigating the performance of diminutive language models in clinical tasks. Artificial Intelligence in Medicine, 157, 103002. https://doi.org/10.1016/j.artmed.2024.103002

Опубликован

2026-04-30

Выпуск

Раздел

Статьи

Похожие статьи

1-10 из 139

Вы также можете начать расширеннвй поиск похожих статей для этой статьи.