Введение

toxreview

Токсикологический вестник

Toxicological Review

0869-79223034-4611

Federal Scientific Center of Hygiene named after F.F. Erisman

10.47470/0869-7922-2026-34-1-16-26

tcslzc

toxreview-1062

Research Article

ПРОФИЛАКТИЧЕСКАЯ ТОКСИКОЛОГИЯ

PREVENTIVE TOXICOLOGY

Применение методов машинного обучения для анализа транскриптомных данных в токсикологии

Application of machine learning methods in toxicology for transcriptomic data analysis

https://orcid.org/0000-0003-0039-6757

Каримов

Денис Олегович

Karimov

Denis O.

Кандидат медицинских наук, заведующий отделом токсикологии и генетики с экспериментальной клиникой лабораторных животных ФБУН «Уфимский НИИ медицины труда и экологии человека», 450106, г. Уфа, Российская Федерация; старший научный сотрудник отдела исследований общественного здоровья ФГБНУ «Национальный НИИ общественного здоровья имени Н.А. Семашко», 105064, Москва, Российская Федерация

e-mail: karimovdo@gmail.com

Candidate of Medical Sciences, Head of the Department of Toxicology and Genetics with the Experimental Laboratory Animal Clinic, Ufa Research Institute of Occupational Medicine and Human Ecology, 450106, Ufa, Russian Federation; Senior Researcher at the Department of Public Health Research, N.A. Semashko National Research Institute of Public Health, Moscow, 105064, Russian Federation

e-mail: karimovdo@gmail.com

karimovdo@gmail.com

ФБУН «Уфимский научно-исследовательский институт медицины труда и экологии человека»; ФГБНУ «Национальный НИИ общественного здоровья имени Н.А. Семашко»РоссияUfa Research Institute of Occupational Medicine and Human Ecology; N.A. Semashko National Research Institute of Public HealthRussian Federation

2026

18032026

3411626

2026

Каримов Д.О.

Karimov D.O.

This work is licensed under a Creative Commons Attribution 4.0 License.

https://www.toxreview.ru/jour/article/view/1062

Введение

Введение. Этиология острого токсического гепатита формирует многогранный и временно-зависимый профиль транскрипционной перестройки, затрагивающий несколько патогенетических осей одновременно. Для их корректной типизации классический анализ дифференциальной экспрессии следует дополнять методами, ориентированными на распознавание многомерных комбинаций признаков и их вкладов.

Цель исследования заключалась в оценке профиля экспрессии панели генов, отражающих антиоксидантный ответ, глутатион-зависимую детоксикацию, контроль клеточного цикла и программируемую клеточную гибель, для дифференциации этиологии острого токсического гепатита и выявления вклада указанных маркёров в дискриминацию классов.

Материал и методы

Материал и методы. Эксперимент выполнен на 210 крысах-самцах. Моделировали тетрахлорметан-индуцированный, парацетамол-индуцированный и алкоголь-индуцированный варианты токсического гепатита. Экспрессию генов Nfe2l2, Nqo1, Hmox1, Sod1, Gclc, Gstm1, Gstp1, Gstt1, Ripk1, Chek1, Casp7 в ткани печени оценивали через 24 и 72 ч после воздействия. Уровень статистической значимости оценивали с помощью U-критерия Манна – Уитни с последующей коррекцией Бенджамини – Хохберга для множественных сравнений. Для интегративного анализа решали задачу многоклассовой классификации на табличных признаках с применением методов XGBoost, LightGBM и CatBoost. Качество оценивали по ROC/AUC в схеме one-vs-rest при hold-out разбиении 75/25 и настройке гиперпараметров стратифицированной кросс-валидацией. Интерпретацию выполняли методами SHAP и catboost-evaluation.

Результаты

Результаты. Транскрипционные ответы зависели от токсиканта и времени и включали разнонаправленные сдвиги внутри функциональных контуров. Все три алгоритма показали очень высокую дискриминацию классов (AUC 0,987–0,9998), для ТХМ максимальная AUC – у XGBoost (0,9998), для ПРЦ и этанола наиболее сбалансированные значения – у CatBoost (0,9967 и 0,9960 соответственно). По данным SHAP-анализа, основная дискриминация обеспечивалась маркёрами оксидативного стресса и детоксикации, прежде всего Hmox1, затем Gstm1, Sod1 и Gstt1. CatBoostEvaluation подтвердил устойчивый прирост качества при включении Hmox1 (Score 23,145%; p = 0,000089), Gclc (13,627%; p = 0,000089) и Gstm1 (12,898%; p = 0,000089), тогда как Gstp1 и Cheсk1 не демонстрировали значимого добавочного вклада в данной постановке.

Ограничение исследования

Ограничение исследования. Работа выполнена на одной in vivo модели в рамках острого экспериментального дизайна и с использованием конкретных доз токсикантов. Это может ограничивать экстраполяцию результатов на хронические сценарии воздействия или иные дозовые режимы, животных другого вида и пола.

Заключение

Заключение. Профиль экспрессии компактной панели генов обеспечивает надёжную типизацию этиологии острого токсического гепатита. Подход, объединяющий классическую статистику и интерпретируемое машинное обучение, формирует основу для последующей валидации на независимых сериях и расширения на мультимодальные признаки в задачах ранней диагностики и оценки корригирующих вмешательств.

Соблюдение этических стандартов. Исследование одобрено биоэтической комиссией ФБУН «Уфимский НИИ медицины труда и экологии человека» (протокол № 06-09 от 05.09.2024) и проведено в соответствии с Европейской конвенцией о защите позвоночных животных, используемых для экспериментов или в иных научных целях (ETS N 123), директивой Европейского парламента и Совета Европейского Союза 2010/63/EC от 22.09.2010 г. о защите животных, использующихся для научных целей.

Участие авторов

Участие авторов. Каримов Д.О. – концепция и дизайн исследования, обработка материала, статистический анализ, применение методов машинного обучения, написание текста, редактирование, утверждение окончательного варианта статьи и ответственность за целостность всех её частей.

Конфликт интересов

Конфликт интересов. Автор заявляет об отсутствии явных и потенциальных конфликтов интересов в связи с публикацией данной статьи.

Финансирование

Финансирование. Работа проведена в рамках выполнения государственного задания по отраслевой научно-исследовательской программе Роспотребнадзора «Научное обоснование национальной системы обеспечения санитарно-эпидемиологического благополучия, управления рисками здоровью и повышения качества жизни населения России» на 2021–2025 гг. (п. 6.1.8, № гос. регистрации 121062100058-8).

Поступила в редакцию

Поступила в редакцию: 26 января 2026 / Принята в печать: 02 февраля 2026 / Опубликована: 18 марта 2026

Introduction

Introduction. The etiology of acute toxic hepatitis induces a multifaceted and time-dependent profile of transcriptomic remodeling, simultaneously engaging several pathogenic axes. For accurate etiological classification, classical differential expression analysis should be complemented by methods focused on recognizing multidimensional feature combinations and quantifying their contributions. The aim of this study was to evaluate the expression profile of a gene panel reflecting the antioxidant response, glutathione-dependent detoxification, cell cycle control, and programmed cell death for differentiating the etiology of acute toxic hepatitis and identifying the contribution of these markers to class discrimination.

Material and methods

Material and methods. The experiment was performed on 210 male rats. Models of carbon tetrachloride-induced, paracetamol-induced, and ethanol-induced toxic hepatitis were established. The expression of Nfe2l2, Nqo1, Hmox1, Sod1, Gclc, Gstm1, Gstp1, Gstt1, Ripk1, Chek1, Casp7 genes in liver tissue was assessed 24 and 72 hours after exposure. The level of statistical significance was evaluated using the Mann-Whitney U test followed by the Benjamini-Hochberg correction for multiple comparisons. For integrative analysis, a multiclass classification task was performed on tabular features using XGBoost, LightGBM, and CatBoost algorithms. Performance was assessed by ROC/AUC in a one-vs-rest scheme with a 75/25 hold-out split and hyperparameter tuning via stratified cross-validation. Interpretation was performed using SHAP and catboost-evaluation methods.

Results

Results. Transcriptomic responses depended on the toxicant and time point, involving bidirectional shifts within functional pathways. All three algorithms demonstrated very high class discrimination (AUC 0.987–0.9998). For carbon tetrachloride, XGBoost achieved the highest AUC (0.9998), while for paracetamol and ethanol, CatBoost showed the most balanced performance (0.9967 and 0.9960, respectively). SHAP analysis revealed that discrimination was primarily driven by markers of oxidative stress and detoxification, foremost Hmox1, followed by Gstm1, Sod1, and Gstt1. CatBoostEvaluation confirmed a robust performance gain upon inclusion of Hmox1 (Score 23.145%; p=0.000089), Gclc (13.627%; p=0.000089), and Gstm1 (12.898%; p=0.000089), whereas Gstp1 and Chek1 did not demonstrate significant incremental contribution in this setting.

Limitations

Limitations. The study was conducted on a single in vivo model, within an acute experimental design, and using specific toxicant doses. This may limit the extrapolation of the results to chronic exposure scenarios or other dose regimens, animals of a different species and sex.

Conclusion

Conclusion. The expression profile of a compact gene panel provides reliable etiological classification of acute toxic hepatitis. An approach combining classical statistics and interpretable machine learning establishes a foundation for subsequent validation on independent series and expansion to multimodal features in tasks of early diagnosis and assessment of corrective interventions.

Compliance with ethical standards. The study was approved by the Bioethics Committee of the Ufa Research Institute of Occupational Medicine and Human Ecology (protocol No. 06-09 dated 05.09.2024). The study was conducted in accordance with the European Convention for the Protection of Vertebrate Animals Used for Experimental and Other Scientific Purposes (ETS N 123) and with the Directive 2010/63/EC of the European Parliament and of the Council of 22 September 2010 on the Protection of Animals Used for Scientific Purposes.

Authors’ contribution

Authors’ contribution. Karimov D.O. – study concept and design, material processing, statistical analysis, application of machine learning methods, manuscript writing, editing, approval of the final version of the article, responsibility for the integrity of all its parts.

Conflict of interests

Conflict of interests. The authors declare no apparent and potential conflicts of interest in relation to the publication of this article.

Funding

Funding. The work was carried out as part of the state assignment for the industry research program of Rospotrebnadzor “Scientific substantiation of the national system for ensuring sanitary and epidemiological welfare, managing health risks and improving the quality of life of the population of Russia” for 2021–2025. clause 6.1.8, state registration number 121062100058-8.

Received

Received: January 26, 2026 / Accepted: February 2, 2026 / Published: March 18, 2026

машинное обучениетоксикогеномикатоксический гепатитградиентный бустингSHAPCatBoostEvaluation

machine learningtoxicogenomicstoxic hepatitisgradient boostingSHAPCatBoostEvaluation

Введение

Современная токсикология все чаще опирается на методы искусственного интеллекта и машинного обучения (ML) для прогнозирования вредных эффектов химических веществ и лекарств [1]. Это обусловлено появлением больших массивов данных – от транскриптомных профилей до биохимических показателей и электронных медицинских записей, что помогает раскрыть сложные механизмы токсичности за пределами возможностей традиционных экспериментов. ML-модели способны интегрировать разнородные данные и выявлять ранние сигналы токсичности, сокращая необходимость в длительных экспериментах на животных и повышая эффективность скрининга безопасности препаратов [1]. Однако одной из ключевых проблем остаётся «прозрачность» таких моделей: многие алгоритмы выступают в роли «чёрного ящика», затрудняя интерпретацию для токсикологов и регуляторов [2]. Поэтому в центре внимания исследований находится интерпретируемое машинное обучение, позволяющее объяснить, какие особенности данных приводят к токсическому эффекту, и тем самым связать предиктивные модели с биологическими механизмами [2].

Транскриптомные данные могут быть значимым источником информации о клеточных реакциях на воздействие ксенобиотиков. В токсикогеномике такие данные используются для выявления механизмов повреждения органов и классификации токсичных соединений. Например, применяя ML-методы к профилям генической экспрессии, можно улучшить предсказание лекарственно-индуцированного повреждения печени [3, 4]. В недавнем исследовании был разработан глубокий нейронный сетевой классификатор, обученный на транскриптомных профилях человеческих клеточных линий, с аннотациями по повреждению печени. Эта модель показала величину площади под ROC-кривой ~0,80 и превзошла по точности традиционные алгоритмы, такие как kNN, SVM, Random Forest. Кроме того, упомянутая модель обеспечила сбалансированную чувствительность (≈0,84) и специфичность (≈0,60) при прогнозировании лекарственно-индуцированного поражения печени и позволила выявить ключевые гены, ассоциированные с гепатотоксичностью, коррелирующие с известными механизмами повреждения печени [5].

Другой значимый подход – интеграция транскриптомики с данными о структуре или свойствах соединений. Shin S. и соавт. показали, что профили экспрессии генов человеческих гепатоцитов сами по себе классифицируют токсичность печени не лучше, чем модели на основе одних химических структур, однако объединение экспрессионных данных с химическими дескрипторами в ансамблевой ML-модели заметно повышает точность прогнозов токсических гепатитов [4]. Это подчёркивает ценность мультимодальных подходов, совмещающих omics-информацию с традиционными параметрами для более надёжной оценки гепатотоксичности. Транскриптомный анализ также применим для дифференцировки подтипов токсического поражения. Например, методами ML удалось выделить специфическую подпись генов для лекарственно-индуцированного холестатического поражения печени. В исследовании на основе базы Open TG-GATEs отобрали 18 соединений, из которых половина была токсична, и обучили ряд моделей классификации [6]. Всего 13 генов обеспечили точность ~95% на внутренней проверке. Эти гены оказались функционально связаны с известной сетью путей, ведущих к холестазу, что придало биологическую интерпретируемость модели. Хотя на внешней выборке точность снизилась (~71%), подход продемонстрировал, как транскриптомные сигнатуры в сочетании с ML могут выявлять механизм-специфичные маркёры токсичности [6].

Масштабные инициативы по сбору данных также подтверждают эффективность ML на транскриптомике. Недавно созданная библиотека объединила полнотранскриптомные профили 300 препаратов на культурах первичных гепатоцитов человека, охватив широкий спектр механизмов лекарственно-индуцированного повреждения печени. На этом ресурсе была обучена модель ToxPredictor, ансамбль на основе случайного леса, которая в слепом тестировании выявила 88% гепатотоксичных соединений при 100%-й специфичности [3]. Этот подход превзошёл более 20 существующих доклинических методов (в том числе клеточные функциональные тесты, цитотоксичность, физико-химические модели и QSAR), успешно предсказав повреждение печени для препаратов, не распознанных ранее на доклинических этапах как гепатотоксичные. Важно, что за счёт анализа полного транскриптома модель захватывает ранние молекулярные признаки лекарственно-индуцированного повреждения печени, такие как митохондриальная дисфункция, окислительный стресс, иммунная активация, задолго до появления цитотоксичности. Это позволяет выявлять скрытые токсические эффекты, которые не фиксируются стандартными биомаркёрами вроде утраты жизнеспособности клеток [3].

Современные базы данных объединяют биохимические эндпоинты с высокопроизводительными (-омными) данными для комплексного анализа. Недавно такой подход был реализован для предсказания специфического гистопатологического изменения – центролобулярной гипертрофии гепатоцитов у животных. Использованы данные экспрессии генов печени крыс из Open TG-GATEs для 134 химических соединений. Были опробованы шесть алгоритмов ML, и наилучший результат показал градиентный бустинг LightGBM с точностью около 90% [7]. Важно, что исследователи анализировали модель на интерпретируемость: с помощью показателей SHAP-анализа оценили вклад каждого гена в предсказание гипертрофии. Выяснилось, что крупнейший вклад в решение модели вносит ген Cyp2b1 – ключевой изофермент цитохрома P450, отвечающий за метаболизм ксенобиотиков. В одном из исследований показано, что применение Tree SHAP к модели XGBoost, классифицирующей метаболомные профили, даёт как локальные объяснения, так и глобальные оценки вклада признаков [8]. Следовательно, SHAP-разложение позволило получить глобальную картину модели в терминах биохимии: какие метаболические пути и конкретные метаболиты вносят наибольший вклад в различение групп, что особенно важно для понимания токсикологических механизмов [8].

Разнообразие задач и данных в токсикологии привело к использованию широкого спектра алгоритмов ML. Классические алгоритмы, такие как поддерживающие векторные машины, решающие деревья и ансамбли деревьев, прочно вошли в инструментарий вычислительной токсикологии. Их популярность объясняется проверенной эффективностью и относительно простой интерпретацией структур моделей [2]. В последние годы на первый план вышли методы ансамблевого обучения – случайные леса и градиентный бустинг деревьев. Эти алгоритмы часто обеспечивают более высокую прогностическую точность за счёт комбинирования множества моделей, что особенно ценно при анализе больших и разрежённых данных (например, экспрессии тысяч генов). Так, случайные леса были самыми популярными моделями в исследованиях, направленных на прогнозирование побочных реакций по данным электронных медицинских карт, за ними следовали методы SVM и XGBoost [9]. Однако увеличение сложности моделей снижает их прозрачность: хотя каждое дерево в ансамбле интерпретируемо, совокупный результат из сотен деревьев становится трудно объяснить напрямую. Для решения этой задачи применяются меры важности признаков и методы интерпретации взаимодействий.

Градиентный бустинг и другие сложные модели требуют специальных средств объяснения. Одним из наиболее мощных инструментов для моделей любого типа является в настоящее время метод SHAP, основанный на вычислении значений Шэпли для каждого признака. SHAP разлагает предсказание любой модели на сумму вкладов отдельных признаков, обеспечивая при этом как локальное объяснение для конкретного образца, так и глобальную интерпретацию важности признаков в модели [7]. Достоинство SHAP состоит в том, что он удовлетворяет требованиям теории игр о справедливом распределении вклада и тем самым даёт единообразную основу для сравнения влияния разных факторов. В области прогнозирования токсичности метод SHAP уже применялся для разных задач. Например, с его помощью выявляли критичные структурные фрагменты молекул, ассоциированные с токсичностью, а также искали биомаркёры токсического действия в высокомерных наборах данных [7]. Таким образом, сочетание мощных ансамблевых алгоритмов с post hoc методами объяснения обеспечивает как высокую точность, так и удовлетворяет потребность токсикологов в интерпретируемости результатов.

Методы машинного обучения в токсикологии нашли применение не только в доклинических исследованиях, но и в анализе данных о воздействии токсикантов на человеческие популяции. Систематический обзор, охватывающий 59 исследований по прогнозированию конкретных побочных реакций, показал, что наиболее часто использовались модели случайного леса и SVM-метод, а средняя AUC площади под ROC-кривой таких моделей составляла ~0,77 [9]. В совокупности точность (по различным работам) достигала ~76%, специфичность – ~89% при несколько более умеренной чувствительности (~65%) [9]. Эти результаты подтверждают, что ML может успешно обрабатывать гетерогенные клинические данные (демография, сопутствующая терапия, лабораторные показатели) для оценки риска токсических осложнений у пациентов.

Гепатотоксичность как одна из наиболее острых проблем стимулировала бурное развитие токсикогеномики, где ML-модели на основе транскриптомных данных и биохимических маркёров демонстрируют улучшенную точность раннего прогнозирования повреждений печени. Аналогичные подходы расширяются и на другие органы: уже существуют ML-модели для прогнозирования нефротоксичности по данным экспрессии генов [10], кардиотоксичности на основе молекулярных и клинических признаков, нейротоксичности и др. Ключевым трендом является рост интерпретируемости: внедрение SHAP, PDP/ICE, методов чувствительности и встроенных знаний превращает когда-то неясные алгоритмы в источник новых научных гипотез о механизмах токсичности. В перспективе объединение градиентного бустинга и глубоких нейросетей с прозрачностью интерпретируемых моделей позволит оптимизировать оценку безопасности химических соединений, что необходимо для регуляторных решений и защиты здоровья человека.

Таким образом, цель исследования заключалась в оценке профиля экспрессии панели генов, отражающих антиоксидантный ответ, глутатион-зависимую детоксикацию, контроль клеточного цикла и программируемую клеточную гибель, для дифференциации этиологии острого токсического гепатита и выявления вклада указанных маркёров в дискриминацию классов.

Материал и методы

Экспериментальные исследования in vivo выполнены с соблюдением принципов биоэтики и гуманного обращения с лабораторными животными и одобрены локальным биоэтическим комитетом ФБУН «Уфимский НИИ медицины труда и экологии человека». Животных содержали в условиях специализированного вивария при стандартном режиме кормления и ухода. Все манипуляции, в том числе выведение животных из эксперимента, проводили в соответствии с требованиями законодательства Российской Федерации в отношении обращения с лабораторными животными, а также в соответствии с Европейской конвенцией о защите позвоночных животных, используемых для экспериментов или в иных научных целях.

Эксперимент проведён на 210 крысах-самцах (масса тела 190–220 г, возраст 12–14 недель), распределённых случайным образом на группы по 14 животных. Моделировали три варианта токсического гепатита, условно отражающие промышленный (тетрахлорметан, ТХМ), лекарственный (парацетамол, ПРЦ) и алкогольный (этанол) сценарии химического повреждения печени. Работу планировали с учётом рекомендаций, разработанных для улучшения качества исследований, связанных с использованием животных (ARRIVE guidelines).

Технология моделирования токсических поражений печени была стандартизирована по типу токсиканта, носителю и способу введения. Тетрахлорметан-индуцированный гепатит воспроизводили введением 50%-го раствора ТХМ («Экос Биопрепараты», Россия) на рафинированном оливковом масле. Токсикант вводили однократно подкожно в дозе 2 г/кг массы тела, контрольным животным вводили соответствующий носитель. Лекарственно-индуцированное поражение печени моделировали однократным внутрижелудочным введением 10%-й суспензии ПРЦ в 1%-м водном растворе крахмала в дозе 1 г/кг массы тела; контрольным животным вводили 1%-й раствор крахмала. Алкогольный вариант токсического гепатита воспроизводили однократным внутрижелудочным введением 40%-го раствора этанола (ООО «Гипократ», Россия) в дозе 4 г/кг массы тела, при этом контрольным животным вводили дистиллированную воду.

Для оценки молекулярных изменений в ткани печени анализировали экспрессию генов, отражающих ключевые звенья антиоксидантного ответа (Nfe2l2, Nqo1, Sod1, Hmox1) и метаболизма глутатиона (Gclc, Gstm1, Gstp1, Gstt1), регуляции клеточного цикла и контрольных точек (Chek1), а также программируемой клеточной гибели (Ripk1, Casp7). Кратность экспрессии определяли в образцах печени контрольных и экспериментальных животных методом количественной ПЦР в реальном времени. Фрагменты печени немедленно после выведения животных из эксперимента замораживали в жидком азоте и стабилизировали в реагенте ExtractRNA (ЗАО «Евроген», Россия). Тотальную РНК выделяли по тризольной схеме, затем проводили обратную транскрипцию с использованием набора MMLV RT kit и праймеров oligo(dT)15 (ЗАО «Евроген», Россия) с получением кДНК. Амплификацию выполняли на Rotor-Gene Q (QIAGEN, Германия) с использованием красителя SYBR Green. Праймеры подбирали в программной среде PrimerQuest (Integrated DNA Technologies, США) и синтезировали (ЗАО «Евроген», Россия). Реакцию ставили в объёме 25 мкл, используя 2 мкл кДНК. Термопротокол включал предварительную денатурацию при температуре плюс 95 °C (3 мин) и 45 циклов: температура плюс 95 °C (15 с), плюс 59 °C (25 с), плюс 72 °C (15 с). Нормализацию экспрессии проводили по гену «домашнего хозяйства» Gapdh. Относительную экспрессию вычисляли методом 2^−ΔΔCt. Анализ выполняли по log2-преобразованным значениям относительной экспрессии, эффект представлен как Δlog2(FC).

Уровень статистической значимости оценивали с помощью U-критерия Манна – Уитни с последующей коррекцией Бенджамини – Хохберга для множественных сравнений. Для интегративного анализа экспериментальных данных применяли методы статистического моделирования и машинного обучения для многомерных табличных признаков. Построение и сопоставление моделей проводили в постановке многоклассовой классификации. В качестве базового семейства алгоритмов использовали градиентный бустинг по деревьям решений как метод, устойчивый к нелинейностям и взаимодействиям признаков при минимальных предпосылках о распределениях переменных. Сравнивали три реализации бустинга: XGBoost, LightGBM и CatBoost. Для всех моделей выполняли настройку гиперпараметров с применением стратифицированной 5-кратной кросс-валидации (StratifiedKFold). Для CatBoost применяли параметризацию с регуляризацией и стохастическими механизмами бутстрэпа и обучали модель с контролем качества на независимой тестовой подвыборке.

Разделение данных осуществляли по схеме hold-out с выделением 25% наблюдений в тестовый набор. Качество классификации оценивали на основе вероятностных предсказаний. Основной метрикой дискриминации служила AUC с построением ROC-кривых. Дополнительно фиксировали число ошибок при пороговой бинаризации вероятностей на уровне 0,5 как вспомогательный диагностический показатель, приоритет в интерпретации отдавали AUC как более устойчивой вероятностной метрике.

Для биологически ориентированной интерпретации применяли SHAP-подход (Shapley Additive Explanations). SHAP-значения вычисляли для модели CatBoost встроенными средствами и средствами пакета shap (TreeExplainer/Explainer), формируя локальные объяснения для отдельных наблюдений (force-plot) и глобальную оценку значимости маркёров на уровне выборки (summary-plot).

Контроль устойчивости обучения и оценку информативности признаков выполняли с использованием catboost-evaluation. Данные переводили в формат, совместимый с модулем (таблица наблюдений и файл описания колонок), после чего проводили оценку качества на перекрёстных разбиениях с вычислением Logloss и AUC, анализировали baseline-сравнения в абляционной логике и кривые обучения для диагностики переобучения. Дополнительно выполняли чувствительный анализ по скорости обучения, сравнивая несколько значений learning rate при фиксированных остальных параметрах ансамбля.

Результаты

Анализ транскрипционной активности панели маркёров показал, что молекулярный ответ печени на токсическое повреждение носит выраженный многокомпонентный характер и затрагивает сразу несколько функциональных осей: антиоксидантную регуляцию и детоксикацию (сигнальный контур Nfe2l2–Nqo1–Hmox1 и ферментативный блок антиоксидантной/глутатион-зависимой защиты Sod1–Gclc–Gstt1), контроль клеточного цикла (Chek1), а также элементы программируемой клеточной гибели (Casp7, Ripk1). Динамика экспрессии существенно зависела как от природы токсиканта, так и от времени после воздействия (24 и 72 ч), причём изменения отдельных генов внутри одного функционального каскада часто оказывались разнонаправленными (рис. 1, см. на вклейке).

В модели поражения печени тетрахлорметаном уже через 24 часа формировался профиль, в котором доминировали сдвиги генов антиоксидантно-детоксикационного контура и клеточного стресса. Наиболее выраженными были снижение экспрессии Gclc (среднее значение −2,98; q = 0,001), а также уменьшение транскриптов Nfe2l2 (−1,32; q = 0,007), Sod1 (−0,90; q = 0,010) и Gstm1 (−1,15; q = 0,005), что указывает на раннюю перестройку глутатионового метаболизма и антиоксидантных реакций. Через 72 часа при воздействии тетрахлорметана профиль сдвигался в сторону более отчётливой активации детоксикационно-стрессовых генов: резко возрастала экспрессия Hmox1 (2,32; q = 1,55 · 10−⁵) и Nqo1 (2,45; q = 0,013).

В ПРЦ-индуцированной модели на 24-й час выявлялся иной паттерн. Отмечали снижение Nfe2l2 (−1,16; q = 0,001) при одновременном повышении Nqo1 (2,21; q = 0,001), а также уменьшение Casp7 (−0,53; q = 0,009) и Chek1 (−1,30; q = 0,017). К 72-му часу при воздействии парацетамола происходил выраженный сдвиг в сторону ферментов конъюгации и детоксикации: значимо возрастали Gstm1 (1,51; q = 0,001) и особенно Gstp1 (1,67; q = 8,53 · 10−⁵), сохранялось повышение Nqo1 (0,51; q = 0,003).

Алкогольная модель характеризовалась наиболее контрастной динамикой. Уже через 24 ч отмечалось крайне выраженное снижение Nfe2l2 (−5,06; q = 7,77 · 10–¹⁰) на фоне значимого уменьшения Hmox1 (−5,82; q = 0,032), тогда как для большинства других маркёров статистически подтверждённых сдвигов после FDR-коррекции не фиксировалось. К 72-му часу спектр изменений смещался: появлялось значимое снижение Gstp1 (−1,23; q = 0,0061) и Sod1 (−1,92; q = 0,0103).

С целью формализации молекулярного «отпечатка» этиологии был проведён интегративный анализ на основе многоклассовой классификации. В качестве входных данных использовали объединённый массив измерений экспрессии генов Nfe2l2, Nqo1, Hmox1, Sod1, Gclc, Gstm1, Gstp1, Gstt1, Ripk1, Chek1, Casp7 в двух временных точках (24 и 72 часа). Для построения и оценки классификаторов использовали три алгоритма градиентного бустинга деревьев: XGBoost, LightGBM и CatBoost. Процедура включала разделение данных на обучающую и тестовую выборки в соотношении 75/25; настройку гиперпараметров каждого алгоритма с помощью 5-кратной стратифицированной кросс-валидации на обучающем наборе; оценку качества классификации на тестовой выборке по метрике AUC, площадь под ROC-кривой, в схеме one-vs-rest для каждого из трёх классов изученных соединений.

По итогам проведённых оценок все три алгоритма показали очень высокую дискриминационную способность (AUC близкие к 1,0) для всех трёх этиологий, что подтверждает наличие устойчивого «молекулярного отпечатка» токсиканта в панели генов. При этом наблюдались воспроизводимые различия между моделями.

В отношении класса ТХМ максимальная AUC была достигнута XGBoost (0,9998), тогда как CatBoost (0,9989) и LightGBM (0,9971) демонстрировали сопоставимо высокий уровень. Для ПРЦ лучшим оказался CatBoost (0,9967), далее XGBoost (0,9943) и затем LightGBM (0,9871). Для класса «Этанол» вновь лидировал CatBoost (0,9960) с небольшим отрывом от XGBoost (0,9927) и более заметным – от LightGBM (0,9880). В целом, если рассматривать задачу как мультикласс-идентификацию этиологии, CatBoost демонстрировал наиболее сбалансированное качество по всем трём one-vs-rest подзадачам, тогда как XGBoost показывал «пиковое» качество для ТХМ, а LightGBM в этой постановке был систематически чуть менее точным, особенно в распознавании лекарственного и алкогольного вариантов (рис. 2, см. на вклейке).

Дополнительно фиксировался простой диагностический показатель ошибок классификации, число несовпадений при грубом пороговом решении, который в целом согласовывался с AUC-профилем: для ТХМ наименьшее число ошибок получено у CatBoost (2) при практически предельной AUC, для ПРЦ наименьшая ошибка – у XGBoost (5) при высокой AUC, а для этанола ошибки оставались выше (6–8), что косвенно указывает на большую биологическую вариативность или менее резкую отделимость этого класса при заданной панели маркёров. Тем не менее важно, что в интерпретации качества ключевую нагрузку несёт именно AUC как порогонезависимая метрика дискриминации, тогда как количество ошибок служит вспомогательным индикатором и может зависеть от выбранного порога.

Высокая точность классификации сама по себе ещё не отвечает на главный биологический вопрос: какие именно гены (и какие функциональные ветви ответа) обеспечивают различение этиологий, а какие оказываются вторичными или заменяемыми другими маркёрами. После сравнения алгоритмов мы выполнили интерпретацию модели с помощью SHAP. В терминах SHAP каждый ген получает для каждого наблюдения аддитивный вклад в предсказание модели.

Представленный график отражает глобальную важность: по оси X отложено среднее значение mean(|SHAP value|), то есть средняя абсолютная величина вклада признака в предсказание. Поскольку задача мультиклассовая, важность показана раздельно по классам. Важно подчеркнуть: это не «p-значимость» и не эффект в классическом смысле, а вклад в решение модели, который учитывает нелинейности и взаимодействия генов между собой (рис. 3, см. на вклейке).

Как видно на рис. 3, различение токсикантов в наибольшей степени обеспечивается не одним маркёром, а функциональной связкой генов, отражающей цитопротекторный ответ и детоксикационные пути. Кратность экспрессии гена Hmox1 показала себя как наиболее информативный признак, то есть модель систематически использует вариабельность Hmox1 как один из ключевых показателей для распознавания этиологии. Кратность экспрессии гена Gstm1 определена второй по значимости, Sod1 и Gstt1 формируют следующий уровень дискриминации. Особенно показательна кратность экспрессии Nfe2l2 как главного гена- регулятора цитопротекторных программ, однако его глобальная важность ниже, чем у Hmox1 и части генов системы глутатиона и Sod1. Такое соотношение обычно означает, что в данных модель лучше «видит» реализацию ответа, чем сам регуляторный узел, либо что эффект Nfe2l2 проявляется контекстно и частично «растворяется» во взаимодействиях с другими генами. Кратность экспрессии генов-регуляторов остановки клеточного цикла и апоптоза Chek1, Casp7, Ripk1 дают более умеренный вклад. Кратность экспрессии гена Nqo1 по значимости глобальной важности находится на нижней границе. Некоторое расхождение с уровнем значимости признака, визуализированным на рис. 1, типично для многомерного анализа, когда признак, значимый в изолированном статистическом сравнении, оказывается менее важным для модели из-за дублирования информации или проявления его вклада только в комбинации с другими факторами.

В сумме SHAP-картина демонстрирует, что основной дискриминирующий сигнал между этиологиями токсического гепатита в этой задаче формируют механизмы оксидативного стресса и детоксикации, прежде всего Hmox-контур и глутатион-зависимые ферменты (Gstm1/Gstt1) вместе с Sod1. Контуры клеточного цикла и гибели клеток добавляют важные штрихи к распознаванию. Именно это и демонстрирует, почему одного классического набора парных сравнений иногда недостаточно, и модель опирается на комбинации и соотношения маркёров, а не на один показатель.

На рис. 4 (см. на вклейке) представлен SHAP summary plot (beeswarm) для обученной модели. Как видно, кратность экспрессии гена Hmox1 формирует самый широкий и амплитудный вклад. Показано, что высокие значения кратности экспрессии гена Hmox1 преимущественно располагаются в области положительных SHAP. Интересный контраст демонстрируют кратность экспрессии Gstm1 и Gclc, для обоих генов заметна обратная направленность, когда высокая экспрессия чаще ассоциирована с отрицательными SHAP-значениями, а низкая – с положительными. В терминах модели это означает, что повышение активности отдельных компонентов глутатион-зависимого контура в данной постановке скорее характерно для «альтернативных» состояний (других классов), тогда как снижение чаще встречается в фенотипе анализируемого класса либо проявляется как часть более сложной комбинации с другими маркёрами.

Для кратности экспрессии генов Gstt1, Nfe2l2, Nqo1, Gstp1 высокие значения признака преимущественно располагаются правее нуля, то есть повышают вероятность анализируемого класса. Методологически важно, что график подчёркивает многомерную сложность: для ряда генов распределение вкладов неоднородно и асимметрично. Это типично для систем с нелинейными взаимодействиями и подтверждает уместность ML-подхода как интегративного инструмента.

Чтобы дополнить интерпретацию по SHAP и получить статистически проверяемую оценку «необходимости» отдельных генов с точки зрения обобщающей способности модели, был использован инструмент CatBoostEvaluation (catboost-eval). В отличие от обычной ранжировки важности, основанной на обучении единственной модели, данный подход опирается на повторяемую перекрёстную проверку и парное сравнение качества между базовым и тестовыми вариантами модели.

Принцип расчёта состоял в следующем. На исходном обучающем наборе проводили серию повторных разбиений (fold_count = 20) с формированием валидационных подвыборок фиксированного объёма (fold_size = 85), после чего для каждого разбиения обучали базовый вариант модели и набор тестовых вариантов. В данном запуске оценка выполнялась в режиме последовательного добавления признаков, то есть базовая модель строилась на признаках, не входивших в список оцениваемых, а затем отдельно формировались модели, дополненные одним из тестируемых генов из панели (1–10), что позволяло оценить приростной вклад каждого гена при прочих равных условиях. Качество сравнивали по Logloss (как чувствительной метрике вероятностного прогноза), а также фиксировали информацию о «точке переобучения» – числе итераций, при котором достигалось оптимальное качество на валидации.

Для статистического сопоставления применяли парный критерий Уилкоксона к набору значений метрики по 20 разбиениям, что давало p-value для гипотезы о ненулевом среднем эффекте. В качестве итогового эффекта (Score) использовали среднее относительное изменение Logloss между базовым и тестовым вариантами, выраженное в процентах. Положительные значения соответствуют улучшению качества при добавлении признака (снижению Logloss), отрицательные – ухудшению. Дополнительно вычисляли доверительный интервал эффекта по квантилям 0,005 и 0,995. Считали положительное влияние экспрессии гена на предсказание, если улучшение было статистически значимым (p < 0,01), а интервал эффекта оставался положительным.

Результаты показали, что наибольший и наиболее устойчивый прирост качества обеспечивали гены антиоксидантного ответа и метаболизма глутатиона. Максимальный эффект продемонстрировал Hmox1 (Score = 23,145%, p = 0,000089). Сопоставимый по значимости вклад имели Gclc (Score = 13,627%, p = 0,000089) и Gstm1 (Score = 12,898%, p = 0,000089) (таблица).

Оптимальное число итераций существенно смещалось относительно базовой модели: например, для Hmox1 средняя разница составляла 25,9 итерации при РЕЗЮМЕ = 0,000196. Это закономерно для ситуации, когда добавление информативного признака изменяет профиль обучения и точку оптимальной остановки. В рамках CatBoostEvaluation этот эффект фиксируется отдельно и позволяет интерпретировать улучшение качества именно как результат более информативного сигнала, а не как артефакт подбора итераций под «шум» модели. В совокупности полученный профиль вклада признаков согласуется с биологической логикой, наиболее различающими оказываются маркёры оксидативного стресса (Hmox1, Sod1, Nqo1) и глутатион-зависимой детоксикации (Gclc, Gstm1), тогда как гены-регуляторы клеточного цикла и отдельные элементы программируемой гибели в данном формализованном сравнении демонстрируют либо меньший, либо статистически неопределённый вклад.

Обсуждение

Полученные результаты показывают, что даже относительно компактная панель транскрипционных маркёров отражает не один универсальный стресс-ответ, а несколько пересекающихся, но этиологически различающихся контуров реакции клетки на острое химическое повреждение. В классическом дизайне эксперимента, когда проводят парные сравнения с коррекцией на множественность, это проявляется как разнородность направлений и амплитуд изменений между токсикантами и временными точками. В интегративной постановке, когда в модель дизайна заложена мультиклассовая классификация, та же разнородность превращается в информативный «молекулярный отпечаток», позволяющий устойчиво различать этиологии на уровне профиля, а не отдельного гена.

Суммарно транскрипционные данные подтверждают ключевой тезис работы: одно и то же фенотипическое проявление в виде острого токсического поражения печени реализуется через разные комбинации молекулярных узлов, и эти комбинации зависят от этиологии и времени. Именно поэтому одного классического дизайна анализа экспрессии недостаточно для построения целостной картины. В такой логике применение градиентного бустинга в постановке многоклассовой классификации выступает как способ формализовать многомерные паттерны. Высокие значения AUC для всех трёх этиологий показывают, что выбранная панель генов действительно содержит устойчивый различающий сигнал. Небольшие различия между XGBoost, LightGBM и CatBoost имеют скорее методический характер. В представленных результатах CatBoost демонстрировал наиболее сбалансированное качество по всем классам, что делает его рациональным выбором для последующей интерпретации.

Принципиально важно, что интерпретация выполнена двумя независимыми линиями, которые сходятся по смыслу. SHAP-профили показывают, что основная дискриминация этиологий обеспечивается маркёрами оксидативного стресса и детоксикации: прежде всего Hmox1, затем Gstm1, Sod1 и Gstt1, далее Nfe2l2, Gclc и Nqo1. Данные CatBoostEvaluation усиливают эту интерпретацию и показывают, что максимальный и статистически устойчивый прирост качества (по Logloss) при добавлении признака дают Hmox1, Gclc и Gstm1, далее Sod1; Gstp1 и Chek1 в рамках данной панели оказываются либо статистически неопределёнными, либо не улучшают качество модели. Такой результат подтверждает, что отдельные маркёры могут быть биологически значимыми, но не обязательно оптимальными для этиологической дискриминации в конкретной постановке и на выбранных временных точках.

С практической точки зрения сочетание классической статистики (Mann–Whitney U + BH-FDR) и интерпретируемого ML даёт более полный результат, статистический анализ показывает, что меняется и насколько надёжно в каждом окне, а ML-подход отвечает на вопрос, какие комбинации маркёров делают этиологии различимыми как классы.

Представленная аналитическая конструкция имеет чёткую прикладную перспективу, задаёт основу для этиологической типизации токсического повреждения печени по ранним молекулярным признакам. Выявленный «скелет» различающего сигнала может использоваться как рациональная ось для последующего ранжирования корригирующих вмешательств и для оценки препаратов по их действительной способности «перестраивать» профиль в сторону адаптивного ответа. Сочетание высокоточной модели и прозрачной интерпретации (SHAP, CatBoostEvaluation) превращает ML-подход из «чёрного ящика» в инструмент проверки гипотез о том, какие ветви ответа являются ключевыми для различения токсикантов в конкретной экспериментальной постановке.

Выводы

References1

Ajisafe O.M., Adekunle Y.A., Egbon E., Ogbonna C.E., Olawade D.B. The role of machine learning in predictive toxicology: A review of current trends and future perspectives. Life Sciences. 2025; 378: 123821. https://doi.org/10.1016/j.lfs.2025.123821

Jia X., Wang T., Zhu H. Advancing computational toxicology by interpretable machine learning. Environ. Sci. Technol. 2023; 57(46): 17690–706. https://doi.org/10.1021/acs.est.3c00653

Bergen V., Kodella K., Srikrishnan S., Barrandon O., Anderson S., Rogers-Grazado M., et al. A large-scale human toxicogenomics resource for drug-induced liver injury prediction. Nat. Commun. 2025; 16(1): 9860. https://doi.org/10.1038/s41467-025-65690-3

Shin S., Lee C., Park T. Comprehensive analysis of high-throughput transcriptomics to distinguish drug-induced liver injury (DILI) phenotypes. Arch. Toxicol. 2025; 99(9): 3721–34. https://doi.org/10.1007/s00204-025-04089-x

Li T., Tong W., Roberts R., Liu Z., Thakkar S. Deep learning on high-throughput transcriptomics to predict drug-induced liver injury. Front. Bioeng. Biotechnol. 2020; 8: 562677. https://doi.org/10.3389/fbioe.2020.562677

Jiang J., van Ertvelde J., Ertaylan G., Peeters R., Jennen D., de Kok T.M., et al. Unraveling the mechanisms underlying drug-induced cholestatic liver injury: identifying key genes using machine learning techniques on human in vitro data sets. Arch. Toxicol. 2023; 97(11): 2969–81. https://doi.org/10.1007/s00204-023-03583-4

Ikoma K., Hosaka T., Ooka A., Shizu R., Yoshinari K. Machine learning on toxicogenomic data reveals a strong association between the induction of drug-metabolizing enzymes and centrilobular hepatocyte hypertrophy in rats. Int. J. Mol. Sci. 2025; 26(10): 4886. https://doi.org/10.3390/ijms26104886

Bifarin O.O. Interpretable machine learning with tree-based shapley additive explanations: Application to metabolomics datasets for binary classification. PLoS One. 2023; 18(5): e0284315. https://doi.org/10.1371/journal.pone.0284315

Hu Q., Chen Y., Zou D., He Z., Xu T. Predicting adverse drug event using machine learning based on electronic health records: a systematic review and meta-analysis. Front. Pharmacol. 2024; 15: 1497397. https://doi.org/10.3389/fphar.2024.1497397

Chenga H., Garg A., Das S.S., Ramamurthi N. Prediction of drug-induced nephrotoxicity using chemical information and transcriptomics data. J. Chem. Inf. Model. 2025; 65(10): 5139–51. https://doi.org/10.1021/acs.jcim.5c00141

The authors declare that there are no conflicts of interest present.