امروزه ما ابزارهای مختلفی برای ارزیابی عملکرد مدل‌های هوش مصنوعی داریم. از دقت (Accuracy) و AUC گرفته تا متریک های پیچیده تری مثل نمودارهای کالیبراسیون و Precision-Recall. هر کدام از این معیارها ویژگی‌های خودشان را دارند، اما برخی از آن‌ها اطلاعاتی که برای کلینیسین‌ها مهم است را بهتر منتقل می‌کنند. این معیارها به پزشکان کمک می‌کنند که به سرعت تصمیم بگیرند که آیا می‌توان از یک مدل در عمل استفاده کرد یا نه. به عنوان مثال، یکی از این ابزارها نمودارهای کاپلان-مایر هستند که عملکرد مدل‌ها و مداخلات مختلف را در محیط بالینی در طول زمان نشان می‌دهند. یکی دیگر از ابزارهای کاربردی که در این پست قصد داریم درباره‌اش صحبت کنیم، منحنی تحلیل تصمیم یا همان DCA است.

مقدمه ای بر DCA

این روش در سال ۲۰۰۶ توسط فردی به نام Vickers در این مقاله معرفی شد و از همان زمان به مرور در مقالات مختلف مورد استفاده قرار گرفت. به طوری که هر ساله استفاده از این روش در مقالات علمی بیشتر می‌شود. اما وقتی به دنبال یادگیری بیشتر درباره DCA باشید و آن را در اینترنت جستجو کنید، معمولاً با دو مسیر سخت مواجه می‌شوید: یا از مقالات علمی که این روش را با مثال توضیح داده‌اند استفاده کنید یا سراغ منابعی مانند یوتیوب بروید که در هر دو صورت مسیر سختی پیش روی شماست. من این چند وقت برای پروژه ی خودم در این باره مطالعه کردم و اینجا چیزی که از اون متوجه شدم رو به شکلی که قابل فهم تر باشه به اشتراک میزارم. بزارید از یک تعریف اولیه شروع کنیم: DCA چیست؟

دی سی ای (DCA) یک روش تحلیل و مقایسه مدل‌هاست که هدفش بررسی این است که آیا مدل پیشنهادی ما (که معمولاً مدل‌های یادگیری ماشین است) در عمل نسبت به مدل‌های موجود در کلینیک سود خالص بیشتری میرسونه یا نه؟

حالا به جای پرداختن به جزئیات پیچیده، ابتدا صرفا کاربرد اصلی آن را با یک مثال توضیح دهم.

مثال - سرطان پروستات -

فرض کنید در مورد سرطان پروستات صحبت می‌کنیم. یکی از تست‌هایی که به صورت روتین برای غربالگری سرطان پروستات استفاده می‌شود PSA است. اما یک اورولوژیست به خوبی می‌داند که اگر نتیجه این تست مثبت باشد، لزوماً به معنی سرطان نیست. یعنی اینکه دکتر می‌داند ممکن است تست PSA دچار تشخیص اشتباه یا همان False Positive شود.

در اینجا، دکتر باید دو موضوع را در نظر داشته باشد: اول، اطمینان از اینکه افرادی که واقعاً نیاز به بیوپسی دارند، تحت این تست قرار بگیرند و دوم، جلوگیری از بیوپسی غیرضروری برای افرادی که سالم هستند، چون بیوپسی یک پروسه تهاجمی است. در نتیجه، پزشک در ذهن خود یک آستانه (Threshold) تعیین می‌کند، مثلاً ۴۰ درصد. یعنی اگر ۴۰ درصد احتمال بدهد که فرد ممکن است سرطان داشته باشد، او را برای انجام بیوپسی ارجاع می‌دهد. در این بین، ممکن است افراد زیادی که سرطان ندارند هم بیوپسی شوند، اما در ذهن پزشک سود تشخیص کمی بیشتر از ضرر بیوپسی است.

حالا فرض کنید شما تست جدیدی به نام تست T ساخته‌اید که با دقت بیشتری بیماری را تشخیص می‌دهد. طبق بررسی‌های شما، این تست دقت و AUC بالاتری نسبت به PSA دارد، اما سوال این است که آیا در عمل و در کلینیک نیز عملکرد بهتری دارد؟ اینجاست که DCA به کار می‌آید. هدف ما این است که سود خالصی که به بیمار می‌رسد، بیشتر باشد و این چیزی است که نمودارهای دیگر آن را به خوبی نشان نمی‌دهند. سود خالص به این معناست که ما ضرری که به افرادی که False Positive هستن رو از سودی که به افرادی که True Positive میرسه کم کنیم. که جلوتر در مورد معادله ی دقیق اون صحبت میکنیم.

حال فرض کنید این تست T را به پزشک معرفی می‌کنید. پزشک همچنان همان آستانه ذهنی خود را دارد. یعنی اگر ۴۰ درصد بیشتر به داشتن سرطان شک کند برای بیمار بیوپسی درخواست میکند. یعنی شما دو مدل پیش روی پزشک گذاشته‌اید؛ یکی با دقت ۳۰ درصد پیش بینی میکند دارد که فرد سرطان داشته باشد و دیگری با دقت ۹۰ درصد. پزشک باید تصمیم بگیرد که به کدام مدل اعتماد کند و برای این کار به نمودار DCA نگاه می‌کند. در این نمودار، پزشک متوجه می‌شود که در آستانه‌ای که او در ذهن دارد، مدل یا تست T سود خالص بیشتری برای بیمار به همراه دارد و بنابراین تصمیم می‌گیرد از آن استفاده کند.

چطور این نمودارها رسم می‌شوند؟

این نمودارها از یک معادله بسیار ساده پیروی می‌کنند که در زیر نشان داده شده است. با جایگذاری مقادیر در هر آستانه مشخص می‌توان Net Benefit را حساب کرد.

البته این کار را می‌توانید با استفاده از کتابخانه‌هایی به زبان R و پایتون برای مدل‌های هوش مصنوعی خودتان نیز انجام دهید و نتایج را با مدل‌های دیگر و یا روش های کلاسیک قبلی (مانند تست های تشخیصی) مقایسه کنید. از جمله کتابخانه‌هایی که من با آن‌ها کار کرده‌ام می‌توان به dcurves در R و statkit در پایتون اشاره کرد.

اخیرا در یکی از جلسات مدیکس در این باره صحبت کردم که در اینجا می‌توانید مشاهده کنید.

منابع:

منبع اول

منبع دوم

منبع سوم