امروزه ما ابزارهای مختلفی برای ارزیابی عملکرد مدلهای هوش مصنوعی داریم. از دقت (Accuracy) و AUC گرفته تا متریک های پیچیده تری مثل نمودارهای کالیبراسیون و Precision-Recall. هر کدام از این معیارها ویژگیهای خودشان را دارند، اما برخی از آنها اطلاعاتی که برای کلینیسینها مهم است را بهتر منتقل میکنند. این معیارها به پزشکان کمک میکنند که به سرعت تصمیم بگیرند که آیا میتوان از یک مدل در عمل استفاده کرد یا نه. به عنوان مثال، یکی از این ابزارها نمودارهای کاپلان-مایر هستند که عملکرد مدلها و مداخلات مختلف را در محیط بالینی در طول زمان نشان میدهند. یکی دیگر از ابزارهای کاربردی که در این پست قصد داریم دربارهاش صحبت کنیم، منحنی تحلیل تصمیم یا همان DCA است.
مقدمه ای بر DCA
این روش در سال ۲۰۰۶ توسط فردی به نام Vickers در این مقاله معرفی شد و از همان زمان به مرور در مقالات مختلف مورد استفاده قرار گرفت. به طوری که هر ساله استفاده از این روش در مقالات علمی بیشتر میشود. اما وقتی به دنبال یادگیری بیشتر درباره DCA باشید و آن را در اینترنت جستجو کنید، معمولاً با دو مسیر سخت مواجه میشوید: یا از مقالات علمی که این روش را با مثال توضیح دادهاند استفاده کنید یا سراغ منابعی مانند یوتیوب بروید که در هر دو صورت مسیر سختی پیش روی شماست. من این چند وقت برای پروژه ی خودم در این باره مطالعه کردم و اینجا چیزی که از اون متوجه شدم رو به شکلی که قابل فهم تر باشه به اشتراک میزارم. بزارید از یک تعریف اولیه شروع کنیم: DCA چیست؟
دی سی ای (DCA) یک روش تحلیل و مقایسه مدلهاست که هدفش بررسی این است که آیا مدل پیشنهادی ما (که معمولاً مدلهای یادگیری ماشین است) در عمل نسبت به مدلهای موجود در کلینیک سود خالص بیشتری میرسونه یا نه؟
حالا به جای پرداختن به جزئیات پیچیده، ابتدا صرفا کاربرد اصلی آن را با یک مثال توضیح دهم.
مثال - سرطان پروستات -
فرض کنید در مورد سرطان پروستات صحبت میکنیم. یکی از تستهایی که به صورت روتین برای غربالگری سرطان پروستات استفاده میشود PSA است. اما یک اورولوژیست به خوبی میداند که اگر نتیجه این تست مثبت باشد، لزوماً به معنی سرطان نیست. یعنی اینکه دکتر میداند ممکن است تست PSA دچار تشخیص اشتباه یا همان False Positive شود.
در اینجا، دکتر باید دو موضوع را در نظر داشته باشد: اول، اطمینان از اینکه افرادی که واقعاً نیاز به بیوپسی دارند، تحت این تست قرار بگیرند و دوم، جلوگیری از بیوپسی غیرضروری برای افرادی که سالم هستند، چون بیوپسی یک پروسه تهاجمی است. در نتیجه، پزشک در ذهن خود یک آستانه (Threshold) تعیین میکند، مثلاً ۴۰ درصد. یعنی اگر ۴۰ درصد احتمال بدهد که فرد ممکن است سرطان داشته باشد، او را برای انجام بیوپسی ارجاع میدهد. در این بین، ممکن است افراد زیادی که سرطان ندارند هم بیوپسی شوند، اما در ذهن پزشک سود تشخیص کمی بیشتر از ضرر بیوپسی است.
حالا فرض کنید شما تست جدیدی به نام تست T ساختهاید که با دقت بیشتری بیماری را تشخیص میدهد. طبق بررسیهای شما، این تست دقت و AUC بالاتری نسبت به PSA دارد، اما سوال این است که آیا در عمل و در کلینیک نیز عملکرد بهتری دارد؟ اینجاست که DCA به کار میآید. هدف ما این است که سود خالصی که به بیمار میرسد، بیشتر باشد و این چیزی است که نمودارهای دیگر آن را به خوبی نشان نمیدهند. سود خالص به این معناست که ما ضرری که به افرادی که False Positive هستن رو از سودی که به افرادی که True Positive میرسه کم کنیم. که جلوتر در مورد معادله ی دقیق اون صحبت میکنیم.
حال فرض کنید این تست T را به پزشک معرفی میکنید. پزشک همچنان همان آستانه ذهنی خود را دارد. یعنی اگر ۴۰ درصد بیشتر به داشتن سرطان شک کند برای بیمار بیوپسی درخواست میکند. یعنی شما دو مدل پیش روی پزشک گذاشتهاید؛ یکی با دقت ۳۰ درصد پیش بینی میکند دارد که فرد سرطان داشته باشد و دیگری با دقت ۹۰ درصد. پزشک باید تصمیم بگیرد که به کدام مدل اعتماد کند و برای این کار به نمودار DCA نگاه میکند. در این نمودار، پزشک متوجه میشود که در آستانهای که او در ذهن دارد، مدل یا تست T سود خالص بیشتری برای بیمار به همراه دارد و بنابراین تصمیم میگیرد از آن استفاده کند.
چطور این نمودارها رسم میشوند؟
این نمودارها از یک معادله بسیار ساده پیروی میکنند که در زیر نشان داده شده است. با جایگذاری مقادیر در هر آستانه مشخص میتوان Net Benefit را حساب کرد.
البته این کار را میتوانید با استفاده از کتابخانههایی به زبان R و پایتون برای مدلهای هوش مصنوعی خودتان نیز انجام دهید و نتایج را با مدلهای دیگر و یا روش های کلاسیک قبلی (مانند تست های تشخیصی) مقایسه کنید. از جمله کتابخانههایی که من با آنها کار کردهام میتوان به dcurves در R و statkit در پایتون اشاره کرد.
اخیرا در یکی از جلسات مدیکس در این باره صحبت کردم که در اینجا میتوانید مشاهده کنید.
منابع: