کارایی رویکردهای متعادلسازی داده در نقشهبرداری رقومی خاک (مطالعه موردی: بخشی از اراضی استان زنجان) | ||
| فصلنامه علوم محیطی | ||
| مقاله 7، دوره 23، شماره 3، 1404، صفحه 655-670 اصل مقاله (1.23 M) | ||
| نوع مقاله: مقاله پژوهشی | ||
| شناسه دیجیتال (DOI): 10.48308/envs.2024.1433 | ||
| نویسندگان | ||
| مستانه رحیمی مشکله1؛ محمدامیر دلاور* 1؛ محمد جمشیدی2 | ||
| 1گروه علوم خاک، دانشکده کشاورزی، دانشگاه زنجان، زنجان، ایران | ||
| 2موسسه تحقیقات خاک و آب، سازمان تحقیقات، آموزش و ترویج کشاورزی، کرج، ایران | ||
| چکیده | ||
| سابقه و هدف: نقشهبرداری رقومی خاک با استفاده از روشهای نوین یادگیری ماشین بهطور گستردهای برای پیشبینی پراکندگی مکانی و ویژگیهای مختلف خاک به کار گرفته میشود، بااینوجود یکی از محدودیتهای استفاده از روشهای نقشهبرداری رقومی خاک در مطالعات خاکشناسی، عدم تعادل کلاسهای خاک است که تأثیر منفی بر عملکرد الگوریتمهای یادگیری ماشین دارد؛ بنابراین این پژوهش برای رفع این چالش و بهبود طبقهبندی کلاسهای نامتعادل خاک با دو رویکرد نمونهگیری مجدد و یادگیری حساس به هزینه و استفاده از مدل پیشبینی جنگل تصادفی در استان زنجان انجامگرفته است. مواد و روشها: تعداد 148 خاکرخ مشاهداتی بر اساس الگوی طبقهبندی تصادفی با فاصله 500 متر حفر و پس از انتقال به آزمایشگاه تجزیههای مختلف فیزیکی و شیمیایی مطابق با روشهای استاندارد بر روی آنها انجام گرفت. متغیرهای محیطی شامل اطلاعات نقشه-های ژئومورفولوژی و زمینشناسی، مدل رقومی ارتفاع و دادههای حاصل از تصاویر ماهوارهای لندست 8 بودند که بر اساس نظر کارشناسی و رویکرد تحلیل مؤلفه اصلی تعدادی از متغیرهای محیطی شامل اطلاعات نقشههای ژئومورفولوژی، اطلاعات زمینشناسی و ویژگیهای مستخرج از مدل رقومی ارتفاع بهعنوان مؤثرترین متغیرهای محیطی برای پیشبینی کلاسهای خاک و بهعنوان ورودی مدل انتخاب شدند. سایهاندازی تپهها (AHS)، طلوع خورشید، عمق دره، شاخص طول در جهت شیب، فاصله تا شبکه آبراهه (CND)، شاخص رطوبتی توپوگرافی (TWI) و شاخص همواری بالای پشته با درجه تفکیک بالا (MRRTF) بهعنوان مؤثرترین متغیرهای محیطی انتخاب شدند و بیشترین میزان تغییرپذیری مکانی خاکها در منطقه را مدلسازی کردند. مدلسازی رابطه خاک - زمیننما با استفاده از الگوریتم جنگل تصادفی و اصلاح دادههای نامتعادل توسط رویکرد نمونهگیری مجدد با استفاده از توابع ubOver و ubUnder و همچنین رویکرد یادگیری حساس به هزینه با استفاده از تابع rf در بسته Random Forest در محیط برنامهنویسی Rstudio انجام شد. نتایج و بحث: نتایج این پژوهش حاکی از این بود که خاکهای منطقه در سطح زیرگروه در پنج کلاس با توزیع نامتعادل شامل تیپیک کلسیزرپتز، تیپیک هاپلوزرپتز، جیپسیک هاپلوزرپتز، تیپیک زراورتنتز و لیتیک زراورتنتز طبقهبندی شدند. بر این اساس مقادیر آمارههای صحت کلی و ضریب کاپا برای ارزیابی نقشه خاک با دادههای نامتعادل به ترتیب برابر 65 درصد و 32/0 بوده و پس از متعادلسازی دادهها در رویکرد نمونهگیری مجدد به ترتیب برابر 71 درصد و 54/0 و در رویکرد یادگیری حساس به هزینه به ترتیب برابر 86 درصد و 77/0 به دست آمد. زیرگروههای جیپسیک هاپلوزرپتز و لیتیک زراورتنز که جزء کلاسهای اقلیت محسوب میشدند، هنگام استفاده از کلاسهای نامتعادل پیشبینینشده و حذفشده بودند اما پس از بهبود دادهها و بیشافزایی با دو رویکرد نمونهگیری مجدد و یادگیری حساس به هزینه به تعداد این دو کلاس اقلیت، پیشبینی این زیرگروهها با صحت قابل قبولی افزایش نشان داد. نتیجهگیری: نتایج ارزیابی مدلها نشان داد که در مدلسازی با استفاده از توزیع نامتعادل کلاسهای خاک، به دلیل از دست رفتن کلاسهای با تعداد مشاهده کم، نقشههای نامطمئن با دقت نسبتاً ضعیفی ایجاد میشود که پس از اعمال متعادلسازی دادهها، دقت مدلهای مبتنی بر روابط خاک - زمیننما در مطالعات نقشهبرداری رقومی خاک ارتقا مییابد. نتایج نشان داد که رویکرد یادگیری حساس به هزینه با تمرکز بر روی کلاسهای با تکرار کم، میتواند بهعنوان یک مدل برتر در مناطق دیگر نیز مورداستفاده قرار گیرد. با توجه به اینکه تحقیقات درزمینه دادههای نامتعادل در خاک محدود است، این مطالعه میتواند یک راهحل مؤثر برای مقابله با دادههای نامتعادل در کلاسهای خاک و تولید نقشههای رقومی خاک با دقت بالا باشد. | ||
| کلیدواژهها | ||
| جنگل تصادفی؛ دادههای نامتعادل؛ نمونهگیری مجدد؛ یادگیری حساس به هزینه | ||
| عنوان مقاله [English] | ||
| Improving the classification of imbalanced soil data using machine learning algorithms | ||
| نویسندگان [English] | ||
| Mastaneh Rahimi Mashkaleh1؛ Mohammad Amir Delavar1؛ Mohammad Jamshidi2 | ||
| 1Department of Soil Science, Faculty of Agriculture, University of Zanjan, Zanjan, Iran | ||
| 2Soil and Water Research Institute, Agricultural Research, Education and Extension Organization, Karaj, Iran | ||
| چکیده [English] | ||
| Introduction: Digital soil mapping using innovative machine learning methods is increasingly used to predict the spatial distribution and various soil properties. However in soil science studies, the use of digital soil mapping methods faces challenges due to the imbalance in soil classes, which negatively affects the performance of machine learning algorithms. Therefore, this study aims to address this challenge by improving the classification of imbalanced soil classes through two approaches: resampling and cost-sensitive learning, using the random forest prediction model in Zanjan Province. Material and Methods: A number of 148 soil samples were collected based on a random classification pattern with a 500 meter spacing and subjected to various physical and chemical analyses in the laboratory following standard methods. Environmental covariates included geomorphological and geological maps, digital elevation model (DEM), and Landsat 8 satellite images, which were selected as inputs for soil class prediction based on expert opinion and principal component analysis (PCA). Some environmental covariates, such as geomorphological and geological maps information and features extracted from DEM, were identified as the most effective predictors for soil classes and were chosen as model inputs. Analytical hill shading (AHS), sunrise, valley depth, LS_factor, channel network distance (CND), topographic wetness index (TWI) and multi-resolution ridge top flatness index (MRRTF) were selected as the most effective environmental variables and modeled the most spatial variability of the soils of the region. Soil-landscape relationship modeling was done performed using Random Forest algorithm and correcting imbalanced data was done by resampling approach using ubOver and ubUnder functions and also by cost-sensitive learning approach using rf function in Random Forest package in Rstudio software environment. Results and discussion: Soil subgroups were classified into five imbalanced classes, including Typic Calcixerepts, Typic Haploxerepts, Gypsic Haploxerepts, Typic Xerorthents, and Lithic Xerorthents. The validation results showed that the overall accuracy (OA) and kappa coefficient for evaluating the soil map with imbalanced data were 65% and 0.32, respectively. After data balancing through resampling, these values increased to 71% and 0.54, respectively, and in the cost-sensitive learning approach, they reached 86% and 0.77, respectively. Gypsic Haploxerepts and Lithic Xerorthents subgroups, considered minority classes, were unidentified and excluded when using imbalanced classes. However, after data improvement and augmentation with both resampling and cost-sensitive learning approaches, the prediction of these two minority classes demonstrated acceptable accuracy improvements. Conclusion: The results of the evaluation of the models showed that in modeling using an unbalanced distribution of soil classes, due to the loss of classes with a small number of observations, uncertain maps with relatively poor accuracy are created, and after applying data balancing, the accuracy of models based on soil relationships - Topography is improved in digital soil mapping studies. The results showed that the cost-sensitive learning approach, focusing on classes with low repetition, can be used as a superior model in other areas. Considering that the research in the field of unbalanced soil data is limited, this study can be an effective solution to deal with unbalanced data in soil classes and produce digital soil maps with high accuracy. | ||
| کلیدواژهها [English] | ||
| Random forest, Imbalanced data, Resampling, Cost-sensitive learning | ||
|
سایر فایل های مرتبط با مقاله
|
||
| مراجع | ||
|
| ||
|
آمار تعداد مشاهده مقاله: 2,038 تعداد دریافت فایل اصل مقاله: 1,507 |
||
