Practical Treatment of the Multicollinearity: The Optimal Ridge Method and the Modified OLS

dc.contributor.authorТижненко, Олександр Григорович
dc.contributor.authorРєзнік, Євген Володимирович
dc.date.accessioned2026-03-03T09:20:03Z
dc.date.available2026-03-03T09:20:03Z
dc.date.issued2021
dc.descriptionThe paper discusses the applicability of the two main methods for solving the linear regression (LR) problem in the presence of multicollinearity – the OLS and the ridge methods. We compare the solutions obtained by these methods with the solution calculated by the Modified OLS (MOLS) [1, 2]. Like the ridge, the MOLS provides a stable solution for any level of data collinearity. We compare three approaches by using the Monte Carlo simulations, and the data used is generated by the Artificial Data Generator (ADG) [1, 2]. The ADG produces linear and nonlinear data samples of arbitrary size, which allows the investigation of the OLS equation's regularization problem. Two possible regularization versions are the COV version considered in [1, 2] and the ST version commonly used in the literature and practice. The performed investigations reveal that the ridge method in the COV version has an approximately constant optimal regularizer ( ) ( 0.1) opt ridge λ ≈ for any sample size and collinearity level. The MOLS method in this version also has an approximately constant optimal regularizer, but its value is significantly smaller ( ) ( 0.001) opt MOLS λ ≈ . On the contrary, the ridge method in the ST version has the optimal regularizer, which is not a constant but depends on the sample size. In this case, its value needs to be set to ( ) 0.1( 1) opt ridge λ ≈ n − . With such a value of the ridge parameter, the obtained solution is strictly the same as one obtained with the COV version but with the optimal regularizer ( ) 0.1 opt ridge λ ≈ [1, 2]. With such a choice of the regularizer, one can use any implementation of the ridge method in all known statistical software by setting the regularization parameter ( ) 0.1( 1) opt ridge λ ≈ n − without extra tuning process regardless of the sample size and the collinearity level. Also, it is shown that such an optimal ridge(0.1) solution is close to the population solution for a sample size large enough, but, at the same time, it has some limitations. It is well known that the ridge(0.1) solution is biased. However, as it has been shown in the paper, the bias is economically insignificant. The more critical drawback, which is revealed, is the smoothing of the population solution – the ridge method significantly reduces the difference between the population regression coefficients. The ridge(0.1) method can result in a solution, which is economically correct, i.e., the regression coefficients have correct signs, but this solution might be inadequate to a certain extent. The more significant the difference between the regression coefficients in the population, the more inadequate is the ridge(0.1) method. As for the MOLS, it does not possess this disadvantage. Since its regularization constant is much smaller than the corresponding ridge regularizer (0.001 versus 0.1), the MOLS method suffers little from both the bias and smoothing of its solutions. From a practical point of view, both the ridge(0.1) and the MOLS methods result in close stable solutions to the LR problem for any sample size and collinearity level. With the sample size increasing, both solutions approach the population solution. We also demonstrate that for a small sample size of less than 40, the ridge(0.1) method is preferable, as it is more stable. When the sample size is medium or large, it is preferable to use the MOLS as it is more accurate yet has approximately the same stability.
dc.description.abstractУ цій статті розглядається придатність двох основних методів для вирішення проблеми лінійної регресії (LR) за наявності мультиколінеарності, а саме OLS, та ridge-методу порівняно з рішеннями модифікованого методу OLS (MOLS) [1, 2], який, як і ridge, забезпечує стабільне рішення на будь-якому рівні колінеарності даних. Порівняння проведено методом Монте-Карло із використанням штучного генератора даних (ADG) [1, 2], який генерує лінійні вибірки даних будь-якого розміру. Використання ADG дозволяє нам дослідити проблему регуляризації рівняння OLS. Було виявлено, що можливі дві версії регуляризації: версія COV, яка була запропонована та досліджена в [1, 2], та версія ST, яка зазвичай використовується в літературі та практичних реалізаціях. Запропоновані дослідження показують, що у версії COV ridge метод має приблизно постійний оптимальний регулятор (λ_opt≈0,1) для будь-якого обсягу вибірки та рівня колінеарності. Метод MOLS також має у цій версії приблизно постійний оптимальний регулятор, але він значно менший за значенням (λ_opt≈0,001). У той же час у загальновживаній версії ridge-методу нам потрібен оптимальний регулятор λ_opt≈0,1 (n-1), який залежить від обсягу вибірки n і не є константою. Нам було показано в роботі, що версія ST, яка використовується як правило на практиці разом із ridge-методом, при використанні оптимального параметра λ_opt = 0,1 (n-1), дає строго те саме рішення, що і COV версія хребта з оптимальним регулятором λ_opt = 0,1 [1, 2]. Це дозволяє використовувати коди ridge-методу у всім відомому статистичному програмному забезпеченні, встановлюючи параметр регуляризації λ_opt = 0,1 (n-1) без будь-якого процесу налаштування, незалежно від обсягу вибірки та рівня колінеарності. Ми також показуємо, що таке оптимальне рішення ridge(0,1) наближається до рішення в популяції для досить великого обсягу вибірки, але одночасно має деякі проблеми. Той факт, що метод ridge(0,1) дає зміщення, відомий, але це зміщення, як було показано в роботі, є економічно незначущим. Найважливішим виявленим недоліком є згладжування популяційного рішення: ridge-метод значно зменшує різницю між коефіцієнтами регресії популяції. Отже, ridge(0,1) може дати економічно правильний (з правильними ознаками), але певною мірою неадекватний розв’язок. Неадекватність ridge(0,1) виявляється тим більше, чим більша різниця між коефіцієнтами регресії в популяції. Цим недоліком MOLS практично не володіє, оскільки для нього константа регуляризації має набагато менше значення (0,001 проти 0,1). Через це метод MOLS практично мало страждає як від зміщення, так і від згладжування своїх рішень. З практичної точки зору, обидва методи, ridge(0,1) та MOLS, дають тісні стабільні рішення проблеми LR для будь-якого обсягу вибірки та рівня колінеарності, які наближаються до рішень в популяції зі збільшенням обсягу вибірки. У статті також показано, що для малих вибірок менше 40 переважно використовувати ridge(0,1), оскільки він є більш стабільним. Для середніх та великих зразків переважно використовувати MOLS, оскільки він є більш точним із приблизно однаковою стабільністю.
dc.identifier.citationTyzhnenko, Alexander G., and Ryeznik, Yevgen V. (2021) “Practical Treatment of the Multicollinearity: The Optimal Ridge Method and the Modified OLS.” The Problems of Economy 1:155–168. https://doi.org/10.32983/2222-0712-2021-1-155-168
dc.identifier.urihttps://www.problecon.com/article/?year=2021&abstract=2021_1_0_155_168
dc.identifier.urihttps://dr.csbc.edu.ua/handle/123456789/1406
dc.publisherНауково-дослідний центр індустріальних проблем розвитку НАН України
dc.subjectSOCIAL SCIENCES::Business and economics::Economics
dc.subjectSOCIAL SCIENCES::Business and economics
dc.subjectSOCIAL SCIENCES::Business and economics::Business studies
dc.subjectSOCIAL SCIENCES::Business and economics::Economics::Econometrics
dc.titlePractical Treatment of the Multicollinearity: The Optimal Ridge Method and the Modified OLS
dc.title.alternativeПрактичне рішення проблеми мультиколінеарності: Оптимальний метод рідж-регресії та модифікований метод найменших квадратів
dc.typeArticle
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
problems-of-economy-2021-1_0-pages-155_168.pdf
Size:
2.34 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description: