Почему бы не использовать более 3 скрытых слоев для классификации MNIST?

Многие работы используют 2-скрытые уровни нейронных сетей для классификации наборов рукописных цифр MNIST.

Для повышения точности использовались другие методы (исключение, ReLU и т. Д.) Без увеличения количества скрытых слоев.

Есть ли причина не использовать более трех скрытых слоев? например, переобучение?

3

1 ответы

Эмпирически, производительность сети не сильно возрастает для полностью подключенной сети в MNIST при добавлении слоев, но вы можете , вероятно, найти способы улучшить ее в сетях с 3 + скрытыми слоями, такими как увеличение данных (например, вариации всех входов, переведенных на + -0.2 пикселя в x и y, примерно в 25 раз превышающих исходный размер данных, в начале).

Я не думаю, что эта идея преследуется очень далеко на практике, потому что CNN предлагают гораздо лучшее увеличение производительности для требуемых усилий. Вы натолкнулись на снижение убытков ранее базовым MLP (около 96-97% точности), чем вы можете легко достичь с помощью CNN (около 99% точности).

Основа теории для этой разницы не очевидна для меня, но, скорее всего, да, это связано с переуплотнением. Совместное использование веса и объединение объектов в CNN - очень эффективный способ обработки данных изображения для задач классификации и избегает чрезмерной настройки, уменьшая количество параметров, в то же время повторно используя параметры для задачи таким образом, который имеет очень хороший смысл учитывая характер входов.

1
добавлено
Я хотел бы добавить, что MNIST - очень «легкая» задача, данные очень чистые и легкие в обобщении, они лежат на очень малоразмерном многообразии, что уменьшает потребность в очень глубоких слоях. Тем не менее, я думаю, что взорвать количество полностью связанных плотных слоев и добавить очень сильную регуляризацию может привести к лучшей производительности, близкой к CNN.
добавлено автор Adisak, источник
@JanvanderVegt: просто наложение на регуляризацию в глубокую полностью подключенную сеть не будет обобщать, а также CNN при задачах с изображениями, вам понадобится lot для увеличения данных. Обобщение CNN - это частично эффект регуляризации (через общие веса), но структурная совпадение с проблемой также является ее большой частью.
добавлено автор Jeff Ferland, источник
Большое вам спасибо за ваши комментарии. Однако мне интересно, почему точность 2-скрытого слоя лучше, чем точность 3-скрытых слоев нейронной сети. Это то, что я испытал. Даже если бы я не добавил никаких методов регуляризации, я не знаю причин снижения точности. Я думаю, что это не проблема переобучения, так как ошибка обучения и ошибка теста аналогичны.
добавлено автор richud.com, источник