Что значит Проклятие числа размерностей? Что значит хедж-фонд?

Проклятие числа размерностей



Предположим, ваша стратегия прогнозирования на фондовом рынке - подбрасывание монетки. Но при этом она создана на основе тщательного тестирования. Вот ваша методика: вы наносите метки на тысячу монет - от 1 до 1000. Каждое утро в течение двух лет вы подбрасываете все монеты, записывая, падают они орлом или решкой, а затем смотрите, идет ли индекс Standard & Poor’s в тот день вверх или вниз. Вы постоянно анализируете всю статистику. И вуаля! Вы что-то обнаружили. Получается, что при 70,3 % подбрасываний монета № 391 падает решкой вверх тогда, когда индекс S&P растет. Связь статистически значимая, ее уровень высокий. Вы нашли свою счастливую монету!

Теперь просто каждое утро подбрасывайте ее и покупайте акции, когда она выпадает решкой. Ваши дни в футболке и с ужином пустой лапшой закончились. Монета 391 - это ваш билет в хорошую жизнь!

Или нет.

Вы стали очередной жертвой одного из самых дьявольских аспектов «проклятия числа размерностей». Он может нанести удар, когда у вас имеется много переменных (или «размерностей») и не так много наблюдений: в данном случае, тысяча монет и 504 торговых дня за эти два года соответственно. Одна из этих размерностей - монета 391 - скорее всего, счастливая. Уменьшите количество переменных -подбрасывайте всего сто монет. И вероятность того, что вам повезет, существенно уменьшится. Увеличьте число наблюдений, попытавшись предсказать поведение индекса S&P за 20 лет - и монеты постараются «не ударить в грязь лицом».

«Проклятия размерности» является серьезной проблемой при работе с большими данными, поскольку новые наборы данных никогда не дают нам экспоненциально больше переменных, чем традиционные источники - каждый поисковой запрос, каждая категория твитов и т. д. Многие люди, утверждающие, что способны прогнозировать динамику рынка, используя какой-то большой источник данных, просто оказались в плену этого проклятия. Все, что они действительно сделали - нашли эквивалент монеты 391.

Возьмем, к примеру, команду ученых-компьютерщиков из университета штата Индиана и университета Манчестера. Эти специалисты утверждали, что могут спрогнозировать динамику рынков, основываясь на сообщениях в Twitter. Они построили алгоритм обработки каждодневного настроения твитов всего мира. Однако они учитывали не одно настроение, а множество - счастье, злость, доброту и многие другие. И обнаружили, что повышенное число твитов с выражением спокойствия - таких как «я спокоен» -позволяет предположить повышенную вероятность роста промышленного индекса Доу - Джонса через шесть дней. Для использования их результатов был основан хедж-фонд.

В чем здесь проблема?

Основная загвоздка заключается в том, что ученые протестировали слишком много элементов. Если вы в случайном порядке исследуете достаточно много переменных, одна из них окажется статистически значимой. Они изучили много эмоций, они тестировали каждую эмоцию за день, два, три, семь до дня, поведение фондового рынка в который пытались предсказать. И все эти переменные были использованы для того, чтобы попытаться объяснить взлеты и падения индекса Доу - Джонса всего за несколько месяцев.

За шесть дней до этого спокойствие не было легитимным прогностическим фактором фондового рынка. В тот момент оно было эквивалентом нашей гипотетической монеты 391 для больших данных. Хедж-фонд на базе твитов был закрыт через месяц после запуска вследствие малой отдачи.

Как преодолеть «проклятие размерности»?



Вы должны со смирением относиться к своей работе и не потерять голову из-за ее результатов. Вы должны проверять их с помощью дополнительных тестов. Например, прежде чем ставить все свои сбережения на монету 391, стоит посмотреть, что будет происходить в течение ближайших нескольких лет. Социологи называют это «вневыборочным» тестом. И чем больше переменных вы включаете, тем скромнее надо быть. Чем больше переменных вы включаете, тем жестче должен быть «вневыборочный» тест. Важно также тщательно следить за проведением каждого исследования - тогда вы сможете точно сказать, с какой вероятностью вы стали жертвой «проклятия размерностей» и насколько скептически следует отнестись к результатам. Что

Источник: Поисковики, Биг дата и интернет



Оставить свой ответ:

Имя:*
E-Mail:
Вопрос:
Skolko buдет пять пдюс сeмь?
Ответ:*
QQpedia21.ru - cамые интересные вопросы