Наша еженедельная подборка "Выбор редакции" и оригинальные материалы, которые необходимо прочитать.

Объем данных, которые мы можем собрать, за последние годы вырос в геометрической прогрессии, как и вычислительные мощности, которыми мы располагаем для их анализа. Тем не менее, аналитикам данных по-прежнему приходится каждый день принимать трудные решения, используя эту новообретенную силу. Это верно в отношении бизнеса, технологий и медицины - и более или менее во всех других сферах человеческой деятельности.

Например, как большие, так и маленькие компании вкладывают деньги и ресурсы, чтобы обеспечить соответствие своей бизнес-стратегии базовым данным. Однако, как показывает Скотт Лундберг, нам все же нужно быть предельно осторожными, чтобы не попасть в ловушку путаницы в корреляции и причинно-следственной связи. Одно дело настроить модель, чтобы предсказать, какие клиенты откажутся от нее; Чтобы определить, какие функции имеют прямое причинное влияние на поведение клиентов, необходимо задать другой набор вопросов. Публикация Скотта об этой сложной реальной проблеме ясна и доступна, и вы обязательно должны ее прочитать.

Иногда, казалось бы, тривиальные факты оказываются намного сложнее, чем мы думали. В повседневной жизни, если кто-то спрашивает нас: Сколько вам лет? даже те из нас, кто считает этот вопрос недипломатичным, могут дать четкий ответ в одно мгновение. В нашей ДНК, с другой стороны, есть своя правда. В своем недавнем проекте Элеонора Шанцила и ее соавторы изучали удивительный разрыв между хронологическим возрастом и биологическим возрастом и сосредоточились на метилировании ДНК как на предикторе первого. Валери Кэри исследовала возрастные данные с другой стороны и наблюдала, как возраст влияет на показатели справедливости в прогнозных моделях. Ее вывод заключается в том, что попытки исправить или настроить модель для выравнивания показателей могут иметь непредвиденные последствия, если не учитывать возрастные эффекты.

Тщательный анализ данных может быть мощным - и необходимым - средством защиты от недобросовестных участников, которые пытаются использовать слабые места платформ, управляемых алгоритмами. Анна Якобсон и ее команда изучили почти 9 миллионов твитов от подозреваемых российских фабрик троллей в попытке предотвратить будущие риски для честности выборов в США. Между тем, в подкасте TDS, Джереми Харрис поговорил с Рози Кэмпбелл о потенциальных опасностях свободного обмена передовыми исследованиями в области ИИ и о необходимости улучшения норм и практики публикации в этой области.

Если вы зашли так далеко, то, возможно, пришли к разумному выводу, что данные могут быть - и часто являются - беспорядочными, а извлечение из них ценной истины может быть еще сложнее. Однако это не повод для отчаяния - мы часто находим замешательство и вдохновение в непосредственной близости. Так поступили и авторы некоторых из наших лучших руководств и учебных пособий на этой неделе, поэтому, если вы ищете конкретные практические знания, которые можно добавить к своему набору инструментов, вы находитесь в нужном месте:

Спасибо за то, что вы прочитали, поделились и взаимодействовали с публикуемой нами работой. Мы надеемся, что подборка на этой неделе вдохновит вас найти истину в любом наборе данных, над которым вы сейчас работаете, и принять меры, когда придет время. Если вам понравились эти сообщения, подумайте о том, чтобы стать участником среднего уровня, чтобы поддержать наших авторов и наше сообщество.

До следующей переменной
Редакторы TDS

Последние добавления к нашим избранным темам:

Начиная

Практические руководства

Глубокие погружения

Мысли и теория