При работе любого enterprise-приложения образуются данные: это файлы логов, метрики, информация об активности пользователей, исходящие сообщения и т.п. Правильные манипуляции над всеми этими данными не менее важны, чем сами данные. Если вы – архитектор, разработчик или выпускающий инженер, желающий решать подобные проблемы, но вы пока не знакомы с Apache Kafka...
В недрах популярных социальных сетей — Twitter, Facebook, LinkedIn и Instagram — скрыты богатейшие залежи информации. Из этой книги исследователи, аналитики и разработчики узнают, как извлекать эти уникальные данные, используя код на Python, Jupyter Notebook или контейнеры Docker...
Data Science (исследование данных) - одна из самых востребованных специализаций нашего времени. Изучение данных позволяет преобразить любую традиционную или инновационную бизнес-модель. Эта книга основана на вводном курсе по Data Science из Колумбийского университета, и начинающему специалисту-аналитику она совершенно необходима...
Вас пугает необходимость обрабатывать петабайтные наборы данных? Познакомьтесь с Google BigOuery — системой хранения информации, которая может консолидировать данные по всему предприятию, облегчает интерактивный анализ и позволяет реализовать задачи машинного обучения...
Узнайте как реализовать потоковую обработку на платформе Kafka! В этой книге рассмотрены реальные примеры сбора, преобразования и агрегации данных. Показана работа со множественными процессорами, обработка событий в режиме реального времени. Вы узнаете даже о потоковом SQL с KSQL! Эксплуатация и тестирование, мониторинг и отладка современных распределенных систем...
Второе издание этой книги дает современное практическое введение в раз¬работку научных приложений на Python, ориентированных на обработку данных. Код переписан под версию Python 3.6, добавлены сведения...
Язык R - мощный инструмент статистического программирования, десятки тысяч людей ежедневно используют его для проведения серьезного статистического анализа. Но не все задачи, даже простые, удастся быстро решить с его помощью, если не знать определенных тонкостей...
Эта книга написана ведущими специалистами в области технологий баз данных и веба. Благодаря популярности интернет-торговли появилось много чрезвычайно объемных баз данных, для извлечения информации из которых нужно применять методы добычи данных (data mining)...
Настоящая книга рассказывает, как с помощью научного инструментария Python получать и анализировать данные из наиболее популярных сетей, таких как Facebook, Twitter, Stack Exchange и др...
Визуализация данных играет важную роль на всех этапах статистического анализа - от первичного ознакомления со свойствами данных до диагностики качества построенных моделей и представления полученных результатов...
Среди систем, созданных для агрегации, систематизации и прочей автоматизации работы с логами, Splunk - один из самых мощных. Он позволит следить за тонкостями жизни всех ваших систем, особенно если их много и они достаточно распределенные...
Библиотека pandas - популярный пакет для анализа и обработки данных на языке Python. Он предлагает эффективные, быстрые, высокопроизводительные структуры данных, которые позволяют существенно упростить работу. Данная книга познакомит вас с обширным набором инструментов...
R является самым популярным в мире языком статистических вычислений: археологи используют его, изучая древние цивилизации, фармацевтические компании выясняют, какие лекарства наиболее безопасны и эффективны, а финансисты задействуют его для оценки рисков и удержания позиций на рынке...
Эта книга — мастхэв для аналитиков и руководителей. Она полезна всем, кто занимается бизнесом. Аналитикам и маркетологам она послужит отличным пособием с готовыми идеями, шаблонами и инструментами. А руководителям даст понять, как должна выглядеть действительно качественная визуализация данных...
Для того чтобы понять мир, необходимо собрать и проанализировать данные о нем. Объединение последних технологических тенденций предоставляет новые возможности для применения анализа данных к более сложным задачам, чем когда-либо прежде...
Data Science - это совокупность понятий и методов, позволяющих придать смысл и понятный вид огромным объемам данных. Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных...
Начните работу с Apache Flink, фреймворком с открытым исходным кодом, на котором основаны многие крупнейшие в мире системы для обработки потоковых данных. В данной книге вы изучите фундаментальные понятия параллельной потоковой обработки и узнаете, чем эта технология отличается от традиционной пакетной обработки данных...
В этом практическом руководстве описаны современные технологии анализа данных временных рядов и приведены примеры их практического использования в самых разных предметных областях. Оно призвано помочь в решении наиболее распространенных задач исследования и обработки временных рядов с помощью традиционных статистических методов и наиболее популярных моделей машинного обучения...
Технологии анализа текстовой информации стремительно меняются под влиянием машинного обучения. Нейронные сети из теоретических научных исследований перешли в реальную жизнь, и анализ текста активно интегрируется в программные решения...
Перед вами - первая исходно русскоязычная книга, в которой на реальных примерах рассматриваются секреты обработки больших данных (Big Data) в облаках. Основное внимание уделено решениям Microsoft Azure и AWS. Рассматриваются все этапы работы...
Книга посвящена рекомендательным системам, которые собирают данные о пользователе и выводят для него персональные рекомендации, основываясь на его предпочтениях...
Cегодня Big Data — это большой бизнес.
Нашей жизнью управляет информация, и извлечение выгоды из нее становится центральным моментом в работе современных организаций. Не важно кто вы - деловой человек, работающий с аналитикой, начинающий программист или разработчик, - "Теоретический минимум по Big Data" позволит разобраться в основах новой и стремительно развивающейся отрасли обработки больших данных...
Овладейте искусством превращения необработанных первичных данных в плодотворные догадки, гипотезы и новые знания с помощью языка R. Эта книга задумана как введение в вычислительную среду R, среду разработки RStudio и библиотеку tidyverse — коллекцию пакетов, совместное использование которых обеспечивает быстроту и легкость анализа данных...