Проектирование и разработка процесса ETL

Заказать уникальный реферат
Тип работы: Реферат
Предмет: Проектирование баз данных
  • 1515 страниц
  • 15 + 15 источников
  • Добавлена 22.12.2017
400 руб.
  • Содержание
  • Часть работы
  • Список литературы
  • Вопросы/Ответы
Актуальность темы 2
Описание источников данных 3
Методы преобразования данных 5
Методика проектирования ETL-процессов с использованием CASE-инструментов 9
Выводы 13
Краткий словарь терминов 14
Литература 15

Фрагмент для ознакомления

Каждую стрелочку на диаграмме необходимо пронумеровать и задать комментарий. Комментарий служит напоминанием для разработчиков разработчикам о том, что необходимо следить за целостностью ссылочных данных.На данном этапе планирования необходимо зафиксировать все обнаруженные расхождения в назначении данных и схемах кодирования.Успешность планирования ETL-процесса во многом зависит от выбораETL-инструментов [11]. Компаниями производителями комплексных решений в области ХД (IBM, Oracle, MicroSoft) предоставляется большой выбор таких инструментов. Выбор оптимальныхETL-инструментов должен быть произведендо начала этапа детального планирования.ETL-процедуры можно разработать вручную или можно воспользоваться специализированными средствами ETL.Выбор метода разработки процедур ETL определяется требованиями к подсистеме загрузки данных в каждом случае индивидуально.Преимущества «ручного» способа:возможность использования популярныхспособов программирования, например, объектно-ориентированного программирования;применениеряда существующих методик и программных средств, для автоматизации процесса тестирования процедур загрузки данных;доступны квалифицированные человеческие ресурсы;применение оптимального производительного решения с использованием преимуществ систем управления базами данных (СУБД);возможность принятия наиболее гибкого решения.Применение ETL-инструментов:снижение сложности процесса разработки, и, что очень важно, процесса поддержания и модификации процедур ETL;уменьшение времени разработки системы, применение заготовок, которые поставляются со средствами ETL;использование встроенных систем управления метаданными, которые обеспечивают синхронизацию метаданных между СУБД средством ETL, а также инструментами визуализации данных;автоматическая документацияразработанных процедур;возможность увеличения производительности подсистемы загрузки данных за счет распараллеливания вычислений в различных точках системы, применение хеширования др.Детализированные планы преобразования данных составляются для всех таблиц, участвующих в процессе преобразования.Детальное планирование выполняется руководителем проекта создания ХД и включает в себя учет различных факторов, связанных со спецификой предметной области ХД. ВыводыРазработка ETL-процесса включает в себя следующие стадии:Планирование ETL-процесса;Конструирование процесса заполнения таблиц измерений;Конструирование процесса заполнения таблиц фактов;Извлечение данных;Преобразование и очистка данных;Загрузка данных.При проектировании процессов преобразования данных проектировщик ХД должен выполнить следующие действия:Проанализировать требования к данным ХД;Проанализировать и описать источники данных для ХД;Создать модель преобразования данных высокого уровня;Определить и подробно описать каждую задачу преобразования данных ;Краткий словарь терминовETL(extraction, transformation, loading) - комплекс методов, реализующих процесс переноса исходных данных из различных источников в аналитическое приложение или поддерживающее его хранилище данных.Диаграмма движения данных- (Data flow diagram, DFD) используются для описания документооборота и обработки информации.Диаграмма преобразования данных- методология графического структурного анализа, описывающая внешние по отношению к системе источники и адресаты данных, логические функции, потоки данных и хранилища данных, к которым осуществляется доступ диаграммы управления.БД (база данных) -представленная в объективной форме совокупность самостоятельных материалов, систематизированных таким образом, чтобы эти материалы могли быть найдены и обработаны с помощью электронной вычислительной машины.Метаданные - информация о другой информации, или данные, относящиеся к дополнительной информации о содержимом или объекте.MPP- массово-параллельная архитектура (англ. massive parallel processing, MPP, также «массивно-параллельная архитектура») - класс архитектур параллельных вычислительных систем. Особенность архитектуры состоит в том, что память физически разделена.CASE (англ. computer-aidedsoftwareengineering) — набор инструментов и методов программной инженерии для проектирования программного обеспечения, который помогает обеспечить высокое качество программ, отсутствие ошибок и простоту в обслуживании программных продуктов.ERP-система (англ. Enterprise Resource Planning System) -система планирования ресурсов предприятия) — корпоративная информационная система (кис), предназначенная для автоматизации учета и управления.ХД – хранилище данных. Служит для хранения преобразованных в необходимый для дальнейшего анализа данных в системе ETL.ЛитератураПаклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям.: СПб.: Питер, 2013.-704 с..Федоров А. Елманова Н. Введение в OLAP-технологии Microsoft.: Диалог-МИФИ.:2002.-172 с. Арменак Б., Куприянов М., Степаненко В., Холод И. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP.:БХВ-Петербург.:СПб.: 2007.-384.Голицына, О.Л. и др. Базы данных; Форум; Инфра-М, 2013. - 399 c.Гринченко, Н.Н. и др. Проектирование баз данных. СУБД Microsoft Access; Горячая Линия Телеком, 2012. - 613 c.Тараканов В.Е.Агрегирование данных мультисенсоров в беспроводных сенсорных сетях. НИТПУ.: Томск.: 2012.-92 с.Туманов В.Е. Системы складирования данных. Архитектура, продукты и подходы к реализации. Машиностроитель. – 2003. –№ 8. – С. 58-65.Архипенков С. Аналитические системы на базе ORACLE Express OLAP. Проектирование, создание, сопровождение. М.: Диалог-МИФИ, 2000. – 320 с.Маклаков С.В., Матвеев Д.В. Анализ данных. Генератор отчетов Crystal Reports.: СПб.: БХВ-Петербург, 2003. – 496 с.Маклаков С.В. Bpwin и Erwin. CASE-средства разработки информационных систем. М.: Диалог-МИФИ», 1999. – с. 256/Архипенков С., Голубев Д., Максименко О. Хранилища данных. От концепции до внедрения/ М.: Диалог-МИФИ, 2002. – 528 с.http://www.datuapstrade.lv/rus/spss/http://www.intuit.ruhttp://bourabai.ruhttps://www.prj-exp.ru

1. Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям.: СПб.: Питер, 2013.-704 с..
2. Федоров А. Елманова Н. Введение в OLAP-технологии Microsoft.: Диалог-МИФИ.:2002.-172 с.
3. Арменак Б., Куприянов М., Степаненко В., Холод И. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP.: БХВ-Петербург.:СПб.: 2007.-384.
4. Голицына, О.Л. и др. Базы данных; Форум; Инфра-М, 2013. - 399 c.
5. Гринченко, Н.Н. и др. Проектирование баз данных. СУБД Microsoft Access; Горячая Линия Телеком, 2012. - 613 c.
6. Тараканов В.Е. Агрегирование данных мультисенсоров в беспроводных сенсорных сетях. НИТПУ.: Томск.: 2012.-92 с.
7. Туманов В.Е. Системы складирования данных. Архитектура, продукты и подходы к реализации. Машиностроитель. – 2003. –№ 8. – С. 58-65.
8. Архипенков С. Аналитические системы на базе ORACLE Express OLAP. Проектирование, создание, сопровождение. М.: Диалог-МИФИ, 2000. – 320 с.
9. Маклаков С.В., Матвеев Д.В. Анализ данных. Генератор отчетов Crystal Reports.: СПб.: БХВ-Петербург, 2003. – 496 с.
10. Маклаков С.В. Bpwin и Erwin. CASE-средства разработки информационных систем. М.: Диалог-МИФИ», 1999. – с. 256/
11. Архипенков С., Голубев Д., Максименко О. Хранилища данных. От концепции до внедрения/ М.: Диалог-МИФИ, 2002. – 528 с.
12. http://www.datuapstrade.lv/rus/spss/
13. http://www.intuit.ru
14. http://bourabai.ru
15. https://www.prj-exp.ru

Вопрос-ответ:

Какова актуальность темы проектирования и разработки процесса ETL?

Проектирование и разработка процесса ETL (извлечение, трансформация и загрузка данных) является ключевым для эффективного управления данными в современных организациях. Бесперебойное и точное выполнение процесса ETL позволяет интегрировать данные из разных источников, проводить необходимые преобразования и затем загружать их в целевую систему. Это важно для обеспечения надежности и актуальности данных, а также для поддержки принятия решений на основе информации.

Какие источники данных могут быть использованы при проектировании процесса ETL?

Источники данных могут быть разнообразными, включая реляционные базы данных, файлы различных форматов (например, CSV, XML), API сторонних систем, стриминговые сервисы и многие другие. Важно понимать формат и структуру исходных данных, чтобы правильно спроектировать процесс ETL для их извлечения и обработки.

Какие методы преобразования данных используются в процессе ETL?

В процессе ETL используются различные методы преобразования данных, такие как фильтрация, сортировка, объединение, агрегация, преобразование типов данных и многие другие. В зависимости от требуемых результатов и особенностей исходных данных выбираются соответствующие методы преобразования.

Какую методику можно использовать при проектировании ETL процессов с использованием CASE инструментов?

Для проектирования ETL процессов с использованием CASE инструментов можно использовать методику, основанную на анализе и проектировании данных, описании бизнес-правил и требований к данным. С помощью CASE инструментов можно создать графическую диаграмму процесса, указав последовательность операций, условия и параметры для каждой операции. Это позволяет легче визуализировать и контролировать процесс ETL.

Зачем необходимо следить за целостностью ссылочных данных при проектировании ETL процессов?

Целостность ссылочных данных важна для обеспечения правильной работы ETL процесса и достоверности результирующих данных. Если ссылочные данные несогласованы или некорректны, то это может привести к ошибкам и неправильному объединению данных. Поэтому необходимо следить за целостностью и регулярно проверять ссылочные данные, чтобы избежать проблем в процессе ETL и сделать его результаты достоверными.

Зачем нужно проектирование и разработка процесса ETL?

Проектирование и разработка процесса ETL (извлечение, трансформация и загрузка данных) является важным этапом в создании информационных систем. Он позволяет эффективно и структурированно собирать данные из различных источников, преобразовывать их в нужный формат и загружать в целевую базу данных. Это позволяет обеспечить консолидацию данных, улучшить качество данных и обеспечить своевременную и достоверную информацию для принятия управленческих решений.

Какие источники данных могут использоваться при проектировании ETL процесса?

При проектировании ETL процесса могут использоваться различные источники данных, такие как реляционные базы данных, файлы различных форматов (например, CSV или Excel), API веб-сервисов, системы электронного документооборота и другие. Важно учитывать особенности каждого источника данных и выбрать подходящие методы извлечения данных.

Какие методы преобразования данных могут использоваться в процессе ETL?

В процессе ETL можно использовать различные методы преобразования данных, включая фильтрацию, сортировку, агрегацию, объединение данных, преобразование форматов и многое другое. Также можно применять бизнес-правила и логику для получения нужных результатов. Все зависит от требований и целей проекта ETL.

Какая методика проектирования ETL процессов может быть использована с помощью CASE инструментов?

Для проектирования ETL процессов с использованием CASE инструментов может быть использована методика, предусматривающая создание диаграммы потоков данных (Data Flow Diagram). С помощью этой диаграммы можно визуализировать процесс извлечения, трансформации и загрузки данных, указать источники данных, методы преобразования и целевые базы данных. Это позволяет четко описать и понять все этапы процесса ETL.