Lần cuối chúng ta nói về Dữ liệu lớn, chúng tôi đã nói về những điều khác nhau Kỹ thuật phân tích dữ liệu lớn. Trước đó, chúng tôi đã nói về các khía cạnh khác nhau của Dữ liệu lớn. Trong một trong những blog của mình, tôi đã mô tả Functionalities of Big Data Reference Architecture Layers. Như đã nói trước đây, tiếp tục theo cùng một dòng, trong blog này, chúng ta sẽ thảo luận về Top 10 Open Source Data Extraction Tools.

Công cụ trích xuất dữ liệu của dữ liệu lớn giúp thu thập dữ liệu từ tất cả các nguồn khác nhau và chuyển đổi dữ liệu đó ở dạng có cấu trúc. Thuật ngữ được sử dụng phổ biến hơn cho các công cụ này là ETL – Extract Transform and Load. Các chức năng của các công cụ này có thể được chia thành 3 giai đoạn được mô tả dưới đây:

  • Trích xuất dữ liệu từ các nguồn dữ liệu đồng nhất hoặc không đồng nhất
  • Chuyển đổi dữ liệu để lưu trữ nó ở định dạng hoặc cấu trúc thích hợp cho mục đích truy vấn và phân tích.
  • Tải nó vào mục tiêu cuối cùng (cơ sở dữ liệu, cụ thể hơn là kho dữ liệu hoạt động, trung tâm dữ liệu hoặc kho dữ liệu).

Thông thường trong các công cụ ETL, tất cả ba giai đoạn thực thi song song vì quá trình trích xuất dữ liệu mất thời gian, vì vậy trong khi dữ liệu đang được kéo, một quá trình chuyển đổi khác sẽ thực hiện, xử lý dữ liệu đã nhận và chuẩn bị dữ liệu để tải và ngay khi có một số dữ liệu sẵn sàng được tải vào mục tiêu, quá trình tải dữ liệu bắt đầu mà không cần đợi hoàn thành các giai đoạn trước đó.

Ở đây, tôi liệt kê 10 công cụ trích xuất dữ liệu hoặc ETL nguồn mở hàng đầu:

  1. Talend Open Studio:

talend_openstudio

Talend Openstudio là một trong những công cụ ETL tích hợp dữ liệu mạnh mẽ nhất trên thị trường. Talend Open Studio là một bộ sản phẩm mã nguồn mở đa năng để phát triển, thử nghiệm, triển khai và điều hành các dự án tích hợp ứng dụng và quản lý dữ liệu.

Đối với các dự án ETL, Talend Open Studio for Data Integration cung cấp nhiều giải pháp để tích hợp dữ liệu, cả phiên bản mã nguồn mở và thương mại. Talend cung cấp một bộ tính năng phong phú bao gồm một môi trường phát triển tích hợp đồ họa với giao diện dựa trên Eclipse trực quan. Với quy trình thiết kế kéo và thả và khả năng kết nối rộng với hơn 400 trình kết nối ứng dụng được định cấu hình sẵn để kết nối giữa cơ sở dữ liệu, máy tính lớn, hệ thống tệp, dịch vụ web, ứng dụng doanh nghiệp đóng gói, kho dữ liệu, ứng dụng OLAP, Software-as-a -Dịch vụ, ứng dụng dựa trên đám mây và hơn thế nữa.

Xem thêm: Các bước cơ bản để thiết kế kiến ​​trúc dữ liệu lớn

  1. Scriptella:

Scriptella là một công cụ ETL mã nguồn mở được Apache khởi chạy, cùng với chức năng của các quy trình trích xuất, chuyển đổi cũng như tải cũng được sử dụng trong việc thực thi kịch bản java. Nó là một công cụ rất đơn giản và dễ sử dụng và về cơ bản nó phổ biến do dễ sử dụng. Các tính năng bao gồm thực thi các tập lệnh được viết bằng SQL, JavaScript, JEXL, Velocity. Di chuyển cơ sở dữ liệu, khả năng tương tác với LDAP, JDBC, XML và các nguồn dữ liệu khác. Cơ sở dữ liệu Cros hoạt động ETL, nhập / xuất từ ​​/ sang CSV, văn bản và XML và các định dạng khác.

  1. KETL:

KETL là một trong những công cụ mã nguồn mở tốt nhất để lưu trữ dữ liệu. Nó được làm bằng cấu trúc hướng java cùng với XML và các ngôn ngữ khác. Công cụ được xây dựng dựa trên kiến ​​trúc mở, đa luồng, dựa trên XML. Các tính năng chính của KETL bao gồm hỗ trợ tích hợp các công cụ bảo mật và quản lý dữ liệu, khả năng mở rộng đã được chứng minh trên nhiều máy chủ và CPU cũng như bất kỳ khối lượng dữ liệu nào và không cần thêm các công cụ thông báo, phụ thuộc và lịch biểu của bên thứ ba.

  1. Pentaho Data Integrator – Kettle

pentaho

Theo bản thân Pentaho, đây là nhà cung cấp BI cung cấp các công cụ ETL như một khả năng tích hợp dữ liệu. Các khả năng ETL này dựa trên dự án Kettle. Đó là ứng dụng Java và Thư viện. Kettle là một trình thông dịch các quy trình được viết ở định dạng XML. Kettle cung cấp một công cụ Java Script để tinh chỉnh quá trình thao tác dữ liệu. Ấm đun nước cũng là một công cụ tốt, với mọi thứ cần thiết để xây dựng các quy trình ETL thậm chí phức tạp. Kettle là một trình thông dịch của các thủ tục ETL được viết ở định dạng XML.

Ấm đun nước (PDI) là công cụ mặc định trong Pentaho Business Intelligence Suite. Các quy trình cũng có thể được thực hiện bên ngoài nền tảng Pentaho, với điều kiện là tất cả các Thư viện Ấm đun nước và trình thông dịch Java đều được cài đặt.

Đọc thêm: 40 sự thật đáng kinh ngạc về Dữ liệu lớn

  1. Jaspersoft ETL:

jaspersoft_etl

Jaspersoft ETL dễ dàng triển khai và thực hiện nhiều hệ thống ETL mã nguồn mở và độc quyền. Nó được sử dụng để trích xuất dữ liệu từ hệ thống giao dịch của bạn để tạo kho dữ liệu tổng hợp hoặc trung tâm dữ liệu để báo cáo và phân tích. Các tính năng bao gồm trình lập mô hình nghiệp vụ để truy cập chế độ xem phi kỹ thuật của quy trình thông tin, hiển thị và chỉnh sửa quy trình ETL với Job Designer, một công cụ chỉnh sửa đồ họa, xác định các ánh xạ và biến đổi phức tạp với Transformation Mapper và các thành phần chuyển đổi khác.

Nó thậm chí còn có khả năng theo dõi Thống kê ETL từ đầu đến cuối với gỡ lỗi thời gian thực, cho phép xuất và nhập đồng thời từ nhiều nguồn bao gồm tệp phẳng, tệp XML, cơ sở dữ liệu, dịch vụ web, máy chủ POP và FTP với hàng trăm trình kết nối có sẵn và sử dụng của bảng điều khiển giám sát hoạt động để theo dõi các sự kiện công việc, thời gian thực hiện và khối lượng dữ liệu.

  1. GeoKettle:

GeoKettle là phiên bản hỗ trợ không gian của công cụ ETL chung Kettle (Tích hợp dữ liệu Pentaho). GeoKettle là Công cụ ETL không gian định hướng siêu dữ liệu dành riêng cho việc tích hợp các nguồn dữ liệu không gian khác nhau để xây dựng và cập nhật kho dữ liệu không gian địa lý.

Nó cho phép Trích xuất dữ liệu từ các nguồn dữ liệu, Chuyển đổi Dữ liệu để sửa lỗi, thực hiện một số thao tác làm sạch dữ liệu, thay đổi cấu trúc dữ liệu, làm cho chúng tuân thủ các tiêu chuẩn đã xác định và Tải dữ liệu đã chuyển đổi vào Hệ thống Quản lý Cơ sở dữ liệu đích ( DBMS) ở chế độ OLTP hoặc OLAP / SOLAP, tệp GIS hoặc Dịch vụ Web không gian địa lý.

7. Clover ETL:

Dự án này được chỉ đạo bởi OpenSys, một công ty có trụ sở tại Cộng hòa Séc. Nó là mã nguồn mở được cấp phép kép dựa trên Java, trong phiên bản được cấp phép thương mại của nó cung cấp bảo hành và hỗ trợ. Trong ưu đãi của nó có một dấu vết nhỏ giúp dễ dàng nhúng bởi các nhà tích hợp hệ thống và ISV. Nó nhằm mục đích tạo ra một thư viện cơ bản của các hàm, bao gồm ánh xạ và các phép biến đổi. Phiên bản máy chủ doanh nghiệp của nó là một sản phẩm thương mại.

8. HPCC Systems:

HPCC Systems là một nền tảng Mã nguồn mở để phân tích Dữ liệu lớn với công cụ Lọc dữ liệu có tên Thor. Thor dọn dẹp, liên kết, chuyển đổi và phân tích Dữ liệu lớn. Thor hỗ trợ các chức năng ETL (Trích xuất, Chuyển đổi và Tải) như nhập dữ liệu không có cấu trúc / có cấu trúc ra ngoài, lập hồ sơ dữ liệu, vệ sinh dữ liệu và liên kết dữ liệu ra khỏi hộp. Dữ liệu đã xử lý của Thor có thể được một số lượng lớn người dùng truy cập đồng thời theo thời gian thực bằng cách sử dụng Roxie, một công cụ cung cấp dữ liệu. Roxie cung cấp khả năng truy vấn thời gian thực đồng thời và độ trễ thấp.

  1. Jedox:

jedox

Jedox là công cụ giải pháp BI nguồn mở. Công cụ cụ thể này để quản lý kế hoạch chiến lược nắm giữ hiệu suất, điều tra, phạm vi bảo hiểm và các quy trình liên quan đến các khái niệm ETL. Open Core bao gồm Máy chủ OLAP trong bộ nhớ, Máy chủ ETL và các thư viện máy khách OLAP. Hỗ trợ mạnh mẽ máy chủ Jedox OLAP như một hệ thống nguồn và đích, công cụ được chuẩn bị với khả năng khắc phục các sự cố trong điều tra OLAP. Bất kỳ mô hình thông thường nào cũng có thể được chuyển đổi thành mô hình OLAP bằng cách sử dụng công cụ ETL cụ thể này.

Xem thêm: Hướng dẫn cho người mới bắt đầu về phân tích dữ liệu lớn

Làm việc với hình khối và kích thước không thể dễ dàng hơn. Tạo cấu trúc phân cấp thời gian thường xuyên cần thiết một cách linh hoạt và chuyển đổi hiệu quả mô hình quan hệ của hệ thống nguồn thành mô hình OLAP – với JEDOX ETL.

  1. Apatar ETL:

apatar

Apatar ETL mang đến một tập hợp các khả năng chưa từng có trong một gói mã nguồn mở. Các tính năng bao gồm kết nối với Oracle, MS SQL, MySQL, Sybase DB2, MS Access, PostgreSQL, XML, InstantDB, Paradox, BorlandJDataStore, Csv, MS Excel, Qed, HSQL, SalesForce.Com, v.v. Có một giao diện duy nhất để quản lý tất cả các tích hợp dự án, tùy chọn triển khai linh hoạt, tích hợp hai chiều, không phụ thuộc vào nền tảng, chạy từ Windows, Linux, Mac; 100% dựa trên Java, không cần mã hóa, trình thiết kế công việc trực quan và lập bản đồ cho phép những người không phải là nhà phát triển thiết kế và thực hiện các chuyển đổi.

Công cụ nguồn mở luôn có một số hạn chế cho dù có, hạn chế về tính năng nâng cao, cơ sở lưu trữ, tính năng phân tích nâng cao và nhiều hơn nữa. Vì vậy, tốt hơn hết là bạn nên sử dụng các công cụ được cấp phép. Blog tiếp theo của tôi sẽ thảo luận về Công cụ trích xuất dữ liệu được cấp phép.

Previous article10 ứng dụng thanh menu phải có cho máy Mac của bạn
Next article10 công cụ hàng đầu để thay đổi kích thước hình ảnh trực tuyến