Welcome to Scribd!

Ahmad Mustaffar, PHD Consultant: Automated Data Extraction Using Apache Tika / Spacy Hexag 2019, Brunel University

Uploaded by

0% found this document useful (0 votes)

21 views11 pages

This document presents a method for automating data extraction from PDF documents using Apache Tika and SpaCy. It discusses mining data from 100 heat transfer research articles, including the number of "PCM" acronyms, numerical data values in kWh, and readability scores. Regular expressions and Python code are used to implement the data extraction pipeline, which outputs results to a Pandas dataframe for further analysis. The method saves time, is efficient and accurate for literature reviews and other research involving large document collections.

Original Description:

gtrp

Original Title

ahmad_mustaffar

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

21 views11 pages

Ahmad Mustaffar, PHD Consultant: Automated Data Extraction Using Apache Tika / Spacy Hexag 2019, Brunel University

Uploaded by

conter

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 11

Search inside document

Automated data extraction using Apache Tika / SpaCy

HEXAG 2019, Brunel University

Ahmad Mustaffar, PhD

Consultant
Background

• In this presentation, we will:

• Mine a certain data set from a collection of pdfs (100 heat
transfer articles)
• For demonstration, we will mine:
• Number of “pcm” acronyms in a file
• The numerical data of xxx kWh
• Readability score (Flesch reading ease score)
• Create a script to automate the data mining and output
into a pandas data frame for further analysis.
ML common algorithms:
• Regression
• Classification
• Decision trees
• Random forest
• Artificial neural networks

Today’s presentation
Ease of date extraction vs. file size

X1 X 10 X 106

Easy Fairly easy Good luck!

…big data requires automation

Engine of data extraction: Apache Tika parser

1000+ file types Metadata

Content
Pipeline

ML /
pyTika spaCy regex pandas stats

• Apache • Tokeniser • Search • Data

Tika • NER pattern frame
parser • POS tag
• Stopwords
• Etc.
Let’s mine something

• Downloaded last night:

• 100 heat transfer research articles
• Science direct
• For 2020 release

• Mine (as a quick example):

• ”PCM” or “pcm” - acronyms
• “xx kwh or kWh” – numerical data
• Readability score (Flesch Reading Ease) – metric
Search pattern - REGEX

• PCM or pcm 

'pcm’, re.IGNORECASE

• 123 kwh or 1.23 kWh or 12.3 kwH 

‘(\d*\.?\d+?\s?)kwh’, re.IGNORECASE
Code
• Short and efficient python code
• Can run on 1, 10, or even millions of any types of docs: returns dataframe
Data frame
• Can export to csv, xlsx, etc. for further analysis
Conclusions

• Automation:
• Save time
• Efficient
• Accurate
• Highly customisable search pattern
• Great for literature review, survey research, analysis

Code for today is available at:

https://github.com/amustaffar/data_extraction_heat_transfer_
articles

Thanks!

2 - AWS Amazon Elastic Compute Cloud (EC2)
Document24 pages
2 - AWS Amazon Elastic Compute Cloud (EC2)
Luke Lim
No ratings yet
Big Data Testing
Document34 pages
Big Data Testing
abhi16101
100% (1)
Spark Devops
Document301 pages
Spark Devops
topimaster
0% (1)
Introduction To Deep Learning
Document34 pages
Introduction To Deep Learning
Shivam Kumar
No ratings yet
Big Data 2021 - 6,7,8 Big Data Technologies
Document55 pages
Big Data 2021 - 6,7,8 Big Data Technologies
Putri Nur aini
No ratings yet
Big Data Pipelines
Document22 pages
Big Data Pipelines
Geet Sharma
No ratings yet
Ns 3 Workshop Part1
Document38 pages
Ns 3 Workshop Part1
Jio Hendro
100% (1)
AWS Big Data Specialty Study Guide PDF
Document13 pages
AWS Big Data Specialty Study Guide PDF
arjun.ec633
No ratings yet
Hadoop, A Distributed Framework For Big Data
Document55 pages
Hadoop, A Distributed Framework For Big Data
HARISH REDDY B
No ratings yet
Next-Generation Python Big Data Tools, Powered by Apache Arrow
Document22 pages
Next-Generation Python Big Data Tools, Powered by Apache Arrow
agrygoruk
100% (1)
Berkeley Data Analytics Stack: Prof. Harold Liu 15 December 2014
Document48 pages
Berkeley Data Analytics Stack: Prof. Harold Liu 15 December 2014
vidisha vaid
No ratings yet
Big Data Processing: Jiaul Paik
Document47 pages
Big Data Processing: Jiaul Paik
Momin Subur
No ratings yet
Good
Document39 pages
Good
narendranvel
No ratings yet
Pendahuluan Paralel Komputer
Document167 pages
Pendahuluan Paralel Komputer
Budi Setiawan
No ratings yet
Akash High Scale Benchmarks
Document74 pages
Akash High Scale Benchmarks
akashmavle
No ratings yet
Traffic Analysis Using Streaming Queries: Mike Fisk Los Alamos National Laboratory
Document27 pages
Traffic Analysis Using Streaming Queries: Mike Fisk Los Alamos National Laboratory
Ramesh Paramasivam
No ratings yet
TTF Cern Soc
Document70 pages
TTF Cern Soc
io
No ratings yet
Berkeley Data Analytics Stack BDAS Overview Ion Stoica Strata 2013
Document28 pages
Berkeley Data Analytics Stack BDAS Overview Ion Stoica Strata 2013
dineshgomber
No ratings yet
2021 09 24 Scalable-Monitoring-Tools
Document49 pages
2021 09 24 Scalable-Monitoring-Tools
leufm
No ratings yet
Sandbox
Document7 pages
Sandbox
poi.tamrakar
No ratings yet
OpenStack 101
Document36 pages
OpenStack 101
Lê Hoàng Việt
No ratings yet
Hadoop Important Lecture
Document38 pages
Hadoop Important Lecture
affanabbasi015
No ratings yet
Data Scientist Job Description
Document2 pages
Data Scientist Job Description
Ganesh Gore
No ratings yet
Berkeley Data Analytics Stack (BDAS) Overview: Ion Stoica UC Berkeley
Document28 pages
Berkeley Data Analytics Stack (BDAS) Overview: Ion Stoica UC Berkeley
suren
No ratings yet
Pandas Course Slides
Document90 pages
Pandas Course Slides
joemac007
No ratings yet
Ca-Ram: A High-Performance Memory Substrate For Search-Intensive Applications
Document36 pages
Ca-Ram: A High-Performance Memory Substrate For Search-Intensive Applications
badnaseeb
No ratings yet
Customizing Kafka Stream Procssing
Document4 pages
Customizing Kafka Stream Procssing
saeed moradpour
No ratings yet
Distributed Nosql Storage For Extreme-Scale System Services
Document45 pages
Distributed Nosql Storage For Extreme-Scale System Services
Balakrishnan.G
No ratings yet
Capacity Planning For MongoDB
Document36 pages
Capacity Planning For MongoDB
Alvin John Richards
No ratings yet
BDA LabCompendium
Document6 pages
BDA LabCompendium
KiS Mint
No ratings yet
Logic Analyzers: Clock Rates Deep Data Buffers, Triggering
Document11 pages
Logic Analyzers: Clock Rates Deep Data Buffers, Triggering
sjosjo-1
No ratings yet
Module II
Document22 pages
Module II
johnsonjoshal5
No ratings yet
Crescent Data Center
Document1 page
Crescent Data Center
Visha john
No ratings yet
INCS 741: Cryptography: Hash and MAC Algorithms
Document15 pages
INCS 741: Cryptography: Hash and MAC Algorithms
sushma
No ratings yet
Introduction To High-Performance Computing
Document13 pages
Introduction To High-Performance Computing
Mettilda Lawrance
No ratings yet
Hadoop and Pig Overview - Hands-On: Outline of Tutorial
Document52 pages
Hadoop and Pig Overview - Hands-On: Outline of Tutorial
Konara Kiran
No ratings yet
Cray XC Scalability Advantage White Paper
Document16 pages
Cray XC Scalability Advantage White Paper
adwaus
No ratings yet
Managing The Analytic Deluge in The Cloud: May 2018 Scott Jeschonek Principal Program Manager
Document23 pages
Managing The Analytic Deluge in The Cloud: May 2018 Scott Jeschonek Principal Program Manager
nad791
No ratings yet
Introduction Générale (31-08-2019)
Document2 pages
Introduction Générale (31-08-2019)
Derraz
No ratings yet
AI in FInance Class - Introduction
Document11 pages
AI in FInance Class - Introduction
xtremewhiz
No ratings yet
CSCE569 Parallel Computing: TTH 03:30AM-04:45PM Dr. Jianjun Hu
Document37 pages
CSCE569 Parallel Computing: TTH 03:30AM-04:45PM Dr. Jianjun Hu
gopitheprince
No ratings yet
With Its Application Modern Data Analytic Tools
Document5 pages
With Its Application Modern Data Analytic Tools
shenbagaraman cse
No ratings yet
The Scientific Data Management Center: Arie Shoshani (PI)
Document38 pages
The Scientific Data Management Center: Arie Shoshani (PI)
Anusha Ammu
No ratings yet
Lecture 1
Document55 pages
Lecture 1
George Okemwa
No ratings yet
Uber - Big Data Case Study
Document17 pages
Uber - Big Data Case Study
Alexandro Marcel
No ratings yet
NetApp XCP Data Migration
Document88 pages
NetApp XCP Data Migration
sriramrane
No ratings yet
Overview of Parallel Computing: Shawn T. Brown
Document46 pages
Overview of Parallel Computing: Shawn T. Brown
Karthik Kusuma
No ratings yet
DL Unit 4 Notes
Document21 pages
DL Unit 4 Notes
Mynapati Prasudha
No ratings yet
CS3350B Computer Architecture: Marc Moreno Maza
Document45 pages
CS3350B Computer Architecture: Marc Moreno Maza
AsHraf G. ElrawEi
100% (1)
Parquet: Columnar Storage For The People
Document27 pages
Parquet: Columnar Storage For The People
Manpreet Singh Khurana
No ratings yet
Security
Document19 pages
Security
Mina W. Sayed
No ratings yet
BDA Unit 2 1
Document42 pages
BDA Unit 2 1
Jerald Ruban
No ratings yet
EHDF Ut2
Document12 pages
EHDF Ut2
Faizal Khan
No ratings yet
Introduction: Hadoop's History and Advantages 2. Architecture in Detail 3. Hadoop in Industry
Document53 pages
Introduction: Hadoop's History and Advantages 2. Architecture in Detail 3. Hadoop in Industry
jainam dude
No ratings yet
Sham Clouderaproject
Document13 pages
Sham Clouderaproject
Sham Kadam
No ratings yet
02 - Lecture #2
Document29 pages
02 - Lecture #2
Fatma mansour
No ratings yet
System For Visualization of Hybrid Active Pixel Detectors Located Inside The ATLAS Experiment
Document29 pages
System For Visualization of Hybrid Active Pixel Detectors Located Inside The ATLAS Experiment
Srinidhi Bheesette
No ratings yet
Introduction To Grid Computing With High Performance Computing
Document46 pages
Introduction To Grid Computing With High Performance Computing
swapnil_mahajan31
No ratings yet
Parallel Processors From Client To Cloud: Omputer Rganization and Esign
Document43 pages
Parallel Processors From Client To Cloud: Omputer Rganization and Esign
Pavithra Janarthanan
No ratings yet
Capability-Based Computer Systems
From Everand
Capability-Based Computer Systems
Henry M. Levy
Rating: 4 out of 5 stars
4/5 (2)
Unep Fao CHW RC Pops
Document8 pages
Unep Fao CHW RC Pops
conter
No ratings yet
Curriculum Vitae Personal Data: Before Joining IIUM
Document23 pages
Curriculum Vitae Personal Data: Before Joining IIUM
conter
No ratings yet
Curriculum Vitae: Mohammad Ali
Document5 pages
Curriculum Vitae: Mohammad Ali
conter
No ratings yet
Curriculum Vitae OF: Professor Dr. M. Shamsher Ali
Document23 pages
Curriculum Vitae OF: Professor Dr. M. Shamsher Ali
conter
No ratings yet
Address:: Curriculum Vitae (CV)
Document15 pages
Address:: Curriculum Vitae (CV)
conter
No ratings yet
CV of Presenter: Muhammad Ashraf Ali
Document1 page
CV of Presenter: Muhammad Ashraf Ali
conter
No ratings yet
P - D - M S. A W: Background, Education, and Professional Experience
Document3 pages
P - D - M S. A W: Background, Education, and Professional Experience
conter
No ratings yet
CV Prof DR Ahmed Abdel
Document13 pages
CV Prof DR Ahmed Abdel
conter
No ratings yet
Majdoubeh
Document9 pages
Majdoubeh
conter
No ratings yet
Aisha Ahmad
Document5 pages
Aisha Ahmad
conter
No ratings yet
Dr. Ali Abdel-Aal Sayed Ahmed: CV Speaker House of Representatives Egypt
Document8 pages
Dr. Ali Abdel-Aal Sayed Ahmed: CV Speaker House of Representatives Egypt
conter
No ratings yet
Prof. Mahmoud Abdel-Aty: Personal Details
Document12 pages
Prof. Mahmoud Abdel-Aty: Personal Details
conter
No ratings yet
Ahmad Abed Al-Qadir Sleem Qassem: Amman, Jordan
Document2 pages
Ahmad Abed Al-Qadir Sleem Qassem: Amman, Jordan
conter
No ratings yet
Does Dynamic Pricing of Electricity Eliminate The Need For Demand Charges?
Document14 pages
Does Dynamic Pricing of Electricity Eliminate The Need For Demand Charges?
conter
No ratings yet
Curriculum Vitae Abdel-Rahman Akl
Document6 pages
Curriculum Vitae Abdel-Rahman Akl
conter
No ratings yet
Ali Khamesipour, PHD: Additional Training
Document19 pages
Ali Khamesipour, PHD: Additional Training
conter
No ratings yet
CV of Dr. Ali Garshasbi
Document4 pages
CV of Dr. Ali Garshasbi
conter
No ratings yet
Fareed Khdair Ahmad, MD: Curriculum Vitae
Document10 pages
Fareed Khdair Ahmad, MD: Curriculum Vitae
conter
No ratings yet
Ali EuropeAid Template CV-2012 F
Document16 pages
Ali EuropeAid Template CV-2012 F
conter
No ratings yet
C4-Ahmad Quraan PDF
Document2 pages
C4-Ahmad Quraan PDF
conter
No ratings yet
Dr. Ahmad Hussein: Statistics Expert, Ministry of Development Planning and Statistics
Document3 pages
Dr. Ahmad Hussein: Statistics Expert, Ministry of Development Planning and Statistics
conter
No ratings yet
Ali Hejazizo: - Curriculum Vitae
Document3 pages
Ali Hejazizo: - Curriculum Vitae
conter
No ratings yet
Psoriasis Case Presentation 2
Document9 pages
Psoriasis Case Presentation 2
conter
No ratings yet
Senior Lecturer in Chemical Engineering School of Science and Engineering Teesside University, United Kingdom
Document33 pages
Senior Lecturer in Chemical Engineering School of Science and Engineering Teesside University, United Kingdom
conter
No ratings yet
Effects of Segmented-Animation in Projected Presentation Condition
Document12 pages
Effects of Segmented-Animation in Projected Presentation Condition
conter
No ratings yet
Presentation By:: Ahmad Alsahaf - R
Document38 pages
Presentation By:: Ahmad Alsahaf - R
conter
No ratings yet
Donohue - Preparing The Starting Pitcher
Document10 pages
Donohue - Preparing The Starting Pitcher
conter
No ratings yet
Community: Engineering News
Document15 pages
Community: Engineering News
conter
No ratings yet
Presentation Languages / Langues: Frais D'Inscription
Document2 pages
Presentation Languages / Langues: Frais D'Inscription
conter
No ratings yet
Icb 2019 Program Oral Presentations: ID Session 1 Focus: Face Recognition Title Authors
Document9 pages
Icb 2019 Program Oral Presentations: ID Session 1 Focus: Face Recognition Title Authors
conter
No ratings yet