article-fetcher
v0.2.1
Published
Fetches clean full text articles.
Downloads
5
Readme
article-fetcher
Fetches clean full text articles.
Content
Install
npm install article-fetcher
Dependencies
Usage
const af = require('article-fetcher');
API
getArticle(url, options, callback)
Fetches an article from an URL and then processes it. Available options.
af.getArticle(url, options, callback);
process(url, options, callback)
If you already have the HTML to process available, you can simply call this function to process the article. Available options.
af.process(content, options, callback);
Options
selector
- Article selector. Default: 'body'badNodes
- Nodes to exclude based on classes, ids or tags. Default: []badWords
- Nodes to exclude based on content. Default: []timeout
- Request timeout in ms. See superagent documentation for details. Default: 5000
Example:
const options = {
selector: '.article-body',
badNodes: ['h1', 'h2', 'figure', '.share-buttons', '#byline'],
badWords: ['read more:']
}
Full example
Code:
const af = require('article-fetcher');
const url = 'http://www.sol.no/nyheter/2015_08_11_55852_isfjellet-dukket-opp-300-meter-fra-huset.html';
const selector = '.entry-content';
const badNodes = [
// Tags
'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'script', 'noscript', 'style', 'img',
'figure', 'aside', 'meta', 'iframe', 'amedia-embed',
// Classes
'.adLabel', '.cxense-article', '.share', '.tags', '.comments', '.fb-share',
'.dropzoneContainer', '.objectType-bildedb', '.authorAndTime', '.dinside_introlink',
'.art-tags', '.art-share', '.am-articleTagList-subtitle', '.am-articleTagList',
'.am-article-actions', '.byline', '.reg-tools', '.reg-grid-footer', '.belowBodyText',
'.sc-inviter-content', '.fb-like', '.emneord-artikkel', '.share-buttons', '.hmedia',
// IDs
'#byline', '#dzGroupTop', '#dzBottom'
];
const badWords = [
'les også:', 'les mer:', 'foto:', 'se også:', 'levert av'
];
const options = {
selector: selector,
badNodes: badNodes,
badWords: badWords,
timeout: 10000
};
af.getArticle(url, options, (err, res) => {
if (err) {
return console.log(err);
}
console.log(res);
});
Output:
Det var litt av et syn som møtte Jason Griffiths da han tittet ut stuevinduet hjemme i Newfoundland i Canada. Et
enormt isfjell fløt forbi huset og Jason var rask med å plukke opp mobilen for å filme det majestetiske synet. Ikke
lenge etter at han startet å filme, skjedde det noe spesielt. I en video, som nå går sin seiersgang på YouTube, kan
man høre et enormt smell fra isfjellet før det raser sammen. – Kom dere bort fra stranden, kan man høre Jason
skrike til sin kone som oppholdt seg på en strand like ved der hun luftet deres to hunder. Ingen personer ble
skadet i hendelsen som fant sted tirsdag i forrige uke.