Word Cloud-analys av 1000 tech & startup nyhetsrubriker med Data Science Platform.

by Axo Sal, 2019-02-06

Vad skriver Breakit och DI Digital om och vilka nyckelord dyker upp mest? Med denna frågeställning gjordes en Data Science analys på 1000 nyhetsrubriker om tech och startups.

För datainhämtning användes Feedly API för att hämta 1000 rubriker från Breakit och DI Digital som sparades i Google Sheets med följande kod: Google Colaboratory

Rubrikerna inhämtades mellan den 15:e november 2018 — 15:e december 2018.

Orange användes som datavetenskaplig plattform. Det finns även några andra kända exempel:

  • Dataiku
  • h2o.ai
  • Azure ML Studio
  • Knime
  • RapidMiner

Orange har en YouTube-kanal med bra informationsmaterial om du vill prova ditt eget data mining-projekt.

Där kan man hitta hur man gör text preprocessing och exkludering av siffror och enskilda bokstäver.

 

Den här processen resulterade i denna Word Cloud:

I resultaten kan vi se att det finns vissa bolag som är attraherar mer uppmärksamhet än andra och att vanliga ämnen ofta relaterar till uppköp, investeringar och samarbeten mellan bolag.

Det här var bara ett enkelt exempel på vad man kan åstadkomma med enkla medel inom Data Science. Testa själv att experimentera vidare och se vilka insikter det leder till. Hoppas det var hjälpsamt!


Denna artikel var skriven av SoftRobot. Ett svenskt företag som använder maskininlärning för att automatisera arbetsflöden för dokumentbearbetning och hantering. Företag som har många filer, dokument, PDF:er och fakturor att hantera kan automatisera tidskrävande manuella processer som dataextrahering och datainmatning. Det är där artificiell intelligens kan hjälpa till och SoftRobot har skapat en tjänst, Aiida, för ett sådant problem med hjälp av bl.a. NLP (Natural Language Processing) och Machine Learning. Vår uppgift är att befria människor från det tidskrävande arbetet med att tolka, behandla och extrahera text från dokument, vilket frigör människor för mer meningsfulla aktiviteter.