Top 25 words used in Thirukkural using Hadoop

Tools used:

Hadoop,HDFS, Hive, Eclipse,Putty,WinScp,Excel

The Process:


Data Source:


Java Program:

In addition to the traditional WordCount hadoop example also added a line = line.replaceAll(“[\\d\\.\\d\\.\\d]”, “”); to eliminate the numbers and decimals in the text file.

Using the following command create a external table where it will use the file part in the given location:

create external table thirukural(word String, count bigint) location ‘/user/hduser/out.txt’;

Describe the table created:

Order the words by count and words and write to a file in HDFS:

insert overwrite directory ‘/user/hduser/out.txt/result.txt’ select * from thirukural order by count,word;

Result for completing the Map and Reduce:

Hive output:


After little bit of refining of data in excel the final result:

Word Count
படும்

42

தரும்

37

இல்

32

கெடும்

28

என்னும்

24

இல்லை

22

செயல்

22

எல்லாம்

21

தலை

21

காமம்

20

கொளல்

20

பவர்

19

பெறின்

19

அரிது

18

இன்பம்

18

உலகு

18

கண்ணும்

18

தவர்

18

யவர்

18

விடல்

18

விடும்

17

கண்

16

செயின்

16

தற்று

16