The Apache Hadoop programvare bibliotek er et rammeverk som gjør det mulig for distribuert prosessering av store datamengder over klynger av datamaskiner ved hjelp av enkle programmeringsmodeller The Apache ™ Hadoop® prosjektet utvikler open-source programvare for pålitelig, skalerbar, distribuert databehandling .
Prosjektet omfatter følgende moduler:
Hadoop Vanlige: Den vanlige verktøy som støtter de andre Hadoop moduler
Hadoop Distributed File System (HDFS ™):. En distribuert filsystem som gir høy gjennomstrømming tilgang til applikasjonsdata
Hadoop GARN:.. Et rammeverk for jobb planlegging og cluster resource management
Hadoop MapReduce:. Et garn-basert system for parallell prosessering av store datamengder < .no> Denne artikkelen vil hjelpe deg for trinnvis installere og konfigurere én node Hadoop cluster bruker Hadoop på CentOS.
Installer Java
Før du installerer Hadoop sørg for at du har java installert på systemet ditt. Bruk denne kommandoen for å sjekke hvilken versjon av Java installert.
java -versionjava version "1.7.0_75" Java (TM) SE Runtime Environment (build 1.7.0_75-b13) Java HotSpot (TM) 64-Bit Server VM (build 24.75-B04, blandet modus) For å installere eller oppdatere Java bruk følgende trinnvise instruksjoner.
Første trinn er å laste ned nyeste versjon av java fra Oracle offisielle hjemmeside.
cd /opt /wget no-cookies no-check-sertifikat --header "Cookie: gpw_e24 = http% 3A% 2F% 2Fwww.oracle.com% 2F; oraclelicense = Godtar-securebackup-cookie" "http: //nedlasting .oracle.com /OTN-pub /java /jdk /7u79-b15 /jdk-7u79-linux-x64.tar.gz "tar xzf jdk-7u79-linux-x64.tar.gzNeed å sette opp til å bruke nyere versjon av Java bruk av alternativer. Bruk følgende kommandoer for å gjøre det.
cd /opt/jdk1.7.0_79/alternatives --install /usr /bin /java java /opt/jdk1.7.0_79/bin/java 2alternatives --config javaThere er 3 programmer som gir 'java'.Selection Command --------------------------------------- -------- * 1 /opt/jdk1.7.0_60/bin/java+ to /opt/jdk1.7.0_72/bin/java3 /opt/jdk1.7.0_79/bin/javaEnter å beholde dagens utvalg [ ,,,0],+], eller skriv serienummeret. 3 [Trykk Enter] Nå kan du også pålagt å sette opp javac og jar-kommandoer bane med alternativer kommandoen
alternativer --install /usr /bin /jar jar /opt /jdk1.7.0_79 /bin /jar 2alternatives --install /usr /bin /javac javac /opt/jdk1.7.0_79/bin/javac 2alternatives --set jar /opt/jdk1.7.0_79/bin/jaralternatives --set javac /opt/jdk1.7.0_79/bin/javacThe neste steg er å konfigurere miljøvariabler. Bruk følgende kommandoer for å sette opp disse variable ordentlig
Oppsett JAVA_HOME Variabel
eksport JAVA_HOME = /opt /jdk1.7.0_79
Oppsett JRE_HOME Variabel
< pre> eksport JRE_HOME = /opt /jdk1.7.0_79 /jre
Oppsett PATH variabel
export PATH = $ PATH: /opt/jdk1.7.0_79/bin: /opt /jdk1. 7.0_79 /jre /binInstalling Apache Hadoop
Etter å ha satt opp java miljøet. La stat installere Apache Hadoop.
Første trinnet er å lage et system brukerkonto for å bruke for Hadoop installasjon.
useradd hadooppasswd hadoopNow du trenger å konfigurere SSH nøkler for brukeren Hadoop. Ved hjelp av følgende kommando for å aktivere ssh innlogging uten passord
su - hadoopssh-keygen -t rsacat ~ /.ssh /id_rsa.pub >. ≫ ~ /.ssh /authorized_keyschmod 0600 ~ /.ssh /authorized_keysexitNow nedlasting Hadoop nyeste tilgjengelige versjonen fra sin offisielle nettstedet hadoop.apache.org.
cd ~ wget http://apache.claz.org/hadoop/common /hadoop-2.6.0/hadoop-2.6.0.tar.gztar xzf Hadoop-2.6.0.tar.gzmv Hadoop-2.6.0 hadoopNow neste trinnet er å sette miljøvariabelen bruker av Hadoop.
Rediger ~ /.bashrc fil og legge til følgende listes av verdier ved utgangen av filen.
eksport HADOOP_HOME = /home /Hadoop /hadoopexport HADOOP_INSTALL = $ HADOOP_HOMEexport HADOOP_MAPRED_HOME = $ HADOOP_HOMEexport HADOOP_COMMON_HOME = $ HADOOP_HOMEexport HADOOP_HDFS_HOME = $ HADOOP_HOMEexport YARN_HOME = $ HADOOP_HOMEexport HADOOP_COMMON_LIB_NATIVE_DIR = $ HADOOP_HOME /lib /nativeexport PATH = $ PATH: $ HADOOP_HOME /sbin: $ HADOOP_HOME /binThen bruke endringene i dagens løpemiljøer
source ~ /.bashrcedit $ HADOOP_HOME /etc /Hadoop /hadoop-env.sh fil og sette JAVA_HOME miljøvariabelen
eksportere JAVA_HOME = /opt /jdk1.7.0_79 /Nå kan du starte med konfigurasjonen med grunnleggende Hadoop enkelt node cluster oppsett.
Først redigere Hadoop konfigurasjonsfiler og gjøre følgende endringer.
< pre> cd /home /Hadoop /Hadoop /etc /hadoopLet start ved redigering core-site.xml
<configuration><property><name>fs.default.name</name><value>hdfs://localhost:9000</value></property></configuration>Then Redigere hdfs-site.xml:
<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.name.dir</name><value>file:///home/hadoop/hadoopdata/hdfs/namenode</value></property><property><name>dfs.data.dir</name><value>file:///home/hadoop/hadoopdata/hdfs/datanode</value></property></configuration>and redigere mapred-site.xml:
<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property></configuration>finally redigere yarn-site.xml:
<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>Now formatere namenode bruker følgende kommando:
hdfs namenode -formatTo starte alle Hadoop tjenester bruker du følgende kommando:
cd /home/hadoop/hadoop/sbin/start-dfs.shstart-yarn. shTo sjekke om alle tjenestene er startet godt bruke "JPS 'kommando:
jpsYou bør se slik ut utgang
26049 SecondaryNameNode25929 DataNode26399 Jps26129 JobTracker26249 TaskTracker25807 NameNodeNow du kan få tilgang til Hadoop tjenester i nettleseren din på. : http: //din-ip-adresse:. 8088 /
Thanks !!!