h2oai / h2o-3

jun 10, 2021

admin

H2O is een in-memory platform voor gedistribueerd, schaalbaar machinaal leren. H2O maakt gebruik van vertrouwde interfaces zoals R, Python, Scala, Java, JSON en de Flow notebook/web-interface, en werkt naadloos samen met big data-technologieën zoals Hadoop en Spark. H2O biedt implementaties van veel populaire algoritmen, zoals Generalized Linear Models (GLM), Gradient Boosting Machines (inclusief XGBoost), Random Forests, Deep Neural Networks, Stacked Ensembles, Naive Bayes, Generalized Additive Models (GAM), Cox Proportional Hazards, K-Means, PCA, Word2Vec, evenals een volledig automatisch machine learning algoritme (H2O AutoML).

H2O is uitbreidbaar, zodat ontwikkelaars datatransformaties en aangepaste algoritmen naar keuze kunnen toevoegen en deze via al die clients kunnen benaderen. H2O modellen kunnen worden gedownload en geladen in H2O geheugen voor scoring, of geëxporteerd naar POJO of MOJO formaat voor zeer snelle scoring in productie. Meer informatie is te vinden in de H2O Gebruikersgids.

H2O-3 (deze repository) is de derde incarnatie van H2O, en de opvolger van H2O-2.

Inhoudsopgave

Downloaden van H2O-3
Open source bronnen
- Issue Tracking and Feature Requests
- Lijst van H2O-bronnen
Gebruik van H2O-3 Code Artifacts (bibliotheken)
H2O-3 bouwen
H2O-3
Lanceren van H2O na bouwen
Bouwen van H2O op Hadoop
Sprankelend water
Documentatie
Citeren van H2O
Roadmap
Gemeenschap / Adviseurs / Investeerders

1. H2O-3 downloaden

Hoewel het grootste deel van deze README is geschreven voor ontwikkelaars die hun eigen builds doen, downloaden en gebruiken de meeste H2O-gebruikers gewoon een voorgebouwde versie. Als u een Python of R gebruiker bent, is de gemakkelijkste manier om H2O te installeren via PyPI of Anaconda (voor Python) of CRAN (voor R):

Python

pip install h2o

R

install.packages("h2o")

Meer info over het downloaden & installeren van H2O is beschikbaar in de H2O Gebruikersgids.

2. Open source bronnen

De meeste mensen werken met drie of vier primaire open source bronnen: GitHub (die je al hebt gevonden), JIRA (voor bugrapporten en het bijhouden van problemen), Stack Overflow voor H2O code/software-specifieke vragen, en h2ostream (een Google-groep / e-mail discussieforum) voor vragen die niet geschikt zijn voor Stack Overflow. Er is ook een Gitter H2O-ontwikkelaars-chatgroep, maar voor archiveringsdoeleinden & om de toegankelijkheid te maximaliseren, geven we er de voorkeur aan dat standaard H2O Q&A op Stack Overflow wordt uitgevoerd.

2.1 Probleemopsporing en Feature Requests

(Opmerking: Er is slechts één probleemopsporingssysteem voor het project. GitHub-problemen zijn niet ingeschakeld; u moet JIRA gebruiken.)

U kunt zoeken en nieuwe kwesties maken in onze open source JIRA: http://jira.h2o.ai

U kunt zoeken en zoeken naar kwesties zonder u aan te melden bij JIRA:
1. Klik op het Issues menu
2. Klik op Search for issues
Om een issue aan te maken (een bug of een feature request), maakt u eerst een account aan:
1. Klik op de Log In knop rechtsboven in het scherm
2. Klik op Create an acccount onderaan het inlogvak
3. Als u een account heeft aangemaakt en bent ingelogd, gebruik dan de Create knop in het menu om een issue aan te maken
4. Maak H2O-3 issues aan in het PUBDEV project. (Opmerking: Sparkling Water vragen moeten worden ingediend onder het SW-project.)
U kunt ook stemmen voor functieverzoeken en/of andere kwesties. Stemmen kan H2O helpen bij het prioriteren van de features die in elke release worden opgenomen.
1. Ga naar de H2O JIRA pagina.
2. Klik op Log In om in te loggen of maak een account aan als u die nog niet heeft.
3. Zoek naar de feature die u wilt prioriteren, of maak een nieuwe feature.
4. Klik op de Vote for this issue link. Deze bevindt zich aan de rechterkant van het issue onder de People sectie.

2.2 Lijst van H2O Resources

3. Gebruik van H2O-3 Artifacts

Elke nachtelijke build publiceert R, Python, Java, en Scala artifacts naar een build-specifieke repository. In het bijzonder kunt u Java artefacten vinden in de maven/repo directory.

Hier is een voorbeeldfragment van een gradle build bestand met h2o-3 als een dependency. Vervang x, y, z, en nnnn door geldige getallen.

Refer naar de laatste H2O-3 bleeding edge nightly build pagina voor informatie over het installeren van nightly build artifacts.

Refer naar de h2o-droplets GitHub repository voor een werkend voorbeeld van hoe je Java artifacts met gradle kunt gebruiken.

Note: Stabiele H2O-3 artefacten worden periodiek gepubliceerd op Maven Central (klik hier om te zoeken), maar kunnen aanzienlijk achterlopen op H2O-3 Bleeding Edge nachtelijke builds.

4. H2O-3 bouwen

Om te beginnen met H2O-ontwikkeling zijn JDK 1.7, Node.js, Gradle, Python en R nodig. We gebruiken de Gradle-wrapper (genaamd gradlew) om ervoor te zorgen dat up-to-date lokale versies van Gradle en andere afhankelijkheden in uw ontwikkelingsdirectory zijn geïnstalleerd.

4.1. Voor het bouwen

Voor het bouwen van h2o is een goed opgezette R-omgeving nodig met de vereiste pakketten en een Python-omgeving met de volgende pakketten:

gripcoloramafuturetabulaterequestswheel

Om deze pakketten te installeren kunt u pip of conda gebruiken.Als u problemen hebt met het installeren van deze pakketten op Windows, volg dan de sectie Instellen op Windows van deze gids.

(Opmerking: Het wordt aanbevolen om een virtuele omgeving te gebruiken, zoals VirtualEnv, om alle pakketten te installeren. )

4.2. Bouwen vanaf de commandoregel (Snelstart)

Om H2O vanuit de repository te bouwen, voer je de volgende stappen uit.

Recept 1: Kloon vers, bouw, sla tests over, en draai H2O

Recept 2: Kloon vers, bouw, en draai tests (vereist een werkende installatie van R)

git clone https://github.com/h2oai/h2o-3.gitcd h2o-3./gradlew syncSmalldata./gradlew syncRPackages./gradlew build

Noten:

Het draaien van tests start vijf test JVMs die een H2O cluster vormen en vereist tenminste 8 GB RAM (bij voorkeur 16 GB RAM).

Het draaien van ./gradlew syncRPackages wordt ondersteund onder Windows, OS X en Linux, en wordt sterk aanbevolen maar is niet verplicht. ./gradlew syncRPackages zorgt voor een complete en consistente omgeving met vooraf goedgekeurde versies van de pakketten die nodig zijn voor tests en builds. De pakketten kunnen handmatig worden geïnstalleerd, maar we raden aan een ENV variabele in te stellen en ./gradlew syncRPackages te gebruiken. Om de ENV variabele in te stellen, gebruikt u het volgende formaat (waar `${WORKSPACE} een willekeurig pad kan zijn):
mkdir -p ${WORKSPACE}/Rlibraryexport R_LIBS_USER=${WORKSPACE}/Rlibrary

Recept 3: Pull, clean, build, and run tests

git pull./gradlew syncSmalldata./gradlew syncRPackages./gradlew clean./gradlew build

Opmerkingen

Wij raden aan om ./gradlew clean te gebruiken na elke git pull.
Skip tests door -x test toe te voegen aan het einde van de gradle build opdrachtregel. Tests worden doorgaans 7-10 minuten uitgevoerd op een Macbook Pro-laptop met 4 CPU’s (8 hyperthreads) en 16 GB RAM.
Synchroniseren van smalldata is niet vereist na elke pull, maar als tests mislukken doordat gegevensbestanden ontbreken, probeer dan ./gradlew syncSmalldata als eerste stap om problemen op te lossen. Door smalldata te synchroniseren worden gegevensbestanden gedownload van AWS S3 naar de map smalldata in uw werkruimte. De synchronisatie is incrementeel. Controleer deze bestanden niet. De smalldata map staat in .gitignore. Als u geen tests uitvoert, hebt u de map smalldata niet nodig.
Het uitvoeren van ./gradlew syncRPackages wordt ondersteund op Windows, OS X en Linux, en wordt sterk aanbevolen maar is niet vereist. ./gradlew syncRPackages zorgt voor een complete en consistente omgeving met vooraf goedgekeurde versies van de pakketten die nodig zijn voor tests en builds. De pakketten kunnen handmatig worden geïnstalleerd, maar we raden aan een ENV variabele in te stellen en ./gradlew syncRPackages te gebruiken. Om de ENV variabele in te stellen, gebruikt u het volgende formaat (waar ${WORKSPACE} eender welk pad kan zijn):
```
mkdir -p ${WORKSPACE}/Rlibraryexport R_LIBS_USER=${WORKSPACE}/Rlibrary
```

Recept 4: Gewoon de docs bouwen

./gradlew clean && ./gradlew build -x test && (export DO_FAST=1; ./gradlew dist)open target/docs-website/h2o-docs/index.html

4.3. Setup op Windows

Stap 1: Download en installeer WinPython.

Vanaf de commandolijn, valideer python gebruikt het nieuw geïnstalleerde pakket door which python te gebruiken (of sudo which python). Werk de omgevingsvariabele bij met het WinPython-pad.

Stap 2: Installeer de vereiste Python-pakketten:

pip install grip 'colorama>=0.3.8' future tabulate wheel

Stap 3: Installeer JDK

Installeer Java 1.7 en voeg de juiste directory C:\Program Files\Java\jdk1.7.0_65\bin met java.exe toe aan PATH in Omgevingsvariabelen. Om er zeker van te zijn dat de opdrachtprompt de juiste Java versie detecteert, voert u uit:

javac -version

De CLASSPATH variabele moet ook worden ingesteld op de lib submap van de JDK:

CLASSPATH=/<path>/<to>/<jdk>/lib

Stap 4. Installeer Node.js

Installeer Node.js en voeg de geïnstalleerde directory C:\Program Files\nodejs, die node.exe en npm.cmd moet bevatten, toe aan het PATH als dat nog niet is gebeurd.

Stap 5. Installeer R, de benodigde pakketten, en Rtools:

Installeer R en voeg de bin directory toe aan uw PATH als die nog niet is opgenomen.

Installeer de volgende R-pakketten:

RCurl
jsonlite
statmod
devtools
roxygen2
testthat

Om deze pakketten vanuit een R-sessie te installeren:

Merk op dat libcurl vereist is voor de installatie van het RCurl R pakket.

Merk op dat deze pakketten geen betrekking hebben op het uitvoeren van tests, ze zijn alleen voor het bouwen van H2O.

Installeer tenslotte Rtools, dat is een verzameling command line tools om R ontwikkeling op Windows te vergemakkelijken.

NOOT: Installeer tijdens de installatie van Rtools niet Cygwin.dll.

Stap 6. Installeer Cygwin

-NOOT: deselecteer tijdens de installatie van Cygwin de Python-pakketten om een conflict met het Python.org-pakket te voorkomen.

Stap 6b. Valideer Cygwin

Als Cygwin al geïnstalleerd is, verwijder dan de Python pakketten of zorg ervoor dat Native Python voor Cygwin staat in de PATH variabele.

Stap 7. Update of valideer de Windows PATH variabele om R, Java JDK, Cygwin op te nemen.

Stap 8. Git Clone h2o-3

Als je nog geen Git client hebt, installeer er dan een. De standaard kan hier gevonden worden http://git-scm.com/downloads. Zorg ervoor dat command prompt ondersteuning is ingeschakeld voor de installatie.

Download en update h2o-3 broncodes:

git clone https://github.com/h2oai/h2o-3

Stap 9. Voer de gradle build op het hoogste niveau uit:

cd h2o-3./gradlew.bat build

Als u fouten tegenkomt, voer deze dan opnieuw uit met --stacktrace voor meer instructies over ontbrekende afhankelijkheden.

4.4. 4.4. Installatie op OS X

Als u Homebrew nog niet hebt, raden we u aan dit te installeren. Het maakt pakketbeheer voor OS X eenvoudig.

Stap 1. Installeer JDK

Installeer Java 1.7. Om er zeker van te zijn dat de opdrachtprompt de juiste Java-versie detecteert, voert u uit:

javac -version

Stap 2. Installeer Node.js:

Gebruik Homebrew:

brew install node

Installeer het anders vanaf de NodeJS website.

Stap 3. Installeer R en de benodigde pakketten:

Installeer R en voeg de bin directory toe aan je PATH als die er nog niet in zit.

Installeer de volgende R-pakketten:

RCurl
jsonlite
statmod
devtools
roxygen2
testthat

Om deze pakketten vanuit een R-sessie te installeren:

Merk op dat libcurl vereist is voor de installatie van het RCurl R pakket.

Noteer dat deze pakketten geen betrekking hebben op het uitvoeren van tests, ze zijn alleen voor het bouwen van H2O.

Stap 4. Installeer python en de benodigde pakketten:

Installeer python:

brew install python

Installeer pip package manager:

sudo easy_install pip

Installeer vervolgens de benodigde pakketten:

sudo pip install wheel requests 'colorama>=0.3.8' future tabulate

Stap 5. Git Clone h2o-3

OS X zou Git al geïnstalleerd moeten hebben. Om de broncodes van h2o-3 te downloaden en te updaten:

git clone https://github.com/h2oai/h2o-3

Stap 6. Voer de top-level gradle build uit:

cd h2o-3./gradlew build

Note: op een gewone machine kan het erg lang duren (ongeveer een uur) om alle tests uit te voeren.

Als u fouten tegenkomt, voer dan --stacktrace opnieuw uit voor meer instructies over ontbrekende afhankelijkheden.

4.5. Installatie op Ubuntu 14.04

Stap 1. Installeer Node.js

curl -sL https://deb.nodesource.com/setup_0.12 | sudo bash -sudo apt-get install -y nodejs

Stap 2. Installeer JDK:

Installeer Java 8. Installatie-instructies kunnen hier gevonden worden JDK installatie. Om er zeker van te zijn dat de opdrachtprompt de juiste Java-versie detecteert, voert u uit:

javac -version

Stap 3. Installeer R en de benodigde pakketten:

Installatie-instructies vindt u hier R installatie. Klik op “Download R voor Linux”. Klik op “ubuntu”. Volg de gegeven instructies.

Om de vereiste pakketten te installeren, volgt u dezelfde instructies als voor OS X hierboven.

Note: Als het proces niet slaagt om RStudio Server op Linux te installeren, voer dan een van de volgende uit:

sudo apt-get install libcurl4-openssl-dev

of

sudo apt-get install libcurl4-gnutls-dev

Stap 4. Git Clone h2o-3

Als je nog geen Git client hebt:

sudo apt-get install git

Download en update h2o-3 broncodes:

git clone https://github.com/h2oai/h2o-3

Stap 5. Voer de gradle build op het hoogste niveau uit:

cd h2o-3./gradlew build

Als u fouten tegenkomt, voer deze dan opnieuw uit met --stacktrace voor meer instructies over ontbrekende afhankelijkheden.

Zorg ervoor dat u niet als root draait, aangezien bower een dergelijke run zal weigeren.

4.6. Installatie op Ubuntu 13.10

Stap 1. Installeer Node.js

curl -sL https://deb.nodesource.com/setup_10.x | sudo bash -sudo apt-get install -y nodejs

Stappen 2-4. Volg stappen 2-4 voor Ubuntu 14.04 (hierboven)

4.7. Setup op CentOS 7

5. Om het H2O cluster lokaal te starten, voert u het volgende uit op de opdrachtregel:

java -jar build/h2o.jar

Een lijst van beschikbare opstart JVM en H2O opties (b.v. -Xmx, -nthreads, -ip), is beschikbaar in de H2O Gebruikers Handleiding.

6. H2O op Hadoop bouwen

Voorgebouwde H2O-op-Hadoop zip-bestanden zijn beschikbaar op de downloadpagina. Elke versie van de Hadoop-distributie heeft een apart zip-bestand in h2o-3.

Om zelf H2O met Hadoop-ondersteuning te bouwen, installeert u eerst sphinx voor python: pip install sphinxStart dan het bouwen door het volgende in te voeren vanuit de top-level h2o-3 directory:

(export BUILD_HADOOP=1; ./gradlew build -x test)./gradlew dist

Dit zal een directory genaamd ’target’ aanmaken en daar zip-bestanden genereren. Merk op dat BUILD_HADOOP het standaard gedrag is wanneer de gebruikersnaam jenkins is (zie settings.gradle); anders moet u het aanvragen, zoals hierboven getoond.

Het toevoegen van ondersteuning voor een nieuwe versie van Hadoop

In de h2o-hadoop directory heeft elke Hadoop versie een build directory voor het stuurprogramma en een assembly directory voor de fatjar.

U dient het volgende te doen:

Voeg een nieuwe driver directory en assembly directory (elk met een build.gradle bestand) toe in h2o-hadoop
Voeg deze nieuwe projecten toe aan h2o-3/settings.gradle
Voeg de nieuwe Hadoop versie toe aan HADOOP_VERSIONS in make-dist.sh
Voeg de nieuwe Hadoop-versie toe aan de lijst in h2o-dist/buildinfo.json

Beveiligde gebruikersimpersonatie

Hadoop ondersteunt beveiligde gebruikersimpersonatie via zijn Java API. Een kerberos-geauthenticeerde gebruiker kan worden toegestaan om een gebruikersnaam te proxyen die voldoet aan gespecificeerde criteria die zijn ingevoerd in het bestand core-site.xml van de NameNode. Deze impersonatie geldt alleen voor interacties met de Hadoop-API of de API’s van Hadoop-gerelateerde diensten die deze API ondersteunen (dit is niet hetzelfde als overschakelen naar die gebruiker op de machine van oorsprong).

Beveiligde gebruikersimpersonatie instellen (voor h2o):

Maak of vind een id om als proxy te gebruiken die beperkte tot geen toegang heeft tot HDFS of gerelateerde diensten; de proxy-gebruiker hoeft alleen te worden gebruikt om een gebruiker te impersoneren
(Vereist als u h2odriver niet gebruikt) Als u het stuurprogramma niet gebruikt (bijv.bv. je hebt je eigen code geschreven tegen h2o’s API met Hadoop), moet je de nodige codewijzigingen aanbrengen om gebruikers te impersoneren (zie org.apache.hadoop.security.UserGroupInformation)
In Ambari/Cloudera Manager of rechtstreeks in het bestand core-site.xml van de NameNode voegt u 2/3 eigenschappen toe voor de gebruiker die we als proxy willen gebruiken (vervang door de eenvoudige gebruikersnaam – niet de volledig gekwalificeerde principalenaam).
- hadoop.proxyuser.<proxyusername>.hosts: de hosts waar de proxy-gebruiker namens een geldige gebruiker geïmproviseerde acties mag uitvoeren
- hadoop.proxyuser.<proxyusername>.groups: de groepen waartoe een geïmproviseerde gebruiker moet behoren om met die proxy-gebruiker te kunnen werken
- hadoop.proxyuser.<proxyusername>.users: de gebruikers die een proxy-gebruiker mag impersoneren
- Voorbeeld: <property> <name>hadoop.proxyuser.myproxyuser.hosts</name> <value>host1,host2</value> </property> <property> <name>hadoop.proxyuser.myproxyuser.groups</name> <value>group1,group2</value> </property> <property> <name>hadoop.proxyuser.myproxyuser.users</name> <value>user1,user2</value> </property>
Herstart kerndiensten zoals HDFS & YARN om de wijzigingen van kracht te laten worden

Gepersoneerde HDFS acties kunnen worden bekeken in de hdfs audit log (‘auth:PROXY’ zou moeten verschijnen in het ugi= veld in entries waar dit van toepassing is). YARN zou op vergelijkbare wijze ‘auth:PROXY’ ergens in de Resource Manager UI moeten tonen.

Om veilige impersonatie met h2o’s Hadoop-stuurprogramma te gebruiken:

Zie Risico’s met impersonatie, hieronder

Wanneer u het h2odriver gebruikt (bijv.b.v. bij het draaien met hadoop jar ...), specificeer -principal <proxy user kerberos principal>, -keytab <proxy user keytab path>, en -run_as_user <hadoop username to impersonate>, naast eventuele andere benodigde argumenten. Als de configuratie succesvol was, zal de proxy gebruiker inloggen en zich voordoen als de -run_as_user zolang die gebruiker is toegestaan door ofwel de gebruikers of groepen configuratie-eigenschap (hierboven geconfigureerd); dit wordt afgedwongen door HDFS & YARN, niet h2o’s code. Het stuurprogramma stelt effectief zijn beveiligingscontext in als de geïmiteerde gebruiker, zodat alle ondersteunde Hadoop-acties als die gebruiker worden uitgevoerd (bijv. YARN, HDFS API’s ondersteunen veilig geïmiteerde gebruikers, maar anderen mogelijk niet).

Voorzorgsmaatregelen bij het gebruik van veilige impersonatie

Het doelgebruikscasus voor veilige impersonatie is applicaties of diensten die een gebruiker vooraf authenticeren en vervolgens (in dit geval) de h2odriver namens die gebruiker gebruiken. H2O’s Steam is een perfect voorbeeld: auth gebruiker in web app over SSL, impersonate die gebruiker bij het creëren van de h2o YARN container.
De proxy gebruiker moet beperkte permissies hebben in de Hadoop cluster; dit betekent geen permissies om data te benaderen of API calls te doen. Op deze manier zou het, als het wordt gecompromitteerd, alleen de macht hebben om zich voor te doen als een specifieke subset van de gebruikers in het cluster en alleen vanaf specifieke machines.
Gebruik de hadoop.proxyuser.<proxyusername>.hosts eigenschap waar mogelijk of praktisch.
Geef het wachtwoord of de keytab van de proxygebruikersnaam niet aan een gebruiker waarvan je niet wilt dat deze zich voordoet als een andere gebruiker (dit is over het algemeen elke gebruiker). Het doel van impersonatie is niet om gebruikers toe te laten zich voor te doen als elkaar. Zie de eerste bullet voor de typische use case.
Limit user logon to the machine the proxying is occurring from whenever practical.
Make sure the keytab used to login the proxy user is properly secured and that users can’t login as that id (via su, for instance)
Never set hadoop.proxyuser..{users,groups} to ‘*’ or ‘hdfs’, ‘yarn’, etc. Toestaan dat een gebruiker zich voordoet als hdfs, yarn, of een andere belangrijke gebruiker/groep moet met uiterste voorzichtigheid gebeuren en sterk worden geanalyseerd voordat het wordt toegestaan.

Risico’s met veilige impersonatie

Het id dat de impersonatie uitvoert kan worden gecompromitteerd zoals elk ander gebruikers-id.
Het instellen van een hadoop.proxyuser.<proxyusername>.{hosts,groups,users} eigenschap op ‘*’ kan de blootstelling aan veiligheidsrisico’s sterk verhogen.
Wanneer gebruikers niet worden geauthenticeerd voordat ze worden gebruikt met de driver (bijv. zoals Steam doet via een beveiligde web app/API), is controleerbaarheid van het proces/systeem moeilijk.

7. Sparkling Water

Sparkling Water combineert twee open-source technologieën: Apache Spark en het H2O Machine Learning platform. Het maakt H2O’s bibliotheek van geavanceerde algoritmen, waaronder Deep Learning, GLM, GBM, K-Means, en Distributed Random Forest, toegankelijk vanuit Spark workflows. Spark-gebruikers kunnen de beste functies van beide platforms selecteren om aan hun Machine Learning-behoeften te voldoen. Gebruikers kunnen Spark’s RDD API en Spark MLLib combineren met H2O’s machine learning algoritmes, of H2O onafhankelijk van Spark gebruiken voor het modelbouwproces en de resultaten post-processen in Spark.

Sparkling Water Bronnen:

Downloadpagina voor vooraf gebouwde pakketten
Sparkling Water GitHub-repository
README
Documentatie voor ontwikkelaars

8. Documentatie

Documentatie Homepage

De belangrijkste H2O documentatie is de H2O Gebruikersgids. Bezoek http://docs.h2o.ai voor de top-level introductie tot documentatie over H2O projecten.

Genereer REST API documentatie

Om de REST API documentatie te genereren, gebruikt u de volgende commando’s:

De standaard locatie voor de gegenereerde documentatie is build/docs/REST.

Als het bouwen niet lukt, probeer dan gradlew clean, dan git clean -f.

Bleeding edge build documentatie

Documentatie voor elke bleeding edge nightly build is beschikbaar op de nightly build pagina.

9. Als u H2O gebruikt als onderdeel van uw workflow in een publicatie, citeer dan uw H2O bron(nen) met behulp van de volgende BibTex entry:

H2O Software

Gestructureerde H2O Software citatie voorbeelden:

H2O Boekjes

H2O algoritme boekjes zijn beschikbaar op de Documentatie Homepage.

@Manual{h2o_booklet_name, title = {booklet_title}, author = {list_of_authors}, year = {year}, month = {month}, url = {link_url},}

Gestructureerde voorbeelden voor het citeren van boekjes:

10. Roadmap

H2O 3.34.0.1 – januari 2021

Extended Isolation Forest Algorithm
Uplift Trees
Extracting & ranking feature interactions from GBM and XGBoost models
RuleFit MOJO, CoxPH MOJO
Ondersteuning voor MOJO2 Scoring
Grid-Search fouttolerantie
Kubernetes Operator
Externalized XGBoost op Kubernetes clusters

11. Community

H2O is in de loop der jaren opgebouwd door een groot aantal bijdragers, zowel binnen H2O.ai (het bedrijf) als in de grotere open source gemeenschap. U kunt beginnen bij te dragen aan H2O door het beantwoorden van Stack Overflow vragen of het indienen van bug rapporten. Sluit u bij ons aan!

Team & Committers

SriSatish AmbatiCliff ClickTom KraljevicTomas NykodymMichal MalohlavaKevin NormoyleSpencer AielloAnqi FuNidhi MehtaArno CandelJosephine WangAmy WangMax SchloemerRay PeckPrithvi PrabhuBrandon HillJeff GamberaAriel RaoViraj ParmarKendall HarrisAnand AvatiJessica LanfordAlex TellezAllison WashburnAmy WangErik EckstrandNeeraja MadabhushiSebastian VidrioBen SabrinMatt DowleMark LandryErin LeDellAndrey SpiridonovOleg RogynskyyNick MartinNancy JordanNishant KaloniaNadine HussamiJeff CramerStacie SpreitzerVinod IyengarCharlene WindomParag SanghaviNavdeep GillLauren DiPernaAnmol BalMark ChanNick KarpovAvni WadhwaAshrith BarthurKaren HayrapetyanJo-fai ChowDmitry LarkoBranden MurrayJakub HavaWen PhanMagnus StensmoPasha StetsenkoAngela BartzMateusz DymczykMicah StubbsIvy WangTerone WardLeland WilkinsonWendy WongNikhil ShekharPavel PscheidlMichal KurkaVeronika MaurerovaJan SterbaJan JendrusakSebastien PoirierTomáš Frýda

Adviseurs

Wetenschappelijke Adviesraad

Stephen BoydRob TibshiraniTrevor Hastie

Systemen, Data, Bestandssystemen en Hadoop

Doug LeaChris PouliotDhruba Borthakur

Investeerders

Jishnu Bhattacharjee, Nexus Venture PartnersAnand Babu PeriasamyAnand RajaramanAsh BhardwajRakesh MathurMichael MarksEgbert BiermanRajesh Ambati

h2oai / h2o-3

Inhoudsopgave

1. H2O-3 downloaden

Python

R

2. Open source bronnen

2.1 Probleemopsporing en Feature Requests

2.2 Lijst van H2O Resources

3. Gebruik van H2O-3 Artifacts

4. H2O-3 bouwen

4.1. Voor het bouwen

4.2. Bouwen vanaf de commandoregel (Snelstart)

Recept 1: Kloon vers, bouw, sla tests over, en draai H2O

Recept 2: Kloon vers, bouw, en draai tests (vereist een werkende installatie van R)

Recept 3: Pull, clean, build, and run tests

Opmerkingen

Recept 4: Gewoon de docs bouwen

4.3. Setup op Windows

Stap 1: Download en installeer WinPython.

Stap 2: Installeer de vereiste Python-pakketten:

Stap 3: Installeer JDK

Stap 4. Installeer Node.js

Stap 5. Installeer R, de benodigde pakketten, en Rtools:

Stap 6. Installeer Cygwin

Stap 6b. Valideer Cygwin

Stap 7. Update of valideer de Windows PATH variabele om R, Java JDK, Cygwin op te nemen.

Stap 8. Git Clone h2o-3

Stap 9. Voer de gradle build op het hoogste niveau uit:

4.4. 4.4. Installatie op OS X

Stap 1. Installeer JDK

Stap 2. Installeer Node.js:

Stap 3. Installeer R en de benodigde pakketten:

Stap 4. Installeer python en de benodigde pakketten:

Stap 5. Git Clone h2o-3

Stap 6. Voer de top-level gradle build uit:

4.5. Installatie op Ubuntu 14.04

Stap 1. Installeer Node.js

Stap 2. Installeer JDK:

Stap 3. Installeer R en de benodigde pakketten:

Stap 4. Git Clone h2o-3

Stap 5. Voer de gradle build op het hoogste niveau uit:

4.6. Installatie op Ubuntu 13.10

Stap 1. Installeer Node.js

Stappen 2-4. Volg stappen 2-4 voor Ubuntu 14.04 (hierboven)

4.7. Setup op CentOS 7

5. Om het H2O cluster lokaal te starten, voert u het volgende uit op de opdrachtregel: java -jar build/h2o.jar

6. H2O op Hadoop bouwen

Het toevoegen van ondersteuning voor een nieuwe versie van Hadoop

Beveiligde gebruikersimpersonatie

Voorzorgsmaatregelen bij het gebruik van veilige impersonatie

Risico’s met veilige impersonatie

7. Sparkling Water

8. Documentatie

Documentatie Homepage

Genereer REST API documentatie

Bleeding edge build documentatie

9. Als u H2O gebruikt als onderdeel van uw workflow in een publicatie, citeer dan uw H2O bron(nen) met behulp van de volgende BibTex entry:

H2O Software

H2O Boekjes

10. Roadmap

H2O 3.34.0.1 – januari 2021

11. Community

Team & Committers

Adviseurs

Investeerders

Geef een antwoord Antwoord annuleren

5. Om het H2O cluster lokaal te starten, voert u het volgende uit op de opdrachtregel:

`java -jar build/h2o.jar`