h2oai / h2o-3
H2O je in-memory platforma pro distribuované, škálovatelné strojové učení. H2O používá známá rozhraní, jako jsou R, Python, Scala, Java, JSON a notebook/webové rozhraní Flow, a bezproblémově spolupracuje s technologiemi pro zpracování velkých dat, jako jsou Hadoop a Spark. H2O poskytuje implementace mnoha populárních algoritmů, jako jsou zobecněné lineární modely (GLM), Gradient Boosting Machines (včetně XGBoost), Random Forests, Deep Neural Networks, Stacked Ensembles, Naive Bayes, Generalized Additive Models (GAM), Cox Proportional Hazards, K-Means, PCA, Word2Vec, a také plně automatický algoritmus strojového učení (H2O AutoML).
H2O je rozšiřitelný, takže vývojáři mohou přidávat transformace dat a vlastní algoritmy podle svého výběru a přistupovat k nim prostřednictvím všech těchto klientů. Modely H2O lze stáhnout a načíst do paměti H2O pro skórování nebo exportovat do formátu POJO nebo MOJO pro extrémně rychlé skórování v produkci. Více informací naleznete v uživatelské příručce H2O.
H2O-3 (tento repozitář) je třetí inkarnací H2O a nástupcem H2O-2.
Obsah
- Stažení H2O-3
- Zdroje otevřeného kódu
- Sledování problémů a požadavky na funkce
- Seznam zdrojů H2O
- Použití artefaktů kódu H2O-3 (knihoven)
- Stavba H2O-.3
- Zprovoznění H2O po vybudování
- Budování H2O na Hadoopu
- Šumící voda
- Dokumentace
- Citace H2O
- Dopravní mapa
- Komunita / Poradci / Investoři
1. Vydejte se na cestu k H2O. Stahování H2O-3
Přestože je většina tohoto README napsána pro vývojáře, kteří si dělají vlastní sestavení, většina uživatelů H2O si prostě stáhne a používá předpřipravenou verzi. Pokud jste uživatelem Pythonu nebo R, nejjednodušší způsob, jak nainstalovat H2O, je prostřednictvím PyPI nebo Anaconda (pro Python) nebo CRAN (pro R):
Python
pip install h2o
R
install.packages("h2o")
Další informace o stahování & instalaci H2O jsou k dispozici v Uživatelské příručce H2O.
2. Stáhněte si H2O-3 a nainstalujte si ho. Zdroje s otevřeným zdrojovým kódem
Většina lidí přichází do styku se třemi nebo čtyřmi základními zdroji s otevřeným zdrojovým kódem: GitHub (který jste již našli), JIRA (pro hlášení chyb a sledování problémů), Stack Overflow pro otázky týkající se kódu/softwaru H2O a h2ostream (diskusní fórum skupiny Google / e-mailu) pro otázky, které nejsou vhodné pro Stack Overflow. Existuje také chatovací skupina vývojářů H2O na Gitteru, nicméně pro účely archivace & a maximalizace dostupnosti bychom upřednostňovali, aby standardní otázky& H2O byly vedeny na Stack Overflow.
2.1 Sledování problémů a požadavky na funkce
(Poznámka: Pro projekt existuje pouze jeden systém sledování problémů. Problémy v systému GitHub nejsou povoleny; je nutné používat systém JIRA.)
V našem open source systému JIRA můžete procházet a vytvářet nové problémy: http://jira.h2o.ai
- Problémy můžete procházet a vyhledávat bez přihlášení do systému JIRA:
- Klikněte na nabídku
Issues
- Klikněte na
Search for issues
- Klikněte na nabídku
- Chcete-li vytvořit problém (chybu nebo požadavek na funkci), vytvořte si nejprve účet:
- Klikněte na tlačítko
Log In
v pravém horním rohu obrazovky - Klikněte na
Create an acccount
u spodního okraje přihlašovacího okna - Po vytvoření účtu a přihlášení použijte tlačítko
Create
v nabídce pro vytvoření problému - Vytvořte problém H2O-3 v projektu PUBDEV. (Poznámka: Otázky týkající se perlivé vody by měly být založeny v projektu SW.)
- Klikněte na tlačítko
- Můžete také hlasovat pro požadavky na funkce a/nebo jiné problémy. Hlasování může společnosti H2O pomoci stanovit priority funkcí, které budou zahrnuty do každé verze.
- Přejděte na stránku H2O JIRA.
- Klikněte na Přihlásit se a buď se přihlaste, nebo si vytvořte účet, pokud jej ještě nemáte.
- Vyhledejte funkci, kterou chcete upřednostnit, nebo vytvořte novou funkci.
- Klikněte na odkaz Hlasovat pro tento problém. Ten se nachází na pravé straně problému v sekci Lidé.
2.2 Seznam zdrojů H2O
3. Používání artefaktů H2O-3
Každé noční sestavení publikuje artefakty R, Pythonu, Javy a Scaly do úložiště specifického pro sestavení. Konkrétně artefakty Javy najdete v adresáři maven/repo.
Tady je ukázkový úryvek souboru sestavení gradle, který používá h2o-3 jako závislost. Nahraďte x, y, z a nnnn platnými čísly.
Podívejte se na nejnovější stránku nočního sestavení H2O-3 bleeding edge, kde najdete informace o instalaci artefaktů nočního sestavení.
Podívejte se na repozitář h2o-droplets GitHub, kde najdete funkční příklad použití artefaktů Java s gradle.
Poznámka: Stabilní artefakty H2O-3 jsou pravidelně zveřejňovány na serveru Maven Central (pro vyhledávání klikněte zde), ale mohou výrazně zaostávat za nočními sestaveními H2O-3 Bleeding Edge.
4. Sestavování H2O-3
Začátek vývoje H2O vyžaduje JDK 1.7, Node.js, Gradle, Python a R. Používáme Gradle wrapper (nazvaný gradlew
), abychom zajistili, že ve vašem vývojovém adresáři budou nainstalovány aktuální lokální verze Gradle a dalších závislostí.
4.1. Sestavování H2O-3
Před sestavením
Sestavení h2o
vyžaduje správně nastavené prostředí R s požadovanými balíčky a prostředí Pythonu s následujícími balíčky:
gripcoloramafuturetabulaterequestswheel
Pro instalaci těchto balíčků můžete použít pip nebo conda.
Pokud máte problémy s instalací těchto balíčků v systému Windows, postupujte podle části Instalace v systému Windows této příručky.
(Poznámka: Pro instalaci všech balíčků se doporučuje použít některé virtuální prostředí, například VirtualEnv. )
4.2. Sestavení z příkazového řádku (rychlý start)
Chcete-li sestavit H2O z úložiště, proveďte následující kroky.
Recept 1: Klonování čerstvého, sestavení, vynechání testů a spuštění H2O
Recept 2: Klonování čerstvého, sestavení a spuštění testů (vyžaduje funkční instalaci R)
git clone https://github.com/h2oai/h2o-3.gitcd h2o-3./gradlew syncSmalldata./gradlew syncRPackages./gradlew build
Poznámky:
- Spuštění testů spustí pět testovacích JVM, které tvoří cluster H2O a vyžaduje alespoň 8 GB RAM (nejlépe 16 GB RAM).
- Spouštění
./gradlew syncRPackages
je podporováno v systémech Windows, OS X a Linux a je důrazně doporučeno, ale není vyžadováno../gradlew syncRPackages
Zajišťuje kompletní a konzistentní prostředí s předem schválenými verzemi balíčků potřebných pro testy a sestavení. Balíčky lze nainstalovat ručně, ale doporučujeme nastavit proměnnou ENV a použít./gradlew syncRPackages
. Pro nastavení proměnné ENV použijte následující formát (kde `${WORKSPACE} může být libovolná cesta):mkdir -p ${WORKSPACE}/Rlibraryexport R_LIBS_USER=${WORKSPACE}/Rlibrary
Recept 3: Stažení, vyčištění, sestavení a spuštění testů
git pull./gradlew syncSmalldata./gradlew syncRPackages./gradlew clean./gradlew build
Poznámky
Doporučujeme použít
./gradlew clean
po každémgit pull
.Testy přeskočíte přidáním
-x test
na konec příkazového řádku gradle build. Testy obvykle běží 7-10 minut na notebooku Macbook Pro se 4 CPU (8 hyperthreads) a 16 GB RAM.Synchronizace smalldata není vyžadována po každém tahu, ale pokud testy selžou kvůli chybějícím datovým souborům, zkuste jako první krok řešení problémů
./gradlew syncSmalldata
. Synchronizace smalldata stáhne datové soubory z AWS S3 do adresáře smalldata ve vašem pracovním prostoru. Synchronizace je přírůstková. V těchto souborech neprovádějte kontrolu. Adresář smalldata je v souboru .gitignore. Pokud neprovádíte žádné testy, adresář smalldata nepotřebujete.Provádění
./gradlew syncRPackages
je podporováno v systémech Windows, OS X a Linux a je důrazně doporučeno, ale není vyžadováno../gradlew syncRPackages
Zajišťuje kompletní a konzistentní prostředí s předem schválenými verzemi balíčků potřebných pro testy a sestavení. Balíčky lze nainstalovat ručně, ale doporučujeme nastavit proměnnou ENV a použít./gradlew syncRPackages
. Pro nastavení proměnné ENV použijte následující formát (kde${WORKSPACE}
může být libovolná cesta):mkdir -p ${WORKSPACE}/Rlibraryexport R_LIBS_USER=${WORKSPACE}/Rlibrary
Recept 4: Pouhé sestavení dokumentů
./gradlew clean && ./gradlew build -x test && (export DO_FAST=1; ./gradlew dist)open target/docs-website/h2o-docs/index.html
4.3. Jak nastavit proměnnou ENV? Nastavení v systému Windows
Krok 1: Stáhněte a nainstalujte WinPython.
Z příkazového řádku ověřte, zda
python
používá nově nainstalovaný balíček pomocíwhich python
(nebosudo which python
). Aktualizujte proměnnou prostředí s cestou k WinPythonu.Krok 2: Nainstalujte požadované balíčky Pythonu:
pip install grip 'colorama>=0.3.8' future tabulate wheel
Krok 3: Nainstalujte JDK
Nainstalujte Javu 1.7 a přidejte příslušný adresář
C:\Program Files\Java\jdk1.7.0_65\bin
s java.exe do PATH v proměnných prostředí. Abyste se ujistili, že příkazový řádek detekuje správnou verzi Javy, spusťte:javac -version
Proměnná CLASSPATH musí být také nastavena na podsložku lib JDK:
CLASSPATH=/<path>/<to>/<jdk>/lib
Krok 4. Ujistěte se, že příkazový řádek detekuje správnou verzi Javy. Nainstalujte Node.js
Nainstalujte Node.js a přidejte nainstalovaný adresář
C:\Program Files\nodejs
, který musí obsahovat node.exe a npm.cmd do PATH, pokud již není přednastaven.Krok 5. Nainstalujte R, požadované balíčky a Rtools:
Nainstalujte R a přidejte adresář bin do PATH, pokud již není zahrnut.
Nainstalujte následující balíčky R:
- RCurl
- jsonlite
- statmod
- devtools
- roxygen2
- testthat
Pro instalaci těchto balíčků z relace R:
Poznamenejte, že pro instalaci balíčku RCurl R je vyžadován libcurl.
Všimněte si, že tyto balíčky nepokrývají spouštění testů, jsou určeny pouze pro sestavení H2O.
Nakonec nainstalujte Rtools, což je kolekce nástrojů příkazového řádku pro usnadnění vývoje R v systému Windows.
Poznámka: Během instalace Rtools neinstalujte Cygwin.dll.
Krok 6: Nainstalujte Rtools. Instalace Cygwin
POZNÁMKA: Během instalace Cygwin zrušte výběr balíčků Python, aby nedošlo ke konfliktu s balíčkem Python.org.
Krok 6b. Ověření Cygwinu
Je-li již Cygwin nainstalován, odstraňte balíčky Pythonu nebo zajistěte, aby se v proměnné PATH nacházel Native Python před Cygwinem.
Krok 7. Aktualizujte nebo ověřte proměnnou PATH systému Windows tak, aby obsahovala R, Java JDK, Cygwin.
Krok 8. Klonování systému Git h2o-3
Pokud ještě nemáte klienta Git, nainstalujte si ho. Ten výchozí najdete zde http://git-scm.com/downloads. Před instalací se ujistěte, že je povolena podpora příkazového řádku.
Stáhněte a aktualizujte zdrojové kódy h2o-3:
git clone https://github.com/h2oai/h2o-3
Krok 9. Spusťte sestavení gradle na nejvyšší úrovni:
cd h2o-3./gradlew.bat build
Pokud narazíte na chyby, spusťte sestavení znovu pomocí
--stacktrace
pro další pokyny týkající se chybějících závislostí.4.4. Nastavení v OS X
Pokud nemáte Homebrew, doporučujeme jej nainstalovat. Díky němu je správa balíčků pro OS X snadná.
Krok 1. Instalace JDK
Instalace Javy 1.7. Chcete-li se ujistit, že příkazový řádek detekuje správnou verzi Javy, spusťte:
javac -version
Krok 2. Zjistěte, zda příkazový řádek detekuje správnou verzi Javy. Nainstalujte Node.js:
Pomocí Homebrew:
brew install node
V opačném případě nainstalujte z webových stránek NodeJS.
Krok 3. V případě potřeby nainstalujte Node.js. Nainstalujte R a požadované balíčky:
Nainstalujte R a přidejte adresář bin do své cesty PATH, pokud v ní ještě není.
Nainstalujte následující balíčky R:
- RCurl
- jsonlite
- statmod
- devtools
- roxygen2
- testthat
Pro instalaci těchto balíčků z relace R:
Poznamenejte, že pro instalaci balíčku RCurl R je vyžadován libcurl.
Všimněte si, že tyto balíčky nepokrývají spouštění testů, jsou určeny pouze pro sestavení H2O.
Krok 4. Nainstalujte python a požadované balíčky:
Instalace pythonu:
brew install python
Instalace správce balíčků pip:
sudo easy_install pip
Dále nainstalujte požadované balíčky:
sudo pip install wheel requests 'colorama>=0.3.8' future tabulate
Krok 5. Klonování Git h2o-3
OS X by již měl mít nainstalovaný Git. Stažení a aktualizace zdrojových kódů h2o-3:
git clone https://github.com/h2oai/h2o-3
6. krok. Spusťte sestavení gradle nejvyšší úrovně:
cd h2o-3./gradlew build
Poznámka: na běžném počítači může spuštění všech testů trvat velmi dlouho (asi hodinu).
Pokud narazíte na chyby, spusťte sestavení znovu pomocí
--stacktrace
, kde najdete další pokyny k chybějícím závislostem.4.5. Spusťte sestavení gradle. Nastavení v systému Ubuntu 14.04
Krok 1. Nainstalujte Node.js
curl -sL https://deb.nodesource.com/setup_0.12 | sudo bash -sudo apt-get install -y nodejs
Krok 2. Instalace JDK:
Instalace Javy 8. Pokyny k instalaci naleznete zde Instalace JDK. Chcete-li se ujistit, že příkazový řádek detekuje správnou verzi Javy, spusťte:
javac -version
3. krok. Nainstalujte R a požadované balíčky:
Návod k instalaci naleznete zde Instalace R. Klepněte na tlačítko „Download R for Linux“. Klikněte na „ubuntu“. Postupujte podle uvedených pokynů.
Pro instalaci požadovaných balíčků postupujte podle stejných pokynů jako pro OS X výše.
Poznámka: Pokud se proces nepodaří nainstalovat RStudio Server v Linuxu, spusťte jeden z následujících příkazů:
sudo apt-get install libcurl4-openssl-dev
nebo
sudo apt-get install libcurl4-gnutls-dev
Krok 4. Git Clone h2o-3
Pokud ještě nemáte klienta Git:
sudo apt-get install git
Stáhněte a aktualizujte zdrojové kódy h2o-3:
git clone https://github.com/h2oai/h2o-3
Krok 5. Spusťte sestavení gradle nejvyšší úrovně:
cd h2o-3./gradlew build
Pokud narazíte na chyby, spusťte sestavení znovu pomocí
--stacktrace
, kde najdete další pokyny k chybějícím závislostem.Ujistěte se, že nespustíte sestavení jako root, protože
bower
takové spuštění odmítne.4.6. Spusťte sestavení gradle nejvyšší úrovně. Nastavení v Ubuntu 13.10
Krok 1. Nainstalujte Node.js
curl -sL https://deb.nodesource.com/setup_10.x | sudo bash -sudo apt-get install -y nodejs
Kroky 2-4. Pro Ubuntu 14.04 (vyšší verze)
4.7. Postupujte podle kroků 2-4. Instalace v systému CentOS 7
5. Instalace v systému CentOS 7
. Spuštění H2O po sestavení
Pro lokální spuštění clusteru H2O spusťte na příkazovém řádku následující příkaz:
java -jar build/h2o.jar
Seznam dostupných možností spuštění JVM a H2O (např.
-Xmx
,-nthreads
,-ip
), je k dispozici v uživatelské příručce H2O.6. Spuštění H2O po sestavení
Seznam dostupných možností spuštění JVM a H2O (např.
-Xmx
,-nthreads
,-ip
), je k dispozici v uživatelské příručce H2O. Sestavení H2O na platformě HadoopPředem sestavené soubory zip H2O na platformě Hadoop jsou k dispozici na stránce pro stažení. Každá verze distribuce Hadoop má samostatný soubor zip ve formátu h2o-3.
Chcete-li sami sestavit H2O s podporou Hadoop, nainstalujte si nejprve sphinx pro python:
pip install sphinx
Poté spusťte sestavení zadáním následujícího textu z adresáře nejvyšší úrovně h2o-3:(export BUILD_HADOOP=1; ./gradlew build -x test)./gradlew dist
Tím se vytvoří adresář s názvem ‚target‘ a vygenerují se v něm soubory zip. Všimněte si, že
BUILD_HADOOP
je výchozí chování, pokud je uživatelské jménojenkins
(vizsettings.gradle
); jinak si jej musíte vyžádat, jak je uvedeno výše.Přidání podpory pro novou verzi Hadoopu
V adresáři
h2o-hadoop
má každá verze Hadoopu adresář pro sestavení ovladače a adresář pro sestavení fatjaru.Musíte:
- Přidejte nový adresář ovladače a adresář sestavení (každý se souborem
build.gradle
) doh2o-hadoop
- Přidejte tyto nové projekty do
h2o-3/settings.gradle
- Přidejte novou verzi Hadoopu do.
HADOOP_VERSIONS
vmake-dist.sh
- Přidejte novou verzi Hadoopu do seznamu v
h2o-dist/buildinfo.json
Zabezpečené zosobnění uživatele
Hadoop podporuje bezpečné zosobnění uživatele prostřednictvím svého rozhraní Java API. Uživateli s ověřením kerberos může být povoleno zprostředkovat jakékoli uživatelské jméno, které splňuje zadaná kritéria zadaná v souboru core-site.xml uzlu NameNode. Toto zosobnění se vztahuje pouze na interakce s rozhraním API Hadoop nebo rozhraním API služeb souvisejících s Hadoop, které jej podporují (není to totéž jako přepnutí na tohoto uživatele na počítači původu).
Nastavení bezpečného zosobnění uživatele (pro h2o):
- Vytvořte nebo najděte id pro použití jako proxy, které má omezený až žádný přístup k HDFS nebo souvisejícím službám; proxy uživatele je třeba použít pouze pro zosobnění uživatele
- (Povinné, pokud nepoužíváte h2odriver) Pokud nepoužíváte ovladač (např.např. jste si napsali vlastní kód proti API h2o pomocí Hadoop), proveďte potřebné změny kódu pro zosobnění uživatelů (viz org.apache.hadoop.security.UserGroupInformation)
- Buď v Ambari/Cloudera Manageru, nebo přímo v souboru core-site.xml NameNode přidejte 2/3 vlastnosti pro uživatele, kterého chceme používat jako proxy (nahraďte prostým uživatelským jménem – nikoli plně kvalifikovaným hlavním jménem).
hadoop.proxyuser.<proxyusername>.hosts
: hostitelé, za které smí uživatel proxy provádět zosobněné akce jménem platného uživatele zhadoop.proxyuser.<proxyusername>.groups
: skupiny, do kterých musí zosobněný uživatel patřit, aby zosobnění fungovalo s tímto uživatelem proxyhadoop.proxyuser.<proxyusername>.users
: uživatelé, za které se smí uživatel proxy zosobnit- Příklad:
<property> <name>hadoop.proxyuser.myproxyuser.hosts</name> <value>host1,host2</value> </property> <property> <name>hadoop.proxyuser.myproxyuser.groups</name> <value>group1,group2</value> </property> <property> <name>hadoop.proxyuser.myproxyuser.users</name> <value>user1,user2</value> </property>
- Restartujte základní služby, jako je HDFS & YARN, aby se změny projevily
Personalizované akce HDFS lze zobrazit v protokolu auditu hdfs („auth:PROXY“ by se mělo objevit v poli
ugi=
v záznamech, kde je to použitelné). YARN by měl podobně zobrazovat ‚auth:PROXY‘ někde v uživatelském rozhraní správce zdrojů.Chcete-li použít bezpečné zosobnění s ovladačem h2o Hadoop:
Předtím, než se o to pokusíte, viz níže Rizika při zosobnění
Při použití ovladače h2odriver (např.např. při spuštění s
hadoop jar ...
), zadejte kromě dalších potřebných argumentů také-principal <proxy user kerberos principal>
,-keytab <proxy user keytab path>
a-run_as_user <hadoop username to impersonate>
. Pokud byla konfigurace úspěšná, uživatel proxy se přihlásí a vydává se za-run_as_user
, pokud je tento uživatel povolen konfigurační vlastností users nebo groups (konfigurovanou výše); toto je vynuceno systémem HDFS & YARN, nikoli kódem h2o. Ovladač efektivně nastaví svůj bezpečnostní kontext jako zosobněného uživatele, takže všechny podporované akce Hadoopu budou prováděny jako tento uživatel (např. rozhraní API YARN, HDFS podporují bezpečně zosobněné uživatele, ale ostatní nemusí).Opatření, která je třeba přijmout při využívání bezpečného zosobnění
- Cílovým případem použití bezpečného zosobnění jsou aplikace nebo služby, které předem ověřují uživatele a poté používají (v tomto případě) h2odriver jménem tohoto uživatele. Dokonalým příkladem je služba H2O Steam: ověření uživatele ve webové aplikaci přes SSL, zosobnění tohoto uživatele při vytváření kontejneru h2o YARN.
- Proxy uživatel by měl mít omezená oprávnění v clusteru Hadoop; to znamená žádná oprávnění pro přístup k datům nebo volání API. Tímto způsobem by v případě kompromitace měl oprávnění vydávat se pouze za určitou podmnožinu uživatelů v clusteru a pouze z určitých strojů.
- Pokud je to možné nebo praktické, používejte vlastnost
hadoop.proxyuser.<proxyusername>.hosts
.- Nedávejte heslo proxyusername ani keytab žádnému uživateli, kterého nechcete vydávat za jiného uživatele (to je obecně jakýkoli uživatel). Smyslem zosobnění není umožnit uživatelům, aby se vydávali jeden za druhého. Typický případ použití viz první odrážka.
- Pokud je to praktické, omezte přihlašování uživatelů na stroj, ze kterého probíhá proxy.
- Ujistěte se, že keytab použitý k přihlášení uživatele proxy je řádně zabezpečen a že se uživatelé nemohou přihlásit jako toto id (například přes
su
)- Nikdy nenastavujte hadoop.proxyuser..{users,groups} na ‚*‘ nebo ‚hdfs‘, ‚yarn‘ atd. Povolení jakémukoli uživateli vydávat se za hdfs, yarn nebo jiného důležitého uživatele/skupinu by mělo být prováděno s nejvyšší opatrností a před povolením by mělo být důkladně analyzováno.
Rizika při bezpečném vydávání se za uživatele
- Id provádějící vydávání se za uživatele může být kompromitováno jako každé jiné id uživatele.
- Nastavení libovolné vlastnosti
hadoop.proxyuser.<proxyusername>.{hosts,groups,users}
na ‚*‘ může výrazně zvýšit vystavení bezpečnostnímu riziku.- Pokud nejsou uživatelé před použitím s ovladačem ověřováni (např. jako to dělá Steam prostřednictvím zabezpečené webové aplikace/API), je obtížná auditovatelnost procesu/systému.
7. Sparkling Water
Sparkling Water kombinuje dvě open-source technologie: Apache Spark a platformu pro strojové učení H2O. Zpřístupňuje knihovnu pokročilých algoritmů H2O, včetně Deep Learning, GLM, GBM, K-Means a Distributed Random Forest, z pracovních postupů Spark. Uživatelé Sparku si mohou vybrat nejlepší funkce z obou platforem, aby splnili své potřeby v oblasti strojového učení. Uživatelé mohou kombinovat rozhraní Spark RDD API a Spark MLLib s algoritmy strojového učení H2O, nebo používat H2O nezávisle na Sparku pro proces tvorby modelu a následně zpracovávat výsledky ve Sparku.
Sparkling Water Zdroje:
- Stránka pro stažení předpřipravených balíčků
- Úložiště Sparkingu Water na GitHubu
- README
- Dokumentace pro vývojáře
8. V případě, že se vám podařilo získat více informací, můžete si je stáhnout. Dokumentace
Domovská stránka dokumentace
Hlavní dokumentací H2O je uživatelská příručka H2O. Navštivte http://docs.h2o.ai, kde najdete úvod do dokumentace projektů H2O na nejvyšší úrovni.
Generování dokumentace REST API
Pro generování dokumentace REST API použijte následující příkazy:
Výchozí umístění pro generovanou dokumentaci je
build/docs/REST
.Pokud se sestavení nezdaří, zkuste
gradlew clean
a potégit clean -f
.Dokumentace k sestavení bleeding edge
Dokumentace ke každému nočnímu sestavení bleeding edge je k dispozici na stránce nočního sestavení.
9. V případě, že se sestavení nezdaří, zkuste
git clean -f
. Citování H2OPoužíváte-li H2O jako součást pracovního postupu v publikaci, citujte zdroj(e) H2O pomocí následujícího záznamu BibTex:
Software H2O
Příklady citací softwaru H2O:
Brožury H2O
Brožury algoritmů H2O jsou k dispozici na domovské stránce dokumentace.
@Manual{h2o_booklet_name, title = {booklet_title}, author = {list_of_authors}, year = {year}, month = {month}, url = {link_url},}
Příklady citací formátovaných brožur:
10. Roadmap
H2O 3.34.0.1 – leden 2021
- Rozšířený algoritmus izolačního lesa
- Uplift Trees
- Extrahování & interakcí prvků řazení z modelů GBM a XGBoost
- RuleFit MOJO, CoxPH MOJO
- Podpora bodování MOJO2
- Tolerance chyb při vyhledávání v síti
- Operátor Kubernetes
- Externí XGBoost na clusterech Kubernetes
11. Klíčová slova: „MOJO“. Komunita
H2O v průběhu let vytvořilo velké množství přispěvatelů jak v rámci H2O.ai (společnosti), tak v širší open source komunitě. Do H2O můžete začít přispívat tím, že budete odpovídat na dotazy na Stack Overflow nebo podávat hlášení o chybách. Přidejte se k nám!
Tým & Committers
SriSatish AmbatiCliff ClickTom KraljevicTomas NykodymMichal MalohlavaKevin NormoyleSpencer AielloAnqi FuNidhi MehtaArno CandelJosephine WangAmy WangMax SchloemerRay PeckPrithvi PrabhuBrandon HillJeff GamberaAriel RaoViraj ParmarKendall HarrisAnand AvatiJessica LanfordAlex TellezAllison WashburnAmy WangErik EckstrandNeeraja MadabhushiSebastian VidrioBen SabrinMatt DowleMark LandryErin LeDellAndrey SpiridonovOleg RogynskyyNick MartinNancy JordanNishant KaloniaNadine HussamiJeff CramerStacie SpreitzerVinod IyengarCharlene WindomParag SanghaviNavdeep GillLauren DiPernaAnmol BalMark ChanNick KarpovAvni WadhwaAshrith BarthurKaren HayrapetyanJo-fai ChowDmitry LarkoBranden MurrayJakub HavaWen PhanMagnus StensmoPasha StetsenkoAngela BartzMateusz DymczykMicah StubbsIvy WangTerone WardLeland WilkinsonWendy WongNikhil ShekharPavel PscheidlMichal KurkaVeronika MaurerovaJan SterbaJan JendrusakSebastien PoirierTomáš Frýda
Advisors
Scientific Advisory Council
Stephen BoydRob TibshiraniTrevor Hastie
Systems, Data, FileSystems and Hadoop
Doug LeaChris PouliotDhruba Borthakur
Investors
Jishnu Bhattacharjee, Nexus Venture PartnersAnand Babu PeriasamyAnand RajaramanAsh BhardwajRakesh MathurMichael MarksEgbert BiermanRajesh Ambati