h2oai / h2o-3

Čvn 10, 2021
admin

H2O je in-memory platforma pro distribuované, škálovatelné strojové učení. H2O používá známá rozhraní, jako jsou R, Python, Scala, Java, JSON a notebook/webové rozhraní Flow, a bezproblémově spolupracuje s technologiemi pro zpracování velkých dat, jako jsou Hadoop a Spark. H2O poskytuje implementace mnoha populárních algoritmů, jako jsou zobecněné lineární modely (GLM), Gradient Boosting Machines (včetně XGBoost), Random Forests, Deep Neural Networks, Stacked Ensembles, Naive Bayes, Generalized Additive Models (GAM), Cox Proportional Hazards, K-Means, PCA, Word2Vec, a také plně automatický algoritmus strojového učení (H2O AutoML).

H2O je rozšiřitelný, takže vývojáři mohou přidávat transformace dat a vlastní algoritmy podle svého výběru a přistupovat k nim prostřednictvím všech těchto klientů. Modely H2O lze stáhnout a načíst do paměti H2O pro skórování nebo exportovat do formátu POJO nebo MOJO pro extrémně rychlé skórování v produkci. Více informací naleznete v uživatelské příručce H2O.

H2O-3 (tento repozitář) je třetí inkarnací H2O a nástupcem H2O-2.

Obsah

  • Stažení H2O-3
  • Zdroje otevřeného kódu
    • Sledování problémů a požadavky na funkce
    • Seznam zdrojů H2O
  • Použití artefaktů kódu H2O-3 (knihoven)
  • Stavba H2O-.3
  • Zprovoznění H2O po vybudování
  • Budování H2O na Hadoopu
  • Šumící voda
  • Dokumentace
  • Citace H2O
  • Dopravní mapa
  • Komunita / Poradci / Investoři

1. Vydejte se na cestu k H2O. Stahování H2O-3

Přestože je většina tohoto README napsána pro vývojáře, kteří si dělají vlastní sestavení, většina uživatelů H2O si prostě stáhne a používá předpřipravenou verzi. Pokud jste uživatelem Pythonu nebo R, nejjednodušší způsob, jak nainstalovat H2O, je prostřednictvím PyPI nebo Anaconda (pro Python) nebo CRAN (pro R):

Python

pip install h2o

R

install.packages("h2o")

Další informace o stahování & instalaci H2O jsou k dispozici v Uživatelské příručce H2O.

2. Stáhněte si H2O-3 a nainstalujte si ho. Zdroje s otevřeným zdrojovým kódem

Většina lidí přichází do styku se třemi nebo čtyřmi základními zdroji s otevřeným zdrojovým kódem: GitHub (který jste již našli), JIRA (pro hlášení chyb a sledování problémů), Stack Overflow pro otázky týkající se kódu/softwaru H2O a h2ostream (diskusní fórum skupiny Google / e-mailu) pro otázky, které nejsou vhodné pro Stack Overflow. Existuje také chatovací skupina vývojářů H2O na Gitteru, nicméně pro účely archivace & a maximalizace dostupnosti bychom upřednostňovali, aby standardní otázky& H2O byly vedeny na Stack Overflow.

2.1 Sledování problémů a požadavky na funkce

(Poznámka: Pro projekt existuje pouze jeden systém sledování problémů. Problémy v systému GitHub nejsou povoleny; je nutné používat systém JIRA.)

V našem open source systému JIRA můžete procházet a vytvářet nové problémy: http://jira.h2o.ai

  • Problémy můžete procházet a vyhledávat bez přihlášení do systému JIRA:
    1. Klikněte na nabídku Issues
    2. Klikněte na Search for issues
  • Chcete-li vytvořit problém (chybu nebo požadavek na funkci), vytvořte si nejprve účet:
    1. Klikněte na tlačítko Log In v pravém horním rohu obrazovky
    2. Klikněte na Create an acccount u spodního okraje přihlašovacího okna
    3. Po vytvoření účtu a přihlášení použijte tlačítko Create v nabídce pro vytvoření problému
    4. Vytvořte problém H2O-3 v projektu PUBDEV. (Poznámka: Otázky týkající se perlivé vody by měly být založeny v projektu SW.)
  • Můžete také hlasovat pro požadavky na funkce a/nebo jiné problémy. Hlasování může společnosti H2O pomoci stanovit priority funkcí, které budou zahrnuty do každé verze.
    1. Přejděte na stránku H2O JIRA.
    2. Klikněte na Přihlásit se a buď se přihlaste, nebo si vytvořte účet, pokud jej ještě nemáte.
    3. Vyhledejte funkci, kterou chcete upřednostnit, nebo vytvořte novou funkci.
    4. Klikněte na odkaz Hlasovat pro tento problém. Ten se nachází na pravé straně problému v sekci Lidé.

2.2 Seznam zdrojů H2O

3. Používání artefaktů H2O-3

Každé noční sestavení publikuje artefakty R, Pythonu, Javy a Scaly do úložiště specifického pro sestavení. Konkrétně artefakty Javy najdete v adresáři maven/repo.

Tady je ukázkový úryvek souboru sestavení gradle, který používá h2o-3 jako závislost. Nahraďte x, y, z a nnnn platnými čísly.

Podívejte se na nejnovější stránku nočního sestavení H2O-3 bleeding edge, kde najdete informace o instalaci artefaktů nočního sestavení.

Podívejte se na repozitář h2o-droplets GitHub, kde najdete funkční příklad použití artefaktů Java s gradle.

Poznámka: Stabilní artefakty H2O-3 jsou pravidelně zveřejňovány na serveru Maven Central (pro vyhledávání klikněte zde), ale mohou výrazně zaostávat za nočními sestaveními H2O-3 Bleeding Edge.

4. Sestavování H2O-3

Začátek vývoje H2O vyžaduje JDK 1.7, Node.js, Gradle, Python a R. Používáme Gradle wrapper (nazvaný gradlew), abychom zajistili, že ve vašem vývojovém adresáři budou nainstalovány aktuální lokální verze Gradle a dalších závislostí.

4.1. Sestavování H2O-3

Před sestavením

Sestavení h2o vyžaduje správně nastavené prostředí R s požadovanými balíčky a prostředí Pythonu s následujícími balíčky:

gripcoloramafuturetabulaterequestswheel

Pro instalaci těchto balíčků můžete použít pip nebo conda.

Pokud máte problémy s instalací těchto balíčků v systému Windows, postupujte podle části Instalace v systému Windows této příručky.

(Poznámka: Pro instalaci všech balíčků se doporučuje použít některé virtuální prostředí, například VirtualEnv. )

4.2. Sestavení z příkazového řádku (rychlý start)

Chcete-li sestavit H2O z úložiště, proveďte následující kroky.

Recept 1: Klonování čerstvého, sestavení, vynechání testů a spuštění H2O

Recept 2: Klonování čerstvého, sestavení a spuštění testů (vyžaduje funkční instalaci R)

git clone https://github.com/h2oai/h2o-3.gitcd h2o-3./gradlew syncSmalldata./gradlew syncRPackages./gradlew build

Poznámky:

  • Spuštění testů spustí pět testovacích JVM, které tvoří cluster H2O a vyžaduje alespoň 8 GB RAM (nejlépe 16 GB RAM).
  • Spouštění ./gradlew syncRPackages je podporováno v systémech Windows, OS X a Linux a je důrazně doporučeno, ale není vyžadováno. ./gradlew syncRPackages Zajišťuje kompletní a konzistentní prostředí s předem schválenými verzemi balíčků potřebných pro testy a sestavení. Balíčky lze nainstalovat ručně, ale doporučujeme nastavit proměnnou ENV a použít ./gradlew syncRPackages. Pro nastavení proměnné ENV použijte následující formát (kde `${WORKSPACE} může být libovolná cesta):
mkdir -p ${WORKSPACE}/Rlibraryexport R_LIBS_USER=${WORKSPACE}/Rlibrary

Recept 3: Stažení, vyčištění, sestavení a spuštění testů

git pull./gradlew syncSmalldata./gradlew syncRPackages./gradlew clean./gradlew build

Poznámky

  • Doporučujeme použít ./gradlew clean po každém git pull.

  • Testy přeskočíte přidáním -x test na konec příkazového řádku gradle build. Testy obvykle běží 7-10 minut na notebooku Macbook Pro se 4 CPU (8 hyperthreads) a 16 GB RAM.

  • Synchronizace smalldata není vyžadována po každém tahu, ale pokud testy selžou kvůli chybějícím datovým souborům, zkuste jako první krok řešení problémů ./gradlew syncSmalldata. Synchronizace smalldata stáhne datové soubory z AWS S3 do adresáře smalldata ve vašem pracovním prostoru. Synchronizace je přírůstková. V těchto souborech neprovádějte kontrolu. Adresář smalldata je v souboru .gitignore. Pokud neprovádíte žádné testy, adresář smalldata nepotřebujete.

  • Provádění ./gradlew syncRPackages je podporováno v systémech Windows, OS X a Linux a je důrazně doporučeno, ale není vyžadováno. ./gradlew syncRPackages Zajišťuje kompletní a konzistentní prostředí s předem schválenými verzemi balíčků potřebných pro testy a sestavení. Balíčky lze nainstalovat ručně, ale doporučujeme nastavit proměnnou ENV a použít ./gradlew syncRPackages. Pro nastavení proměnné ENV použijte následující formát (kde ${WORKSPACE} může být libovolná cesta):

    mkdir -p ${WORKSPACE}/Rlibraryexport R_LIBS_USER=${WORKSPACE}/Rlibrary

Recept 4: Pouhé sestavení dokumentů

./gradlew clean && ./gradlew build -x test && (export DO_FAST=1; ./gradlew dist)open target/docs-website/h2o-docs/index.html

4.3. Jak nastavit proměnnou ENV? Nastavení v systému Windows

Krok 1: Stáhněte a nainstalujte WinPython.

Z příkazového řádku ověřte, zda python používá nově nainstalovaný balíček pomocí which python (nebo sudo which python). Aktualizujte proměnnou prostředí s cestou k WinPythonu.

Krok 2: Nainstalujte požadované balíčky Pythonu:
pip install grip 'colorama>=0.3.8' future tabulate wheel
Krok 3: Nainstalujte JDK

Nainstalujte Javu 1.7 a přidejte příslušný adresář C:\Program Files\Java\jdk1.7.0_65\bin s java.exe do PATH v proměnných prostředí. Abyste se ujistili, že příkazový řádek detekuje správnou verzi Javy, spusťte:

javac -version

Proměnná CLASSPATH musí být také nastavena na podsložku lib JDK:

CLASSPATH=/<path>/<to>/<jdk>/lib
Krok 4. Ujistěte se, že příkazový řádek detekuje správnou verzi Javy. Nainstalujte Node.js

Nainstalujte Node.js a přidejte nainstalovaný adresář C:\Program Files\nodejs, který musí obsahovat node.exe a npm.cmd do PATH, pokud již není přednastaven.

Krok 5. Nainstalujte R, požadované balíčky a Rtools:

Nainstalujte R a přidejte adresář bin do PATH, pokud již není zahrnut.

Nainstalujte následující balíčky R:

  • RCurl
  • jsonlite
  • statmod
  • devtools
  • roxygen2
  • testthat

Pro instalaci těchto balíčků z relace R:

Poznamenejte, že pro instalaci balíčku RCurl R je vyžadován libcurl.

Všimněte si, že tyto balíčky nepokrývají spouštění testů, jsou určeny pouze pro sestavení H2O.

Nakonec nainstalujte Rtools, což je kolekce nástrojů příkazového řádku pro usnadnění vývoje R v systému Windows.

Poznámka: Během instalace Rtools neinstalujte Cygwin.dll.

Krok 6: Nainstalujte Rtools. Instalace Cygwin

POZNÁMKA: Během instalace Cygwin zrušte výběr balíčků Python, aby nedošlo ke konfliktu s balíčkem Python.org.

Krok 6b. Ověření Cygwinu

Je-li již Cygwin nainstalován, odstraňte balíčky Pythonu nebo zajistěte, aby se v proměnné PATH nacházel Native Python před Cygwinem.

Krok 7. Aktualizujte nebo ověřte proměnnou PATH systému Windows tak, aby obsahovala R, Java JDK, Cygwin.
Krok 8. Klonování systému Git h2o-3

Pokud ještě nemáte klienta Git, nainstalujte si ho. Ten výchozí najdete zde http://git-scm.com/downloads. Před instalací se ujistěte, že je povolena podpora příkazového řádku.

Stáhněte a aktualizujte zdrojové kódy h2o-3:

git clone https://github.com/h2oai/h2o-3
Krok 9. Spusťte sestavení gradle na nejvyšší úrovni:
cd h2o-3./gradlew.bat build

Pokud narazíte na chyby, spusťte sestavení znovu pomocí --stacktrace pro další pokyny týkající se chybějících závislostí.

4.4. Nastavení v OS X

Pokud nemáte Homebrew, doporučujeme jej nainstalovat. Díky němu je správa balíčků pro OS X snadná.

Krok 1. Instalace JDK

Instalace Javy 1.7. Chcete-li se ujistit, že příkazový řádek detekuje správnou verzi Javy, spusťte:

javac -version
Krok 2. Zjistěte, zda příkazový řádek detekuje správnou verzi Javy. Nainstalujte Node.js:

Pomocí Homebrew:

brew install node

V opačném případě nainstalujte z webových stránek NodeJS.

Krok 3. V případě potřeby nainstalujte Node.js. Nainstalujte R a požadované balíčky:

Nainstalujte R a přidejte adresář bin do své cesty PATH, pokud v ní ještě není.

Nainstalujte následující balíčky R:

  • RCurl
  • jsonlite
  • statmod
  • devtools
  • roxygen2
  • testthat

Pro instalaci těchto balíčků z relace R:

Poznamenejte, že pro instalaci balíčku RCurl R je vyžadován libcurl.

Všimněte si, že tyto balíčky nepokrývají spouštění testů, jsou určeny pouze pro sestavení H2O.

Krok 4. Nainstalujte python a požadované balíčky:

Instalace pythonu:

brew install python

Instalace správce balíčků pip:

sudo easy_install pip

Dále nainstalujte požadované balíčky:

sudo pip install wheel requests 'colorama>=0.3.8' future tabulate 
Krok 5. Klonování Git h2o-3

OS X by již měl mít nainstalovaný Git. Stažení a aktualizace zdrojových kódů h2o-3:

git clone https://github.com/h2oai/h2o-3
6. krok. Spusťte sestavení gradle nejvyšší úrovně:
cd h2o-3./gradlew build

Poznámka: na běžném počítači může spuštění všech testů trvat velmi dlouho (asi hodinu).

Pokud narazíte na chyby, spusťte sestavení znovu pomocí --stacktrace, kde najdete další pokyny k chybějícím závislostem.

4.5. Spusťte sestavení gradle. Nastavení v systému Ubuntu 14.04

Krok 1. Nainstalujte Node.js
curl -sL https://deb.nodesource.com/setup_0.12 | sudo bash -sudo apt-get install -y nodejs
Krok 2. Instalace JDK:

Instalace Javy 8. Pokyny k instalaci naleznete zde Instalace JDK. Chcete-li se ujistit, že příkazový řádek detekuje správnou verzi Javy, spusťte:

javac -version
3. krok. Nainstalujte R a požadované balíčky:

Návod k instalaci naleznete zde Instalace R. Klepněte na tlačítko „Download R for Linux“. Klikněte na „ubuntu“. Postupujte podle uvedených pokynů.

Pro instalaci požadovaných balíčků postupujte podle stejných pokynů jako pro OS X výše.

Poznámka: Pokud se proces nepodaří nainstalovat RStudio Server v Linuxu, spusťte jeden z následujících příkazů:

sudo apt-get install libcurl4-openssl-dev

nebo

sudo apt-get install libcurl4-gnutls-dev

Krok 4. Git Clone h2o-3

Pokud ještě nemáte klienta Git:

sudo apt-get install git

Stáhněte a aktualizujte zdrojové kódy h2o-3:

git clone https://github.com/h2oai/h2o-3
Krok 5. Spusťte sestavení gradle nejvyšší úrovně:
cd h2o-3./gradlew build

Pokud narazíte na chyby, spusťte sestavení znovu pomocí --stacktrace, kde najdete další pokyny k chybějícím závislostem.

Ujistěte se, že nespustíte sestavení jako root, protože bower takové spuštění odmítne.

4.6. Spusťte sestavení gradle nejvyšší úrovně. Nastavení v Ubuntu 13.10

Krok 1. Nainstalujte Node.js
curl -sL https://deb.nodesource.com/setup_10.x | sudo bash -sudo apt-get install -y nodejs
Kroky 2-4. Pro Ubuntu 14.04 (vyšší verze)

4.7. Postupujte podle kroků 2-4. Instalace v systému CentOS 7

5. Instalace v systému CentOS 7

. Spuštění H2O po sestavení

Pro lokální spuštění clusteru H2O spusťte na příkazovém řádku následující příkaz:

java -jar build/h2o.jar

Seznam dostupných možností spuštění JVM a H2O (např. -Xmx, -nthreads, -ip), je k dispozici v uživatelské příručce H2O.

6. Spuštění H2O po sestavení

Seznam dostupných možností spuštění JVM a H2O (např. -Xmx, -nthreads, -ip), je k dispozici v uživatelské příručce H2O. Sestavení H2O na platformě Hadoop

Předem sestavené soubory zip H2O na platformě Hadoop jsou k dispozici na stránce pro stažení. Každá verze distribuce Hadoop má samostatný soubor zip ve formátu h2o-3.

Chcete-li sami sestavit H2O s podporou Hadoop, nainstalujte si nejprve sphinx pro python: pip install sphinxPoté spusťte sestavení zadáním následujícího textu z adresáře nejvyšší úrovně h2o-3:

(export BUILD_HADOOP=1; ./gradlew build -x test)./gradlew dist

Tím se vytvoří adresář s názvem ‚target‘ a vygenerují se v něm soubory zip. Všimněte si, že BUILD_HADOOP je výchozí chování, pokud je uživatelské jméno jenkins (viz settings.gradle); jinak si jej musíte vyžádat, jak je uvedeno výše.

Přidání podpory pro novou verzi Hadoopu

V adresáři h2o-hadoop má každá verze Hadoopu adresář pro sestavení ovladače a adresář pro sestavení fatjaru.

Musíte:

  1. Přidejte nový adresář ovladače a adresář sestavení (každý se souborem build.gradle) do h2o-hadoop
  2. Přidejte tyto nové projekty do h2o-3/settings.gradle
  3. Přidejte novou verzi Hadoopu do. HADOOP_VERSIONS v make-dist.sh
  4. Přidejte novou verzi Hadoopu do seznamu v h2o-dist/buildinfo.json

Zabezpečené zosobnění uživatele

Hadoop podporuje bezpečné zosobnění uživatele prostřednictvím svého rozhraní Java API. Uživateli s ověřením kerberos může být povoleno zprostředkovat jakékoli uživatelské jméno, které splňuje zadaná kritéria zadaná v souboru core-site.xml uzlu NameNode. Toto zosobnění se vztahuje pouze na interakce s rozhraním API Hadoop nebo rozhraním API služeb souvisejících s Hadoop, které jej podporují (není to totéž jako přepnutí na tohoto uživatele na počítači původu).

Nastavení bezpečného zosobnění uživatele (pro h2o):

  1. Vytvořte nebo najděte id pro použití jako proxy, které má omezený až žádný přístup k HDFS nebo souvisejícím službám; proxy uživatele je třeba použít pouze pro zosobnění uživatele
  2. (Povinné, pokud nepoužíváte h2odriver) Pokud nepoužíváte ovladač (např.např. jste si napsali vlastní kód proti API h2o pomocí Hadoop), proveďte potřebné změny kódu pro zosobnění uživatelů (viz org.apache.hadoop.security.UserGroupInformation)
  3. Buď v Ambari/Cloudera Manageru, nebo přímo v souboru core-site.xml NameNode přidejte 2/3 vlastnosti pro uživatele, kterého chceme používat jako proxy (nahraďte prostým uživatelským jménem – nikoli plně kvalifikovaným hlavním jménem).
    • hadoop.proxyuser.<proxyusername>.hosts: hostitelé, za které smí uživatel proxy provádět zosobněné akce jménem platného uživatele z
    • hadoop.proxyuser.<proxyusername>.groups: skupiny, do kterých musí zosobněný uživatel patřit, aby zosobnění fungovalo s tímto uživatelem proxy
    • hadoop.proxyuser.<proxyusername>.users: uživatelé, za které se smí uživatel proxy zosobnit
    • Příklad: <property> <name>hadoop.proxyuser.myproxyuser.hosts</name> <value>host1,host2</value> </property> <property> <name>hadoop.proxyuser.myproxyuser.groups</name> <value>group1,group2</value> </property> <property> <name>hadoop.proxyuser.myproxyuser.users</name> <value>user1,user2</value> </property>
  4. Restartujte základní služby, jako je HDFS & YARN, aby se změny projevily

Personalizované akce HDFS lze zobrazit v protokolu auditu hdfs („auth:PROXY“ by se mělo objevit v poli ugi= v záznamech, kde je to použitelné). YARN by měl podobně zobrazovat ‚auth:PROXY‘ někde v uživatelském rozhraní správce zdrojů.

Chcete-li použít bezpečné zosobnění s ovladačem h2o Hadoop:

Předtím, než se o to pokusíte, viz níže Rizika při zosobnění

Při použití ovladače h2odriver (např.např. při spuštění s hadoop jar ...), zadejte kromě dalších potřebných argumentů také -principal <proxy user kerberos principal>, -keytab <proxy user keytab path> a -run_as_user <hadoop username to impersonate>. Pokud byla konfigurace úspěšná, uživatel proxy se přihlásí a vydává se za -run_as_user, pokud je tento uživatel povolen konfigurační vlastností users nebo groups (konfigurovanou výše); toto je vynuceno systémem HDFS & YARN, nikoli kódem h2o. Ovladač efektivně nastaví svůj bezpečnostní kontext jako zosobněného uživatele, takže všechny podporované akce Hadoopu budou prováděny jako tento uživatel (např. rozhraní API YARN, HDFS podporují bezpečně zosobněné uživatele, ale ostatní nemusí).

Opatření, která je třeba přijmout při využívání bezpečného zosobnění

  • Cílovým případem použití bezpečného zosobnění jsou aplikace nebo služby, které předem ověřují uživatele a poté používají (v tomto případě) h2odriver jménem tohoto uživatele. Dokonalým příkladem je služba H2O Steam: ověření uživatele ve webové aplikaci přes SSL, zosobnění tohoto uživatele při vytváření kontejneru h2o YARN.
  • Proxy uživatel by měl mít omezená oprávnění v clusteru Hadoop; to znamená žádná oprávnění pro přístup k datům nebo volání API. Tímto způsobem by v případě kompromitace měl oprávnění vydávat se pouze za určitou podmnožinu uživatelů v clusteru a pouze z určitých strojů.
  • Pokud je to možné nebo praktické, používejte vlastnost hadoop.proxyuser.<proxyusername>.hosts.
  • Nedávejte heslo proxyusername ani keytab žádnému uživateli, kterého nechcete vydávat za jiného uživatele (to je obecně jakýkoli uživatel). Smyslem zosobnění není umožnit uživatelům, aby se vydávali jeden za druhého. Typický případ použití viz první odrážka.
  • Pokud je to praktické, omezte přihlašování uživatelů na stroj, ze kterého probíhá proxy.
  • Ujistěte se, že keytab použitý k přihlášení uživatele proxy je řádně zabezpečen a že se uživatelé nemohou přihlásit jako toto id (například přes su)
  • Nikdy nenastavujte hadoop.proxyuser..{users,groups} na ‚*‘ nebo ‚hdfs‘, ‚yarn‘ atd. Povolení jakémukoli uživateli vydávat se za hdfs, yarn nebo jiného důležitého uživatele/skupinu by mělo být prováděno s nejvyšší opatrností a před povolením by mělo být důkladně analyzováno.

Rizika při bezpečném vydávání se za uživatele

  • Id provádějící vydávání se za uživatele může být kompromitováno jako každé jiné id uživatele.
  • Nastavení libovolné vlastnosti hadoop.proxyuser.<proxyusername>.{hosts,groups,users} na ‚*‘ může výrazně zvýšit vystavení bezpečnostnímu riziku.
  • Pokud nejsou uživatelé před použitím s ovladačem ověřováni (např. jako to dělá Steam prostřednictvím zabezpečené webové aplikace/API), je obtížná auditovatelnost procesu/systému.

7. Sparkling Water

Sparkling Water kombinuje dvě open-source technologie: Apache Spark a platformu pro strojové učení H2O. Zpřístupňuje knihovnu pokročilých algoritmů H2O, včetně Deep Learning, GLM, GBM, K-Means a Distributed Random Forest, z pracovních postupů Spark. Uživatelé Sparku si mohou vybrat nejlepší funkce z obou platforem, aby splnili své potřeby v oblasti strojového učení. Uživatelé mohou kombinovat rozhraní Spark RDD API a Spark MLLib s algoritmy strojového učení H2O, nebo používat H2O nezávisle na Sparku pro proces tvorby modelu a následně zpracovávat výsledky ve Sparku.

Sparkling Water Zdroje:

  • Stránka pro stažení předpřipravených balíčků
  • Úložiště Sparkingu Water na GitHubu
  • README
  • Dokumentace pro vývojáře

8. V případě, že se vám podařilo získat více informací, můžete si je stáhnout. Dokumentace

Domovská stránka dokumentace

Hlavní dokumentací H2O je uživatelská příručka H2O. Navštivte http://docs.h2o.ai, kde najdete úvod do dokumentace projektů H2O na nejvyšší úrovni.

Generování dokumentace REST API

Pro generování dokumentace REST API použijte následující příkazy:

Výchozí umístění pro generovanou dokumentaci je build/docs/REST.

Pokud se sestavení nezdaří, zkuste gradlew clean a poté git clean -f.

Dokumentace k sestavení bleeding edge

Dokumentace ke každému nočnímu sestavení bleeding edge je k dispozici na stránce nočního sestavení.

9. V případě, že se sestavení nezdaří, zkuste git clean -f. Citování H2O

Používáte-li H2O jako součást pracovního postupu v publikaci, citujte zdroj(e) H2O pomocí následujícího záznamu BibTex:

Software H2O

Příklady citací softwaru H2O:

Brožury H2O

Brožury algoritmů H2O jsou k dispozici na domovské stránce dokumentace.

@Manual{h2o_booklet_name, title = {booklet_title}, author = {list_of_authors}, year = {year}, month = {month}, url = {link_url},}

Příklady citací formátovaných brožur:

10. Roadmap

H2O 3.34.0.1 – leden 2021

  • Rozšířený algoritmus izolačního lesa
  • Uplift Trees
  • Extrahování & interakcí prvků řazení z modelů GBM a XGBoost
  • RuleFit MOJO, CoxPH MOJO
  • Podpora bodování MOJO2
  • Tolerance chyb při vyhledávání v síti
  • Operátor Kubernetes
  • Externí XGBoost na clusterech Kubernetes

11. Klíčová slova: „MOJO“. Komunita

H2O v průběhu let vytvořilo velké množství přispěvatelů jak v rámci H2O.ai (společnosti), tak v širší open source komunitě. Do H2O můžete začít přispívat tím, že budete odpovídat na dotazy na Stack Overflow nebo podávat hlášení o chybách. Přidejte se k nám!

Tým & Committers

SriSatish AmbatiCliff ClickTom KraljevicTomas NykodymMichal MalohlavaKevin NormoyleSpencer AielloAnqi FuNidhi MehtaArno CandelJosephine WangAmy WangMax SchloemerRay PeckPrithvi PrabhuBrandon HillJeff GamberaAriel RaoViraj ParmarKendall HarrisAnand AvatiJessica LanfordAlex TellezAllison WashburnAmy WangErik EckstrandNeeraja MadabhushiSebastian VidrioBen SabrinMatt DowleMark LandryErin LeDellAndrey SpiridonovOleg RogynskyyNick MartinNancy JordanNishant KaloniaNadine HussamiJeff CramerStacie SpreitzerVinod IyengarCharlene WindomParag SanghaviNavdeep GillLauren DiPernaAnmol BalMark ChanNick KarpovAvni WadhwaAshrith BarthurKaren HayrapetyanJo-fai ChowDmitry LarkoBranden MurrayJakub HavaWen PhanMagnus StensmoPasha StetsenkoAngela BartzMateusz DymczykMicah StubbsIvy WangTerone WardLeland WilkinsonWendy WongNikhil ShekharPavel PscheidlMichal KurkaVeronika MaurerovaJan SterbaJan JendrusakSebastien PoirierTomáš Frýda

Advisors

Scientific Advisory Council

Stephen BoydRob TibshiraniTrevor Hastie

Systems, Data, FileSystems and Hadoop

Doug LeaChris PouliotDhruba Borthakur

Investors

Jishnu Bhattacharjee, Nexus Venture PartnersAnand Babu PeriasamyAnand RajaramanAsh BhardwajRakesh MathurMichael MarksEgbert BiermanRajesh Ambati

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.