from electron 2 web

インターネットのリソースを無駄遣いして検索におけるUXを下げてごめんなさい

圧倒的文章力のNASAでゴミみたいなチラ裏のようなメモを量産してしまい全ての"Web開発者"にごめんなさい

scalaとかsparkとか入門[チラ裏]

apache spark

インメモリ高速分散処理。呪文か?

hadoopとの違いはhadoopバッチ処理apache sparkは早めのレスポンスが欲しい時、んで小さい(大嘘)容量の時。

install

wgetで持ってきて解凍してパス通す。150Mbぐらいあった、重い。

言語的にはscalaとかpythonとかで使えるっぽい。あとsqlとかjavaとかrとか。

弊社、バリバリscala使ってるのでとりあえずpythonでspark使えるようになってからscalaをちょっと入門していく感じでいきます。

pyspark

名前カッコいいので好き。SparkContext()インスタンスを作るらしいがpysparkシェル上では既にscという変数の中にインスタンスが入ってるのでそれを使うっぽい(さらに2つ以上インスタンスを作ると怒られるっぽい)

sc.textFile("file path")でtextファイルをRDD(ストア的なア)に突っ込む。

RDDの正式名称はResilient Distributed Dataset。RDDを動かすメソッドにはtransformationとactionsがあり、transformationは新しいResilient Distributed Datasetを返す。

参考資料

qiita.com

[Apache Spark]RDDについて簡単にまとめてみた | Developers.IO

Spark Programming Guide - Spark 1.2.1 Documentation

分散処理あたり面白そうなので明日ぐらいにやりたい

webui

webuiあるんだ。localhost:4040で出た。shell起動させると書いてあると思う・

jobsとかenvとかsqlもweb上でかけるっぽい?あとstrageとか

pallalellized collection

並列処理できるコレクション。これらのコレクションも普通のexternal fileと同じように処理できる。mapとかreduceとかね。

a=[1,2,3,4,5,6] #見たいな感じで配列を作って
apal=sc.parallelize(a)

apal.map(function)

みたいなね。

Resilient Distribute Datasetを保存する

RDDは保存できるっぽい。saveAsSequenceFile。


hadoopとの連携apiもあるっぽい。面白い