Svelte https://svelte.dev/
Svelte 是一種全新的構(gòu)建用戶界面的方法。傳統(tǒng)框架如 React 和 Vue 在瀏覽器中需要做大量的工作,而 Svelte 將這些工作放到構(gòu)建應(yīng)用程序的編譯階段來處理。
與使用虛擬(virtual)DOM 差異對比不同。Svelte 編寫的代碼在應(yīng)用程序的狀態(tài)更改時就能像做外科手術(shù)一樣更新 DOM。
Minikube https://minikube.sigs.k8s.io/
Minikube 可以在本地單機上運行Kubernetes集群的工具。Minikube可跨平臺工作,不需要虛擬機,不需要在macOS或windows上安裝linux。支持多種容器,如Docker,CRI-O,Containerd等。
Pixie https://px.dev/
Pixie是查看Kubernetes的工具。可查看Kubernetes集群的狀態(tài),比如,服務(wù)器集群性能,網(wǎng)絡(luò)狀況,集群資源已經(jīng)相關(guān)應(yīng)用程序等。還可以查看更詳細(xì)的內(nèi)容,比如,pod狀態(tài),請求量,熱點圖等。Pixie的資源占用僅有5%左右。
FastAPI https://fastapi.tiangolo.com/
FastAPI是一個Python網(wǎng)頁框架。FastAPI以其高效、易用贏得了開發(fā)者的青睞,直接挑戰(zhàn)了Django和Flash的傳統(tǒng)地位。FastAPI的優(yōu)點是,類型檢查、自動 swagger UI、支持異步、強大的依賴注入。
Crystal https://crystal-lang.org/
Crystal已經(jīng)面試很多年了,Crystal的特點是兼具C語言的高效和Ruby的靜態(tài)類型。今年初已經(jīng)發(fā)布了1.0版本,目前最新版本為1.2.1,已經(jīng)足夠穩(wěn)定。
Microsoft Terminal https://github.com/Microsoft/Terminal
Microsoft Terminal 是一個開源的Windows的終端,提供類似Mac和Linux命令行的體驗。Microsoft Terminal具有GPU加速渲染,較傳統(tǒng)控制臺具有更好的性能提升。
OBS Studio https://obsproject.com/
OBS Studio 是一款用于直播和屏幕錄制的軟件,為高效捕獲,合成,編碼,記錄和流傳輸視頻內(nèi)容而設(shè)計,支持所有流媒體平臺。快捷鍵可讓試圖平滑切換,甚至還有畫中畫和實時字幕的新功能。
Shotcut https://shotcut.org/
Shotcut是一個強大的視頻編輯工具。Shotcut具有中文版支持,可在Windows,MacOS,Linux,BSD等操作系統(tǒng)上運行,Shotcut具有數(shù)百種音頻、視頻格式,以及編解碼器,且無需導(dǎo)入,可直接編輯。
Weave GitOps https://github.com/weaveworks/weave-gitops
Weave GitOps 是一個GitOps工具。其目的是簡化DevOps的工作流程,通過聲明配置使Kubernetes更加穩(wěn)定和安全。Weave GitOps 基于 云原生基金會的 Flux。
Apache Solr https://solr.apache.org/
Apache Solr 是基于 Lucene 的全文搜索服務(wù)器,也是最流行的企業(yè)級搜索引擎。Solr 放棄了開源的許可證,不過現(xiàn)在仍然是免費的。Solr 可集群部署、可在云端部署,甚至包括 LTR 算法,可自動調(diào)整加權(quán)結(jié)果。
MLflow https://mlflow.org/
MLflow 是由 Apache Spark 技術(shù)團隊開源的一個機器學(xué)習(xí)平臺。MLflow 由 Databricks 創(chuàng)建,并由 Linux 基金會托管,是一個 MLOps 平臺,可讓用戶跟蹤、管理和維護各種機器學(xué)習(xí)模型、實驗及其部署。MLflow提供了記錄和查詢實驗(代碼、數(shù)據(jù)、配置、結(jié)果)的工具,將數(shù)據(jù)科學(xué)代碼打包成項目,并將這些項目接入工作流程。
Orange https://orangedatamining.com/
Orange 是一款用于開源機器學(xué)習(xí)和數(shù)據(jù)可視化的工具。Orange與 R Studio 和 Jupyter等程序化或文本工具相比,Orange 更直觀易操作。Orange 包含了完整的一系列的組件以進(jìn)行數(shù)據(jù)預(yù)處理,并提供了數(shù)據(jù)帳目,過渡,建模,模式評估和勘探的功能。
Flutter https://flutter.dev/
Flutter是谷歌推出的一個新用于構(gòu)建跨平臺的手機、網(wǎng)頁、桌面,嵌入式設(shè)備應(yīng)用的SDK。Flutter 的組件,比如,滾動條、導(dǎo)航、圖標(biāo)和字體,整合了IOS和Android/ target=_blank class=infotextkey>安卓平臺的差異。
Apache Superset https://github.com/apache/superset
Apache Superset是一個現(xiàn)代的、輕量級可視化BI分析工具。Apache Superset在可視化、易用性和交互性上非常有特色,用戶可以輕松對數(shù)據(jù)進(jìn)行可視化分析。而且Apache Superset 已經(jīng)達(dá)到企業(yè)級商業(yè)軟件的水平。
Presto https://prestodb.io/
Presto 是一個開源的分布式 SQL 引擎,用于集群中的在線分析處理。Presto 可以查詢各種各樣的數(shù)據(jù)源,從文件到數(shù)據(jù)庫,并將結(jié)果輸出到BI和分析環(huán)境。更重要的是,Presto 可以在 Hive、Cassandra、關(guān)系型數(shù)據(jù)庫中進(jìn)行查詢,而且Presto 還可以結(jié)合多個來源的數(shù)據(jù)查詢。
臉書、Uber、推特和阿里巴巴創(chuàng)立了 Presto 基金會。其他成員現(xiàn)在包括 Alluxio、Ahana、Upsolver 和英特爾。
Apache Arrow https://arrow.apache.org/
Apache Arrow 是一個列式內(nèi)存分析層,旨在為CPU和GPU上加速大數(shù)據(jù)的分析。它包含了一套平面和分層數(shù)據(jù)的典型內(nèi)存表示,Arrow 內(nèi)存格式支持零拷貝讀取,并且不必序列化的情況下訪問數(shù)據(jù)極快。目前Apache Arrow支持的語言包括 C、C++、C#、Go、JAVA、JavaScript、Julia、MATLAB、Python、R、Ruby 和 Rust。
InterpretML https://interpret.ml/
InterpretML是微軟推出的可解釋機器學(xué)習(xí)包。其中包含了幾個最先進(jìn)的機器學(xué)習(xí)可解釋性技術(shù)。InterpretML提供了兩類解釋性類型: 明箱(glassbox) 模型和黑箱(blackbox)模型。InterpretML 可讓實踐者通過在一個統(tǒng)一的 API 下,借助內(nèi)置的可擴展可視化平臺,使用多種方法來輕松地比較可解釋性算法。InterpretML 也包含了可解釋 Boosting 機(EBM)的首個實現(xiàn),這是一種強大的可解釋明箱模型,可以做到與許多黑箱模型同等準(zhǔn)確。
Lime https://github.com/marcotcr/lime
Lime(Local interpretable model-agnostic explanations 局部可解釋模型-不可知解釋的縮寫),Lime用于表格或圖片的解釋機器學(xué)習(xí)的分類器。Lime 能夠解釋兩個或更多類的黑盒分類器。分類器實現(xiàn)了一個函數(shù),該函數(shù)接收原始文本或 numpy 數(shù)組并輸出每個類的概率。
Dask https://dask.org/
Dask 是一個用于并行計算的開源庫,可將 Python 包擴展到多臺機器上。Dask 可將數(shù)據(jù)和計算分布在多個 GPU 上,即可在單一系統(tǒng)也可在多節(jié)點集群中運行。Dask 可與 Rapids cuDF、XGBoost 和 Rapids cuML 集成,用于 GPU 加速的數(shù)據(jù)分析和機器學(xué)習(xí)。Dask還可與 NumPy、Pandas 和 Scikit-learn 集成進(jìn)行并行化工作。
BlazingSQL https://blazingsql.com/
BlazingSQL 是一個基于 Rapids 生態(tài)系統(tǒng)構(gòu)建的 GPU 加速 SQL 引擎。BlazingSQL基于 Apache 2.0 許可證開源。BlazingSQL是cuDF的SQL接口,具有支持大規(guī)模數(shù)據(jù)科學(xué)工作流(包括提取,轉(zhuǎn)換,加載)和企業(yè)數(shù)據(jù)集的各種功能。
Rapids https://rapids.ai/
Nvidia 的 Rapids是由英偉達(dá)開源的一款開源機器學(xué)習(xí)GPU加速平臺。 Rapids 使用英偉達(dá) CUDA 基元進(jìn)行底層計算優(yōu)化,通過Python 將 GPU 的并行和高帶寬內(nèi)存以接口方式向外開放。Rapids 依賴于 Apache Arrow 柱狀內(nèi)存格式,包括cuDF(類似 Pandas 的 DataFrame 庫);cuML(機器學(xué)習(xí)庫集合,提供 Scikit-learn 中大多數(shù)算法的 GPU 版本);以及cuGraph(類似 NetworkX 的加速圖分析庫)。
PostHog https://posthog.com/
PostHog 是一個為開發(fā)者構(gòu)建的開源產(chǎn)品分析平臺。自動收集網(wǎng)站或應(yīng)用程序上的每個事件,無需向第三方發(fā)送數(shù)據(jù)。PostHog 提供基于用戶事件的分析,捕獲網(wǎng)站的使用數(shù)據(jù),統(tǒng)計各用戶在網(wǎng)站中的具體操作。PostHog會自動捕獲點擊次數(shù)和綜合瀏覽量,以分析網(wǎng)站用戶在做什么,而無需手動推送事件。
LakeFS https://lakefs.io/
LakeFS 提供了一種"像管理代碼一樣管理數(shù)據(jù)湖"的方式,獨特引入類似Git功能來管理數(shù)據(jù)的版本。LakeFS 可以幫助用戶創(chuàng)建獨立、零拷貝(Zero-copy)的數(shù)據(jù)分支,且在運行、測試和建模分析中,又不存在破壞共享對象的風(fēng)險。與Git類似,LakeFS 的數(shù)據(jù)中會帶有提交記錄、元數(shù)據(jù)字段和回滾等信息,此外還有hooks,即在分支合并到主分支前,hooks會檢查數(shù)據(jù),確保完整性和質(zhì)量。Amazon S3 和 Azure Blob已在使用 LakeFS。
Meltano https://meltano.com/
Meltano始于2018年GitLab的內(nèi)部項目,服務(wù)于 GitLab 數(shù)據(jù)管理。2021年從GitLab獨立出來成為一個初創(chuàng)公司。
Meltano是一款免費 DataOps 時代的ETL工具,旨在替代替代傳統(tǒng) ELT的工具,ELT是指數(shù)據(jù)提取、加載、轉(zhuǎn)換操作的統(tǒng)稱。
Meltano特點是開源、自托管、CLI(命令行)、可調(diào)試和可擴展。
Meltano創(chuàng)建管道即代碼的概念,Meltano項目可進(jìn)行版本控制、代碼審查、持續(xù)集成和部署 (CI/CD )以及容器化等。
Trino https://trino.io/
Trino 用于大數(shù)據(jù)分析的快速分布式 SQL 查詢引擎
2019年P(guān)restoDB的開發(fā)者創(chuàng)建了一個名為PrestoSQL項目分支。由于所屬基金會的轉(zhuǎn)移,PrestoSQL于2020年12月更名為 Trino。
Trino是一款用于大數(shù)據(jù)分析且性能優(yōu)越的分布式 SQL 分析引擎。Trino 可同時對EB 級數(shù)據(jù)湖和海量數(shù)據(jù)倉庫進(jìn)行高效查詢。Trino 符合 ANSI SQL 的查詢標(biāo)準(zhǔn),可與 R、Tableau、Power BI、Superset 等 BI 工具配合使用。可在 Hadoop、S3、Cassandra、MySQL 的數(shù)據(jù)倉庫中聯(lián)合查詢。
StreamNative https://streamnative.io/
StreamNative 是一款彈性部署且可擴展的消息和事件流平臺,大大簡化了實時報告和分析工具以及企業(yè)應(yīng)用流的數(shù)據(jù)管道架設(shè)。StreamNative 將 Apache Pulsar 分布式流處理架構(gòu)與 Kubernetes 和混合云支持等,以及企業(yè)級功能、大型數(shù)據(jù)、認(rèn)證和授權(quán)、性能監(jiān)控等工具相結(jié)合,既簡化了應(yīng)用程序的開發(fā),又簡化了流數(shù)據(jù)應(yīng)用的部署和管理。
Hugging Face https://huggingface.co/
Hugging Face是一個公司,也是一個網(wǎng)站。
Hugging Face 提供了以非常有用的深度學(xué)習(xí)資源庫,比如深度學(xué)習(xí)的模型,數(shù)據(jù)集,還有網(wǎng)站的使用空間的等,不過大多是要付費的。
另外Hugging Face的主要產(chǎn)品是聊天機器人,為此Hugging Face 開發(fā)了自己的自然語言處理 (NLP) 模型,稱為分層多任務(wù)學(xué)習(xí) (HMTL) 并在PyTorch-Transformers下管理了一個預(yù)訓(xùn)練的 NPL 模型庫。
EleutherAI https://www.eleuther.ai/
EleutherAI是一個開源的社區(qū)人工智能項目,旨在創(chuàng)建一個完全去中心化的、具有自治文明的單例人工智能。EleutherAI 項目始于 2011 年,任何能連接互聯(lián)網(wǎng)且有GitHub 帳戶的人都可以參與。社區(qū)成員可通過提交開發(fā)功能以或提案來參與項目。EleutherAI 的開發(fā)者每周會更新項目進(jìn)度,這些更新會在 YouTube 上進(jìn)行現(xiàn)場直播。
2021年 EleutherAI 發(fā)布了The Pile,是一個 825GB 用于訓(xùn)練的多樣化文本數(shù)據(jù)集;并在6月公布了 GPT-J,一個 60 億參數(shù)的模型,大致相當(dāng)于 OpenAI 的 GPT-3 的居里變量。隨著 GPT-NeoX 的出現(xiàn),EleutherAI計劃將參數(shù)一直提高到 1750 億,發(fā)起了爭奪最大GPT-3模型的挑戰(zhàn)賽。
補充,OpenAI的 GPT-3 模型在文本生成方面實現(xiàn)了驚人的飛躍,甚至具有了人類級別的性能。但其API始終未能完全開放,目前只有 OpenAI 和微軟內(nèi)部才有完全訪問全部訓(xùn)練集。
Colab notebooks for generative art / Colab notebooks用于生成藝術(shù)品
首先是 OpenAI 的 CLIP(對比語言-圖像預(yù)訓(xùn)練)模型,一種用于生成文本和圖像矢量嵌入的多模態(tài)模型。雖然 CLIP 是完全開源的,但 OpenAI 的神經(jīng)網(wǎng)絡(luò) DALL-E 卻不開源。為了彌補這一空白,Ryan Murdoch 和 Katherine Crowson 開發(fā)了 Colab notebooks,將 CLIP 與其他開源模型(如 BigGAN 和 VQGAN)結(jié)合起來,制作 Prompt-based 生成性藝術(shù)作品。這些 notebooks 基于 MIT 的開源許可證,過去幾十年間在互聯(lián)網(wǎng)上廣泛傳播,被重新混合、修改、轉(zhuǎn)譯,并被用來生成了驚人的藝術(shù)作品。