リモート開発メインのソフトウェア開発企業のエンジニアブログです

SparkでDataFrameの内容を単一のファイルに保存する

February 01, 2021

posted by issei_m

Sparkで処理したDataFrameをファイルとしてディスクに書き出す際、通常ファイルはパーティションの数分作成されます。 上記の df はパーティション数が3つなので、 /tmp/spa ...

続きを読む →

BERTのモデル構造をもう少し詳しく

January 29, 2021

posted by miyamonz

以前にBERTに関する記事を投稿しました BERTについて勉強したことまとめ (1) BERTとは? その特徴と解決しようとした問題、及び予備知識 BERTについて勉強したことまとめ (2)モデル構造について BERTに ...

続きを読む →

Ansibleに関するエラーを解消する

January 20, 2021

posted by koji

最近遭遇したエラーについて簡単に解消方法を提示します。小さいトピックなので2つのエラーについてまとめていっきに書いてみます。 HomebrewでインストールしたAnsibleのtmpディレクトリの所有者がrootになって ...

続きを読む →

MySQL で一意制約が削除できない

January 19, 2021

posted by 中の人(管理者)

基本: 外部キーに使われているインデックスは削除出来ない MySQL でインデックスを削除するときに、以下のようなエラーメッセージが出る事があります。 普通に読めば、そのインデックスが外部キーによって使用されているので削 ...

続きを読む →

分類のための指標(PrecisionとRecall)の解説

December 03, 2020

posted by miyamonz

指標はいろいろあって難しい 私が機械学習の勉強を始めた際に、モデルの性能を評価するための指標というものがあるのを知りました。具体的に言うと、sckit-learnのclassification_reportです。 統計解 ...

続きを読む →

AWS の session token を簡単に管理する

November 25, 2020

posted by 中の人(管理者)

トークン取得→設定作業が地味に面倒 先日、こんな issei-m がこんな投稿をしました。 IAM で MFA を強制する方法と CLI での認証方法 – もばらぶエンジニアブログ 今はどこもセキュリティが厳しくなって、 ...

続きを読む →

kedroのモデルを読み込むパイプラインにおいて、同じ型のモデルを切り替える

October 27, 2020

posted by miyamonz

kedroのパイプラインで、同じ型のモデルを差し替えて利用する方法を、私が分かった&やってみた範囲で紹介します。 例えば、BERTとELECTRAにおいて、どちらも各々の事前学習モデル(のパラメータ)があるとして文書分類 ...

続きを読む →

IAM で MFA を強制する方法と CLI での認証方法

October 20, 2020

posted by issei_m

今関わっているとあるプロジェクトでは、利用している AWS のリソースを操作するすべてのユーザーに対して MFA (多要素認証) を設定する事を義務付けています。 MFA 自体は AWS に限らず、多数の Web サービ ...

続きを読む →

Scala の Option, Either とエラー処理

September 24, 2020

posted by 中の人(管理者)

Scala ではエラー処理に使えるクラス・仕組みが沢山ありますが、今回は Option, Either を使った方法を色々紹介します。 前提知識として、Scala の Option, Either を触ったことがあり、基 ...

続きを読む →

静的データベースと動的データベース(Spark SQLの小ネタ)

September 23, 2020

posted by koji

このようなデータベースの種類を分ける概念は一般的にはないと思われますが、「Spark SQL」で開発しているとまさに動的だなぁという思いが湧いてくることが多々ありましたので記事にしてみました。(従来のRDBであるMySq ...

続きを読む →

kedro触ってみた

September 17, 2020

posted by miyamonz

PyTorchで学習周りのコードを書いてたのですが、今後も検証を勧めていく上で、実験結果の記録やパラメータ変更や複数モデルの比較などをするために、何らかの学習周りのコードを扱うフレームワークを利用しようと思っていました。 ...

続きを読む →

BERTについて勉強したことまとめ (3) 自己教師学習と汎用性について

September 16, 2020

posted by miyamonz

前回の続きです。今回はBERTにおける2つのトピック、自己教師学習と汎用性についてです。 自己教師学習 アノテーション 機械学習において、教師ありデータというものの多くは、人間が手動でラベル付をします。例えば犬の画像から ...

続きを読む →